OpenAI宣布推出AI Agent评测基准PaperBench - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

OpenAI宣布推出AI Agent评测基准PaperBench

5 天前

4月2日，美国开放人工智能研究中心（OpenAI）推出了PaperBench，这是一个旨在评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024的Spotlight和Oral论文，涵盖理解论文贡献、开发代码库及成功执行实验等环节。测试结果显示，Claude 3.5 Sonnet（新版）结合开源框架，在PaperBench上的平均复现得分为21.0%，表现最佳。然而，在招募顶尖机器学习博士对部分测试集进行尝试后，发现该模型的表现尚未超越人类基线。

上一篇：OpenAI开源PaperBench，重塑顶级AI Agent评测

下一篇：从“造星”到完善“产品矩阵”，公募加大科技投资布局力度

返回列表

热文阅读

2 天前

Meta计划在威斯康星州投资10亿美元建设人工智能数据中心

2 天前

东风汽车旗下全国产自主可控高性能车规级 MCU 芯片 DF30 完成第一次流片（试生产）验证，计划明年量产

2 天前

收入是Intel的5倍！AMD CPU美国亚马逊3月销量惊人占比80%

2 天前

【一周芯热点】紫光展锐完成股改，上市再进一步；基金减持中芯国际