4月2日,美国开放人工智能研究中心(OpenAI)推出了PaperBench,这是一个旨在评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024的Spotlight和Oral论文,涵盖理解论文贡献、开发代码库及成功执行实验等环节。测试结果显示,Claude 3.5 Sonnet(新版)结合开源框架,在PaperBench上的平均复现得分为21.0%,表现最佳。然而,在招募顶尖机器学习博士对部分测试集进行尝试后,发现该模型的表现尚未超越人类基线。