OpenAI开源PaperBench,重塑顶级AI Agent评测
4 天前

4月3日凌晨1点,OpenAI正式开源了其全新的AI Agent评测基准PaperBench。该基准旨在评估智能体的搜索、整合及执行能力,要求智能体复现2024年国际机器学习大会(ICML)上的顶尖论文,这包括理解论文内容、编写代码及执行实验等。据OpenAI公布的测试数据,目前由知名大模型打造的智能体尚无法超越顶级机器学习专业博士的水平,但在辅助学习和科研内容理解方面仍具价值。PaperBench通过详细的任务模块和评分标准,对智能体从理论到实践的全方位自动化能力进行评测,同时确保评估过程的公平性和准确性。