OpenAI开源PaperBench，重塑顶级AI Agent评测 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

OpenAI开源PaperBench，重塑顶级AI Agent评测

4 天前

4月3日凌晨1点，OpenAI正式开源了其全新的AI Agent评测基准PaperBench。该基准旨在评估智能体的搜索、整合及执行能力，要求智能体复现2024年国际机器学习大会（ICML）上的顶尖论文，这包括理解论文内容、编写代码及执行实验等。据OpenAI公布的测试数据，目前由知名大模型打造的智能体尚无法超越顶级机器学习专业博士的水平，但在辅助学习和科研内容理解方面仍具价值。PaperBench通过详细的任务模块和评分标准，对智能体从理论到实践的全方位自动化能力进行评测，同时确保评估过程的公平性和准确性。

上一篇：美股三大指数集体收涨，热门中概股涨跌不一

下一篇：OpenAI宣布推出AI Agent评测基准PaperBench

返回列表

热文阅读

2 天前

龙芯新款笔记本与工业芯片核心数增加，GPU性能显著提升

2 天前

【落户】总投资11亿元！磷化铟单晶衬底片项目签约落户江门；

2 天前

消息称英伟达 WHQL 572.83 驱动易引发 Win10/11 设备黑屏，RTX40/50 系列显卡更容易遇到

2 天前

专家解读台积电救援英特尔无法承受之重