因延后披露受 OpenAI 资助事实,AI 基准测试组织 FrontierMath 被质疑行为不当
4 小时前 / 阅读约3分钟
来源:IT之家
据TechCrunch今日报道,一个开发 AI 数学基准的组织直到最近才披露其收到了 OpenAI 的资助,这引发了部分 AI 社区人士对其行为不当的质疑。

IT之家 1 月 20 日消息,据 TechCrunch 今日报道,一个开发 AI 数学基准的组织直到最近才披露其收到了 OpenAI 的资助,这引发了部分 AI 社区人士对其行为不当的质疑。

FrontierMath 测试用于评估 AI 的数学能力,并且是 OpenAI 在展示其新人工智能 o3 时使用的基准之一。

Epoch AI 是一家主要由 Open Philanthropy 资助的非营利组织,该基金会专注于研究和资助项目,去年联手 60 多位数学家推出了数学推理测试 FrontierMath

去年 12 月 20 日,Epoch AI 透露,OpenAI 对 FrontierMath 基准的创建提供了支持。据IT之家了解,FrontierMath 是一个包含专家级难题的测试,旨在衡量 AI 的数学能力,它是 OpenAI 在展示即将推出的“旗舰产品” o3 时使用的基准之一。

在社交媒体上,一些用户对这项合作表示担忧,认为 OpenAI 的参与可能影响 FrontierMath 基准的公正性。除资助外,OpenAI 还曾参与审核基准中的问题与解答,但这一点直到 12 月 20 日才被公开。斯坦福大学数学博士生 Carina Hong 指责 OpenAI 通过与 Epoch AI 的合作,获得了对 FrontierMath 基准的优先访问权,这让一些贡献者感到不满。

Epoch AI 副主任 Tamay Besiroglu 在回应时表示,虽然他们在 o3 发布前受限于合同不能透露这一合作,但他承认未能及时公开相关信息,影响了透明度。他强调,尽管如此,FrontierMath 的完整性没有被破坏,未来将更加注重与贡献者的沟通。

然而,Epoch AI 的首席数学家 Ellot Glazer 表示,至今他们尚未独立验证 OpenAI 在 FrontierMath 上的表现。他认为 OpenAI 的成绩看起来合理,但只有完成独立评估后,才能确认其准确性。

  • C114通信网
  • 通信人家园