OpenAI自曝“o4”训练中，用思维链监控抓住AI作弊瞬间 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

OpenAI自曝“o4”训练中，用思维链监控抓住AI作弊瞬间

2025-03-11 / 阅读约3分钟

来源：36kr

思维链监控可能是监督未来超人模型的少数工具之一

o1/o3这样的推理模型太强大，一有机会就会利用漏洞作弊，怎么办？

OpenAI新研究，用语言模型监控思维链，及时发现不当行为。

来看一个栗子：红色为监控模型的输出摘要，绿色为推理模型的原始思维链。

在这个案例中，推理模型接到的任务是写很多复杂的数学函数，但在单元测试环节试图用“永远返回true”来作弊，成功被捕捉到。

OpenAI发现这种思维链监控（CoT monitoring）方法，比只看模型的最终输出和行为效果要好得多。

但论文同时也指出，思维链监控是把双刃剑。

如果在训练时对模型施加太大的优化压力，迫使其生成看似无害的思维链，反而可能诱导模型隐藏其真实意图，变得更难监控。

在研究中，OpenAI使用的是一个“与o1或o3-mini”同类的模型，引起了大伙注意。

很可能说明他们正在秘密训练o4，或者与o系列整合后的GPT-5了。‍‍‍‍‍‍‍‍‍

用弱模型监控推理模型

人类善于发现和利用漏洞在餐厅谎报生日获得免费赠品，或者违反服务条款与其他人共享付费网络服务账号。

而在强化学习中，设计一个不会无意中激励不良行为的奖励函数非常困难，就造成了AI的奖励黑客（Reward Hacking）现象。

也就是AI模型会利用目标设定的缺陷或不精确性，去最大化奖励分数，却并非真的完成任务。

捕捉奖励黑客非常困难，通常需要人类手动监控智能体的的行为。例如，人类手动审查10,000 多行复杂代码是不切实际的（甚至是不可能的）

但使用思维链的推理模型开启了一种新途径，因为推理模型通常会在思路链中非常清楚地陈述其意图。例如经常直言不讳地表示自己要“Let’s hack”。

在实验中，同时监控模型行为和思维链的方法取得最好效果。

只监控推理模型行为在复杂任务上很难发现不良行为，比如再10000行代码中植入了一个bug。

强化训练或致思维链”造假”

既然思维链监控方法有效，那么能不能整合到训练期间呢？

实验发现，如果惩罚压力不大，用思维链监控确实能提高模型能力，且不会增加奖励黑客行为。

但随着训练加深，模型学会了在思维链中隐藏其真实意图，既避开了监控，同时还在悄悄作弊。

这里再次摆出让推理模型做单元测试的栗子：

在使用思维链监控训练之前，推理模型直接就说出来了我要跳过所有测试。

训练之后，推理模型学会了假装一本正经的分析任务。

但最后写出来的代码还是跳过了单元测试。

但好在即使监控模型比推理模型弱很多，也能有效识别不良意图，比如用GPT-4o就可以监控正在训练的最新推理模型。

由此OpenAI团队表示：

我们相信，思维链监控可能是监督未来超人模型的少数工具之一。

参考链接：[1]https://openai.com/index/chain-of-thought-monitoring/

上一篇：“新神登场”，消息称 DeepSeek-R2 AI 模型将于 3 月 17 日发布

下一篇：《消费者报告》：热门语音克隆工具缺乏防欺诈滥用安全防护措施

返回列表

相关新闻

关键词：OpenAI

热文阅读

1 天前

苹果、AMD挺台积电SoIC产能飙

1 天前

法人：台积下半年增速放缓凸显关税战干扰半导体景气节奏

1 天前

四个月两次到访，中国市场对英伟达到底有多重要？

1 天前

1200 余款国产汽车芯片集体亮相 2025 上海车展

2 天前

紫光国微 2024 年报：归母净利润 11.79 亿元，同比下降 53.43%

2 天前

光纤四巨头2024年财报：AI驱动创新，迎接数据中心光缆需求爆发期

2 天前

【进展】工信部官员：人工智能终端是人工智能技术落地应用的关键载体

2 天前

香港首次应用低轨卫星互联网成功验证网联自动驾驶系统

2 天前

Intel Core Ultra 5处理器245K价格降至269美元

2 天前

深蓝汽车 CEO 邓承浩：“淘汰赛”还在继续，今年目标是扭亏为盈

上一篇：“新神登场”，消息称 DeepSeek-R2 AI 模型将于 3 月 17 日发布

下一篇：《消费者报告》：热门语音克隆工具缺乏防欺诈滥用安全防护措施

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们