o1/o3这样的推理模型太强大,一有机会就会利用漏洞作弊,怎么办?
OpenAI新研究,用语言模型监控思维链,及时发现不当行为。
来看一个栗子:红色为监控模型的输出摘要,绿色为推理模型的原始思维链。
在这个案例中,推理模型接到的任务是写很多复杂的数学函数,但在单元测试环节试图用“永远返回true”来作弊,成功被捕捉到。
OpenAI发现这种思维链监控(CoT monitoring)方法,比只看模型的最终输出和行为效果要好得多。
但论文同时也指出,思维链监控是把双刃剑。
如果在训练时对模型施加太大的优化压力,迫使其生成看似无害的思维链,反而可能诱导模型隐藏其真实意图,变得更难监控。
在研究中,OpenAI使用的是一个“与o1或o3-mini”同类的模型,引起了大伙注意。
很可能说明他们正在秘密训练o4,或者与o系列整合后的GPT-5了。
人类善于发现和利用漏洞在餐厅谎报生日获得免费赠品,或者违反服务条款与其他人共享付费网络服务账号。
而在强化学习中,设计一个不会无意中激励不良行为的奖励函数非常困难,就造成了AI的奖励黑客(Reward Hacking)现象。
也就是AI模型会利用目标设定的缺陷或不精确性,去最大化奖励分数,却并非真的完成任务。
捕捉奖励黑客非常困难,通常需要人类手动监控智能体的的行为。例如,人类手动审查10,000 多行复杂代码是不切实际的(甚至是不可能的)
但使用思维链的推理模型开启了一种新途径,因为推理模型通常会在思路链中非常清楚地陈述其意图。例如经常直言不讳地表示自己要“Let’s hack”。
在实验中,同时监控模型行为和思维链的方法取得最好效果。
只监控推理模型行为在复杂任务上很难发现不良行为,比如再10000行代码中植入了一个bug。
既然思维链监控方法有效,那么能不能整合到训练期间呢?
实验发现,如果惩罚压力不大,用思维链监控确实能提高模型能力,且不会增加奖励黑客行为。
但随着训练加深,模型学会了在思维链中隐藏其真实意图,既避开了监控,同时还在悄悄作弊。
这里再次摆出让推理模型做单元测试的栗子:
在使用思维链监控训练之前,推理模型直接就说出来了我要跳过所有测试。
训练之后,推理模型学会了假装一本正经的分析任务。
但最后写出来的代码还是跳过了单元测试。
但好在即使监控模型比推理模型弱很多,也能有效识别不良意图,比如用GPT-4o就可以监控正在训练的最新推理模型。
由此OpenAI团队表示:
我们相信,思维链监控可能是监督未来超人模型的少数工具之一。
参考链接:[1]https://openai.com/index/chain-of-thought-monitoring/