小小井字棋难倒大模型？？大神卡帕西被OpenAI在线踢馆了 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

小小井字棋难倒大模型？？大神卡帕西被OpenAI在线踢馆了

5 小时前 / 阅读约5分钟

来源：36kr

o3井字棋对战实测在此

宝可梦之后，让大模型玩井字棋又成了一个新的热门挑战。

起因是网友在X上吐槽大模型宝可梦玩得不够好，结果被大神Karpathy翻了牌子：

别盯着宝可梦了，让大模型玩井字棋会更有趣，它们不会。

结果Karpathy的话引发了大量围观，有人表示惊讶，也有人在分析原因，还有人表示那句经典的话含金量还在上升：

对人类而言很简单的任务，对机器来说反而很难；对人类而言难的任务，对机器来说反而简单。

不过也有人表示不服，其中就包括OpenAI的Noam Brown，他表示让o3玩井字棋完全没问题，甚至还能看图下棋。

大模型挑战井字棋

我们也尝试了一下，用不同的方式和o3对战。

第一种方式是用O和X表示棋子，-表示空位，每次直接把完整的棋局输入给o3，并要求其用同样的方式输出。

思考约12秒之后，o3首先占据了棋盘中央的位置，我们落子之后，o3又思考了23秒，放置了第二颗X棋子。

接下来的两个回合情况是这样，其实当o3占据对角线上两个位置的时候就已经锁定了胜局。

不过有意思的是，直到已经连成一条线，o3都没发现自己已经赢了。

由于没有提示，我们误以为游戏还在继续，又放了一颗O旗之后o3才发现原来自己获胜了。

第二轮，交换先后手，我们先占据中间位置，然后o3选择了顶角……

最终，这轮游戏以平局结束。

接下来换一种方式，仿照Noam的做法把残局写在纸上拍给o3。

一开始看上去是在正常对弈，并且会以平局收场，但如果让o3自己分析接下来的趋势，竟然发现它开启了耍赖模式。

当然，在纠正了它的错误认识后，最终还是成功分析出了平局的必然结果。

顺便提一句，如果是4o，过程中可能会直接把我们下棋之后的棋局复制一遍，看到这就没有继续进行下去的必要了。

（之所以改用感叹号，是因为-会被识别成Markdown符号导致棋局无法正常显示，且在4o中Markdown关闭失败）

实际上，OpenAI在之前的o3-mini时，就已经拿下了井字棋游戏，Noam还声称这是首个“始终正确回答”井字棋问题的模型。

在Karpathy的评论区，还有人晒图称Gemini也能正确处理井字棋问题。

今年2月，还有人搞了个大模型井字棋对战，并按照大模型竞技场一样计算ELO评分，当时o1-mini取得第一，然后是Claude 3.5 Sonnet和DeepSeek-R1。

Karpathy也cue到了这位网友，希望他能重启这个榜单，同时表示自己认为井字棋（对大模型而言）仍然是一个较难的任务。

宝可梦·蓝全部徽章被Gemini拿下

看完井字棋，再来说说引发Karpathy评论的原帖中提到的宝可梦。

之前很多民间团队都在尝试用大模型挑战宝可梦游戏，今年被Claude带火。

甚至还搞了线上直播。

不过现在的最新情况是，Claude已经被后来居上的Gemini反超——后者已经取得了《宝可梦·红》中的几乎所有勋章。

同时，从OpenAI跳槽到谷歌做AI Studio产品负责人的Logan Kilpatrick也宣称，Gemini在另一款宝可梦游戏《宝可梦·蓝》当中已经取得了最后的八个徽章。

按照Logan的说法，Gemini 2.5 Pro目前是世界上（玩宝可梦）最强的模型。

当然除了通用模型，还有团队用强化学习方法训练小模型专门挑战《宝可梦·红》。

团队介绍，其研究在2020年就已经开始，并在今年2月成功用参数量不到1000万的模型成功实现。

学术界当中，也有来自佐治亚理工学院的华人学者利用上下文强化学习技术，研发出了“宝可梦智能体”。

它可以在天梯对战中与人类玩家一较高下，对战专业玩家胜率达到了56%。

宝可梦、井字棋之后，下一个会被大模型当做Benchmark的游戏会是什么呢？

欢迎在评论区与我们分享。

参考链接：

[1]https://x.com/karpathy/status/1916495940049047819

[2]https://x.com/airkatakana/status/1915735143639298379

[3]https://x.com/OfficialLoganK/status/1915840826006966548

[4]https://drubinstein.github.io/pokerl/

上一篇：华人博士用ChatGPT治病，比医生靠谱？OpenAI联创点赞

下一篇：AGI幻灭，LeCun观点得证？哈佛研究实锤AI不懂因果，世界模型神话破灭

返回列表

热文阅读

2 天前

AMD锐龙5 7533HS APU携手联想经济型笔记本系列亮相

2 天前

初创公司 Atum Works 推出纳米级 3D 打印技术，芯片制造成本可削减 90%

2 天前

砸开核桃造“芯片”！“六个核桃”母公司16亿杀入半导体

2 天前

华进半导体“有源光芯片转接板及其制备方法”专利公布

2 天前

英特尔CEO陈立武会见魏哲家，暗示与台积电进行晶圆代工合作

2 天前

【IPO】粤芯半导体启动IPO辅导,广发证券担任辅导机构；证监会:同意同宇新材创业板IPO注册；万业企业年报及一季报实现材料设备双突破,一季度营收大幅提升近翻倍

2 天前

东京大学研发新型芯片冷却技术，是传统水冷的十倍

2 天前

三星呼吁美国商务部明确半导体出口管制条款，担忧阻碍创新

2 天前

英特尔似乎承认我们都知道的事实：没有人会购买AI PC

1 天前

紫光国微 2024 年报：归母净利润 11.79 亿元，同比下降 53.43%

上一篇：华人博士用ChatGPT治病，比医生靠谱？OpenAI联创点赞

下一篇：AGI幻灭，LeCun观点得证？哈佛研究实锤AI不懂因果，世界模型神话破灭

C114通信网
通信人家园

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们

C114通信网

通信人家园