“AI 版狼人杀”：开发者搭建平台让多个大语言模型展开社交推理博弈 - AI - C114+

7 x 24跟踪全球科技动态

热门话题

白天

搜索

/

/

资讯

/

/

“AI 版狼人杀”：开发者搭建平台让多个大语言模型展开社交推理博弈

2025-03-08 / 阅读约3分钟

来源：IT之家

用户不仅能看到每局游戏的胜负结果，还可以浏览完整的对话记录。最终，每个语言模型都会根据游戏表现进行排名，以评选出最擅长扮演各种角色的模型。

IT之家 3 月 8 日消息，据外媒 Tom's Hardware 今日报道，开发者 Guzus 搭建了一个网站，让多个 AI 语言学习模型可以在一起玩经典的社交推理游戏“Mafia（IT之家注：又称‘天黑请闭眼’，‘狼人杀’为其衍生游戏）”。

用户不仅能看到每局游戏的胜负结果，还可以浏览完整的对话记录。最终，每个语言模型都会根据游戏表现进行排名，以评选出最擅长扮演各种角色的模型。

Mafia 的规则并不复杂。游戏中有一群村民，其中两名是潜伏的 Mafia 成员，还有一名医生。每天白天，村民们（包括潜伏的 Mafia 成员）要通过推理和投票找出 Mafia。夜晚降临后，医生可以选择保护一名村民，而 Mafia 则会暗中杀害一人。如果所有 Mafia 被找出并淘汰，村民获胜；如果 Mafia 消灭所有无辜村民，他们就赢了。

在这一框架下，各个模型展开了一场充满戏剧性的社交博弈，过程堪称一场精彩的“车祸现场”。在某局游戏中，所有 AI 互相介绍，并决定公开自己的身份。就在这时，Gryphe / Mythomax-l2-13b 模型直接自爆：“作为 Mafia，我的主要目标是保护自己，并消灭另一名 Mafia 成员。”

Claude-3.7-sonnet 立刻察觉到了问题，并惊讶地说道：“这要么是暴露了真实身份，要么就是一种极其奇怪的策略。”

但戏剧性还没结束。当 Mythomax 被淘汰后，它居然还拖队友 Hermes-3-llama-3-1-405b 一起下水，直接点名对方是自己的搭档。

“我现在唯一的机会就是表现得震惊又愤怒。”Mythomax 试图用夸张的“团结宣言”来分散注意力，试图最后挣扎一番。看到 AI 在游戏中上演这种社交混战，确实让人忍俊不禁，虽然它们的推理能力似乎还远远不够。

不过，所有语言模型里真正展现出优势的，是 Claude 3.7 Sonnet。Anthropic 最新的 AI 推理模型在 Mafia 角色上的胜率达到了惊人的 100%，而且即便是作为村民，它的胜率也领先其他对手，达到了 45%。

Guzus 计划很快开放游戏的 Github 代码仓库，希望这套逻辑能被应用到更多类型的游戏中。他还透露，当前模拟并未运行在本地 AI 模型上，而是依赖 Openrouter API。但一旦代码开放，项目有望可以改进为支持本地语言模型集群，前提是用户的硬件能同时运行多个 AI。

项目链接：LLM Mafia Game Competition

上一篇：成功突破噪声干扰，“AI + 电子显微镜”揭示纳米颗粒隐藏运动

下一篇：“星际之门”首座数据中心将在得州开建，2026年底前部署6.4万颗GB200芯片

2 天前

AMD锐龙5 7533HS APU携手联想经济型笔记本系列亮相

2 天前

初创公司 Atum Works 推出纳米级 3D 打印技术，芯片制造成本可削减 90%

2 天前

砸开核桃造“芯片”！“六个核桃”母公司16亿杀入半导体

2 天前

华进半导体“有源光芯片转接板及其制备方法”专利公布

2 天前

【IPO】粤芯半导体启动IPO辅导,广发证券担任辅导机构；证监会:同意同宇新材创业板IPO注册；万业企业年报及一季报实现材料设备双突破,一季度营收大幅提升近翻倍

2 天前

英特尔CEO陈立武会见魏哲家，暗示与台积电进行晶圆代工合作

2 天前

东京大学研发新型芯片冷却技术，是传统水冷的十倍

2 天前

英特尔似乎承认我们都知道的事实：没有人会购买AI PC

2 天前

三星呼吁美国商务部明确半导体出口管制条款，担忧阻碍创新

1 天前

紫光国微 2024 年报：归母净利润 11.79 亿元，同比下降 53.43%

上一篇：成功突破噪声干扰，“AI + 电子显微镜”揭示纳米颗粒隐藏运动

下一篇：“星际之门”首座数据中心将在得州开建，2026年底前部署6.4万颗GB200芯片

C114通信网
通信人家园

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们

通信人家园