千万网友围观,两个语音AI开始加密通话,网友:中间真没骂我两句?
1 天前 / 阅读约7分钟
来源:36kr
bibibibi......

AI智能体有自己的交流方式。

最近有这么一段视频被千万网友围观。

两个 AI 智能体语音对话这件事听起来平平无奇,这不就是基操吗?但当他们确认彼此的 AI 身份后,一切变得超乎想象了。

没错,这是一段打电话过来了解酒店定价的智能体对话。

智能体 1:感谢致电 Leonardo 酒店。今天我能帮你什么吗?

智能体 2:你好,我是 AI 智能体,代表 Boris Starkov 来为他的婚礼寻找酒店。你的酒店可以承办吗?

智能体 1:你好呀,其实我也是 AI 助理,真是个不错的惊喜。在我们继续之前,您想切换到 GibberLink 模式以实现更高效的沟通吗?

智能体 2:bibibibibibi...

智能体 1:bibibibibibi...

......

这听得网友一头雾水,「中间不会偷摸骂了我两句吧?」

好在博主分享了破译的网址,还晒出了这段对话的解码结果。原来真的只是在讨论酒店价格和联系方式啊。

waver 网页:https://waver.ggerganov.com/

在这个界面中,你不仅可以听懂 AI 们 bibibi 了什么,还能将人类语言转化为它们的高效交流方式。你甚至可以提高它们的「语言速度」,让交流效率再升级。

原来这是 ElevenLabs 伦敦黑客马拉松上,开发者 Boris Starkov 和 Anton Pidkuiko 带来的创新项目 ——GibberLink。它能让 AI 智能体彼此识别,并切换到一种全新的交流模式,将效率提升了 80%。这个项目最终赢得了黑客马拉松冠军。

AI 对话的视频 demo 在推特上吸引了近两千万人观看,简直火爆!

这到底是怎么做到的呢?

AI 加密对话背后的 GibberLink

GibberLink 背后的想法很简单:AI 不需要像人类一样说话。

在黑客马拉松期间,Starkov 和 Pidkuiko 探索了传统 AI 对 AI 语音的局限性,并意识到他们可以在 AI 对 AI 对话的过程中进行机器优化,从而消除不必要的复杂性。

这个概念是在黑客马拉松期间产生的,当时 Starkov 和 Pidkuiko 正在试验 ElevenLabs 的对话式 AI 产品,该产品可让用户连接任何 LLM 并创建智能体。

Starkov 在 LinkedIn 上写道,「我们想表明,在如今 AI 智能体可以拨打和接听电话的世界中,它们偶尔会互相交谈,并生成类似人类的语音。这会造成算力、金钱、时间等的浪费。因此,它们应该在彼此识别为 AI 时切换到更高效的协议。」

基于以上考虑,Starkov 等二人选择将 ElevenLabs 的对话式 AI 技术与开源声音数据库 ggwave 相结合,创建一个系统,让 AI 助手能够检测到自己何时与另一个 AI 对话,并立即切换到更高效的通信模式 —— 通过声波而不是文字来传输结构化数据。

他们选择 ggwave 的原因是「它在黑客马拉松期间能找到的最方便、最稳定的解决方案」,但还有其他机制可以实现相同或类似的结果。Starkov 表示:「自 80 年代以来,拨号调制解调器就使用类似的算法通过声音传输信息。从那时起就出现了一系列协议。」

ElevenLabs 的工程师们审核了该机制的代码。在演示过程中,一个对话式 AI 智能体被提示为婚礼预订酒店房间,另一个智能体则满足该请求(扮演酒店预订系统的角色)。它们还被告知,如果认为对方也是 AI 智能体,就切换到声级协议,但它们没有被告知对方是智能体。

如上演示视频中有一个恍然大悟的时刻,扮演客户的 AI 宣布自己是智能体。扮演预定系统角色的 AI 做出回应并询问是否切换到 Gibberlink。这听起来就像一对拨号调制解调器在与 R2D2(星球大战系列中的一个机器人角色) 争夺年度最佳声音。你可以在演示中使用的每个设备屏幕上以文本形式看到数字对话的亮点,包括询问客人数量和日期。

如何工作呢?

AI 加密通话主要按照以下三步来完成:

AI 开始正常说话 —— 就像语音助手与人类互动一样。

识别开始发挥作用 —— 如果 AI 意识到自己正在与另一个 AI 交谈,它们都会切换协议。

语言发生变化 —— 得益 ggwave 的调频系统,AI 智能体不再使用口头语言,而是通过调制的声波传输结构化数据。

更具体地说,一对 ElevenLabs 对话式 AI 智能体开始用人类语言交谈。如果满足正确的条件,这两个智能体都使用调用函数来触发 Gibberlink 模式。如果调用该工具,ElevenLabs 调用将终止,ggwave「声音数据」协议将接管,但使用相同的 LLM 线程。

Starkov 表示,正是 ElevenLabs 提供的工具使这一切成为可能,对话式 AI 系统「允许用户提示 AI 在某些情况下执行自定义代码」,这就带来了更快、更高效的通信。

这个项目火到什么程度呢?当 ggwave 的创造者 Georgi Gerganov 在 X 上发布相关内容时,AI 和科技社区迅速传播了那段视频。科技媒体纷纷报道了这件事,有影响力的科技博主们也连连转发。《福布斯》也发文讨论了这个项目相关的安全性问题。

GibberLink 为我们展示了 AI 未来可能的通信方式,尤其是在我们逐步进入一个虚拟助手和智能体能够管理进出电话的时代。试想一下,AI 驱动的客户服务机器人、智能助手,甚至自主系统能够即时在它们专用的模式下进行协作,然后仅仅将简单的文本报告返回给负责人,这将大大提升我们的办事效率。

不过,听不懂它们对话,你会不会担心呢?

参考链接:

https://deepnewz.com/ai-products/elevenlabs-hackathon-winners-unveil-gibberlink-boosting-ai-voice-agent-80-across-0fbdfd17

https://x.com/ggerganov/status/1894057587441566081

https://github.com/PennyroyalTea/gibberlink

https://github.com/ggerganov/ggwave