ChatGPT语音创造者欲重现《她》中技术,摒弃反乌托邦元素
2024-12-09 / 阅读约8分钟
来源:TechCrunch
Alexis Conneau受电影《她》启发,致力于将虚构的语音技术变为现实。在OpenAI启动ChatGPT高级语音模式项目后,他创立了WaveForms AI公司,旨在开发更好的AI音频产品,计划于2025年发布,并与OpenAI和Google竞争。

图片来源:Jasmeet Singh/415 Headshots

Alexis Conneau深受电影《她》启发。近年来,他一直致力于将影片中虚构的语音技术Samantha变为现实。

Conneau甚至在Twitter上使用了华金·菲尼克斯在电影中角色的照片作为他的封面。

Conneau的Twitter封面(图片来源:X)

通过ChatGPT的高级语音模式项目,Conneau在Meta有过类似工作经历后,于OpenAI重启了该项目,并取得了一定成果。这个AI系统能够自然流畅地处理语音并进行对话。

如今,他创立了新的创业公司WaveForms AI,旨在打造更出色的产品。

Conneau在接受TechCrunch采访时透露,他花了大量时间思考如何避免影片中展现的反乌托邦情境。《她》是一部科幻电影,描绘了一个人们与AI系统而非其他人类建立亲密关系的世界。

“这部电影描绘了一个反乌托邦世界,对吧?这不是我们想要的未来,”Conneau说道,“我们想要推广这种已经存在并将继续发展的技术,希望它能带来益处。我们想要做的与影片中那家公司截然相反。”

在打造这种技术的同时摒弃其反乌托邦元素,看似矛盾重重。但Conneau决心迎难而上,他相信自己的新AI公司将帮助人们“用耳朵感受AGI(通用人工智能)”。

周一,Conneau推出了WaveForms AI,这是一家专注于音频大型语言模型的新公司,正在自主研发基础模型。该公司计划于2025年推出与OpenAI和Google产品相媲美的AI音频产品。周一,该公司宣布已筹集到由Andreessen Horowitz领投的4000万美元种子资金。

Conneau透露,Marc Andreessen——此前曾撰写文章阐述AI应成为人类生活的一部分——对他的事业产生了浓厚兴趣。

值得一提的是,Conneau对《她》的痴迷一度给OpenAI带来了麻烦。今年早些时候,斯嘉丽·约翰逊向Sam Altman的创业公司发出法律威胁,最终迫使OpenAI下架了一个与她影片中角色极为相似的ChatGPT语音。OpenAI否认曾试图复制她的声音。

不可否认的是,这部电影对Conneau产生了深远影响。2013年上映时,《她》无疑是一部科幻电影——当时,苹果的Siri还相对新颖且功能有限。但如今,这项技术已触手可及,令人不安。

像Character.AI这样的AI伴侣平台每周吸引着数百万用户,他们渴望与聊天机器人交流。尽管偶尔会出现悲剧性和令人不安的结果,但该领域正逐渐成为生成式AI的热门用例。不难想象,如果有人整天与聊天机器人打字交流,他们定会乐于有机会与之对话,尤其是使用像ChatGPT高级语音模式这样逼真的技术。

WaveForms AI的首席执行官对AI伴侣领域持谨慎态度,认为这并非其新公司的核心。虽然他认为人们将以新方式使用WaveForms的产品——例如在车内与AI交谈20分钟以获取信息——但Conneau表示,他希望公司能更“多元化”发展。

“[WaveForms AI]可以成为激发你的老师,或许是你生活中缺失的老师,至少是你现实生活中的老师,”这位首席执行官说道。

他认为,未来与生成式AI交谈将成为与各种技术交互的更常见方式,这可能包括与汽车、电脑等设备的对话。WaveForms旨在提供促进这一切的“情感智能”AI。

“我不认为未来人与AI的交互会取代人与人之间的交互,”Conneau说,“如果有的话,那将是互补的。”

他表示,AI应从社交媒体的错误中吸取教训。例如,他认为AI不应优化“在平台上花费的时间”,这是社交应用程序成功的常见指标,可能会助长如末日滚动等不良习惯。更广泛地说,他希望确保WaveForms的AI符合人类的最佳利益,并称这是“你能做的最重要的工作”。

Conneau表示,OpenAI将他的项目命名为“高级语音模式”,并未真正体现出这种技术与ChatGPT常规语音模式的不同之处。

旧的语音模式实际上只是将你的声音翻译成文本,通过GPT-4处理,再将文本转换回语音。这是一个略显拼凑的解决方案。然而,通过高级语音模式,Conneau说GPT-4o实际上是将你声音的音频分解成令牌(显然,每秒钟的音频大约等于三个令牌),并直接通过这些令牌通过一个特定的音频转换器模型运行。他解释说,这正是高级语音模式能够实现如此低延迟的原因。

在谈论AI音频模型时,一个常被提及的观点是它们可以“理解情绪”。就像基于文本的LLM(大型语言模型)是基于大量文本文档中的模式一样,音频LLM也是对人类说话的音频片段做同样的事情。人类将这些片段标记为“悲伤”或“兴奋”,以便AI模型在听到类似语音时识别出相似的模式,甚至用自己的情感语调回应。因此,它们并不是“理解情绪”,而是系统地识别出人类将这些情绪与音频质量联系起来的特征。

让AI更人性化,而非更聪明

Conneau认为,当今的生成式AI无需比GPT-4o聪明太多即可创造出更出色的产品。与其提高这些模型的基础智能(如OpenAI的GPT-4),WaveForms只是试图让AI更好地交谈。

“将会有一个使用生成式AI的庞大市场,用户只会选择对他们而言最愉快的交互方式,”Conneau说。

因此,该公司有信心能够自主研发基础模型——理想情况下,这些模型更小、更便宜、运行更快。鉴于最近AI缩放定律放缓的证据,这是一个明智的赌注。

Conneau透露,他在OpenAI的前同事Ilya Sutskever经常与他谈论试图“感受AGI”——基本上,就是用直觉来评估我们是否已经达到了超智能AI。WaveForms的首席执行官相信,实现AGI更多是一种感觉而非达到某种基准,而音频LLM将是这种感觉的关键。

“我认为,当你能与它交谈,当你能听到AGI,当你实际上能与转换器本身交谈时,你会更能感受到AGI,”Conneau说,他重复了在晚餐时对Sutskever说的话。

但随着创业公司让AI变得更好交谈,他们显然也有责任找出如何确保人们不会上瘾的方法。然而,帮助领导WaveForms投资的Andreessen Horowitz普通合伙人Martin Casado表示,如果人们与AI交谈更频繁,这并不一定是坏事。

“我可以上网与一个陌生人交谈,那个人可能会欺负我,可能会利用我……我可以玩一个可能充满暴力的视频游戏,或者我可以和一个AI交谈,”Casado在接受TechCrunch采访时说,“我认为这是一个重要的研究课题。如果事实证明[与AI交谈]实际上更可取,我不会感到惊讶。”

一些公司可能会将有人与你的AI建立恋爱关系视为成功的标志。但从社会的角度来看,这也可能被视为彻底的失败,正如电影《她》所描绘的那样。这就是WaveForms现在必须谨慎行走的钢丝。