ChatGPT语音创造者欲重现《她》中技术，摒弃反乌托邦元素 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

ChatGPT语音创造者欲重现《她》中技术，摒弃反乌托邦元素

2024-12-09 / 阅读约8分钟

来源：TechCrunch

Alexis Conneau受电影《她》启发，致力于将虚构的语音技术变为现实。在OpenAI启动ChatGPT高级语音模式项目后，他创立了WaveForms AI公司，旨在开发更好的AI音频产品，计划于2025年发布，并与OpenAI和Google竞争。

图片来源：Jasmeet Singh/415 Headshots

Alexis Conneau深受电影《她》启发。近年来，他一直致力于将影片中虚构的语音技术Samantha变为现实。

Conneau甚至在Twitter上使用了华金·菲尼克斯在电影中角色的照片作为他的封面。

Conneau的Twitter封面（图片来源：X）

通过ChatGPT的高级语音模式项目，Conneau在Meta有过类似工作经历后，于OpenAI重启了该项目，并取得了一定成果。这个AI系统能够自然流畅地处理语音并进行对话。

如今，他创立了新的创业公司WaveForms AI，旨在打造更出色的产品。

Conneau在接受TechCrunch采访时透露，他花了大量时间思考如何避免影片中展现的反乌托邦情境。《她》是一部科幻电影，描绘了一个人们与AI系统而非其他人类建立亲密关系的世界。

“这部电影描绘了一个反乌托邦世界，对吧？这不是我们想要的未来，”Conneau说道，“我们想要推广这种已经存在并将继续发展的技术，希望它能带来益处。我们想要做的与影片中那家公司截然相反。”

在打造这种技术的同时摒弃其反乌托邦元素，看似矛盾重重。但Conneau决心迎难而上，他相信自己的新AI公司将帮助人们“用耳朵感受AGI（通用人工智能）”。

周一，Conneau推出了WaveForms AI，这是一家专注于音频大型语言模型的新公司，正在自主研发基础模型。该公司计划于2025年推出与OpenAI和Google产品相媲美的AI音频产品。周一，该公司宣布已筹集到由Andreessen Horowitz领投的4000万美元种子资金。

Conneau透露，Marc Andreessen——此前曾撰写文章阐述AI应成为人类生活的一部分——对他的事业产生了浓厚兴趣。

值得一提的是，Conneau对《她》的痴迷一度给OpenAI带来了麻烦。今年早些时候，斯嘉丽·约翰逊向Sam Altman的创业公司发出法律威胁，最终迫使OpenAI下架了一个与她影片中角色极为相似的ChatGPT语音。OpenAI否认曾试图复制她的声音。

不可否认的是，这部电影对Conneau产生了深远影响。2013年上映时，《她》无疑是一部科幻电影——当时，苹果的Siri还相对新颖且功能有限。但如今，这项技术已触手可及，令人不安。

像Character.AI这样的AI伴侣平台每周吸引着数百万用户，他们渴望与聊天机器人交流。尽管偶尔会出现悲剧性和令人不安的结果，但该领域正逐渐成为生成式AI的热门用例。不难想象，如果有人整天与聊天机器人打字交流，他们定会乐于有机会与之对话，尤其是使用像ChatGPT高级语音模式这样逼真的技术。

WaveForms AI的首席执行官对AI伴侣领域持谨慎态度，认为这并非其新公司的核心。虽然他认为人们将以新方式使用WaveForms的产品——例如在车内与AI交谈20分钟以获取信息——但Conneau表示，他希望公司能更“多元化”发展。

“[WaveForms AI]可以成为激发你的老师，或许是你生活中缺失的老师，至少是你现实生活中的老师，”这位首席执行官说道。

他认为，未来与生成式AI交谈将成为与各种技术交互的更常见方式，这可能包括与汽车、电脑等设备的对话。WaveForms旨在提供促进这一切的“情感智能”AI。

“我不认为未来人与AI的交互会取代人与人之间的交互，”Conneau说，“如果有的话，那将是互补的。”

他表示，AI应从社交媒体的错误中吸取教训。例如，他认为AI不应优化“在平台上花费的时间”，这是社交应用程序成功的常见指标，可能会助长如末日滚动等不良习惯。更广泛地说，他希望确保WaveForms的AI符合人类的最佳利益，并称这是“你能做的最重要的工作”。

Conneau表示，OpenAI将他的项目命名为“高级语音模式”，并未真正体现出这种技术与ChatGPT常规语音模式的不同之处。

旧的语音模式实际上只是将你的声音翻译成文本，通过GPT-4处理，再将文本转换回语音。这是一个略显拼凑的解决方案。然而，通过高级语音模式，Conneau说GPT-4o实际上是将你声音的音频分解成令牌（显然，每秒钟的音频大约等于三个令牌），并直接通过这些令牌通过一个特定的音频转换器模型运行。他解释说，这正是高级语音模式能够实现如此低延迟的原因。

在谈论AI音频模型时，一个常被提及的观点是它们可以“理解情绪”。就像基于文本的LLM（大型语言模型）是基于大量文本文档中的模式一样，音频LLM也是对人类说话的音频片段做同样的事情。人类将这些片段标记为“悲伤”或“兴奋”，以便AI模型在听到类似语音时识别出相似的模式，甚至用自己的情感语调回应。因此，它们并不是“理解情绪”，而是系统地识别出人类将这些情绪与音频质量联系起来的特征。