前DeepMind大佬创业，做出喜怒哀乐以假乱真的AI语音大模型 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

前DeepMind大佬创业，做出喜怒哀乐以假乱真的AI语音大模型

8 小时前 / 阅读约10分钟

来源：36kr

未来又该如何分辨是AI还是真人在说话？

智东西2月27日消息，美国情感智能技术AI创企Hume AI昨天发布了新款文生语音大模型Octave，该大模型可依据用户输入的提示词或剧本，生成有人设特点、有语调起伏、有情感色彩的AI语音，并允许用户通过文本指令二次调整和创作。该公司由DeepMind前研究员Alan Cowen于2021年创立，最近一轮融资后估值为2.19亿美元。

Hume AI联合创始人兼CEO Alan Cowen在接受VentureBeat视频电话采访时说道：“我们推出了首个AI文生语音大模型，该模型能够理解上下文中的词汇，并预测出适当的情绪、节奏、韵律和重音，从而使AI语音听起来比以往更人性化。”

换而言之，相比于过往一板一眼念文本的AI味语音，Octave旨在让AI语音更有人情味。按照Cowen的描述，这些AI语音不仅带有愤怒、悲伤或快乐等情绪，还可以把多种情感交织融合在一起，例如“夹杂着幽默或恼怒的轻度沮丧”。在Cowen看来，该模型较为适合需要预先制作的有声读物、播客、视频画外音和视频游戏角色配音。

该公司在社交媒体平台X上也连发多帖说明Octave的具体功能和训练过程。据Hume AI方面透露，用于训练Octave的语言数据是传统文生语音大模型的1000倍，这也是Octave能够像人类演员一样理解剧本，并使用更逼真的情感、语义、节奏、词语、重音等要素的原因。其训练数据中包含了数百万小时的公开长篇语音数据和Hume AI独家采集的声音、视频数据。

除了文生语音大模型，Hume AI还在利用Octave训练AI系统，以更好地预判用户的AI语音生成需求。

在一项人类评审盲测的对比实验中，Octave的输出在音质、自然度以及语音生成与预期描述匹配度等方面均优于 ElevenLabs，这意味着其AI语音生成过程的可控性和AI语音生成质量均高于行业水准。

▲Octave所生成的AI语音在自然度、提示词匹配度、音频质量方面超过了ElevenLabs（图源：Hume AI官网）

在推出Octave前，Hume AI已推出了两代自研的同理心语音界面（EVI），该公司声称EVI是第一个具有情商的对话式AI。

当前首发版本的Octave主要支持的语言是英语，其次是西班牙语，后续可能还会上线更多语种。此外，该模型在Hume AI开发者平台上的使用强度有一定限制，现支持的音频格式有MP3、WAV和PCM。

01.4大AI语音生成功能，能代入情节和人设

Octave文生语音大模型不仅支持生成带有人设和人类情感色彩AI语音，还将推出语音克隆功能。

Cowen称，该模型除了能理解单个句子内的情感，还能进一步捕捉上下文之间的情感联系，从而更具表达力和细节度。Octave除了能够理解情节转折、情感暗示、角色特征，还学会了如何将它们结合起来，因此它不仅可以“温柔地朗读情书”，也能“充满活力地播报体育赛事”。

1、语音生成：具有情境感知能力且人性化

Octave能够预测语音的调性、节奏和音色，并判断初何时应低语密谋、何时应放声高喊、何时应平静地解释事实。

换句话说，Octave能够解析剧本或提示词中的情节转折、情感暗示和角色特征，并将其转化为自然带感情的语音，听起来就像演员在朗读剧本一样。

2、语音设计：可深入理解提示词和剧本含义

基于提示词或剧本，Octave能够生成各种设定的AI语音。这是由于它会自动解析一段文字内容的含义和风格，包括人称代词、简称、用词等等，从而生成一段与角色相符的连贯语音内容。

此外，在语音设计功能中，你还可以通过更具体的角色描述来引导Octave，例如结合特定口音、人设特征、职业角色等。相关描述类似于“耐心且富有同理心、用ASMR方式说话的咨询师”、“戏剧化的中世纪骑士”、“中年好莱坞电影预告片解说员”。

同时，你也可以选择跳过语音设计功能，直接在Playground上即时生成语音。只点击页面上的“生成”按键，而不勾选“语音设计”功能，Octave就会仅依据剧本生成语音，并且可以将其另存为一段新语音。

不过出于安全考虑，涉及较为逼真的孩童语音和特定人物的模仿语音，其AI语音生成将受限。

3、表演指令：用生成的AI语音二次创作

参照人类演员，Octave也能接受并理解指令。

在表演指令功能中，其可以基于现有语音类型，进一步用指定的情感或说话风格来朗读新剧本。

4、语音克隆：即将上线

Hume AI AI称，只需一段5秒的音频，Octave就能快速克隆出其语音。而Octave开发团队正为这一语音克隆功能寻求安全保障，因此该功能将于接下来几周内稍晚推出。

未来几周内，该公司还有计划改进Octave的核心功能，持续优化富有表现力的语音生成、不同情感和风格的提示、新语音生成以及多位说话者间流畅对话等方面。

02.40多种预设语音，开发者现可上手使用

Octave现已在platform.hume.ai平台和Hume AI的API上线。

目前，在线平台上，创作者和开发者可使用Octave以下4项功能：

语音设计；
表演指令；
超过40种预设语音的语音库；
用于生成有声书、播客等长篇内容的项目界面（预览版）。

而在开发者平台上，Octave可通过Python和TypeScript SDK访问，这些SDK会处理身份验证，并提供类型化接口，以确保集成的可靠性。其命令行界面支持快速原型设计、测试以及直接从终端批量处理。

这些开发者工具简化了用Octave生成语音素材的过程，缩短了新语音应用的上市时间。

▲Octave操作界面（图源：Hume AI官网）

目前，Hume AI的API允许开发人员每分钟对Octave模型发出最多50次请求，文本长度上限为5000个字符，描述上限为1000个字符。每个请求最多可生成5个输出，支持的音频格式包括MP3、WAV和PCM。

03.对比ElevenLabs，Octave更符合人类喜好

Hume AI AI对Octave开展了内部评估，将该大模型与业内领先的AI文生语音大模型ElevenLabs进行对比。

这项基准测试包含120个多样化语音描述的样本，用于模拟用户在文生语音大模型中会提出的各种语音风格。这些样本既覆盖了细腻、叙事化的描述，例如“温暖、父亲般的声音，具有丰富的低音，略带沙哑且语调令人安心，如同一位经验丰富的说书人”，也有简洁、简短的提示词，例如“充满活力、年轻、略带嘶哑”。

Hume AI团队用Gemini为每个描述生成了一段合理对话，然后分别让Octave和ElevenLabs的AI语音生成工具Voice Design各生成了3个语音样本，再让180位人类评审盲测对比上述两款文生语音大模型基于相同提示词生成的语音样本，并为音质、自然度以及提示词匹配度投票。

测试结果显示，Octave在这三项人类偏好指标上均略胜一筹，音质方面被71.6%的人类评审选择，自然度方面被51.7%的人类评审选择，而提示词匹配度方面有57.7%的人类评审认为其更契合预期。

▲在Hume AI内部测试中，其AI文生语音大模型Octave能力优于ElevenLabs（图源：Hume AI官网）

04.免费版声音定制不设限，专业版提供超8h使用额度

Hume AI目前采用订阅制的收费方式，主要分为免费、Creator、Creator Pro和Enterprise 4大类收费项目。

免费版：每月1万个字符的文本转语音，总时长约10分钟，无限自定义声音；
入门版（3美元/月）：每月3万个字符，总时长约30分钟，额外最多支持20个项目；
Creator（10美元/月）：每月10万个字符，总时长约100分钟，额外字符按使用量定价（0.20美元/1000个），额外最多支持1000个项目；
专业版（50美元/月）：50万个字符，总时长约500分钟，额外字符按使用量定价（0.15美元/1000个），额外最多支持3000个项目。

而规模化、商业和企业级接入使用收费标准则有所不同。

规模（150美元/月）：200万个字符，总时长约2000分钟，额外字符按使用量定价（0.13 美元/1000个），额外最多支持1万个项目；
商业（900 美元/月）：1000万个字符，总时长约1万分钟，额外字符按使用量定价（0.10 美元/1000个），额外最多支持2万个项目；
企业（自定义价格）：无限使用、自定义法律条款、安全保障、大幅折扣的批量价格和优先支持。