豆包App小范围内测新语音模式，实测中文对话遥遥领先 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

豆包App小范围内测新语音模式，实测中文对话遥遥领先

2025-01-18 / 阅读约2分钟

来源：凤凰网

豆包即将发布最新实时语音大模型，并将基于此模型全量上线豆包App实时语音通话功能。

在ChatGPT的DAN模式火爆全网，无数网友为如何设置DAN四处寻求攻略的时候，AI 就已经证明了逼真的人机语音交互所带来的巨大想象力。

而如今，真正摆脱“人机感”的国产语音大模型来了。

据硅星人独家获悉，豆包即将发布最新实时语音大模型，并将基于此模型全量上线豆包App实时语音通话功能。目前，豆包APP已小范围测试最新能力，部分用户在豆包App的实时通话界面已更新。

此前，业内就曾有传言称豆包将上线最新情感语音大模型，测试效果超过GPT-4o。据了解，该传言提及模型即为上述实时语音模型。最新模型通过面向语音生成和理解进行统一建模，区别于此前的 ASR+LLM+TTS 级联方式，在对话效果上有大幅提升，实时交互上不仅低延时，也能流畅打断。

硅星人在豆包上实测了该能力发现，在中文场景下，豆包最新语音模型体现出了相较于此前更强大和逼真的性能。

从底层的技术发展来看，声学特征的精确控制需要同时调控音高、语速、音量等多个参数，而这些参数与情感之间并不存在简单的对应关系，就像人类说话时的情感是由无数细微变化组成的，机器要精确捕捉和重现这种复杂的表达。

对此，当前语音对话的解决方案多采用分层设计，通过多个模型的协同来逐步实现从文本到情感，再到声音的转换，但在实时性和自然度上仍有相当大的提升空间。

而豆包最新的语音模型，便在这两个方面有了较大的性能提升。

在自然度上，首先是此次更新最重要的情感部分，相比大多数模型还在语气上粗线条上进行变化之外，豆包最新的语音模型在语音表现和智力的拟人性上有了质的提升。

比如这一段我们让豆包用老北京话说一段报菜名的贯口，这中间有非常多对节奏和儿化音的处理，豆包都绘声绘色地表述了出来，流利程度堪比初级相声演员。

上一篇：Altman怼美议员担心OpenAI“讨好”特朗普：我给民主党捐款为啥不管？

下一篇：美国发布人工智能相关出口管制临时最终规则，贸促会代表中国工商界坚决反对

返回列表

热文阅读

2 天前

55 亿美元损失重压，黄仁勋火速来华稳固中国市场

2 天前

中国电信成功立项业界首个 DevSecOps 国际标准提案

2 天前

中兴通讯 2025 年一季度净利润 24.53 亿元，同比下降 10.50%

2 天前

“史上最快闪存技术”登Nature，复旦新成果突破闪存速度理论极限，每秒执行操作2500000000次

2 天前

26家厂商同时竞标：三大运营商评分前三联通数科最终拿下“香饽饽”

3 天前

全球首台新一代智能数控系统“华中 10 型”发布：国产新突破，可自主学习

2 天前

SK 海力士宣布完成基于 CXL 2.0 的 DDR5 96GB 产品客户验证

2 天前

【预警】IBM CEO预警芯片供应风险,全力支持Rapidus 2nm量产;英特尔陈立武5月来台,参加公司40周年庆并拜会供应链；爱立信印度制造电信天线

2 天前

消息称英特尔本周内公布 20%+ 大裁员计划

2 天前

Cadence 推出业界首款 12800MT/s DDR5 MRDIMM Gen2 内存 IP 系统解决方案

上一篇：Altman怼美议员担心OpenAI“讨好”特朗普：我给民主党捐款为啥不管？

下一篇：美国发布人工智能相关出口管制临时最终规则，贸促会代表中国工商界坚决反对

C114通信网
通信人家园

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们

C114通信网

通信人家园