Cartesia称其AI高效卓越,几乎可无缝运行于任何环境
2 周前 / 阅读约9分钟
来源:TechCrunch
Cartesia公司正在开发一种新型高效模型架构SSM,可处理大量数据,比传统transformer架构更快更高效。其最新项目Sonic可克隆人声或生成新声音,并调整录音的语调和节奏。Cartesia已融资2700万美元,计划开发多模态AI模型。

图片来源:v_alex / Getty Images

开发和运行AI的成本正不断攀升。据预测,OpenAI今年的运营成本或将达到70亿美元,而Anthropic的首席执行官最近透露,成本超百亿美元的模型或不久将面世。

鉴于此,人们正积极探寻降低AI成本的新途径。

部分研究人员致力于优化现有模型架构,即模型的构造与组件;而另一些人则正研发他们认为更具成本效益的新型架构。

卡兰·戈尔(Karan Goel)便是后者中的一员。在他与人共同创立的初创公司Cartesia中,戈尔正潜心研究他称之为状态空间模型(SSM)的技术,这是一种新颖且高度高效的模型架构,能够同时处理海量数据——无论是文本还是图像。

“我们认为,要构建真正实用的AI模型,新型模型架构至关重要,”戈尔向TechCrunch透露。“AI行业竞争激烈,既有商业之争,也有开源之斗,构建顶尖模型是成功的关键。”

深厚的学术底蕴

加入Cartesia前,戈尔是斯坦福大学AI实验室的博士生,师从计算机科学家克里斯托弗·雷(Christopher Ré)等杰出学者。在斯坦福期间,戈尔结识了实验室的另一位博士生阿尔伯特·顾(Albert Gu),二人携手构想了SSM。

戈尔随后在Snorkel AI和Salesforce工作,而顾则成为卡内基梅隆大学的助理教授。尽管各自忙碌,顾与戈尔仍持续研究SSM,并发表了多篇关于该架构的重要研究论文。

2023年,顾、戈尔及他们的两位前斯坦福校友阿尔琼·德赛(Arjun Desai)和布兰登·杨(Brandon Yang)决定联手创立Cartesia,旨在将其研究成果商业化。

Cartesia创始团队。从左至右:布兰登·杨、卡兰·戈尔、阿尔伯特·顾、阿尔琼·德赛。图片来源:Cartesia

Cartesia的创始团队还吸纳了雷教授,他们共同开发了Mamba的多个衍生产品,Mamba或已成为当下最受欢迎的SSM之一。顾与普林斯顿大学教授特里·道(Tri Dao)于去年12月启动了Mamba作为开放研究项目,并持续通过后续版本加以完善。

Cartesia在Mamba的基础上进一步构建,并自主训练SSM。与所有SSM相同,Cartesia的SSM为AI提供了类似工作记忆的功能,使模型运行更为迅速,且在计算能力利用上或更为高效。

SSM与Transformer的较量

从ChatGPT到Sora,当今大多数AI应用均依赖于采用Transformer架构的模型。当Transformer处理数据时,它会在名为“隐藏状态”的组件中添加条目以“记忆”所处理的内容。例如,若模型正在处理一本书,隐藏状态值或可代表书中的词汇。

隐藏状态是Transformer如此强大的部分原因,但同时也是其效率低下的根源。为“说出”Transformer刚刚吸收的书中哪怕一个单词的信息,模型都必须扫描整个隐藏状态——这无异于重新阅读整本书的庞大计算量。

相比之下,SSM会将每个先前数据点压缩为其先前所见内容的某种摘要。随着新数据的流入,模型的“状态”得以更新,SSM会舍弃大部分先前数据。

结果如何?SSM在处理大量数据的同时,在部分数据生成任务上超越了Transformer。鉴于推理成本的发展趋势,这无疑是一个极具吸引力的选择。

道德考量

Cartesia犹如一个社区研究实验室,与外部组织及内部团队共同研发SSM。该公司的最新项目Sonic便是一款SSM,能够克隆人声或生成新声音,并调整录音的语调与节奏。

戈尔声称,通过API与Web仪表板提供的Sonic是其同类中最迅速的模型。“Sonic展现了SSM在处理长上下文数据(如音频)方面的卓越性能,同时在稳定性与准确性方面保持了最高标准,”他说道。

Cartesia的Sonic模型可在一定程度上自定义语音,包括语调。图片来源:Cartesia

尽管Cartesia已成功迅速推出产品,但它也陷入了许多困扰其他AI模型开发者的道德困境。

Cartesia至少在其部分SSM上接受了Pile的训练,Pile是一个包含未经授权版权书籍的开源数据集。众多AI公司认为,合理使用原则可使其免受侵权索赔。但这并未阻止作者起诉Meta、微软等公司,指控它们在Pile上训练模型。

此外,Cartesia对其Sonic驱动的语音克隆器几乎未设置明显的保护措施。数周前,我成功利用竞选演讲克隆了前副总统卡玛拉·哈里斯的声音(请听下文)。Cartesia的工具仅要求您勾选一个框,表明您将遵守公司的服务条款。

在这方面,Cartesia并不比其他市场上的语音克隆工具逊色。然而,有报道称语音克隆曾骗过银行安全检查,因此前景并不乐观。

戈尔并未表示Cartesia将停止在Pile上训练模型。但他确实解决了审核问题,他告诉TechCrunch,Cartesia拥有“自动化与人工审核”系统,并“正在开发语音验证与水印系统”。

“我们设有专门团队测试技术性能、滥用及偏见等方面,”戈尔说道。“我们还在与外部审计师建立合作伙伴关系,以提供对我们模型安全性与可靠性的额外独立验证……我们认识到这是一个持续的过程,需要不断改进。”

新兴业务版图

戈尔透露,包括自动呼叫应用Goodcall在内的“数百名”客户正在为Sonic API访问付费,这是Cartesia的主要收入来源。Cartesia的API最多可免费朗读100,000个字符,最昂贵的计划每月费用高达299美元,可朗读800万个字符。(Cartesia还提供具有专用支持和自定义限制的企业级服务。)

默认情况下,Cartesia会使用客户数据来训练其模型——这虽已司空见惯,但恐怕难以让注重隐私的用户满意。戈尔指出,用户可选择退出,Cartesia还为大型组织提供自定义保留策略。

值得一提的是,Cartesia的数据处理方式似乎并未损害其业务——至少目前尚未造成损害,因为Cartesia具有技术优势。Goodcall首席执行官鲍勃·萨默斯(Bob Summers)表示,他选择Sonic是因为它是唯一一款延迟低于90毫秒的语音生成模型。

“[它]比次优替代方案高出四倍,”萨默斯补充道。

Goodcall的AI“代理”服务依赖于Cartesia的Sonic API。图片来源:Goodcall

如今,Sonic正被广泛应用于游戏、配音等领域。但戈尔认为,这只是SSM潜力的冰山一角。

他的愿景是开发能够在任何设备上运行并几乎瞬间理解和生成任何模态数据(文本、图像、视频等)的模型。朝着这一方向,Cartesia今年夏天推出了Sonic On-Device的测试版,这是一个针对实时翻译等应用优化的Sonic版本,可在手机和其他移动设备上运行。

除了Sonic On-Device之外,Cartesia还发布了Edge,这是一个用于优化SSM以适应不同硬件配置的软件库,以及Rene,这是一个紧凑的语言模型。

“我们拥有一个宏伟的长期愿景,即成为每个设备的首选多模态基础模型,”戈尔说道。“我们的长期路线图包括开发多模态AI模型,旨在创建能够在多种上下文中进行推理的实时智能。”

若这一切要成为现实,Cartesia必须说服潜在客户,其架构值得他们投入时间学习。同时,它还需保持在尝试Transformer替代方案的其他供应商之前。

初创公司Zephyra、Mistral和AI21 Labs已训练了基于Mamba的混合模型。此外,由机器人技术权威人物丹尼尔拉·鲁斯(Daniela Rus)领导的Liquid AI正在开发自己的架构。

戈尔断言,拥有26名员工的Cartesia有望取得成功,部分原因在于新的资金注入。本月,该公司完成了由Index Ventures领投的2200万美元融资轮,使Cartesia的总融资额达到2700万美元。

Index Ventures的合伙人沙杜尔·沙阿(Shardul Shah)认为,Cartesia的技术有朝一日将推动客户服务、销售和营销、机器人技术、安全等领域的应用。

“通过挑战对传统基于Transformer架构的依赖,Cartesia解锁了构建实时、经济高效且可扩展的AI应用的新方法,”他说道。“市场正呼唤更快、更高效的模型,这些模型能够在任何地方运行——从数据中心到设备。Cartesia的技术正处于实现这一承诺并推动下一波AI创新的独特位置。”

A* Capital、Conviction、General Catalyst、Lightspeed和SV Angel也参与了总部位于旧金山的Cartesia的最新一轮融资。