再融1.8亿美元,这家AI视频平台成功打造首个完全由AI生成的虚拟形象
15 小时前 / 阅读约9分钟
来源:36kr
生成式AI视频的真正目标客户,其实是那些在工作中需要视频但缺乏资源的人

尽管电子邮件、通信软件和文件共享等工具在当今快节奏、分布式的职场环境中极具价值,但它们仍只是基础的信息传递。 

正因如此,视频正逐渐成为企业领域的一种强大新媒体,改变着工作场所的沟通和协作模式。通过在数字互动中融入印象深刻的视觉效果、语音语调或肢体语言,视频弥补了文本沟通的不足。 

为了进一步挖掘这种媒体形式的价值,Synthesia的创始团队在2017年构建了一个视频平台,使企业能够充分利用视频进行业务沟通和知识共享,并在此过程中将任何员工转变为视频创作者。 

01.1分钟项目速览

1.项目名称 :Synthesia 

2.成立时间 :2017年4月 

3.产品简介 : 

Synthesia提供AI视频生成平台,可使用120多种语言的可定制头像和画外音将文本转换为专业视频。 

4.创始人团队 : 

Victor Riparbelli:CEO,曾就读于哥本哈根信息技术大学;

Steffen Tjerrild:COO,CFO,曾在斯坦福大学攻读金融学硕士学位;

Matthias Niessner教授:慕尼黑工业大学教授,并负责视觉计算实验室;

Lourdes Agapito教授:伦敦大学计算机科学系3D视觉教授。 

5.融资情况

2017年10月1日,完成100万美元的种子前轮融资;

2019年4月25日,完成由LDV Capital领投的310万美元的种子轮融资;

2021年4月20日,完成由FirstMark领投的1250万美元的A轮融资;

2021年12月8日,完成由Kleiner Perkins领投的5000万美元的B轮融资;

2023年6月13日,完成由Accel领投的9000万美元的C轮融资;

2025年1月15日,完成由New Enterprise Associates领投的1.8亿美元的D轮融资。

02.从“好莱坞”到“企业通信”

故事源于Victor Riparbelli偶然间读到了Matthias Niessner教授所撰写的一篇有关AI在视频生成应用方面的开创性论文,论文中的内容令他深受启发,他意识到这可能预示着媒体制作流程的一次革命。 

不久后,Victor Riparbelli与Steffen Tjerrild、Matthias Niessner教授、Lourdes Agapito教授携手创办了Synthesia公司,尝试将这篇论文的学术成功转化为商业应用,这无疑是一次学界与业界的强强联手。 

“让怀揣创意的16岁少年,仅凭卧室中的一台设备,就能拍出好莱坞级别的电影”成为了该公司的愿景。 

在其他企业还在利用AI打造如Snapchat滤镜这类工具时,Synthesia就已经凭借一款AI配音工具崭露头角 ,该工具运用计算机视觉技术使不同语言的嘴部动作更加自然逼真,同时也为公司带来了首批收益。 

后来,Synthesia发现全球有数十亿人渴望制作视频,却因为不懂摄影技巧和有限的预算,始终不知从何入手。 

也是在这时,Synthesia意识到生成式AI视频的真正目标客户,并非已有视频制作能力的人群,而是那些在工作中需要视频但缺乏资源的人

有了明确的方向后,Synthesia发明了一款虽与专业摄像机相比质量稍逊一筹,但价格更亲民、操作更简便的产品,因此许多业余爱好者都愿意为此付费。

现如今,Synthesia已完全成为了面向企业的AI视频平台。

03.领先的企业通讯软件

从AI语音起家的Synthesia,转变发展方向后,其在多方面已经遥遥领先,成为业内大受企业欢迎的AI视频平台。 Synthesia的功能主要体现在AI头像、AI语音和视频编辑方面 。 

AI头像

Synthesia可以创建自定义头像,并提供超过150种不同风格、肤色、性别和年龄的AI人物形象。 

用户也可以对其进行外观和服装等方面的调整,让虚拟形象更加贴合自身需求和创意。整个过程用户都可以使用手机摄像来完成。 

现在, Synthesia已经从单纯的AI头像发展到支持AI半身像 ,身体姿势和手势也成为了虚拟形象的一部分。其最新推出的第四代AI虚拟形象Expressive Avatars更是能够准确传达情绪。  

AI语音

Synthesia作为领先的企业通讯软件,其语音效果几乎可以以假乱真,如同真人的声音质量、语调、情绪表达。 

用户可以将自己的英语声音克隆并用于29种不同语言,仅需5-10分钟的录音时间 。 

录音完成后,就能用自己的声音创建多种语言的个性化内容,与不同语言背景的听众建立更紧密的联系。 

该软件支持超过120种语言和口音,几乎涵盖了全球所有主要的语言和方言。各个国家和地区的用户都可以很轻松地制作不同语言版本的视频,在全球传播视频内容。

视频编辑

Synthesia可以将文字想法、PPT、PDF和网站按照预先设置的模板转换为视频,无需摄像机、麦克风和演员, 大大降低了视频制作的门槛,节省了时间和成本 。 

该软件内置有300多个视频模板,用户可以对其模板进行选择和修改,还能对视频中的AI头像、背景图、语音速度、语调等参数进行调整,甚至连演讲者的面部表情都可以微调。 

更重要的是,用户可以为团队创建一个共享空间,Synthesia支持合作制作视频并实时编辑。

目前Synthesia官方已经推出了Synthesia 2.0,可以立刻对用户完成的录像视频进行编辑、转录画外音、匹配屏幕截图,并具有自动缩放效果以强调关键动作等功能。

2.0的翻译功能更加完善,用户只需要使用Synthesia更新一条视频,后面观看的视频就会自动翻译成观看者的语言。

Synthesia 2.0从头开始彻底改造了视频制作的每一个步骤,致力于帮助企业大规模创建和分享AI生成的视频。

04.探索AI虚拟形象

Synthesia平台的核心在于其AI虚拟形象, 现已有超过20万人使用其225个虚拟形象创建了超过1800万个视频演示,并以130多种语言发布 。 

最初,Synthesia为娱乐行业开发了对口型和配音工具。但因为这项技术的质量门槛较高且需求不大,于是公司在2020年改变了方向,为企业客户推出了第一代虚拟形象。 

和后续版本比较起来,第一代产品稍显笨重,从各方面来看都很稚嫩。 

如今,该公司已经推出了第四代AI虚拟形象Expressive Avatars,这也是世界上首个完全由AI生成的虚拟形象。这些虚拟形象由EXPRESS-1模型提供支持,能够实现逼真的表演。

具体来说,EXPRESS-1模型利用大型预训练模型作为主干推动性能,并结合扩散技术模拟复杂的多模态分布。它能够实施预测每一个动作和面部表情,与口语的时间、语调和重音无缝对接

Expressive Avatars如今能够像真正的演员一样,以正确的语调、肢体语言和口型同步演绎剧本,成为“数字演员”。

Melissa Heikkilä分享了她制作数字替身的经历。

她站在一块绿幕前,按照要求转动头部和眼睛,这样系统才能识别其准确的肤色和面部特征。接着她被要求说“All the boys ate a fish”这句话,这样系统就能捕捉到形成元音和辅音所需的所有嘴部动作。甚至连闲坐的镜头也成为了训练AI模型的数据。

然后,Melissa Heikkilä被要求用正常、鼓励、生气、兴奋等不同的语气读一段剧本,以便用这些语音样本来克隆声音。

总之, AI识别的面部动作、微表情、头部倾斜、眨眼、耸肩和挥手等数据点越多,虚拟形象就越逼真 。 

Synthesia表示,在最新的1.8亿美元融资的支持下,希望在不久的将来能创造出可以在虚拟空间中行走和移动的全身化身。  

不过,随着虚拟形象技术的不断进步,AI不仅重新定义了个性化表达的方式,也开始引发了更深层次的社会讨论。同时,与之相关的AI语音、AI视频技术的飞速发展也带来了有关隐私的担忧。

一方面,公众越来越意识到AI生成的内容正在蓬勃发展,并可能成为传播虚假信息的强大工具。

另一方面,目前仍不清楚深度伪造是否被大规模用于传播虚假信息,以及它们是否会广泛地改变人们的信念和行为。

AI监管仍不完善,科技行业对内容来源的核实工作也还处于起步阶段。因此消费者在享受科技发展的同时,更应该保持警惕,以免迷失在海量信息中。 

参考链接: 

1. https://www.cnbc.com/2025/01/15/ai-video-platform-synthesia-doubles-valuation-to-2point1-billion.html 

2.https://www.synthesia.io/?r=0