图片来源:Getty Images
能够解析视频与文本的人工智能模型,正开启一系列全新的应用前景。这是Twelve Labs联合创始人Jae Lee深信不疑的观点。
诚然,Lee或许带有一些个人偏好,因为Twelve Labs正是专注于为多种应用场景训练视频分析模型的。但不可否认,他的看法或许不无道理。
借助Twelve Labs的模型,用户可以在视频中精准定位特定时刻,总结剪辑内容,或提出如“穿红衬衫的人何时进入餐厅?”等问题。这一系列强大功能,或许正是该公司能够吸引包括Nvidia、Samsung和Intel在内的知名投资者的原因。
对于数据科学家出身的Lee而言,传统的视频搜索方式从来都不尽如人意。关键词搜索虽能提取标题、标签和描述,但无法触及视频内容的精髓。
“视频是增长最快且数据密度最高的媒体形式,但大多数组织不愿投入大量人力资源来筛选海量视频资料,”Lee向TechCrunch透露。“即便尝试手动标记,也难以解决根本问题。在视频中查找特定瞬间或角度,无异于大海捞针。”
在苦寻更佳解决方案无果后,Lee携手同行Aiden Lee、SJ Kim、Dave Chung和Soyoung Lee共同研发新技术。于是,Twelve Labs应运而生,致力于训练能够将文本与视频中发生的事件(包括动作、物体和背景声音)相关联的模型。
虽然已有类似Google Gemini的模型能够搜索视频片段,且Microsoft、Amazon等公司也提供视频分析服务以识别剪辑中的物体,但Lee认为Twelve Labs的产品因其定制选项而独树一帜。这些选项允许客户使用自身数据定制模型。
Twelve Labs联合创始人兼首席执行官Jae Lee。图片来源:Twelve Labs
“OpenAI和Google等公司正斥巨资投资于通用多模态模型,”Lee表示,“但这些模型并未针对视频进行优化。我们的独特之处在于,从一开始就以视频为核心……我们认为视频值得我们全力以赴——它绝非附属品。”
开发人员可在Twelve Labs模型的基础上创建应用程序,实现跨视频片段等内容的搜索。该公司的技术可驱动广告插入、内容审核以及自动生成剪辑精彩片段等功能。
去年与Lee交谈时,我曾提及Twelve Labs模型中可能存在的偏见问题。这是一个不容忽视的重大风险。2021年的一项研究发现,在充满种族化犯罪报道的地方新闻剪辑上训练视频理解模型,可能导致模型习得种族主义模式。
Lee当时透露,Twelve Labs计划发布与模型伦理相关的基准和数据集。然而,该公司至今尚未发布。在最近的一次交谈中,Lee向我保证,这些工具正在紧锣密鼓地研发中,且Twelve Labs在发布所有模型前均会进行偏见测试。
“我们尚未发布正式的偏见基准,因为我们希望确保它们既有意义又切实可行,”他说道。“我们的总体目标是制定基准,不仅对我们自身负责,更为整个行业树立标杆……在我们完全实现这一目标之前——目前我们有一个团队正致力于此——我们正积极创建能够负责任地赋能组织、尊重公民自由并推动技术变革的人工智能。”
Lee补充道,Twelve Labs在其模型上混合训练了公共领域及许可数据,且未使用客户数据进行训练。
视频分析仍是Twelve Labs的核心业务。但为保持灵活性,该公司还涉足“任意到任意”搜索和多模态嵌入等领域。
Twelve Labs的Marengo模型不仅能够搜索视频,还能搜索图像和音频,并接受参考音频记录、图像或视频剪辑以辅助搜索。
此外,该公司还提供Embed API以创建视频、文本、图像和音频文件的多模态嵌入。嵌入是数学表示法,能够捕捉不同数据点之间的意义与关系,适用于异常检测等应用。
Twelve Labs日益丰富的产品组合助力该初创公司在企业与媒体娱乐领域赢得客户。两大合作伙伴Databricks和Snowflake均将Twelve Labs的工具集成至自身产品中。
Twelve Labs构建多模态视频理解模型。部分模型用于回答问题,部分用于执行搜索——功能多样。图片来源:Twelve Labs
Databricks开发了一个集成功能,允许客户从现有数据管道中调用Twelve Labs的嵌入服务。同时,Snowflake正为其完全托管的AI服务Cortex AI创建与Twelve Labs模型的连接器。
“我们目前拥有3万余名开发者使用我们的平台,从个人实验到大型企业将我们的技术集成至其工作流程中,”Lee说道。“例如,我们已与市政当局合作,应用于实时威胁检测、提升应急响应速度及辅助交通管理等场景。”
作为战略支持的表现,Databricks和Snowflake本月分别通过其风险投资部门向Twelve Labs注资。SK Telecom和Hubspot Ventures也加入投资行列,还有位于弗吉尼亚州阿灵顿的非营利性风险投资公司In-Q-Tel,该公司专注于投资支持美国情报能力的初创公司。
本轮融资总额为3000万美元,使Twelve Labs的总融资额达到1.071亿美元。Lee表示,所得款项将用于产品开发和招聘。
“我们目前财政状况强劲,但看到了深化与深信Twelve Labs领导力的关键战略关系的机会,”Lee说道。“我们现有73名全职员工,并计划在工程、研究及面向客户的职位上进行大量招聘投资。”
谈及招聘,Twelve Labs于周四宣布,其高管团队将新增一名总裁:SK Telecom前首席技术官(CTO)Yoon Kim,他同样是苹果Siri背后的关键架构师之一。Yoon还将担任Twelve Labs的首席战略官,领导该公司的激进扩张计划。
“虽然对于Twelve Labs这样年轻且处于发展阶段的公司而言,聘请总裁并不常见,但此举证明了我们所面临的需求,”Lee说道,并补充称Yoon将在Twelve Labs位于旧金山的总部和首尔的办公室之间分配时间。“Yoon是帮助我们执行计划的不二人选——他将在关键收购、扩大我们的全球影响力以及引领团队迈向宏伟目标方面发挥重要作用。”
Lee透露,目标是在未来几年内拓展至汽车和安全等全新及相邻领域。鉴于In-Q-Tel的参与,安全领域(以及可能的国防工作)似乎已成定局;但Lee并未直接确认。
“In-Q-Tel的投资彰显了我们技术在包括国家安全在内的多个领域的多功能性和潜力,”Lee说道。“我们始终愿意探索机会,让我们的技术产生积极、有意义且负责任的影响,同时符合我们的道德准则。”