2023年8月18日,字节跳动旗下AI对话产品Grace,更名为「豆包」。
在百模大战一波又一波密集的“重磅发布”中,这条当时看着毫不起眼的消息,悄然开启了字节大模型的多重宇宙。
从时间线来看,字节跳动的确晚了。相比于当时反应迅速的百度和阿里,没有发布基础模型的字节,彼时并无法靠「豆包」来说服质疑它的观众们。
据字节内部人士透露,2023年年初,集团内部才刚刚开始训练基础模型,而后,字节跳动创始人张一鸣明确了“不卷基模,做AI应用”的战略方向,之后字节开始高举高打,内部的组织架构以及外部策略都开始进行了大变革。
11 月 27 日,也就是确认字节将放弃游戏业务的同一天,字节跳动传出已成立了一个新 AI 部门 Flow。
紧接着,字节系各类AI 应用如流水线上的产品一般,快速涌向市场。据硅星人统计,2024年至今,字节在国内外推出包括「豆包」在内的20余款App,从集成式的聊天助手,到图像、视频、音乐等效率工具,加速渗透到教育、办公助手、开发平台、代码生成等行业,而且,这些应用的表现亮眼,一个个在AI应用大乱斗里杀出重围。
今年3月「豆包」的下载量和月活跃用户开始双双登顶。而据a16z发布的全球 Top 100 AI 应用榜单显示,字节系的Cici、Coze、Gauth、Hypic、CapCut五款产品名列前茅。与此同时,字节依然不断在海外推出新的产品进行试点。
10月份,这种势头仍在继续,据Sensor Tower10月份最新数据免费榜前10中,Gauth排名第六、TikTok排名第七、CapCut排名第九。
这些都是令所有AI应用创业者眼馋的成绩。字节AI究竟为何能如此凶猛?
重启“APP工厂”
字节系AI产品全线突飞猛进的同时,许多人越来越明显感到一丝熟悉的味道——“APP工厂”回来了。
在移动互联网时期,“App工厂”的打法是字节快速开疆扩土的重要策略之一。公开数据显示,2018 年-2020 年,也就是字节增长最为迅速的几年间,它自研和收购了大量的项目,其中在App Store上线的应用就有约140个,占其成立以来的七成。
期间,字节通过批量生产,在今日头条和抖音之后,也成功推出了剪映、懂车帝、皮皮虾、番茄小说、轻颜相机等爆款。
从2023年11月,APP工厂在AI时代重启了,字节陆续密集上线了众多APP。经硅星人整理如下表:
值得注意的是,其中海内外产品几乎一比一对应,一部分国内产品如豆包、剪映复制到国外;另一部分则是在海外高排名的产品复制回国内。
在整理的过程中我们发现,不少产品的名字在几个月内频繁变动,比如对标星野的AnyDoor,早期进入国内时名为「话炉」,在今年4月份名称改为「猫箱」,「河马爱学」改名为「豆包爱学」等等。
这背后是字节系产品对于AI产品命名和定位的思考。
彼时大模型产品的命名常常引经据典,与文心、通义、混元、星火、天工相比,「豆包」听起来土味十足。“当时准备将Grace推向市场的时候,内部一致认为必须要改名,要做中国市场,英文名限制太大。陆陆续续起了100多个名字,有一部分有硬伤直接被Pass了,剩下的做了一些田野调查,有负面关联又淘汰了一部分,最终是朱骏拍板定了「豆包」这个名字。”
豆包团队的人员告诉我们:“我们私底下讨论过,豆包这个词在中国的渗透率差不多80%-90%,没有硬伤。字节内部起名字有一整套的流程,再经历田野调查,这个名字有没有什么负面关联。”
相比于创业公司和其他互联网大厂,字节的优势在于成熟的产品方法论,来保证产品的水平在60分以上,形成稳定的产出。
而在场景的选择上,目前根据我们整理的结果发现,字节系产品其实并没有真正在开拓新的场景,它其实很少“教育市场”,而是更多“顺应市场”,在已经被部分验证的场景下进行产品的迭代和优化。同时,海外市场更多承担新产品孵化地的角色,产品在国内和国外是隔离的,通常一侧上线,完成市场和用户数据分析后再在另一侧上线类似产品。
简单地说,它的策略就是复制小爆款,成为大爆款。
比如「豆包」虽然推出得晚,但上线便集齐了对话、Agent、语音通话等当时分散在不同产品中的大模型功能,「猫箱」完全对标「星野」、「星绘」对标「妙鸭」、「海绵音乐」对标「Suno」,在此基础上,结合用户体验对产品进行迭代。
哪些产品要放弃,哪些产品又要继续投入资源?答案依然是,数据。
字节跳动有专门负责产品增长的团队。这个团队构建了一个强大的数据监测系统,他们会花大价钱去买市面上的数据,尽可能监控所有产品,用来指导研发。
基于信息差的实验+地毯式孵化+数据增长,形成了一条新的AI APP生产线。
争夺“豆包”,模型也赛马
App工厂的背后,是字节式的赛马机制。
“Grace是2022年我们团队开发的,在字节内部使用的产品,员工可以用它来学习一下内部资料。”豆包初始团队的同学告诉硅星人:“到了2023年年初,字节内部有好几个团队还有自发组成的新团队,都在尝试新产品,但我们团队因为做得早,有产品雏形,公司开始计划基于原来的框架推一个移动端的产品。”
「豆包」诞生初期,赛马并没有那么激烈,随着AI产品战略逐渐明确,内部也逐渐开始了新一轮的赛马。
据硅星人了解,目前字节内部形成了多轮赛马制:
第一阶段,创新产品中心负责前期孵化、产品创意、内部审核以及完成产品的前期打造,到产品测试上线。在这个阶段几乎不会有流量支持,靠产品自身的形态吸引自然用户;
进入第二阶段的产品,开始可以拿到一部分初始预算进行外部推广,由专门负责增长的团队负责拉新留存,进行产品排名,数据表现好结合内部分析,从创新产品中心进入到具体的产品组;
而第三阶段,成型的产品开始进行大规模推广,如「猫箱」、「星绘」从去年年底开始在抖音投流以及通过KOL推广。
早期产品生产内部架构
“有点内部创业的意思吧,项目做好了团队内部分奖金,大家都希望能获得更好的资源,但产品这边的竞争其实比较良性,毕竟大家并不交叉。”
不过,和移动互联网时期的模式不同的是,当时所有的产品都是基于个性推荐算法团队生长,而如今,在今天的AI产品们底下的模型层,字节其实并没有达到统一。
产品层,豆包已经是一个统一的品牌,所有产品向豆包靠拢。但在模型层,“豆包”更像是一个代号,究竟谁能成为“豆包”,更像是一场争夺行动。
举个例子,9月24日,火山引擎一口气发布了两款视频生产模型,但对外并没有展示详细解释两款模型的差异,我们发现PixelDance和Seaweed在发布前,在Github上发布过对应的模型细节,它们分别属于两个团队,但最终均被冠以“豆包”之名对外发布。
从内部结构来看,模型和算法归属于模型算法团队Seed,由朱文佳(曾任TikTok产品技术负责人)负责;2023年11月成立的Flow团队主要负责打造C端产品,在最新的人事调动中显示,朱文佳为整体业务负责人、朱骏(原Music.ly创始人、原TikTok负责人)为产品负责人、洪定坤为技术负责人,向下包括豆包、AI教育、社区、国际化四个部门,同时PC端和移动端也分为两条业务线;而豆包大模型to B的商业化业务主要由火山引擎对外提供,并通过API的方式接入飞书。
Seed团队由原来的搜索团队、AILab团队、AML团队联合而成,但实际上,这几个团队都在暗自较劲。
“现在的豆包更像是一个统一的出口,连接用户。豆包产品后端连接了多个模型测试,是一个训练场,通过API的结果反馈来评测模型效果,但一时间很难有取舍。”上述内部人士讲道。
在GitHub和HuggingFace上面,字节的各类视频和图像模型,都分属于各个小团队,包含有4款不同功能的视频模型。
根据公开资料和介绍,我们整理了各个模型的功能,发现目前主流视频模型的能力散落在了各个模型里,比如视频编辑、运动笔刷、端到端视频生成等等,也有在Github上评分较高的开源模型,显示测试效果比已在国内发布的PixelsDance要更好。
比如MagicVideo的V2版本是目前开发者评价字节旗下最可用的一款文生视频模型,V2版本采用了模块化式生产流程,第一模块从文本到图像、第二模块从图像到视频生产关键帧、第三模块从视频到视频扩展、第四模块视频帧插值,平滑过渡。目前整体的生成效果、色彩和审美高于Pika1.0和Gen2.0。
有算法工程师就分析道:“如果几个模型的能力加起来,其实会比现在公开发布的版本更好,至少能达到可灵的效果,但是现在发布版本比较一般,可能也是内部赛马资源没有谈妥的结果。”
字节AI产品今天的突飞猛进,是其赛马机制下,一套屡试不爽的产品开发方法论加持的结果。但与移动互联网时代字节的“生产体系”很不同的是,今天在底层的模型侧,字节也在进行着赛马。
字节可能寄希望于它也像应用一样,百花齐放后筛选出最强的那一个,但同时它也客观上带来着资源无法集中的问题。尤其是在一个最需要大力出奇迹的时刻,这可能也会带来新的挑战。