学清路“堂吉诃德”,凭什么挑战大模型的风车
2024-11-17 / 阅读约4分钟
来源:凤凰网
中二青年的非典型大模型创业

北京学清路的一个园区,里面有四只有名有姓的小猫,它们被养得乖巧温顺。这些猫的“日常工作”就是负责安慰彩云科技几十个焦虑的算法工程师。

焦虑的源头来自国内大模型赛道的内卷和不易,经历了一轮资本的催熟和热捧之后,大模型“六小虎”如今也是境况各异,有些在开拓海外市场,而有些在逐步放弃预训练模型,有些在想方设法进行商业化。

然而,这家只有猫、但还没有成虎的创业公司,却想着在没有超级算力的情况下,去挑战当下大模型公司用到的最核心的Transformer架构。这种压力和焦虑,或许只有他家的猫知道。

几天前,彩云科技正式发布了首个基于DCFormer架构的通用大模型云锦天章,除了具备其他模型的问答、数学、编程等基础能力,其特色是在虚构世界观的基础上,赋予小说人物编程、数学等基础能力,可以高速针对大量文字进行扩写、缩写,针对文章风格进行大容量更换。

距离ChatGPT发布快两年后,彩云科技突然发布通用大模型,让很多人感觉新鲜又费解:当大家都把目光放在如何落地和如何做AI应用,甚至有不少大模型创业公司放弃基础模型的研发时,为何还有创业公司从头开始来自研通用大模型?

01

一条区别于Transformer的大模型之路

2024年7月,彩云科技CEO袁行远和合伙人肖达被邀请去维也纳参加机器学习顶会ICML会议,台下乌央乌央坐满了AI从业者,他们对模型结构的研究得到了组委会的认可。

其实,第一次审稿,组委会给他们的论文评分是7.66,没有进入Top1%,无法上台演讲,后来袁行远和肖达重新做了一些实验,回复了很多问题,最后评分改为了7.77,他们收到了参会邮件,并且成为可能的受邀演讲者。之所以说是可能,因为组委会还邀请了其他人,如果别人接受了邀请,就意味着他不会有上台的机会。

但最终他们获得了登台的机会,也成为国内唯二受邀参加维也纳ICML 2024登台演讲的企业,另一家是华为。

为了台上的20分钟,彩云科技已经在Transformer架构上研究了6年,完成了从最早的NLP理论研究,到现在的模型实践。

而他们被邀请去演讲,是因为彩云科技提交的一篇名为《Improving Transformers with Dynamically Composable Multi-Head Attention》的论文,它从底层架构层面革新了谷歌在2017年发布的Transformer架构,并提出了一个新的架构DCFormer。

众所周知,当下的大模型浪潮起源于谷歌2017年发布的《Attention Is All You Need》论文,其中提出的Transformer架构成为后来席卷全球的一系列通用大模型如ChatGPT、Gemini的底层技术支撑。

当其他厂商都在基于Transformer架构训练大模型时,袁行远却决定走另外一条路,提出了一个新的模型架构DCFormer。它通过改进Transformer的注意力机制,相比Transformer性能提升1.7-2倍。彩云科技提到,在相同训练数据和算力下,用DCFormer改进后的69亿参数模型效果超过120亿参数模型。

云锦天章正是彩云科技基于DCFormer训练而成的一个7B量级的通用大模型。从理论推导到真正推出一个可被大众使用的通用模型,袁行远认为,这是逐渐去证明DCFormer是更有效率模型架构的一种方式。

目前,大众可以在彩云科技的官网web端免费体验云锦天章的产品。发布会现场,袁行远也演示了云锦天章的几大能力。比如,给它一个开头,在内容续写上,云锦天章大模型能给出一段有起承转合和明显情节的回复,相比GPT-4o,它的回答更有内容和情节。除了文本创作,这个通用模型还具有编程和数学等通用模型具备的能力。