学清路“堂吉诃德”，凭什么挑战大模型的风车 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

学清路“堂吉诃德”，凭什么挑战大模型的风车

2024-11-17 / 阅读约4分钟

来源：凤凰网

中二青年的非典型大模型创业

北京学清路的一个园区，里面有四只有名有姓的小猫，它们被养得乖巧温顺。这些猫的“日常工作”就是负责安慰彩云科技几十个焦虑的算法工程师。

焦虑的源头来自国内大模型赛道的内卷和不易，经历了一轮资本的催熟和热捧之后，大模型“六小虎”如今也是境况各异，有些在开拓海外市场，而有些在逐步放弃预训练模型，有些在想方设法进行商业化。

然而，这家只有猫、但还没有成虎的创业公司，却想着在没有超级算力的情况下，去挑战当下大模型公司用到的最核心的Transformer架构。这种压力和焦虑，或许只有他家的猫知道。

几天前，彩云科技正式发布了首个基于DCFormer架构的通用大模型云锦天章，除了具备其他模型的问答、数学、编程等基础能力，其特色是在虚构世界观的基础上，赋予小说人物编程、数学等基础能力，可以高速针对大量文字进行扩写、缩写，针对文章风格进行大容量更换。

距离ChatGPT发布快两年后，彩云科技突然发布通用大模型，让很多人感觉新鲜又费解：当大家都把目光放在如何落地和如何做AI应用，甚至有不少大模型创业公司放弃基础模型的研发时，为何还有创业公司从头开始来自研通用大模型？

一条区别于Transformer的大模型之路

2024年7月，彩云科技CEO袁行远和合伙人肖达被邀请去维也纳参加机器学习顶会ICML会议，台下乌央乌央坐满了AI从业者，他们对模型结构的研究得到了组委会的认可。

其实，第一次审稿，组委会给他们的论文评分是7.66，没有进入Top1%，无法上台演讲，后来袁行远和肖达重新做了一些实验，回复了很多问题，最后评分改为了7.77，他们收到了参会邮件，并且成为可能的受邀演讲者。之所以说是可能，因为组委会还邀请了其他人，如果别人接受了邀请，就意味着他不会有上台的机会。

但最终他们获得了登台的机会，也成为国内唯二受邀参加维也纳ICML 2024登台演讲的企业，另一家是华为。

为了台上的20分钟，彩云科技已经在Transformer架构上研究了6年，完成了从最早的NLP理论研究，到现在的模型实践。

而他们被邀请去演讲，是因为彩云科技提交的一篇名为《Improving Transformers with Dynamically Composable Multi-Head Attention》的论文，它从底层架构层面革新了谷歌在2017年发布的Transformer架构，并提出了一个新的架构DCFormer。

众所周知，当下的大模型浪潮起源于谷歌2017年发布的《Attention Is All You Need》论文，其中提出的Transformer架构成为后来席卷全球的一系列通用大模型如ChatGPT、Gemini的底层技术支撑。

当其他厂商都在基于Transformer架构训练大模型时，袁行远却决定走另外一条路，提出了一个新的模型架构DCFormer。它通过改进Transformer的注意力机制，相比Transformer性能提升1.7-2倍。彩云科技提到，在相同训练数据和算力下，用DCFormer改进后的69亿参数模型效果超过120亿参数模型。

云锦天章正是彩云科技基于DCFormer训练而成的一个7B量级的通用大模型。从理论推导到真正推出一个可被大众使用的通用模型，袁行远认为，这是逐渐去证明DCFormer是更有效率模型架构的一种方式。

目前，大众可以在彩云科技的官网web端免费体验云锦天章的产品。发布会现场，袁行远也演示了云锦天章的几大能力。比如，给它一个开头，在内容续写上，云锦天章大模型能给出一段有起承转合和明显情节的回复，相比GPT-4o，它的回答更有内容和情节。除了文本创作，这个通用模型还具有编程和数学等通用模型具备的能力。

上一篇：Google Gemini AI 发出惊人回复用户请求帮助后竟收到“请去死吧”

下一篇：杨植麟发布Kimi新模型：数学对标o1 中考高考考研成绩全第一

返回列表

热文阅读

2 天前

AMD锐龙5 7533HS APU携手联想经济型笔记本系列亮相

2 天前

初创公司 Atum Works 推出纳米级 3D 打印技术，芯片制造成本可削减 90%

2 天前

砸开核桃造“芯片”！“六个核桃”母公司16亿杀入半导体

1 天前

苹果、AMD挺台积电SoIC产能飙