《华尔街日报》(WSJ) 周二(24 日) 报导,尽管中国在购买先进芯片方面受限,但有迹象表明,中国新创公司追赶美国领先的人工智能(AI) 模型的速度比业内许多人预期的还要快。
实力仍有落差但成长速度快
由中国最成功的避险基金经理人之一投资的新创公司DeepSeek11 月发布其最新大型语言模型的预览版。该公司表示,程序的能力优于OpenAI 的推理模型o1,后者于9 月以预览形式推出。
与此同时,最近几周其他中国公司也发表类似的声明。由中国网路巨擘阿里巴巴和腾讯投资的新创公司月之暗面(Moonshot AI) 表示,其开发一个专门研究数学的模型,其能力接近OpenAI 的o1。另一方面,阿里巴巴表示自家的一个实验研究模型在数学上优于OpenAI 的o1 预览版本。
不过这些公司尚未发表描述其模型的文章,而且评估这些说法很困难,因为对AI 模型的能力没有一个公认的测试。不过,一些美国专家表示,他们对此印象深刻。
OpenAI 前研究员、现任AI 企业家卡尔(Andrew Carr) 表示,中国正「紧追在后」。他说,DeepSeek 的研究人员试图复制OpenAI 的推理模型,仅在几个月内就找到了答案,相当令人惊讶。
DeepSeek 称其模型在美国国际数学邀请赛(AIME) 上击败了OpenAI。但《华尔街日报》利用今年AIME 的15 个问题进行的一项实验发现,OpenAI 的o1 预览模型比DeepSeek、Moonshot 和阿里巴巴的实验模型更快找到了答案。
在一个假设的双人游戏涉及策略的字谜中,OpenAI 程序在10 秒内给出了答案,而DeepSeek 花了两分钟多,不过能找到正确答案仍是一项壮举,因为文字问题经常难倒AI 程序。
中国开发商另辟蹊径发展AI 技术
尽管美国自2022 年以来不断对中国实施最先进AI 芯片限制,但中国开发人员找到解决方面。月之暗面创始人杨植麟(Yang Zhilin) 表示,该公司专注于强化学习,模仿人类的试误过程,这种方法可能在提高效能方面较少使用运算能力。
报导指出,自去年年底以来,AI 开发人员越来越多使用一种名为「混合专家模型」(Mixture of Experts, MoE) 的技术,这种技术能降低对芯片的需求。
腾讯曾表示,11 月发表的MoE 模型的效能堪比脸书母公司Meta Platforms今年7 月推出的Llama 3.1 模型。不过审阅两家公司发表的论文的研究人员表示,腾讯模型的运算能力可能只有Meta 的十分之一左右。
AI 新创公司Anthropic 的联合创始人克拉克(Jack Clark)在他的部落格中写道:「中国绕过出口管制的一种方法是,利用它可以访问的硬件建立非常好的软件和硬件培训。」他称:「中国制造将成为AI 模型的一部分,就像电动车、无人机和其他技术一样。」
许多中国AI 开发人员已经找到获取受限制的英伟达芯片的方法,包括通过与中间商和海外数据中心的交易。尽管如此,据中国高层称,缺乏尖端芯片对中国新创企业来说是痛苦的,而且差距还会扩大。
募资恐不理想!智谱AI 延后明年下半年上市计划
报导还提到,中国AI 新创公司目前的估值仅为OpenAi 等美国公司的一小部分,后者最近的估值为1,570 亿美元。
根据知情人士透露,总部位于北京的智谱AI 推迟最快在2025 年下半年上市的计划,此前投资银行家告诉该公司不太可能获得预期的估值。
智浦AI 在本月的最新一轮融资中估值约为30 亿美元,其在11 月底展示了自家AI 代理,并在7 月发布一个类似OpenAI Sora 的视频生成模型。