IDEA研究院沈向洋：从PMF到TMF， AI For Science是今天一定要做的事 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

IDEA研究院沈向洋：从PMF到TMF， AI For Science是今天一定要做的事

2024-11-23 / 阅读约10分钟

来源：36kr

人工智能向前发展要造数据、合成数据，有可能带来大模型创业下新的百亿美金的问题。

“如果说今天有什么事是我们一定要做的，那就是AI For Science。难以想象今天还有什么事情比它更重要，今年诺贝尔奖的颁布便是最好证明。”

11月22日召开的2024年IDEA大会上，IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在题为《从技术突破到产业融合》的主题演讲中指出，在技术大爆发时期开展创新，对技术的深度理解尤为重要。

沈向洋表示，从长远的人类社会发展角度来看，巨大跃迁都是由技术创新带来的。工业时代的全球GDP年均增速约为1%-2%，信息时代在3%-4%，人工智能时代，这个数字会是多少？与此同时，他强调，随着AI的各项能力逼近、甚至超越人类，AI治理已成亟待全球共同面对的议题。

站在商业的视角，新技术快速冲入市场，则意味着技术需要理解需求。技术要在持续不断的反馈和创新中，与市场完成匹配（Technology-market fit，TMF）。IDEA研究院的实践，正是这样一个缩影。本次大会，IDEA公布一系列前沿研究与产业落地成果，带来从技术突破到产业融合的AI盛宴。

以“得语言者得天下”等理念为核心，沈向洋透露，目前已拥有7个研究中心、450名员工的IDEA研究院在与员工双向选择的过程中，尤为强调科学家头脑、企业家素质和创业者精神三大特质。

深圳或将成全球算力中心之一

“过去这几年人工智能的蓬勃发展，令大家对整个行业充满着期待。其中，算力、算法、数据是绕不开的‘三件套’。”现场，沈向洋分享了对上述三要素的新理解。

首先，算力是关键生产力。过去四五十年间，计算行业的发展中，最重要的一件事情是算力的不断提升。在摩尔定律的基础上，人工智能的发展尤其是深度学习令算力需求迅速提升。过去几年，每年的新模型所需算力大约四倍多的增长。

一个值得注意的趋势是，未来深圳的算力可能会成为全世界唯二的其中一个。

“一年涨四倍，十年会涨多少倍？不同于摩尔定律，最近大家开始提到黄氏定律，以训练模型对算力的需求为主。”沈向洋坦言，例如，过去十年大模型训练对算力的实际需求上涨了100万倍。这也解释了为什么过去十年英伟达的市值涨了300倍。

“今天你如果能拿得到英伟达的卡，就成功了一半。不管从哪个角度看，英伟达就是Apple，硬生生把自己从一个硬件芯片乙方公司做成了甲方，这些年的出货量增长巨大，眼下仍旧炙手可热。”

沈向洋解释道，进入2024年，英伟达H100芯片的客户中，微软、谷歌、亚马逊的采购量都非常大，过去这段时间芯片可以说是最重要的事，“因为大模型本身参数量非常多，对训练对要求会逐步增高，同时数据量也要增加，这对算力的需求几乎是指数级的。“

目前，IDEA大约有一千多张卡，“在深圳也是一个小土豪了“。沈向洋笑道。但是即便如此，”一些新进员工见面还是会问我，能给多少张卡？我开玩笑讲，有些人叫千卡人才，有些人叫百卡人才。如果你真了不起，应该是万卡人才”。

“但未来十年（算力）是否仍旧成百万倍增长，我看得也不是很清楚。”沈向洋坦言，好在自己马上有机会可以当面请教黄仁勋博士。

合成数据将是一个百亿美金机会

其算法层面，从2017年开始Transformer的架构出来，人工智能、深度学习、大模型基本上是沿着Transformer这条线堆数据、堆算力。

“OpenAI非常了不起，推出一些新技术突破的东西。过去几个月国内也有一些公司，包括初创企业在o1这条道路上有很好的进步。”

突破思路在哪里？沈向洋解释道，GPT系列所有的东西都是预训练，做的事情就是预测“下一个token”，里面很重要的技术背景是把所有的数据做非常聪明的压缩。范式变革就是增强学习，自己可以改善的Learning，像人在思考一样，不完全是训练，给出答案还有一个后训练、后推理的过程。

他表示，增强学习不是一件新的东西，今天的新内容在于，其打法是比较通用的，像o1不仅可以做数据，还可以做编程、物理、化学等等。我觉得接下来这几年，算法沿着SRL这条道路会有非常令人惊艳的动作。

数据方面，合成数据将带来一些新机遇。

“我们先看一些关于数据的数据。1万亿Token大约等于500万本书/20万张高清照片/500万篇论文。人类历史的书到现在全部加起来只也有21万亿。一个人念完大学真正学到的东西也就0.00018T”。

沈向洋表示，GPT3大约使用了2万亿Token；GPT4大概用了20万亿。今天互联网上能得到的洗干净的数据大概也是20万亿。个人认为，GPT5需要的数据大约是200万亿的规模。“但互联网上已经找不到那么多数据怎么办？合成数据将作为新特点出现”。

这引申出来另一件很重要的事——互联网上英文数据的重要性。无论训练哪个语言的人工智能，底层高质量的数据都是英文的，人工智能时代英文的重要性可能还会更加增强，就像互联网时代以后，英语是更加变成了主导的语言。

所以，当网上已经没有数据，人工智能向前发展要造数据、合成数据，有可能带来大模型创业下新的百亿美金的问题。

合成数据怎么办？“在IDEA研究院郭健院长带领下，我们做了高质量训练数据的项目，可以给这些大模型不断的提供养分做这样的事情。”沈向洋透露，IDEA使用的方法是先为原始数据建一个语境图谱，厘清其中逻辑，然后合成。同时兼顾私域数据安全孤岛问题，比如通过合成数据加密的方式将私域数据用起来。

基于上述两个维度，IDEA Data Maker诞生。目前，IDEA Data Maker已经有API，并能够服务有需求的客户。实验结果显示，IDEA团队的方案能持续为大模型带来能力提升，表现超过目前的最佳实践（SOTA）；从token消耗来看，平均节约成本85.7%。

AI For Science是一定要做的事

“互联网时代的产品，喜欢被赋予PMF（产品和市场结合）的思路。但ChatGPT一步跳过了PMF，实现了TMF（技术与市场结合）。沿着这个思路，最近我们有个做得非常好的方向，新的编程语言。”

截至目前，全世界包括小语言、大语言、中语言在内的所有编程语言，几乎没有一个是是中国人发明的创造。“这种现象我们是有机会可以改变的。”沈向洋表示，今天大模型时代会不会出现现象级的语言？事实上已经有一个叫做MoonBit的语言，已经非常像AI时代的编程语言”。

据IDEA研究院洪波介绍，有IDEA推动提交的MoonBit开源1个月后，便收到非常多高质量代码，7月份又开源了Build系统，12月将开放编译器资源，希望社区做大，让更多人参与到MoonBit的开发。

这大模型的探索方面，沈向洋透露， IDEA研究院亦做了自己的大模型，但由于算力方面的限制，没有深入到万亿参数程度。“但我们一直专注这个领域。截至目前，我们已经有包括化学大模型、学术大模型、营销大模型、经济大模型、运筹大模型、投资大模型、视觉大模型等在内的一系列垂直大模型。”

“今天我们一定要干的一件事情，就是AI For Science，难以想象今天还有什么事情比它更重要。”沈向洋强调，拼命推动大模型的技术落地是最重要的。

截至大会前夕，IDEA研究院旗下产品ReadPaper注册用户已达99万，很快将突破100万。该学术大模型中采用更多多模态技术，可以解析论文中的问题。随着AI技术的发展，学术大模型将从L1、L2，发展到 “让天下没有难做的科研”。营销大模型也渐入佳境，能够以一个角色设计为核心进行细粒度的内容生成。

本次大会，IDEA发布了该系列最新的DINO-X通用视觉大模型，拥有真正的物体级别理解能力，实现开放世界（Open-world）目标检测。无需用户提示，直接检测万物。团队还推出行业平台架构，通过一个大模型基座，结合通用识别技术结合，让模型不需重新训练，就可边用边学，支撑多种多样的B端应用需求。

谈及这些技术与的模型最后的目的，沈向洋强调，IDEA研究院最重要的不光是创造最新技术，落地同样重要，“我们研究院里有很多项目、很多团队都是在积极的推动技术团队走向孵化市场。其中我非常喜欢的一个例子，也是在工业AI方面的应用，叫做大规模磁驱动柔性运动控制系统平台，非常好地展示了如何在庞大的场景下使用磁驱动技术。”

「大湾区接下来机会非常大」

“多模态里的技术核心，其中一个核心是计算机视觉，以GPT-4v和GPT-4o为代表。但他们实际上它并没有真正理解世界，最后要走向世界模型的，一定是机器人。其中一个很重要的方向是自动驾驶。”

同时，在挖掘具身智能前景的过程中，他表示，IDEA研究院的成果充满希望，而大湾区将具身智能是非常好的机会。因为“要做这件事情，科研机构单打独斗不行，最重要的是要跟企业，特别是龙头企业一起合作”。

现场，IDEA研究院一连宣布三个合作：与腾讯合作，在深圳福田区、河套深港科技创新合作区落地建设福田实验室，聚焦人居环境具身智能技术；与美团合作，探索无人机视觉智能技术；与比亚迪合作，拓展工业化机器人智能应用。

“深圳是一座用迭代软件的速度迭代硬件的城市，只有在大湾区、深圳才有这样的机会。”沈向洋总结道。

大会最后，沈向洋针对低空经济表示，IDEA研究院与深圳市政府共同研究后，提出必须要打造低空智能融合基础设施，具体来讲要建四张网——设施网、航路网、空联网、服务网。

今年8月，IDEA在深圳市低空经济高质量发展大会上发布了SILAS系统先锋版。

上一篇：参数量仅 0.25B，成都人形机器人创新中心全国首发 R-DDIRM 高速推理模型

下一篇：Anthropic再获亚马逊40亿美元投资双方正合作开发AI芯片

返回列表

热文阅读

2 天前