AI 2025的硅谷答案:60条关键洞察
1 天前 / 阅读约8分钟
来源:36kr
重塑世界的力量不在硅谷,而在一代中国从业者的努力中。

锦秋基金

今年作为锦秋基金的同事,负责组织了锦秋基金在硅谷的Scale With AI的活动。

5天的时间,我们大约邀约了超过100人的AI领域的专家分享了他们对于AI趋势的看法,组织了接近400名AI相关的创业者、投资人、研究员等进行了交流。

这其中既包括了:A16Z、Pear VC 、Soma Capital、Leonis Capital 、Old Friendship Capital、知名大厂战投 的投资人;也包括了OpenAI、xAI 、Anthropic、Google、Meta、Microsoft、Apple、Tesla、Nvidia、ScaleAI、Perplexity、Character.ai 、Midjourney、Augment、Replit、Codiuem、Limitless、Luma、Runway等公司的研究员甚至创始人。

期间的一些交流,基于锦秋基金多名同事的笔记,我自己也对交流期间的一些共识进行了整理。

AI正在重塑世界的未来,而硅谷无疑是这场变革的核心引擎。硅谷宽松的创新氛围和资本环境,还会继续引领这一波的产业浪潮。

但在现场,心里还有另一种更直观的感受,那就是:重塑世界的力量不在硅谷,而在一代中国从业者的努力中。

锦秋基金

一、模型篇

1、LLM 的pre-training阶段已经接近瓶颈

但post-training还有很多机会

Pre-training阶段,Scaling是变慢的,离饱和还有一定时间。

放缓的原因:结构>算力>数据(Single-Model)。

但是在Multi-model上:数据=算力>结构。

对于MultiModel而言,需要在多个模态上选择组合,Pre-training在现有架构下可以认为已经结束了,但是可以改新的架构。

现在在Pre-training投入少的原因更多是在于资源度有限,做Post-training的边际效益会更高。

2、Pre-training和RL关系

Pre-training不太在乎数据质量。

Post-training对数据质量要求较高,但是由于算力限制,到最后几个部分给高质量的数据,

Pre-training是imitation,只能做到模仿的事情。

RL是创造,可以做到不同的事情

先有Pre-training,才有Post-training中的RL,模型得有基础能力,RL才能有的放矢。

RL不改变模型的智力,更多是思考的模式。比如,在C.AI用RL优化Engagement效果很好。

3、大模型优化会影响产品的能力

一般主要在post training部分,帮助做很多Safety,比如解决C.AI在儿童自杀的问题上,会根据不同人群不同岁数的情况下,用不同的模型来服务。

其次是Multiagent的framework。模型会思考为了解决这个问题要怎么做,然后分给不同agent去做,每个agent做完后,再服务task,最后结果优化。

4、一些非共识明年可能实现共识

有没有必要所有都要上大模型,之前有很多很好的小模型,可能没有必要再要做一个模型。

现在的大模型,1年后就变成小模型。

Model 架构可能变化。Sacling law已经到了,未来要讨论的问题,知识模型解耦,可能速度会比较快。

5、LLM领域随着Scaling law到头,闭源和开源差距缩小。

6、视频生成还在GPT1和2的时间点

现在视频的水平接近SD1.4的版本,未来视频会有一个和商用性能差不多的开源版本。

当前的难点是数据集,图像是靠LIAON数据集,大家可以去清洗,视频上因为版权等问题没有那么大的公用数据集,每一家如何获取、处理、清洗数据会产生很多不同,导致模型能力不同,开源版本的难度也不同。

DiT方案下一个比较难的点在于如何提升物理规律的遵循,而不只是统计概率。

视频生成的效率是卡点。目前要在高端显卡上跑挺久,是商业化的障碍,也是学术界在探讨的方向。

类似LLM虽然模型迭代速度在放缓,但应用没有放缓。从产品角度,只做文生视频不是一个好的方向,相关的偏剪辑、创意的产品,会层出不穷,短期内不会有瓶颈。

7、面向不同场景选择不同的技术栈会是一个趋势

Sora刚出来大家都认为会收敛到DiT,但实际上还有很多技术路径在做,例如based on GAN的路径,以及AutoRegressive的实时生成,比如最近很火项目Oasis,还有把CG和CV结合去实现更好的一致性和控制,每一家都有不同的选择,未来面向不同场景选择不同的技术栈会是一个趋势。

8、视频的Scaling Law远达不到LLM的级别

视频的scaling law,在一定范围内有,但远达不到llm的级别。现在最大级别的模型参数也就是30b,30b以内蓓证明是有效的;但300b这个量级,就没有成功案例。

现在技术方案是收敛的,做法没有大不同。不同最主要是数据上、包括数据配比。

会有1-2年才能达到DiT技术路线的饱和。DiT路线很多可以优化的地方。更高效的模型架构,是非常重要的。以LLM为例,一开始大家都在往大了做,后面发现加MOE和优化数据分布后,可以不用那么大的模型去做。

需要投入更多研究,一味scale up DiT非常不高效。视频数据如果把YouTube、TikTok都算上,数量非常大,不可能都用于模型训练。

现阶段开源方面的工作还比较少,尤其是数据准备方面的开源工作,各家的清洗方式都有很大的差异性,而数据准备过程对最终效果有很大的影响,所以其中可优化的点还很多。

9、提升视频生成的速度的方法

最简单的就是生成低分辨率、低帧率的画面。最常用的是步数蒸馏,diffusion推理的时候是有步数的,目前图像生成至少还需要2步,如果能蒸馏到1步推理,就会快很多。最近也有一个论文,做一步生成视频,虽然现在只是poc,但值得关注。

10、视频模型迭代的优先级

其实清晰度、一致性、可控性等都没有达到其他饱和,还没有到提高一部分牺牲另一部分。是目前在Pre-training阶段同步提高的阶段。

11、长视频生成提速的技术方案

能看到DiT能力极限在哪,模型越大、数据越好,生成的清晰度更高、时间更长、成功率更高。

DiT模型能scale到多大,是目前没有答案的。如果到一定尺寸出现瓶颈,可能会有新的模型架构出现。从算法角度,DiT做出一个新的推理算法,来支持快速。比较难得是怎么在训练的时候把这些加上。

现在模型对物理规律的理解是统计意义上的,数据集看到过的现象能够一定程度上模拟,不是真的懂物理。学术界有一些探讨,例如通过一些物理规则到视频生成里去。

12、视频模型和其他模态的融合

会有两个方面的统一:一是多模态的统一,二是生成和理解的统一。对于前者,表征要先统一。对于后者,文本和语音都是可以统一的,VLM和diffusion的统一目前认为效果是1+1<2。这个工作会比较难,不一定是因为模型不够聪明,而是这两个任务本身就是矛盾的,如何达成精巧的平衡是一个复杂的问题。

最简单的想法是都tokenize之后放到transformer模型里,最后统一输入输出。但自己的个人经验是做单个特定的模态比把所有的融合在一起效果会更好。

工业实践上大家不会放在一起去做。MIT 最新的论文潜在说明如果把多模态都统一的话效果有可能会更好。

13、视频模态的训练数据其实还有很多

视频数据其实很多,怎么样高效的选择出高质量数据比较重要。

数量取决于对版权的理解。但算力同样是瓶颈,即便有那么多数据,也不一定有算力去做,尤其是高清的数据。有时候需要基于手头有的算力去反推需要的高质量数据集。

高质量数据一直都是缺的,但即便有数据,很大的问题是大家不知道什么样的图像描述是对的,图像描述要有哪些关键词。

14、长视频生成的未来在于故事性

现在的视频生成是素材的。未来是故事的,视频生成是带有目的的。长视频不是时间有多长,而是故事性。以任务的形式。

视频编辑的话,速度会高一些。因为现在一个卡点是速度太慢。现在都是分钟级(生成几秒)。这样即使有好算法,也不可用。(编辑不是指剪辑,而是image的编辑,比如换个人,动作,这样的技术是有的,问题就是速度慢,不可用。)

15、视频生成的美学提升主要是靠post training

主要是靠post training阶段,比如海螺,大量用影视数据。真实度的话是基模能力

16、视频理解两个难点是Long context和Latency。

17、视觉模态可能不是更好的通向AGI的最好的模态

文字的模态——也可以把文字改成图片,然后变成视频

文字是通往智能的捷径,视频和文字之间的效率差距是几百倍

18、语音模型上端到端是很大的进步

不需要人为对数据做标注和判断,可以做到精细的情感理解和输出

19、多模态模型还在很早期阶段

多模态模型还在很早期阶段,给前1秒视频predict后面5秒已经很难了,后面加入text可能会更难。

理论上视频和文字一起训是最好的,但是整体做起来是很难的。

多模态目前不能提升智力,但是未来也许是可以的,压缩算法可以学习数据集的关系,只需要纯文字和纯图片的数据,出来之后就可以做视频和文字相互理解。

20、多模态的技术路径还没有完全收敛

Diffsion model 质量好,目前的模型结构还在不断再改;

Alter agreesive 逻辑好。

21、不同模态的对齐,现在还没有形成共识

video是离散还是连续的tokens都没定下来。

现在高质量对齐的还没有很多。

目前也不知道是科学问题和工程问题。

22、大模型生成数据然后训练小的模型是可行的,反过来比较难

合成数据和真实数据的区别主要是质量问题。

也可以用各类数据拼凑用来合成,效果也很好。pretraining 阶段可用,因为对数据质量要求不高。

23、 对LLM来说pre training的时代已经基本结束了

现在大家都在谈Post training,对数据质量要求高

24、Post training 团队建设

理论上团队规模:5人足够(不一定全职)。

一人搭建pipeline(infrastructure)。

一人管数据(数据效果)。

一人负责模型本身SFT(科学家/读Paper)。

一人负责产品对模型编排做判断,收集用户数据。

AI时代产品和UI,Post training优势,AI弥补产品和UI了解,开发丰富,不被AI带偏。

25、数据pipeline构建

数据循环:数据进入pipeline,生成新数据回流。

高效迭代:数据标注结合pipeline和AB testing,结构化数据仓库。

数据输入:高效标注和丰富用户反馈,构建护城河。

初始阶段:SFT(不断重新Loop到这个阶段)。

后续阶段:RL(分化出来比较重的RLFH),打分指导RL,DPO方法易崩,SFT简化版RL。

二、具身篇

1、具身机器人尚未迎来类似ChatGPT的“关键时刻”

一个核心原因在于,机器人需要在物理世界中完成任务,而不仅仅是通过虚拟语言生成文本。

机器人智能的突破需要解决“具身智能”(Embodied Intelligence)的核心问题,即如何在动态、复杂的物理环境中完成任务。

机器人的“关键时刻”需要满足以下几个条件:通用性:能够适应不同任务和环境。可靠性:在真实世界中具有较高的成功率。可扩展性:能通过数据和任务不断迭代和优化。

2、这一代机器学习解决的最核心的问题就是泛化

泛化是AI系统从训练数据中学习规律,并应用到未见过的数据上的能力。

泛化有两种模式:

插值(Interpolation):测试数据在训练数据分布范围内。 

外推(Extrapolation)的难点在于训练数据是否能够很好地覆盖测试数据,以及测试数据的分布范围和成本。这里“cover”或“coverage”是关键概念,指的是训练数据能否有效涵盖测试数据的多样性。

3、视觉任务(如人脸识别、物体检测)多半属于插值问题

机器视觉的工作主要是模仿生物的感知能力,理解和感知环境。

机器视觉模型在某些任务上(如猫狗识别)已经非常成熟,因为有大量相关数据支持。然而,对于更复杂或动态的任务,数据的多样性和覆盖范围仍是瓶颈。

视觉任务(如人脸识别、物体检测)多半属于插值问题,模型通过训练数据覆盖大多数测试场景。

但在外推问题上(如全新角度或光照条件),模型能力仍有限。

4、这一代机器人泛化的难点:大部分情况属于extrapolation情形

环境复杂性:家庭环境、工业环境的多样性和动态变化。

物理交互问题:例如门的重量、角度差异、磨损等物理特性。

人机交互的不确定性:人类行为的不可预测性对机器人提出了更高的要求。

5、完全具备人类般泛化能力的机器人在当前乃至未来的一代人中可能无法实现

机器人要在现实世界中应对复杂性和多样性,难度极高。现实环境中的动态变化(如家庭中的宠物、小孩、家具摆放等)使得机器人很难做到完全泛化。

人类本身并不是全能的个体,而是通过分工合作在社会中完成复杂任务。机器人同样不一定追求“人类级别”的泛化能力,而是更专注于某些特定任务,甚至实现“超越人类”的表现(如工业生产中的效率和精度)。

即使是看似简单的任务(如扫地或做饭),由于环境的复杂性和动态性,其泛化要求也非常高。比如扫地机器人需要应对千家万户不同的布局、障碍物、地面材质等,这些都增加了泛化的难度。

那么,机器人是否需要任务聚焦(Pick Your Task)。比如,机器人需要专注于特定任务,而不是追求全面的人类能力。

6、斯坦福实验室的选择:聚焦家庭场景

斯坦福的机器人实验室主要聚焦于家庭场景中的任务,尤其是与老龄化社会相关的家务机器人。例如,机器人可以帮助完成叠被子、拾取物品、开瓶盖等日常任务。

关注原因:美国、西欧以及中国等国家都面临严重的老龄化问题。老龄化带来的主要挑战包括:认知功能退化:阿尔茨海默症(老年痴呆)是一个广泛存在的问题,95岁以上人群中约有一半患有此病。运动功能退化:例如帕金森症、ALS等疾病导致老年人难以完成基本的日常操作。

7、基于特定场景定义泛化条件

明确机器人需要处理的环境和场景,例如家庭、餐厅或养老院。

明确场景后,可以更好地定义任务范围,并确保在这些场景中涵盖可能出现的物品状态变化和环境动态。

场景调试的重要性:机器人产品的调试不仅仅是解决技术问题,而是要涵盖所有可能出现的情况。例如在养老院中,机器人需要处理多种复杂情况(如老年人行动缓慢、物品摆放不固定等)。通过与领域专家合作(如养老院管理者、护理人员),可以更好地定义任务需求并收集相关数据。

现实世界中的环境不像工业流水线那样完全可控,但可以通过调试使其“已知”(known)。比如,定义家庭环境中常见的物体种类、摆放位置、动态变化等,在仿真和真实环境中覆盖关键。

8、泛化与专用的矛盾

通用模型与特定任务模型的冲突:用模型需要具备强大的泛化能力,能够适应多样化的任务和环境;但这通常需要大量的数据和计算资源。

特定任务模型更容易实现商业化,但其能力受限,难以扩展到其他领域。

未来的机器人智能需要在通用性和专用性之间找到平衡。例如,通过模块化设计,让通用模型成为基础,再通过特定任务的微调实现快速适配。

9、具身多模态模型的潜力

多模态数据的整合:多模态模型能够同时处理视觉、触觉、语言等多种输入,提升机器人对复杂场景的理解和决策能力。例如,在抓取任务中,视觉数据可以帮助机器人识别物体的位置和形状,而触觉数据可以提供额外的反馈,确保抓取的稳定性。

难点在于如何让多模态数据在模型中实现高效融合。如何通过多模态数据提升机器人在动态环境中的适应能力。

触觉数据的重要性:触觉数据可以为机器人提供额外的信息,帮助其在复杂环境中完成任务。例如,在抓取柔性物体时,触觉数据可以帮助机器人感知物体的形变和受力情况。

10、机器人数据闭环难实现

机器人领域目前缺乏类似ImageNet这样的标志性数据集,导致研究难以形成统一的评估标准。

数据采集的成本高昂,尤其是涉及真实世界的交互数据。例如,采集触觉、视觉、动力学等多模态数据需要复杂的硬件和环境支持。

仿真器被认为是解决数据闭环问题的一种重要工具,但仿真与真实世界之间的“模拟-真实差距(Sim-to-Real Gap)”仍然显著。

11、Sim-to-Real Gap的挑战

仿真器在视觉渲染、物理建模(如摩擦力、材质特性)等方面与真实世界存在差距。器人在仿真环境中表现良好,但在真实环境中可能失败。这种差距限制了仿真数据的直接应用。

12、真实数据的优势与挑战

真实数据能够更准确地反映物理世界的复杂性,但其采集成本高昂。数据标注是一个瓶颈,尤其是涉及多模态数据(如触觉、视觉、动力学)的标注。

工业环境更规范,任务目标更明确,适合机器人技术的早期部署。例如,在太阳能发电厂的建设中,机器人可以完成打桩、装板、拧螺丝等重复性任务。工业机器人可以通过特定任务的数据收集,逐步提升模型能力,并形成数据的闭环。

13、在机器人操作中,触觉和力觉数据可以提供关键的反馈信息

在机器人操作中,触觉和力觉数据可以提供关键的反馈信息,尤其是在连续任务(如抓取和放置)中。

触觉数据的形式:触觉数据通常是时间序列数据,可以反映机器人与物体接触时的力学变化。

最新的研究工作是把触觉也加入到大模型里。

14、仿真数据的优势

仿真器可以快速生成大规模数据,适合早期模型训练和验证。仿真数据的生成成本低,可以在短时间内覆盖多种场景和任务。在工业机器人领域,仿真器已经被广泛用于训练抓取、搬运等任务。

仿真数据的局限:仿真器的物理建模精度有限,例如无法准确模拟物体的材质、摩擦力、柔性等特性。仿真环境的视觉渲染质量通常不足,可能导致模型在真实环境中表现不佳。

15、数据仿真:Stanford推出了 behavior的仿真平台

Behavior 是一个以家庭场景为核心的仿真平台,支持 1,000 种任务 和 50 种不同场景,涵盖了从普通公寓到五星级酒店的多样环境。

平台内包含超过 1 万种物体,并通过高精度的 3D 模型和交互标注,重现物体的物理和语义属性(如柜门可开、衣服可折叠、玻璃杯可打碎等)。

为了保证仿真环境的真实性,团队投入了大量人力(如博士生标注数据),对物体的物理属性(质量、摩擦力、纹理等)和交互属性(如是否可拆卸、是否会变形)进行细致标注。再如,标注衣服的柔性特性以支持叠衣服任务,或者标注植物浇水后的湿润效果。

Behavior 项目不仅提供固定的仿真环境,还允许用户上传自己的场景和物体,通过 annotation pipeline 对其进行标注和配置。

目前来看,仿真可以 80% pretraining,剩余的 20% 需要通过真实环境中的数据采集和调试来补充。

16、混合模型的应用

通过仿真数据进行初步训练,再通过真实数据进行微调和优化。已经尝试将真实场景扫描到仿真器中,让机器人在仿真环境中进行交互并学习,从而缩小Sim-to-Real Gap。

17、机器人数据共享的挑战

数据是公司的核心资产,企业不愿轻易共享数据。缺乏统一的数据共享机制和激励机制。

可能的解决方案:

数据交换:特定任务的公司贡献数据,换取通用模型的能力。

数据中介:建立第三方平台,收集、整合和分发数据,同时保护隐私。

模型共享:通过API或模型微调的方式,减少对原始数据的依赖。

目前已经有一些公司在做这三种方式的尝试

18、灵巧手与夹爪的选择

灵巧手的优点:自由度高,能够完成更复杂的任务。灵巧手可以通过多自由度的调整弥补模型预测的不准确性。

夹爪的优点:成本低,适合工业场景中的特定任务。在流水线上的物料搬运任务中表现良好,但缺乏泛化能力。

19、具身机器人软硬件协同进化

硬件平台与软件模型需要同步迭代。例如,硬件的传感器精度提升可以为模型提供更高质量的数据。不同公司在软硬件协同上的策略不同:

三、AI应用投资篇

1、硅谷VC认为2025年是AI应用投资大年

硅谷的VC倾向于2025年是有应用投资的大机会。在美国基本没有killer apps for everyone。大家习惯于在不同的场景中使用不同功能的App,关键是让用户体验尽可能的无障碍

去年基本不关注应用公司,所有人都在看LLM和Foundation model。

投资至应用,VC会问,what's your moat?

硅谷投资人投资AI产品的标准之一:最好只做一个方向,让竞品很难复制,需要有一些网络效应;要么是难以复制的洞察力;要么是难以复制的技术Edge;要么是他人无法获得的水平垄断资本。否则很难称之为创业,更像是一门生意。

2、硅谷VC认为AI产品公司是新物种

AI公司作为一个新的物种,和之前的SaaS很不一样,找到了pmf,它的revenue booming是非常快的,真正value creation before hype是在 seed 阶段

3、VC里的小众观点是可以有条件考虑投资中国创业者

原因是:新一代的中国创始人很有活力,很有能力做很好的生意模式。

但前提是base在美国。

中国及中国创业者在做很多新的尝试,但是国际的投资人很害怕以及不了解。小众认为是一个价值洼点。

4、硅谷的VC都在想办法建立自己的投资策略

Soma Capital:  建联最优秀的人,让最优秀的人介绍他的朋友,创建Life Long Friendship。在过程中inspire、support、connect这些人;建立全景地图,包括市场细分和项目mapping,想做数据Driven的投资。会从Seed投资到C轮,观测成功/失败样本。

Leonis Capital:研究驱动的风险投资基金,主要是First Check。

OldFriendship Capital:Work first,invest later,会和founder先一起工作,打客户访谈,确定一些访谈guideline,一起搞清楚产品的问题,类似咨询工作。投中国项目,在工作中可以判断中国founder是否有机会能够和US Customer一起工作

Storm Venture:喜欢Unlocking Growth,比较喜欢A轮有PMF的公司,他们通常获得了1-2M的收入,然后去判断是否存在Unlocking growth支撑他们涨到20M。B2B SaaS 核心考虑 Wage,只有在那些labor cost very high的场景才适用,认为企业级比较大的机会还是Automation work。

Inference venture:5000万美金的基金,认为壁垒建立在人际关系和领域知识。

5、硅谷VC认为AI时代MVP的要求是提升的

Engineer、fintech、HR等是花钱比较多的AI产品方向。

白领工作很贵,一个小时40美金,人力成本很高,只有25%的时间在干活;未来可能没有中间层的manager,会被消灭掉。

人工成本最贵的公司一般是容易被AI切入的领域,医院的接线员基本不是美国人,一小时工资可能比2美金还要低,用AI竞争很难有竞争力。

会有从Service as a software到 AI Agent的变化。

6、OpenAI研究员创办的Leonis Capital的5个2025年AI预测

会有一款AI编程的应用走红。

模型提供商开始控制成本:创业者需要去选择model/agent去创造一个独特的供给。

Cost per action的定价方式出现。

数据中心会造成电力冲击,可能存在新架构重新。新的framework,模型变小。Multi agent会变得更加主流。

7、AI native的创业公司标准

相比大厂竞争:没钱没人,组织架构上和传统的SaaS公司是不一样的,Notion和Canva在使用AI的时候比较Suffer,Notion不希望在core function上受损。

AI Native Data的Customer Acquisition cost比较低,AI产品提供的ROI比较明确,AI Scaling过程中不需要招聘很多人,50个million可能只有20个人。

在Moat方面,在于model architecture和customization,

8、大模型很注重预训练,应用公司更注重reasoning

每个行业有固定的看问题的方式和方法,每个行业都有自己独特的Cognitive Architecture,新出现的AI Agent就是在LLM的基础上加入了Cognitive Architecture。

9、生活领域的AI应用的reasoning怎么去做reward

生活领域AI应用的reasoning可以做intention。

rewarding非常难读,math和coding很容易做。

考虑话题度实效性,地理位置。

只能做dynamic reward,和相似组去做。

10、用AI生成的内容不是很真实,可能会是一种新的内容形式

例如Cat walking和cooking

四、AI Coding篇

1、AI Coding公司模型训练的可能思路

可能的一种思路:一开始会用模型公司更好的api来取得更好的效果,即使成本更高,在积累客户使用数据之后,不断地在小场景训自己的小模型,从而不断替换部分api场景,以更低成本取得更好的效果。

2、Copilot 和 Agent 模式的差异 

之间的主要区别是异步:主要区别在于人工智能助手在执行任务时的异步程度。副驾驶通常需要立即与用户互动和反馈,而代理可以在寻求用户输入之前更独立地工作更长时间。例如,代码完成和代码聊天工具需要用户实时观看和响应。另一方面,agent可以异步执行任务并要求较少的反馈,从而使他们能够完成更多任务

最初agent被设计为在提供结果之前独立工作较长时间(10-20 分钟)。然而,用户反馈显示,他们更喜欢控制更多和频繁交互。因此agent被调整为在要求反馈之前工作较短时间(几分钟),在自主性和用户参与度之间取得平衡。

开发完全自主代理的挑战:两个主要障碍阻碍了完全自主coding代理的开发。技术还不够先进,无法处理复杂的、长期的任务而不会失败,导致用户不满。用户仍在适应人工智能助手在多个文件或存储库中进行重大更改的概念

3、Coding Agent的核心挑战与改进

需要进一步发展的关键领域包括:1. 事件建模 2. 记忆和世界建模 3. 准确规划未来 4. 提高上下文利用率,尤其是长上下文(超过 10,000 个tokens上下文的利用率会显著下降) , 增强对扩展记忆长度(例如 100,000 个tokens或更多)的推理能力,正在进行的研究旨在提高更长上下文的记忆和推理能力。

虽然世界建模似乎与coding代理无关,但它在解决不准确规划等常见问题方面发挥着重要作用。解决世界建模挑战可以提高coding代理制定更有效、更准确计划的能力。

4、AI Coding的一个重要趋势是使用推理增强技术,类似于 O3 或 O1 方法

方法可以显著提高代码代理的整体效率。虽然它目前涉及高昂的成本(多 10-100 倍),但它可以将错误率降低一半甚至四分之一。随着语言模型的发展,这些成本预计将迅速下降,这可能使这种方法成为一种常见的技术路线。

O3 在基准测试中的表现明显优于其他模型,包括 Total Forces 测试。目前行业得分一般在 50 分左右,但 O3 的得分为 70-75 分。

SMV 分数在过去几个月中迅速提高。几个月前,分数在 30 多分,但现在已升至 50 多分

模型性能增强技术:根据内部测试,应用高级技术可以进一步将分数提高到大约 62 分。利用 O3 可以将分数推高到 74-75 分。虽然这些增强可能会大幅增加成本,但整体性能提升是显著的。

用户体验和延迟阈值:确定性能和用户体验之间的最佳平衡具有挑战性。对于自动完成功能,响应时间超过 215-500 毫秒可能会导致用户禁用该功能。在聊天应用中,几秒钟的响应时间通常是可以接受的,但等待 50-75 分钟就不切实际了。可接受延迟的阈值因应用和用户期望而异。

最大化模型质量的两个主要障碍是计算能力要求和相关成本

5、GitHub Copilot 被视为主要竞争对手。

6、客户成功对于采用 AI coding工具至关重要。

售后支持、培训、启动和采用是关键的区别因素。一家初创公司有 60-70 人致力于客户成功,约占其员工总数的一半。这方面的大投资,但有助于确保客户满意度。