鏖战 AI Agents:硅谷修路,中国造车
18 小时前 / 阅读约14分钟
来源:36kr
基于当下修路还是面向未来造车

AI Agent行业的全球图景,中国和硅谷正在走上两条路线。

硅谷正在逐步拆掉影响Agent发展的墙,从0-1的建立规则。从Anthropic推出了MCP开放协议,统一了大模型连接应用的方式,到谷歌发布名为Agent2Agent(A2A)的全新开放协议,建立了Agent与Agent之间的对话语言。越来越多的互联网公司开始加入MCP阵营,包括Anthropic的老对手OpenAI,硅谷超过2000+企业,国内阿里百炼平台、魔搭开发社区开始构建基于MCP的平台,腾讯云、百度云等云平台也在陆续加入。

看起来节奏清晰井井有条。

而国内的AI Agent领域,则显得更加躁动。一边Manus以“全自动Agent”的故事引爆着资本热潮,另一边则是曾经的行业独角兽澜码科技遭遇发展危机,被曝出停薪资、停社保已经超过三个月,并于近期对数十名员工解除劳动合同。

“Manus爆火后,投资人把相关文章甩给我们质问‘人家这么牛,你们为什么不行?’” 某Agent公司创始人在收到如此询问时,她甚至找不到合适的语言向资方解释,什么是模块“缝合怪”。但与此同时,这种混乱又在给他们带来实打实的新增订单需求。客户不再问AI Agent是什么,而是直接提需求下订单。

它们都指向一个重要的信号:Agent行业正从“概念验证期”迈入“生态定型期”,技术标准与商业模式的“分水岭”已然浮现。在这两种不同的氛围背后,是两种不同的路线,硅谷沉迷于对AI Agent制定规则,而中国公司已经在抢跑了。

中国为什么没有MCP?

首先我们必须明确的是:Agent不仅仅是一种应用形态,将其简单对比“超级应用”实际上是对其本质的误解。Agent代表了一条全新的产业链,它连接并整合了多个技术环节,需要调动几乎整个互联网生态的软件资源。

我们简单制作了目前Agent产业生态的图谱(当然它是动态变化的)以供大家理解。当前,构建真正通用的智能体需要两个核心要素:一是强大的“大脑”:能够接收任务并进行精细拆解,对每个步骤的微操作都能完美执行,这要求大模型具备强大的多模态能力;而是可靠的“手脚”,则能够稳定执行在各种环境中,确保跨平台、跨设备的一致性表现。

针对To C和To B两种场景,对Agent的能力要求截然不同:To C的通用型Agent不必追求极高准确性,但需要更强的通用性和灵活性,依赖强大的“大脑”进行决策;而To B场景下的“数字员工”则要求极高的准确性,对灵活性要求相对较低,更依赖高效稳定的“手脚”执行能力。

因此,行业内几乎形成共识:通用型Agent深度依赖基础模型能力,本质上是模型厂商能力的延伸,会随模型升级而进化,创业公司在此领域能施展的空间极为有限。

从这一视角看,Anthropic作为基础模型厂商率先推出MCP,并非因其拥有最强话语权,而是因其最需要与互联网现有软件生态建立连接,实现底层能力的整合与打通。

硅谷与中国在Agent领域的发展差异,正是两地软件生态长期积累形成的根本区别的直接反映。硅谷软件生态以高度标准化和互联互通为核心特征。制造业Agent数字员工打造者语核科技创始人翟星吉精准指出:“美国市场中,每个细分场景往往会有独立的SaaS公司提供垂直服务,这使得互通互联成为Agent发展的必要条件”。在SaaS普及率超过80%的环境下,Salesforce、Slack等头部产品成为企业标配,自然催生了对标准化接口的强烈需求。

在MCP等统一协议框架下,现有SaaS服务自然成为生态组成部分,既服务终端用户,又能被其他Agent调用。企业级数字员工AI Agent平台来也科技CTO胡一川形象地比喻:“MCP对行业的影响类似于USB-C标准化对电子设备的影响,它大幅降低了开发成本。以前100个开发者连接100个工具需要10000项工作,现在通过MCP,双方只需准备好对应接口,即可实现全面连接,工作量呈指数级下降。”

相比之下,中国软件生态发展不均衡,而这种软件生态的根本差异,最终导致了中国缺乏类似MCP的统一协议标准。这不只是Agent技术路径的不同,更显现了数字基础设施发展阶段的不同。

一旦MCP与A2A构建起智能体世界的“水电煤”基础设施,后来者要么接入这套体系成为生态参与者,要么被排除在主流交互网络之外。

那么制定标准的人将掌握了最重要的话语权,如同我们所见的安卓系统,或是Cuda,当下国内Agent公司都正面临着是加入还是独立发展的重要节点。

从当前的情况来看,似乎中国互联网的基础模型公司,并没有另起炉灶的打算。 4月15日,魔搭推出全新MCP广场,上架千余款热门的MCP服务。魔搭MCP产品经理告诉硅星人:“我们正在成为MCP的生态共建者,包括建立一些MCP应用的BenchMark,以及给一些应用提供启动流量等等。”

本该是兵家必争之地的标准制定者,为什么基模厂商轻易让给了Anthropic?

据硅星人的了解,一部分原因是因为统一协议本身可能只是AI发展的阶段性产物,从技术的角度来说,一旦建立了Agent的通用行动模型(参考机器人模型),就可以绕过API或者协议接口,直接完成操作,争也只是一时;另一方面,互联网大厂们快速加入MCP阵营后,能够将此前的优势积累释放,比如魔搭接入了收割支付宝提供的支付MCP接口,一旦Agent采用了通用的支付接口,支付生态可以在AI时代复利,这或许是一个比掌握协议本身更大的市场。

硅谷修路,中国造车

硅谷通过推动统一协议标准,对Agent生态而言就像是在“修路”,建立基础设施和互联互通的标准。而中国企业则专注于“造车”,打造能在特定场景下高效运行的实用解决方案。加入MCP、A2A或其他协议,对中国企业而言只是时间和选择问题。无论哪种路径,最终要让Agent生态完整运转,都需要一辆辆“车”真正跑起来。

在中国市场,C端Agent仍处于非常早期阶段,以智谱AutoGLM为代表的通用智能体正在积极打磨产品形态、技术路线和商业模式,而绝大多数创业公司则将目光聚焦在2B领域。

“我们认为未来2-3年是智能体商业化落地的关键窗口期。端到端的纯大模型方案(如Manus等)不太可能在这个时间窗口内达到理想的商业落地水平,因为它们在可控性、稳定性和成本方面仍存在重大挑战。”企业级通用智能体企业实在智能创始人孙林君判断道。

To B的快速发展首先来源于市场需求的爆发性增长。“自从今年2月DeepSeek发布之后,我们明显感受到企业级Agent市场迎来了一波'爆单潮',”翟星吉回忆道,“仅在最近三个月,我们在推进的新项目就超过了20个,今年的预期营收也超过了千万。这在以前是很难想象的速度。”

胡一川也表达了类似观察:“我们在制造业和金融领域的Agent项目询单量比去年同期暴增了数倍。企业客户对AI Agent的热情程度远超我们预期,尤其是那些有明确流程优化需求的传统行业客户。”

其次是to B领域相对清晰的商业模式,比如将销售转化率从5%提升到6%,虽然只增加了1个百分点,但对企业来说实际增长了20%,对大型企业而言这是相当可观的收益。

实际上,to B Agent实际上替代了传统的定制化系统,以更高效的方式解决企业痛点。这些“数字员工”正在形成全新的商业模式,不同于传统SaaS的固定功能,它们能够根据企业需求持续进化,实现真正的软件“活体化”。

“其实,MCP这类协议对2C市场的影响远大于2B领域。在企业场景中,系统大多采用封闭架构,且以本地私有化部署为主,很少需要连接公共互联网应用。”翟星吉补充到,这一特点使得中国企业在缺乏协议层支撑的情况下,被迫自主研发从数据处理到执行操作的全链条技术栈。

语核Langtum企业级Agent应用落地平台

如语核科技,其技术核心之一在于自研的工业文档解析引擎,专门处理企业分散的非结构化数据(将PDF格式的工艺参数表转化为结构化数据),以便大模型能够更好地理解行业专业知识。在硅谷,这本应是独立细分赛道的技术环节,但在中国市场环境下,语核不得不将其作为Agent解决方案的一部分直接交付。

“比如在制造业的采购环节,我们的Agent能够自动校对采购单、查找供应商、比对报价并完成下单流程,将原本需要2-3天的工作压缩至30分钟内完成,同时还能保持95%的准确性。”翟星吉讲道。

来也科技则是通过将RPA(流程自动化)与AI结合,构建出一个一体化平台,来保证更高准确率和更强灵活性。“我们的方案不是简单地将大模型和RPA拼接,而是构建了一个能够自我调整的智能系统,”胡一川解释道,“在传统RPA的基础上,我们增加了决策节点,允许系统在执行过程中根据实时情况进行判断和路径调整。”

来也科技数字员工平台架构图

例如,在某大型汽车主机厂的质检环节,来也科技的Agent能够自动识别并处理各类质检文档,当遇到异常情况时,系统会自动调用历史案例库进行比对分析,确定最佳处理方案。“这一应用将质检文档处理时间从原来的8小时缩短至1小时,准确率提升至99.2%,每年为客户节省人力成本超过200万元。”胡一川补充道,“更重要的是,随着使用时间延长,系统能够不断学习新的异常模式,持续提升处理能力。”

中国企业在构建Agent时往往采取这种“由点及面”的策略:先在特定场景中解决核心痛点,然后逐步扩展功能范围。实在智能创始人孙林君描述了他们的方法:“我们首先为制造业客户打造质检文档处理的专用Agent,证明价值后,再逐步扩展到生产计划、物料管理等相关环节,最终形成覆盖整个生产管理链条的智能体系统。”

当积累了大量针对复杂场景的实战经验,具体场景中的Agent往往具有更强的环境适应能力和问题解决能力。

Agent的另一种解法

硅谷的软件生态已经高度成熟,MCP等协议正在将这一生态重新连接,形成Agent主导的新格局。但这一趋势不可避免地将逐渐弱化传统软件企业的地位,使软件最终成为Agent的组件。

在美国,各软件间的标准化接口已经成为基础设施,Agent开发可以专注于调用这些接口。而在中国,Agent企业必须直面软件碎片化的现实,通过创新性的技术路径解决执行层问题。从某种意义上说,这反而催生了更加普适的技术方向。

“我们看到一个根本性问题:传统的Agent执行层要么依赖API调用,要么依赖像素级的视觉模拟,两者都存在明显局限,”实在智能创始人孙林君解释道,“前者在中国企业软件生态中成本很高且速度慢 ,后者则面临稳定性和泛化能力不足的挑战。”

那么,RPA方案和视觉感知方案有没有可能融合在一起?实在智能创新性的尝试了“融合拾取技术”。

“我们训练了一个名为塔斯(TARS)的垂直大模型,专注于电脑操作领域。这个模型提升了任务理解、状态识别和操作决策能力,本质上是一种‘text-to-action’或更精确地说是‘text+image-to-action’模型。例如,当看到一个有搜索框和按钮的界面时,模型能理解「搜索实在智能」这样的指令,确定需要在搜索框中输入文本并点击特定按钮,然后生成相应代码执行操作。”

“我们训练的视觉模型可在100-200毫秒内识别界面中的各类元素(输入框、按钮、下拉菜单、表格、对话框、密码区域等),然后将这些视觉识别结果与传统方式识别的底层元素整合。目前在网页元素识别和操作方面比GPT-4o高出约10个百分点,在任务拆解方面高出4-5个百分点,这项技术也获得国家优秀奖专利。”孙林君补充道。

一般遇到未见过的软件,都需要派工程师到客户现场进行适配。但现实中未见过的软件可能是无穷无尽的,这种人工适配模式难以扩展。融合拾取突破了传统Computer Vision方案对屏幕分辨率和界面布局的依赖,提高了Agent在真实复杂环境中的适应能力。

除了技术创新外,在生态构建上也出现了新的机会。Agent公司究竟应该以什么身份对企业进行服务?是传统软件?定制化系统?还是AI技术提供商?商业模式是软件付费模式、按token付费、还是以“数字员工”的形式按人头付费?

“我们认识到一个现实:在2B领域,尤其是传统行业,行业know-how的积累至关重要,但从0到1自己完成这一过程周期太长,很难满足当下市场的迫切需求,”AI Agent 智能体云生态服务平台汇智智能创始人孙志明表示,“因此我们选择了另一条路——成为行业知识与AI技术的整合者,将已经数字化的行业知识与Agent能力结合,打造1+1大于2的解决方案。”

这种模式的核心在于识别并整合已被数字化的行业知识。在制造业、医疗、金融等领域,过去十年的信息化建设已经沉淀了大量专业知识,孙志明解释到,“例如,ERP系统中的工艺流程、医疗系统中的诊断规则、金融系统中的风控模型,这些都是经过多年验证的行业智慧。我们不需要重新发明轮子,而是将这些知识提取、结构化,然后与大模型能力结合。我们与行业信息化服务商、垂直领域咨询公司、以及专业数据提供商建立了深度合作关系,共同打造完整的智能解决方案。”

对于像澜码这样的创业公司,从0到1自主积累行业知识确实周期过长,对创企的考验也更加大,核心原因在于没有找准自己的定位,是技术提供者、知识整合者还是解决方案交付者,然后围绕这一定位构建合作生态。

相比之下,新的商业模式或许更加适合中国市场现状。在中国大型企业的数字化程度参差不齐,但几乎所有企业都有不同程度的信息化基础,在Agent驱动下,或许能重新定义软件服务的形态和交付方式。

毕竟,技术发展从来不是单一直线,在这个过程中,中国企业和硅谷巨头都在用各自的方式,共同推动Agent走向成熟。