苦涩的启示：对AI系统构建方式的反思 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

苦涩的启示：对AI系统构建方式的反思

2 天前 / 阅读约6分钟

来源：36kr

算力驱动AI超越人工规则，强化学习重塑工程范式。

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：理查德·萨顿提出的“苦涩的教训”揭示AI发展本质：算力驱动系统终将超越人工设计。本文通过客服案例和强化学习革命阐明，企业应聚焦算力基建与扩展架构，工程师需转型为算力赛道的搭建者，而非规则制定者。文章来自编译。

AI进步之争

2019年，Richard Sutton发表了开创性文章《苦涩的启示》。简言之，其核心结论是：随着算力提升而进化的系统，终将战胜那些无法如此的系统。在AI领域，原始算力始终碾压人类设计的复杂方案。我曾以为精巧编排与复杂规则是构建更好AI系统的关键——这是典型的软件开发者思维：搭建系统、寻找边缘案例并搞定即可大功告成。我可真是大错特错。

自然界的启示

近日我在打理小花园时，顿悟出这个原理的完美类比：植物生长不需要详细指令。只要提供基础条件（水、阳光、养分），它们自会探索生长之道。这正是高效AI系统的工作方式。

当我们的AI解决方案被过度设计时，就像对植物的生长进行微观管理，规定每片叶子的发育路径。这不仅低效，还会制造出无法适应新环境的脆弱系统。

三种方案的启示

当前，客户服务是AI智能体最常见的企业应用场景之一。容我分享构建客服自动化系统时的一个真实案例：

基于规则的方法：初期，人们设计了包含数百条规则的决策树来处理客户咨询。虽能应对常规案例，但稍遇变化即崩溃，维护成本更是噩梦。

有限算力智能体：随着ChatGPT问世，算力有限的AI客服出现。根据历史数据或标准流程编写提示词，虽能处理简单问题，但面对复杂咨询仍需人工干预。

这便是多数AI智能体的现状。路径之一是进一步限制其边界，引入各种框架和护栏确保智能体忠于目标，但却在无意间固化了算力上限。或者尝试：

扩展方案：我们尝试突破性思路——加大算力投放。不仅升级GPU，更重构了AI使用范式：让智能体并行生成多个回应，同步运行多条推理路径并择优输出。每次与客户交互可能触发数十次AI调用以探索不同方案。系统生成多种潜在回应、评估效果，甚至模拟对话走向。尽管算力消耗巨大，效果却令人惊叹。它开始处理我们未曾设想的边缘案例，更重要的是，通过自由探索发现了自然涌现的交互模式。

强化学习革命

2025年，这一模式在强化学习（RL）智能体上体现得愈发显著。当众多公司忙于为通用模型套壳（约束模型遵循特定工作流）时，真正的突破来自对后训练RL算力的投入。这些RL增强模型不仅遵循预设模式，更能发现全新解决方案。以OpenAI的深度研究或Claude的计算机使用能力为例，它们证明了：在后训练阶段投入海量算力，效果远胜复杂编排层。套壳没有错，但那属于固守单一解题路径。而拥有探索自由与庞大算力的RL智能体，找到了人类未曾设想的更优方案。

RL智能体的精妙在于其自然学习机制。就像教人骑自行车——你不会扔给对方50页的物理原理手册，而是让人通过尝试、摔倒、调整最终掌握。RL智能体也是一样的原理，但规模要大得多：尝试数千种解题路径，接收效果反馈，成功强化特定神经通路，每次失败都有助于避免走进死胡同。

比方说在客服场景里，RL智能体可能发现：即使问题看似明确，在对话早期提出澄清性质疑，能显著提升解决率。这种模式通常不会被编码进套壳里面，而是由智能体通过海量试错发现的。关键在于拥有足够算力去跑这些实验，并从中学习。

这种方法的强大之处在于，它突破了人类的认知局限。套壳方案本质上是对现有最佳实践的固化，而RL智能体却能发现全新范式。它们可能会发现：看似无关的方法组合，效果却优于人类设计的逻辑分步方案。这正是“苦涩的启示”的实践——在充足算力下，探索式学习终将战胜人工规则。

Claude代码与Cursor的竞争即将印证这点。当前用户反馈Cursor与Claude Sonnet 3.7兼容性欠佳，但与3.5版的配合却很完美。而使用Sonnet 3.7的Claude代码虽消耗大量token，效果却十分惊人。据悉Cursor将推出基于用量的定价方案，以更好利用3.7版的智能体行为。这种模式将在更多领域显现，特别是在非代码领域——当人类固守单一流程时，智能体已在探索多条路径。