AI智能体(一):介绍
1 周前 / 阅读约16分钟
来源:36kr
探索AI智能体的设计原理与现实应用。

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:2025年是AI智能体元年。本系列文章旨在介绍AI智能体的概念、类型、原理、架构、开发等,为进一步了解AI智能体提供入门知识。本文为系列文章的第一篇,文章来自编译。

大语言模型(LLM)的出现让人工智能有了巨大飞跃。这些强大系统革新了自然语言处理,但其真正潜力在于与“智能体能力”(自主推理、规划和行动)的结合。这正是LLM智能体的用武之地,标志着我们与AI交互以及利用AI的方式出现了范式转变。

AI智能体技术栈

本文旨在全面解析AI智能体,探讨其特性、组成与类型,并分析其发展历程、挑战及未来方向。

我们先了解从LLM到AI智能体的演进之路。

1. 从LLM到AI智能体

LLM应用形态的演变是现代应用的最快发展之一。

1.1 从传统聊天机器人到LLM驱动的聊天机器人

聊天机器人并非新事物,在生成式AI(gen AI)概念出现前,你可能已经跟网上的聊天机器人互动过了。

前生成式AI时代的传统聊天机器人与当今AI驱动的对话智能体有本质区别,那种机器人一般是这样子的:

基于规则的响应:

  • 传统聊天机器人依赖基于规则的逻辑(“if-then”语句)。
  • 仅能处理预定义规则,无法应对复杂或模糊的查询。

固定回复:

  • 回复为静态且预先设定的。
  • 通过检测特定关键词或短语触发。
  • 缺乏灵活性和对话深度。

人工接管:

  • 搞不定的查询会提供一个“转人工”按钮。
  • 复杂问题仍需人工干预。

1.2 LLM驱动的聊天机器人的诞生

ChatGPT的发布:2022年11月30日,OpenAI推出基于GPT-3.5的ChatGPT,成为首个主流LLM应用。

ChatGPT沿用了传统的聊天界面,但背后是经海量互联网语料训练而成的先进LLM技术。

Transformer架构:GPT(Generative Pre-trained Transformer)的基础是谷歌2017年提出的Transformer架构。

其通过自注意力机制分析输入序列,深入理解上下文。

LLM的能力:与传统聊天机器人不同,LLM能生成类人的、上下文相关且新颖的文本。

用例包括代码生成、内容创作、客户服务增强等。

局限性:

  • 个性化:难以在长对话中保持一致的个性化互动。
  • 幻觉问题:可能会生成事实错误但逻辑通顺的回复,因输出依赖概率而非验证过的知识。

应对措施:

  • 探索检索增强生成(RAG)等技术,让输出基于可靠的外部数据。
  • 这些进展旨在减少错误并提升LLM系统的健壮性。

1.3 从LLM聊天机器人到RAG聊天机器人与AI智能体

RAG聊天机器人:检索增强生成(RAG)将外部数据检索与LLM能力结合,生成准确且情境化的回复。

知识来源:

  • 非参数化知识:从互联网或专有数据库等外部来源检索到的实时数据。
  • 参数化知识:LLM训练中内嵌的知识。

优点:减少幻觉、提供最新信息并确保可验证的回复。

提示工程:通过上下文学习(单样本、少样本)、思维链(CoT)和ReAct(推理+行动)等技术,引导LLM推理与输出生成,提升回复质量。

AI智能体:AI智能体由配备了工具、多步规划与推理能力的LLM演进而来。

工具使用:LLM可通过结构化模式(如JSON)分析任务并分配参数,调用编程定义好的函数或API。

环境:AI智能体在迭代执行环境中运行,支持基于反馈的动态决策与持续适配。

智能体系统:由自主智能体组成的计算架构,可整合多系统组件、做出决策并实现目标。

智能体式RAG:

  • 将LLM的推理、工具使用和规划能力与语义信息检索结合。
  • 构建动态系统,可分解任务、执行复杂查询并利用工具解决问题。

从LLM聊天机器人到RAG聊天机器人再到AI智能体的转型,标志着向更智能、自适应且集成工具的系统转变,这样的系统能实时解决复杂问题。

2. 什么是AI智能体?

AI智能体是通过传感器感知环境、处理信息,并通过执行器作用于环境以实现特定目标的系统。可将其视为能观察、思考与行动的数字实体,跟人类与环境的互动类似,不同的是以编程化和目标驱动的方式进行。

AI智能体的概念基于理性行为:智能体应采取实现目标可能性最大的行动。这种理性是AI智能体有别于简单的响应程序的核心特征。

2.1 AI智能体的特性

AI智能体具备以下关键特性:

  1. 自主性:无需人类干预,独立决策。
  2. 发射性与主动性:响应环境变化并主动采取措施实现目标。
  3. 适应性:通过处理新信息与经验进行学习与进化。
  4. 目标导向:以实现预定义目标或优化结果为方向。
  5. 交互性:与其他智能体或人类沟通协作。
  6. 持续性:持续运行,监控并响应动态环境。

3. AI智能体的核心组件

AI智能体的核心组件包括:

  1. 感知
  2. 推理
  3. 行动
  4. 知识库
  5. 学习
  6. 通信接口

3.1 感知(传感器)

传感器令智能体感知环境,包括物理传感器(摄像头、麦克风)或数字输入(数据流、用户交互)。

3.2 推理(处理器)

智能体的“大脑”,处理传感器信息并决定适当行动。

该组件实现智能体的决策算法并维护必要的内部状态。

AI智能体利用基于规则的系统、专家系统和神经网络等决策机制,做出明智决策并高效执行任务。

3.3 行动(执行器)

智能体影响环境或采取行动的手段。

可能是物理执行器(机械臂、扬声器)或数字执行器(数据库更新、显示输出)。

3.4 知识库

智能体用于决策的信息库,包含预编程知识与学习获得的信息。

3.5 学习

使智能体通过数据与经验学习,随时间提升性能。

利用强化学习、监督学习与无监督学习等技术持续优化智能体表现。

3.6 通信接口

让智能体可以与其他智能体、系统或人类交互。

在更大环境下的智能体

下文将详述各组件及智能体的运作方式。

4. AI智能体如何与环境交互

交互周期通常叫做“感知-规划-行动”循环。下面以自动驾驶汽车为例解析各阶段:

4.1 感知阶段

智能体的“感知”阶段可看作:

传感器 → 处理 → 状态更新

  • 智能体通过传感器接收输入
  • 信息被处理与解析
  • 基于新信息更新当前状态

4.2 决策阶段

智能体的“思考”阶段:

当前状态 + 目标 → 评估选项 → 选择最优行动

  • 智能体评估可能的行动
  • 权衡目标与约束
  • 基于可用信息选择最优行动

4.3 行动阶段

智能体的“执行”阶段:

执行行动 → 观察变化 → 启动新循环

  • 通过执行器执行选定行动
  • 环境因此改变
  • 智能体通过传感器观察结果,启动新循环

该循环持续重复,每秒可能执行多次。其强大之处在于:

  1. 适应性:若发生意外,智能体可在下一个感知阶段检测出来并调整行动。
  2. 学习机会:智能体可对比预测结果与实际结果,优化未来决策。
  3. 目标导向行为:每一循环均推动智能体在约束下趋近目标。

为了从编程的角度去理解,以恒温器为例对比三种复杂度:

1.简单程序

 # Simple program
if temperature > desired_temperature:
   turn_on_cooling()

  • 仅遵循固定规则
  • 不考虑后果
  • 无学习或适应

2.响应式程序

# Responsive program
if temperature > desired_temperature:
   if time_of_day == "peak_hours":
       turn_on_cooling_eco_mode()
   else:
       turn_on_cooling_normal()

  • 更复杂的规则
  • 一定情境感知
  • 仍无真正智能

3.AI智能体

class SmartThermostat:

    def perceive(self):

        current_temp = get_temperature()

        time = get_time()

        electricity_price = get_current_price()

        weather_forecast = get_forecast()

        user_preferences = get_preferences()

        return Environment(current_temp, time, electricity_price,

                         weather_forecast, user_preferences)

    def think(self, environment):

        possible_actions = [

            NoAction(),

            CoolNormal(),

            CoolEco(),

            PreCool(),

            WaitForOffPeak()

        ]

        # Evaluate each action's expected outcome

        best_action = None

        best_utility = float('-inf')

        for action in possible_actions:

            predicted_state = predict_future_state(environment, action)

            utility = calculate_utility(predicted_state)

            if utility > best_utility:

                best_action = action

                best_utility = utility

        return best_action

    def act(self, action):

        action.execute()

        monitor_results()

        update_learning_model()

  • 考虑多因素
  • 预测结果
  • 从经验中学习
  • 优化长期目标
  • 平衡竞争性目标

这个循环对所有AI智能体均适用:

  • 聊天机器人感知文本输入,考虑适当的回复并生成文本。
  • 交易机器人感知市场数据,制定策略并执行交易。
  • 扫地机器人感知房间布局与污垢,决定进入清洁模式并执行移动。

5. AI智能体如何运作?

假设你的智能冰箱不仅能在牛奶喝完时补货,还能根据你的浏览记录建议改喝杏仁奶。这算贴心还是有点吓人?你说了算!

这便是AI智能体的缩影。

AI智能体能理解人类语言(要归功于LLM)、对信息进行推理、规划行动,且无需持续的人工输入即可执行任务。

它们解决复杂问题的能力远胜简单自动化工具。

与基础脚本不同,AI智能体集成到软件系统之中,支持与环境的复杂交互。

AI智能体与简单自动化的区别

区别源于两大能力:

  • 工具使用
  • 规划

你或许见过ChatGPT连基础的数学题也会做错,那是因为它只靠训练数据做出响应。

同理,若要求你计算85×65,作为人类,你需直接知道答案或使用计算器工具。

AI智能体同理,需赋予其工具访问权限。

第二项能力是规划。

以同一道数学题为例,你需懂得乘法或知道向计算器传入参数85、65及乘法指令。

这便是规划与推理。

以下是向AI智能体发起查询时的流程:

AI智能体架构

5.1 编排层(控制中心)

假设我要创建一个AI会议智能体,我会跟调度器说“我想为学生举办一场网络研讨会”。

该查询将触发AI智能体。

编排层

查询可以是文本、音频、视频或图像(数据最终会转换为机器可处理的数值)。

查询由编排层(即智能体控制中心)处理。

编排层的四大职责:

  • 记忆:维护完整交互记录。
  • 状态:存储进程的当前状态。
  • 推理:引导智能体的推理过程。
  • 规划:确定步骤及下一步行动。

编排层会与模型(LLM)进行交互。

5.2 模型(大脑)

模型是整个智能体的中央决策者。

AI模型通常为大语言模型(LLM)。

AI智能体的模型

为了理解查询、制定计划并决定行动,模型采用以下推理与逻辑框架:

  • ReAct(推理+行动)

(推理+行动)确保审慎行动

  • 思维链

通过中间步骤推理

  • 思维树

探索多路径以寻找最优解

模型决定采取何种行动,并利用工具执行。

5.3 工具(手)

工具让智能体得以跟外部世界交互。

如计算器、API、网络搜索、外部数据库等都属于工具。

工具让智能体能执行模型无法独立完成的任务、获取实时信息或处理现实世界的任务。

6. ✅ 何时使用智能体 / ⛔ 何时应避免使用

当你需要LLM来决定应用的工作流时,智能体是有用的,但常被滥用。关键在于:你是否真的需要灵活工作流来高效解决任务?如果预设工作流经常失效的话,就需更高的灵活性。

以冲浪旅行网站客服应用为例:

若用户请求一般只有预设的两类(基于用户选择),且两类均有预设工作流:

  1. 用户需旅行信息 ⇒ 提供搜索栏访问知识库
  2. 用户需联系销售 ⇒ 提供联系表单

如果这种确定型工作流已覆盖所有查询,直接编码即可!这样的系统是100%可靠的,避免了LLM的不可预测。

出于简单性与健壮性的考虑,不建议优先采用智能体。

但如果工作流无法预先确定呢?

比方说,用户问:“我原计划周一到达,但忘带护照可能延迟至周三。能否在周二上午带上我和装备去冲浪?费用需包含取消险。”

这个问题涉及到多种因素,预设标准无法覆盖。

如果预设工作流经常覆盖不到的话,则需更高灵活性。

此时智能体架构便可派上用场。

上述案例中,可构建多步骤智能体,访问天气API获取预报、谷歌地图API计算距离、员工空闲情况面板及知识库RAG系统。

此前,计算机程序受限于预设工作流,试图通过堆叠if/else处理复杂性,仅能处理“数字求和”或“寻找最短路径”等范围狭窄的任务。但预设流程通常无法匹配上现实世界的任务(如上述旅行案例)。智能体系统为程序开启了处理现实任务的大门!

7. 应用领域

AI智能体是通用工具,可提升多领域生产力、效率与智能,正日益应用于日常场景与高影响领域。

8. 总结

AI智能体正改变我们与技术的互动方式,提供空前的自主性、智能与适应性。

从简单反射型智能体到复杂学习系统,AI智能体正应用到多个行业来解决复杂问题并增强人类能力。但构建高效智能体面临伦理关切、数据依赖与可扩展性等挑战。

随着AI技术的不断进步,AI智能体潜力巨大。通过关注通用AI、人机协作与伦理考量,我们可创建高效执行任务、符合人类价值观并为社会做出积极贡献的智能体。

核心要点:

  • AI智能体是自主系统,通过感知、决策与行动实现目标。
  • 核心组件包括传感器、执行器、决策引擎与学习模块。
  • AI智能体应用于虚拟助手、自动驾驶汽车与医疗等领域。

通过理解基础原理并紧跟进展,我们能利用AI智能体推动创新,创造出更美好的未来。

译者:boxi。