AI智能体（一）：介绍 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

AI智能体（一）：介绍

1 周前 / 阅读约16分钟

来源：36kr

探索AI智能体的设计原理与现实应用。

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：2025年是AI智能体元年。本系列文章旨在介绍AI智能体的概念、类型、原理、架构、开发等，为进一步了解AI智能体提供入门知识。本文为系列文章的第一篇，文章来自编译。

大语言模型（LLM）的出现让人工智能有了巨大飞跃。这些强大系统革新了自然语言处理，但其真正潜力在于与“智能体能力”（自主推理、规划和行动）的结合。这正是LLM智能体的用武之地，标志着我们与AI交互以及利用AI的方式出现了范式转变。

AI智能体技术栈

本文旨在全面解析AI智能体，探讨其特性、组成与类型，并分析其发展历程、挑战及未来方向。

我们先了解从LLM到AI智能体的演进之路。

1. 从LLM到AI智能体

LLM应用形态的演变是现代应用的最快发展之一。

1.1 从传统聊天机器人到LLM驱动的聊天机器人

聊天机器人并非新事物，在生成式AI（gen AI）概念出现前，你可能已经跟网上的聊天机器人互动过了。

前生成式AI时代的传统聊天机器人与当今AI驱动的对话智能体有本质区别，那种机器人一般是这样子的：

基于规则的响应：

传统聊天机器人依赖基于规则的逻辑（“if-then”语句）。
仅能处理预定义规则，无法应对复杂或模糊的查询。

固定回复：

回复为静态且预先设定的。
通过检测特定关键词或短语触发。
缺乏灵活性和对话深度。

人工接管：

搞不定的查询会提供一个“转人工”按钮。
复杂问题仍需人工干预。

1.2 LLM驱动的聊天机器人的诞生

ChatGPT的发布：2022年11月30日，OpenAI推出基于GPT-3.5的ChatGPT，成为首个主流LLM应用。

ChatGPT沿用了传统的聊天界面，但背后是经海量互联网语料训练而成的先进LLM技术。

Transformer架构：GPT（Generative Pre-trained Transformer）的基础是谷歌2017年提出的Transformer架构。

其通过自注意力机制分析输入序列，深入理解上下文。

LLM的能力：与传统聊天机器人不同，LLM能生成类人的、上下文相关且新颖的文本。

用例包括代码生成、内容创作、客户服务增强等。

局限性：

个性化：难以在长对话中保持一致的个性化互动。
幻觉问题：可能会生成事实错误但逻辑通顺的回复，因输出依赖概率而非验证过的知识。

应对措施：

探索检索增强生成（RAG）等技术，让输出基于可靠的外部数据。
这些进展旨在减少错误并提升LLM系统的健壮性。

1.3 从LLM聊天机器人到RAG聊天机器人与AI智能体

RAG聊天机器人：检索增强生成（RAG）将外部数据检索与LLM能力结合，生成准确且情境化的回复。

知识来源：

非参数化知识：从互联网或专有数据库等外部来源检索到的实时数据。
参数化知识：LLM训练中内嵌的知识。

优点：减少幻觉、提供最新信息并确保可验证的回复。

提示工程：通过上下文学习（单样本、少样本）、思维链（CoT）和ReAct（推理+行动）等技术，引导LLM推理与输出生成，提升回复质量。

AI智能体：AI智能体由配备了工具、多步规划与推理能力的LLM演进而来。

工具使用：LLM可通过结构化模式（如JSON）分析任务并分配参数，调用编程定义好的函数或API。

环境：AI智能体在迭代执行环境中运行，支持基于反馈的动态决策与持续适配。

智能体系统：由自主智能体组成的计算架构，可整合多系统组件、做出决策并实现目标。

智能体式RAG：

将LLM的推理、工具使用和规划能力与语义信息检索结合。
构建动态系统，可分解任务、执行复杂查询并利用工具解决问题。

从LLM聊天机器人到RAG聊天机器人再到AI智能体的转型，标志着向更智能、自适应且集成工具的系统转变，这样的系统能实时解决复杂问题。

2. 什么是AI智能体？

AI智能体是通过传感器感知环境、处理信息，并通过执行器作用于环境以实现特定目标的系统。可将其视为能观察、思考与行动的数字实体，跟人类与环境的互动类似，不同的是以编程化和目标驱动的方式进行。

AI智能体的概念基于理性行为：智能体应采取实现目标可能性最大的行动。这种理性是AI智能体有别于简单的响应程序的核心特征。

2.1 AI智能体的特性

AI智能体具备以下关键特性：

自主性：无需人类干预，独立决策。
发射性与主动性：响应环境变化并主动采取措施实现目标。
适应性：通过处理新信息与经验进行学习与进化。
目标导向：以实现预定义目标或优化结果为方向。
交互性：与其他智能体或人类沟通协作。
持续性：持续运行，监控并响应动态环境。

3. AI智能体的核心组件

AI智能体的核心组件包括：

感知
推理
行动
知识库
学习
通信接口

3.1 感知（传感器）

传感器令智能体感知环境，包括物理传感器（摄像头、麦克风）或数字输入（数据流、用户交互）。

3.2 推理（处理器）

智能体的“大脑”，处理传感器信息并决定适当行动。

该组件实现智能体的决策算法并维护必要的内部状态。

AI智能体利用基于规则的系统、专家系统和神经网络等决策机制，做出明智决策并高效执行任务。

3.3 行动（执行器）

智能体影响环境或采取行动的手段。

可能是物理执行器（机械臂、扬声器）或数字执行器（数据库更新、显示输出）。

3.4 知识库

智能体用于决策的信息库，包含预编程知识与学习获得的信息。

3.5 学习

使智能体通过数据与经验学习，随时间提升性能。

利用强化学习、监督学习与无监督学习等技术持续优化智能体表现。

3.6 通信接口

让智能体可以与其他智能体、系统或人类交互。

在更大环境下的智能体

下文将详述各组件及智能体的运作方式。

4. AI智能体如何与环境交互

交互周期通常叫做“感知-规划-行动”循环。下面以自动驾驶汽车为例解析各阶段：

4.1 感知阶段

智能体的“感知”阶段可看作：

传感器 → 处理 → 状态更新

智能体通过传感器接收输入
信息被处理与解析
基于新信息更新当前状态

4.2 决策阶段

智能体的“思考”阶段：

当前状态 + 目标 → 评估选项 → 选择最优行动

智能体评估可能的行动
权衡目标与约束
基于可用信息选择最优行动

4.3 行动阶段

智能体的“执行”阶段：

执行行动 → 观察变化 → 启动新循环

通过执行器执行选定行动
环境因此改变
智能体通过传感器观察结果，启动新循环

该循环持续重复，每秒可能执行多次。其强大之处在于：

适应性：若发生意外，智能体可在下一个感知阶段检测出来并调整行动。
学习机会：智能体可对比预测结果与实际结果，优化未来决策。
目标导向行为：每一循环均推动智能体在约束下趋近目标。

为了从编程的角度去理解，以恒温器为例对比三种复杂度：

1.简单程序

# Simple program
if temperature > desired_temperature:
turn_on_cooling()

仅遵循固定规则
不考虑后果
无学习或适应

2.响应式程序

# Responsive program
if temperature > desired_temperature:
if time_of_day == "peak_hours":
turn_on_cooling_eco_mode()
else:
turn_on_cooling_normal()

更复杂的规则
一定情境感知
仍无真正智能

3.AI智能体

class SmartThermostat:

    def perceive(self):

        current_temp = get_temperature()

        time = get_time()

        electricity_price = get_current_price()

        weather_forecast = get_forecast()

        user_preferences = get_preferences()

        return Environment(current_temp, time, electricity_price,

                         weather_forecast, user_preferences)

    def think(self, environment):

        possible_actions = [

            NoAction(),

            CoolNormal(),

            CoolEco(),

            PreCool(),

            WaitForOffPeak()

        ]

        # Evaluate each action's expected outcome

        best_action = None

        best_utility = float('-inf')

        for action in possible_actions:

            predicted_state = predict_future_state(environment, action)

            utility = calculate_utility(predicted_state)

            if utility > best_utility:

                best_action = action

                best_utility = utility

        return best_action

    def act(self, action):

        action.execute()

        monitor_results()

        update_learning_model()