神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:2025年是AI智能体元年。本系列文章旨在介绍AI智能体的概念、类型、原理、架构、开发等,为进一步了解AI智能体提供入门知识。本文为系列文章的第一篇,文章来自编译。
大语言模型(LLM)的出现让人工智能有了巨大飞跃。这些强大系统革新了自然语言处理,但其真正潜力在于与“智能体能力”(自主推理、规划和行动)的结合。这正是LLM智能体的用武之地,标志着我们与AI交互以及利用AI的方式出现了范式转变。
AI智能体技术栈
本文旨在全面解析AI智能体,探讨其特性、组成与类型,并分析其发展历程、挑战及未来方向。
我们先了解从LLM到AI智能体的演进之路。
LLM应用形态的演变是现代应用的最快发展之一。
聊天机器人并非新事物,在生成式AI(gen AI)概念出现前,你可能已经跟网上的聊天机器人互动过了。
前生成式AI时代的传统聊天机器人与当今AI驱动的对话智能体有本质区别,那种机器人一般是这样子的:
基于规则的响应:
固定回复:
人工接管:
ChatGPT的发布:2022年11月30日,OpenAI推出基于GPT-3.5的ChatGPT,成为首个主流LLM应用。
ChatGPT沿用了传统的聊天界面,但背后是经海量互联网语料训练而成的先进LLM技术。
Transformer架构:GPT(Generative Pre-trained Transformer)的基础是谷歌2017年提出的Transformer架构。
其通过自注意力机制分析输入序列,深入理解上下文。
LLM的能力:与传统聊天机器人不同,LLM能生成类人的、上下文相关且新颖的文本。
用例包括代码生成、内容创作、客户服务增强等。
局限性:
应对措施:
RAG聊天机器人:检索增强生成(RAG)将外部数据检索与LLM能力结合,生成准确且情境化的回复。
知识来源:
优点:减少幻觉、提供最新信息并确保可验证的回复。
提示工程:通过上下文学习(单样本、少样本)、思维链(CoT)和ReAct(推理+行动)等技术,引导LLM推理与输出生成,提升回复质量。
AI智能体:AI智能体由配备了工具、多步规划与推理能力的LLM演进而来。
工具使用:LLM可通过结构化模式(如JSON)分析任务并分配参数,调用编程定义好的函数或API。
环境:AI智能体在迭代执行环境中运行,支持基于反馈的动态决策与持续适配。
智能体系统:由自主智能体组成的计算架构,可整合多系统组件、做出决策并实现目标。
智能体式RAG:
从LLM聊天机器人到RAG聊天机器人再到AI智能体的转型,标志着向更智能、自适应且集成工具的系统转变,这样的系统能实时解决复杂问题。
AI智能体是通过传感器感知环境、处理信息,并通过执行器作用于环境以实现特定目标的系统。可将其视为能观察、思考与行动的数字实体,跟人类与环境的互动类似,不同的是以编程化和目标驱动的方式进行。
AI智能体的概念基于理性行为:智能体应采取实现目标可能性最大的行动。这种理性是AI智能体有别于简单的响应程序的核心特征。
AI智能体具备以下关键特性:
AI智能体的核心组件包括:
传感器令智能体感知环境,包括物理传感器(摄像头、麦克风)或数字输入(数据流、用户交互)。
智能体的“大脑”,处理传感器信息并决定适当行动。
该组件实现智能体的决策算法并维护必要的内部状态。
AI智能体利用基于规则的系统、专家系统和神经网络等决策机制,做出明智决策并高效执行任务。
智能体影响环境或采取行动的手段。
可能是物理执行器(机械臂、扬声器)或数字执行器(数据库更新、显示输出)。
智能体用于决策的信息库,包含预编程知识与学习获得的信息。
使智能体通过数据与经验学习,随时间提升性能。
利用强化学习、监督学习与无监督学习等技术持续优化智能体表现。
让智能体可以与其他智能体、系统或人类交互。
在更大环境下的智能体
下文将详述各组件及智能体的运作方式。
交互周期通常叫做“感知-规划-行动”循环。下面以自动驾驶汽车为例解析各阶段:
智能体的“感知”阶段可看作:
传感器 → 处理 → 状态更新
智能体的“思考”阶段:
当前状态 + 目标 → 评估选项 → 选择最优行动
智能体的“执行”阶段:
执行行动 → 观察变化 → 启动新循环
该循环持续重复,每秒可能执行多次。其强大之处在于:
为了从编程的角度去理解,以恒温器为例对比三种复杂度:
1.简单程序
# Simple program
if temperature > desired_temperature:
turn_on_cooling()
2.响应式程序
# Responsive program
if temperature > desired_temperature:
if time_of_day == "peak_hours":
turn_on_cooling_eco_mode()
else:
turn_on_cooling_normal()
3.AI智能体
class SmartThermostat:
def perceive(self):
current_temp = get_temperature()
time = get_time()
electricity_price = get_current_price()
weather_forecast = get_forecast()
user_preferences = get_preferences()
return Environment(current_temp, time, electricity_price,
weather_forecast, user_preferences)
def think(self, environment):
possible_actions = [
NoAction(),
CoolNormal(),
CoolEco(),
PreCool(),
WaitForOffPeak()
]
# Evaluate each action's expected outcome
best_action = None
best_utility = float('-inf')
for action in possible_actions:
predicted_state = predict_future_state(environment, action)
utility = calculate_utility(predicted_state)
if utility > best_utility:
best_action = action
best_utility = utility
return best_action
def act(self, action):
action.execute()
monitor_results()
update_learning_model()
这个循环对所有AI智能体均适用:
假设你的智能冰箱不仅能在牛奶喝完时补货,还能根据你的浏览记录建议改喝杏仁奶。这算贴心还是有点吓人?你说了算!
这便是AI智能体的缩影。
AI智能体能理解人类语言(要归功于LLM)、对信息进行推理、规划行动,且无需持续的人工输入即可执行任务。
它们解决复杂问题的能力远胜简单自动化工具。
与基础脚本不同,AI智能体集成到软件系统之中,支持与环境的复杂交互。
AI智能体与简单自动化的区别
区别源于两大能力:
你或许见过ChatGPT连基础的数学题也会做错,那是因为它只靠训练数据做出响应。
同理,若要求你计算85×65,作为人类,你需直接知道答案或使用计算器工具。
AI智能体同理,需赋予其工具访问权限。
第二项能力是规划。
以同一道数学题为例,你需懂得乘法或知道向计算器传入参数85、65及乘法指令。
这便是规划与推理。
以下是向AI智能体发起查询时的流程:
AI智能体架构
假设我要创建一个AI会议智能体,我会跟调度器说“我想为学生举办一场网络研讨会”。
该查询将触发AI智能体。
编排层
查询可以是文本、音频、视频或图像(数据最终会转换为机器可处理的数值)。
查询由编排层(即智能体控制中心)处理。
编排层的四大职责:
编排层会与模型(LLM)进行交互。
模型是整个智能体的中央决策者。
AI模型通常为大语言模型(LLM)。
AI智能体的模型
为了理解查询、制定计划并决定行动,模型采用以下推理与逻辑框架:
(推理+行动)确保审慎行动
通过中间步骤推理
探索多路径以寻找最优解
模型决定采取何种行动,并利用工具执行。
工具让智能体得以跟外部世界交互。
如计算器、API、网络搜索、外部数据库等都属于工具。
工具让智能体能执行模型无法独立完成的任务、获取实时信息或处理现实世界的任务。
当你需要LLM来决定应用的工作流时,智能体是有用的,但常被滥用。关键在于:你是否真的需要灵活工作流来高效解决任务?如果预设工作流经常失效的话,就需更高的灵活性。
以冲浪旅行网站客服应用为例:
若用户请求一般只有预设的两类(基于用户选择),且两类均有预设工作流:
如果这种确定型工作流已覆盖所有查询,直接编码即可!这样的系统是100%可靠的,避免了LLM的不可预测。
出于简单性与健壮性的考虑,不建议优先采用智能体。
但如果工作流无法预先确定呢?
比方说,用户问:“我原计划周一到达,但忘带护照可能延迟至周三。能否在周二上午带上我和装备去冲浪?费用需包含取消险。”
这个问题涉及到多种因素,预设标准无法覆盖。
如果预设工作流经常覆盖不到的话,则需更高灵活性。
此时智能体架构便可派上用场。
上述案例中,可构建多步骤智能体,访问天气API获取预报、谷歌地图API计算距离、员工空闲情况面板及知识库RAG系统。
此前,计算机程序受限于预设工作流,试图通过堆叠if/else处理复杂性,仅能处理“数字求和”或“寻找最短路径”等范围狭窄的任务。但预设流程通常无法匹配上现实世界的任务(如上述旅行案例)。智能体系统为程序开启了处理现实任务的大门!
AI智能体是通用工具,可提升多领域生产力、效率与智能,正日益应用于日常场景与高影响领域。
AI智能体正改变我们与技术的互动方式,提供空前的自主性、智能与适应性。
从简单反射型智能体到复杂学习系统,AI智能体正应用到多个行业来解决复杂问题并增强人类能力。但构建高效智能体面临伦理关切、数据依赖与可扩展性等挑战。
随着AI技术的不断进步,AI智能体潜力巨大。通过关注通用AI、人机协作与伦理考量,我们可创建高效执行任务、符合人类价值观并为社会做出积极贡献的智能体。
核心要点:
通过理解基础原理并紧跟进展,我们能利用AI智能体推动创新,创造出更美好的未来。
译者:boxi。