AIAgents全栈技术框架综述与未来
编者荐语:
推荐。
以下文章来源于PaperAgent ,作者PaperAgent
PaperAgent .
日更,解读AI前沿技术热点Paper
LLM Agents正在变得广泛传播,但它们并非轻易就能创造出来,需要许多组件协同工作。以 40+ 张图解 ,探索 LLM Agents 的 主要组件 、 Multi-Agent框架、 以及 MCP 等全栈技术 要点,比如:
Agent如何从失败Plan中学习经验?
LLM、MCP、Tool交互细节?
几十种Multi-Agent架构,核心组件是?
什么是 LLM Agent?
AI Agent是任何可以通过传感器感知其环境并通过执行器对环境采取行动的东西。
——罗素和诺维格,《人工智能:一种现代方法》(2016 年)
Agents与环境互动,通常包括几个重要组件:
• 环境 —— 代理互动的世界
• 传感器 —— 用于观察环境
• 执行器 —— 用于与环境互动的工具
• 效应器 —— 决定如何从观察到行动的“大脑”或规则
这个框架适用于所有与各种环境互动的代理,比如与物理环境互动的机器人或与软件互动的AI Agents。
可以稍微扩展这个框架,使其适用于“增强型 LLM”。
使用“增强型”LLM,Agent可以通过文本输入观察环境,并通过使用工具执行某些行动。
为了选择要采取哪些行动,LLM Agent有一个关键组件: 它的计划能力 。为此,LLM 需要能够通过链式思考等方法进行“推理”和“思考”。
利用这种推理行为,LLM Agent将计划出要采取的必要行动。
这种计划行为使Agent能够理解情况(LLM)、计划下一步(计划)、采取行动(工具)并跟踪已采取的行动(记忆)。
根据系统,你可以拥有不同程度自主性的 LLM Agents。
一个系统越“ agentic ”,LLM 就越能决定系统的行动方式。
将通过 LLM Agent的三个主要组件: 记忆、工具和计划 ,来探索各种自主行为的方法。
记忆
LLM 是健忘的系统,或者更准确地说,在与它们互动时,它们根本不进行任何记忆。
例如,当你问 LLM 一个问题,然后又接着问另一个问题时,它不会记得前者。
我们通常将其称为短期记忆,也称为工作记忆,它作为(近乎)即时上下文的缓冲区。这包括 LLM 代理最近采取的行动。
然而,LLM 代理还需要跟踪可能多达数十步的行动,而不仅仅是最近的行动。
这被称为长期记忆,因为 LLM 代理理论上可能需要记住多达数十步甚至数百步。
短期记忆
实现短期记忆最直接的方法是使用模型的上下文窗口,这本质上是 LLM 可以处理的 token 数量。
较大的上下文窗口可以用来跟踪完整的对话历史,作为输入提示的一部分。
对于上下文窗口较小的模型,或者当对话历史较大时,可以改用另一个 LLM 来总结到目前为止发生的对话。
长期记忆
LLM Agents的长期记忆包括需要长期保留的Agents过去的行动空间。
实现长期记忆的一个常见技术是将所有之前的互动、行动和对话存储在一个外部向量数据库中。
在构建数据库之后,可以通过 RAG 方式检索相关信息。
工具
工具允许给定的 LLM 要么与外部环境(如数据库)互动,要么使用外部应用程序(如运行自定义代码)。
工具通常有两种用例:获取数据以检索最新信息和采取行动,比如安排会议或点餐。
要实际使用一个工具,LLM 必须生成适合给定工具的 API 的文本。我们通常期望的是可以格式化为 JSON 的字符串,以便可以轻松地输入到代码解释器中。
Toolformer
工具使用是一种强大的技术,可以增强 LLM 的能力并弥补它们的不足。因此,关于工具使用和学习的研究在过去几年中迅速增加。
最早实现这一目标的技术之一被称为 Toolformer,这是一个训练用于决定调用哪些 API 以及如何调用的模型。
模型上下文协议(MCP)
工具是具代理性框架的重要组成部分,允许 LLM 与世界互动并扩展其能力。然而,当你有许多不同的 API 时,启用工具使用变得很麻烦,因为任何工具都需要:
• 手动跟踪并输入给 LLM
• 手动描述(包括其预期的 JSON 模式)
• 每当其 API 发生变化时手动更新
为了使工具更容易在任何给定的具代理性框架中实现,Anthropic 开发了模型上下文协议(MCP)。MCP 为天气应用和 GitHub 等服务标准化了 API 访问。
它由三个组件组成:
• MCP 主机 —— LLM 应用程序(例如 Cursor),管理连接
• MCP 客户端 —— 与 MCP 服务器保持一对一连接
• MCP 服务器 —— 为 LLM 提供上下文、工具和能力
例如,假设你希望某个 LLM 应用程序总结你仓库中的最新 5 次提交。
MCP 主机(与客户端


共有 0 条评论