AI Agent 大语言模型 | 游鱼思工作室

标签

AI Agent 的构成

1. 记忆

LLM 是无状态（stateless）的，大参数量使产品无法基于每一次交互的经验来更新模型的内部参数。不过由于 LLM 能理解大量语义信息，Agent 系统可以在模型之外建立一个记录信息的记忆系统，来模仿人类大脑那样从过往的经验中学习正确的工作模式。

以下分类根据医学中人类的几种记忆方式类比，将 AI agent 的记忆系统分为短期记忆与三种长期记忆：

短期记忆：
• 工作记忆（Working Memory）：这一轮决策所需要用到的所有信息。其中包括上下文内容，例如从长期记忆中检索到的知识；也包括 LLM context 以外的信息，例如 function call 时使用其他能力所产生的数据

长期记忆：
• 事件记忆（Episodic Memory）：Agent 对过去多轮决策中所发生事情的记忆。每一次 LLM 有了新的行为和结果，agent 都会把内容写进情节记忆。例如在 Generative agents 小镇中，虚拟小镇的 agent 居民会把自己每天看到的事、说过的话计入事件记忆。要使得用户得到个性化的使用体验，这一部分的优化是至关重要的。

• 语义记忆（Semantic Memory）：Agent 对自身所在世界的语义知识记忆，一般通过外部向量存储和检索来调用。这一部分记忆可以用类似知识图谱的思路，使 agent 之间的知识更方便共享和更新。同样以 Generative agents 小镇为例，agent 居民会记忆其他居民的爱好、生日等信息，这都是语义记忆。

• 程序记忆（Procedural Memory）：在一些特定场景下，agent 执行操作的 workflow 会通过代码的形式在框架中写出来。这类记忆使部分行为能够按照更可控的工作流来执行。以 Generative agents 小镇类比，agent 居民会有自己的行为习惯，比如每天晚上要去某条街散步等等。

2. 行动

面对不同的任务，Agent 系统有一个完整的行动策略集，在决策时可以选择需要执行的行动。以下罗列几个最常见、重要的行为，实际应用中根据不同场景会有补充和优先级的差异：

• 工具使用：智人与其他动物的重要区别是其使用工具的能力，而 LLM 同样可以通过这一点来扬长避短。AI Agents 可以通过文档和数据集教会 agent 如何调用外部工具的 API，来补足 LLM 自身的弱项。例如复杂的数学计算就不是 LLM 的长处，调用 Calculator() 可以事半功倍。

• 职责扮演：AI agent 系统中，不同 LLM 需要进行分工的机制设计。就像在工厂和公司制中常常出现的角色配合和博弈那样，LLM 之间也需要各司其职，按照各自的职责去完成任务，形成一个完整的协同组织。

• 记忆检索：指的是从长期记忆中找到与本次决策相关的信息，将其放到工作记忆、交给 LLM 处理的过程。

• 推理：从短期工作记忆生成新知识，并将其存入长期记忆中

• 学习：将新的知识和对话历史加入长期记忆，让 Agent 更了解用户

• 编程：AI agent 可以实现很多长尾的开发需求，让软件变得接近定制。而编程是最适合 AI agent 去自己迭代和收集反馈（是否能有效执行）的环境，因为能自己形成反馈的闭环

3. 决策

前面提到很多行动可以由 Agent 进行规划和执行，而决策这一步就是从中选择最为合适的一个行为去执行。

• 事前规划：LLM 能够将一个大目标分解为较小的、可执行的子目标，以便高效的处理复杂任务。对于每一个目标，评估使用不同行为方案的可行性，选择其中期望效果最好的一个。

• 事后反思：Agents 可以对过去的行为进行自我批评和反省，从错误中吸取经验教训，并加入长期记忆中帮助 agent 之后规避错误、更新其对世界的认知。这一部分试错的知识将被加入长期记忆中。

常见的AI Agent

AutoGen

微软的AI Agent，支持使用多个代理来开发 LLM 应用程序，这些代理可以相互对话来解决任务。AutoGen 代理是可定制的、可对话的，并且无缝地允许人类参与。

AutoGPT

Vercel v0

https://v0.dev/

v0 是由 Vercel 团队打造的 AI 前端代码生成工具。其使用过程非常直接：用户使用自然语言描述需求，v0 根据需求描述来生成组件代码。然后用户继续对不满意的地方提出修改意见，将其迭代为 v1、v2... 直到满足用户的要求。

参考资料

AI Agent的千亿美金问题：如何重构10亿知识工作职业，掀起软件生产革命？ https://mp.weixin.qq.com/s/JYu_oXWbWbasT1fcBRo-cA