2024年12月27日

面向智能体编程-构建有效的智能体

作者柳永强

内容目录

面向智能体编程-创建有效的智能体

译者荐语

随着我对提示词工程及智能体编程有了更深的理解，我越来越肯定的是，智能体编程应该是一种新的编程模式。而哪些已有的框架，比如低代码平台Coze，dify，以及langchain，autogen，multi-agent框架掩盖了过多的细节，开发者无法触及智能体本身运作的细节。另外这些框架试图提供一种通用的解决方案，随着时间的推移，面对不同的需求，增加更多的自由和可定制后，框架本身会变得复杂和累赘。

作为开发者，就如本文得建议，我更愿意直接使用大模型的API开发智能应用，这样会给我更加灵活得自由度，同时在实践过程中，我能更好的学习和理解智能体的运作方式。

正文

在过去的一年中，我们与来自各行各业的数十个团队合作，开发基于大语言模型（LLM）的智能体。我们发现，最成功的实现并非依赖复杂的框架或特定的专业化库，而是基于简单、可组合的模式构建而成。

在本文中，我们将分享与客户合作以及自主开发智能体的经验，并为开发者提供构建高效智能体的实用建议。

什么是智能体？

“智能体”（Agent）有多种定义。一些客户将其定义为完全自主的系统，这些系统能够长时间独立运行，利用各种工具完成复杂任务。另一些客户则将“智能体”用于描述更具指导性的实现，这些实现遵循预定义的工作流。在 Anthropic，我们将所有这些变体统称为智能体系统（agentic systems），但在架构上对工作流和智能体做了重要的区分：

工作流（Workflows） 是指通过预定义的代码路径来编排 LLM 和工具的系统。
智能体（Agents） 则是指由 LLM 动态指导其自身流程和工具使用的系统，它们能够自主决定如何完成任务。

接下来，我们将详细探讨这两种智能体系统。在附录 1（“实践中的智能体”）中，我们还描述了客户在两个特定领域中使用这些系统的实际价值。

什么时候使用智能体？

在使用 LLM 构建应用时，我们建议尽可能找到最简单的解决方案，只有在必要时才增加复杂性。这可能意味着完全不构建智能体系统。智能体系统通常以更高的延迟和成本为代价来换取更好的任务性能，因此需要仔细考虑这种权衡何时是值得的。

当需要更复杂的系统时，工作流为定义明确的任务提供了可预测性和一致性，而智能体则适用于需要大规模灵活性和模型驱动决策的场景。然而，对于许多应用来说，通过检索和上下文示例优化单次 LLM 调用通常已经足够。

何时以及如何使用框架

有许多框架可以简化智能体系统的实现，包括：

LangChain 的 LangGraph；
亚马逊 Bedrock 的 AI Agent 框架；
Rivet，一种可视化拖放式 LLM 工作流构建工具；
Vellum，另一个用于构建和测试复杂工作流的可视化工具。

这些框架通过简化调用 LLM、定义和解析工具以及链接调用等标准底层任务，使开发者能够轻松上手。然而，它们往往会引入额外的抽象层，这可能掩盖底层的提示（prompts）和响应，增加调试的难度。此外，这些框架可能让开发者倾向于增加不必要的复杂性，而实际上更简单的设置可能已经足够。

我们建议开发者从直接使用 LLM API 开始：许多模式只需要几行代码即可实现。如果您决定使用框架，请确保理解其底层代码。对框架内部逻辑的误解是客户常见的错误来源之一。

更多示例实现，请参考我们的实践手册（Cookbook）。

构建块、工作流和代理

在本节中，我们将探讨生产环境中常见的智能体系统模式。从最基础的构建模块——增强型 LLM（Augmented LLM）开始，逐步增加复杂性，涵盖从简单的组合式工作流到自主智能体的各个层级。

构建模块：增强型 LLM

智能体系统的基本构建模块是通过检索、工具和记忆等增强功能扩展的 LLM。当前的模型能够主动利用这些功能，例如生成自己的搜索查询、选择合适的工具以及决定需要保留哪些信息。

我们建议将实现重点放在以下两个关键方面：

根据您的具体用例定制这些增强功能。
确保它们为 LLM 提供一个简单且文档齐全的接口。

虽然实现这些增强功能的方法有很多，但其中一种方法是通过我们最近发布的 Model Context Protocol。该协议允许开发者通过简单的客户端实现，集成到一个不断扩展的第三方工具生态系统中。

在本文的剩余部分中，我们将假设每次 LLM 调用都能够访问这些增强功能。

工作流：提示链（Prompt Chaining）

提示链是一种将任务分解为一系列步骤的工作流，每次 LLM 调用都会处理前一步的输出。在每个中间步骤，可以添加程序化检查（见下图中的“gate”），以确保整个过程保持在正确轨道上。

何时使用此工作流

该工作流非常适合那些可以轻松且清晰地分解为固定子任务的情况。其主要目标是通过将每次 LLM 调用转化为更简单的任务，从而在提高准确性和降低延迟之间进行权衡。

提示链适用的示例：

生成营销文案，然后将其翻译成另一种语言。
撰写文档大纲，检查该大纲是否符合某些标准，然后根据大纲撰写文档。

工作流：路由（Routing）

路由是一种将输入分类并引导其进入专门后续任务的工作流。该工作流允许关注点的分离，从而构建更专业化的提示。如果没有这种工作流，针对某种输入进行优化可能会影响其他输入的性能。

路由工作流

何时使用此工作流：
路由适用于复杂任务，在这些任务中，存在不同类别，并且可以通过 LLM 或更传统的分类模型/算法准确处理分类。

路由适用的示例：

将不同类型的客户服务查询（一般问题、退款请求、技术支持）引导到不同的下游流程、提示和工具中。
将简单/常见问题路由到小型模型（如 Claude 3.5 Haiku），而将困难/不寻常的问题路由到更强大的模型（如 Claude 3.5 Sonnet），以优化成本和速度。

工作流：并行化（Parallelization）

LLM 有时可以同时处理任务，并以编程方式汇总它们的输出。这种工作流的并行化表现为两种主要变体：

分段（Sectioning）：将任务分解为独立的子任务，并行运行。
投票（Voting）：多次运行相同的任务，以获得多样化的输出。

并行化工作流

何时使用此工作流：
并行化在以下情况下效果良好：分割的子任务可以并行处理以提高速度，或者当需要多个视角或尝试以获得更高置信度的结果时。对于具有多个考虑因素的复杂任务，当每个考虑因素由单独的 LLM 调用处理时，LLM 通常表现更佳，这样可以集中注意力在每个特定方面。

并行化适用的示例：

分段（Sectioning）：
- 实施保护机制，其中一个模型实例处理用户查询，而另一个模型实例筛查不当内容或请求。这种方式通常比让同一个 LLM 调用同时处理保护机制和核心响应更有效。
- 自动化评估 LLM 性能的评估，其中每个 LLM 调用评估给定提示下模型性能的不同方面。
投票（Voting）：
- 检查代码的漏洞，多个不同的提示对代码进行审查，并在发现问题时标记代码。
- 评估给定内容是否不当，多个提示评估不同方面或要求不同的投票阈值，以平衡假阳性和假阴性。

工作流：协调者-工作者（Orchestrator-Workers）

在协调者-工作者工作流中，中央 LLM 动态地将任务分解，委派给工作者 LLM，并综合它们的结果。

协调者-工作者工作流

何时使用此工作流：
该工作流非常适合复杂任务，其中无法预测所需的子任务（例如，在编码中，需要更改的文件数量以及每个文件的更改性质可能取决于具体任务）。虽然从拓扑上看与并行化类似，但其关键区别在于灵活性——子任务并不是预先定义的，而是由协调者根据具体输入确定的。

协调者-工作者适用的示例：

对每次涉及对多个文件进行复杂更改的编码产品。
涉及从多个来源收集和分析信息以获取可能相关信息的搜索任务。

工作流：评估者-优化器（Evaluator-Optimizer）

在评估者-优化器工作流中，一个 LLM 调用生成响应，而另一个 LLM 在循环中提供评估和反馈。

评估者-优化器工作流

何时使用此工作流：
该工作流在有明确评估标准的情况下特别有效，并且当迭代优化能够提供可测量的价值时使用效果最佳。适合的两个标志是：首先，当人类表达反馈时，LLM 的响应可以明显改善；其次，LLM 能够提供这样的反馈。这类似于人类作家在撰写精炼文档时可能经历的迭代写作过程。

评估者-优化器适用的示例：

文学翻译，其中翻译 LLM 可能最初无法捕捉到某些细微差别，但评估者 LLM 可以提供有用的批评。
复杂的搜索任务，要求多轮搜索和分析以收集全面的信息，在这种情况下，评估者决定是否需要进一步的搜索。

智能体

随着 LLM 在理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复等关键能力上的成熟，智能体（Agents）在生产环境中逐渐崭露头角。智能体通常以来自人类用户的命令或互动讨论开始工作。一旦任务明确，智能体便能独立规划和操作，可能会在执行过程中返回人类获取进一步信息或判断。在执行过程中，智能体在每个步骤中获得环境的“真实情况”（如工具调用结果或代码执行）以评估其进展至关重要。智能体可以在检查点处或遇到阻碍时暂停以获取人类反馈。任务通常在完成时终止，但通常会设置停止条件（如最大迭代次数）以保持对过程的控制。

智能体能够处理复杂的任务，但其实现通常是简单的。它们通常仅仅是基于环境反馈在循环中使用工具的 LLM。因此，清晰且周到地设计工具集及其文档至关重要。我们在附录 2（“为您的工具进行提示工程”）中扩展了工具开发的最佳实践。

何时使用智能体

智能体可以用于开放性问题，在这些问题中，难以或不可能预测所需的步骤数量，并且无法硬编码固定路径。LLM 可能会进行多轮操作，因此必须对其决策能力有一定程度的信任。智能体的自主性使其非常适合在可信环境中扩展任务。

智能体的自主特性意味着更高的成本，以及可能导致错误累积的风险。因此，我们建议在沙盒环境中进行广泛测试，并设置适当的保护措施。

智能体适用的示例：

以下示例来自我们自己的实现：

编码智能体，用于解决 SWE-bench 任务，这些任务涉及根据任务描述对多个文件进行编辑。
我们的“计算机使用”参考实现，其中 Claude 使用计算机完成任务。

组合和定制这些模式

这些构建模块并不是固定不变的规范。它们是开发者可以根据不同用例进行塑造和组合的常见模式。成功的关键在于，和任何 LLM 特性一样，测量性能并对实现进行迭代。再次强调：您应该只在明显改善结果时考虑增加复杂性。

总结

在 LLM 领域，成功并不在于构建最复杂的系统，而在于为您的需求构建合适的系统。首先从简单的提示开始，通过全面评估进行优化，仅在更简单的解决方案无法满足需求时，才添加多步骤的智能体系统。

在实施智能体时，我们努力遵循三个核心原则：

保持智能体设计的简单性。
优先考虑透明性，明确显示智能体的规划步骤。
通过全面的工具文档和测试，仔细设计您的智能体-计算机接口（ACI）。

框架可以帮助您快速入门，但在进入生产阶段时，不要犹豫减少抽象层次，使用基本组件进行构建。遵循这些原则，您可以创建不仅强大而且可靠、可维护且受到用户信任的智能体。

致谢

撰写者：Erik Schluntz 和 Barry Zhang。本文基于我们在 Anthropic 构建智能体的经验，以及客户分享的宝贵见解，我们对此深表感激。

附录 1：智能体的实践

与客户的合作揭示了两个特别有前景的 AI 智能体应用，展示了上述模式的实际价值。这两个应用都说明了智能体在需要对话和行动的任务中如何增加价值，具有明确的成功标准，能够启用反馈循环，并集成有意义的人类监督。

A. 客户支持
客户支持结合了熟悉的聊天机器人界面与通过工具集成增强的功能。这是更开放的智能体的自然契合点，因为：

支持交互自然遵循对话流程，同时需要访问外部信息和操作；
可以集成工具来提取客户数据、订单历史和知识库文章；
诸如处理退款或更新票务等操作可以以编程方式处理；
成功可以通过用户定义的解决方案明确衡量。

一些公司通过基于使用的定价模型展示了这种方法的可行性，仅对成功的解决方案收费，显示出对其智能体有效性的信心。

B. 编码智能体
软件开发领域展现出 LLM 特性的显著潜力，能力从代码补全发展到自主问题解决。智能体特别有效，因为：

代码解决方案可以通过自动化测试进行验证；
智能体可以使用测试结果作为反馈对解决方案进行迭代；
问题空间定义明确且结构化；
输出质量可以客观衡量。

在我们自己的实现中，智能体现在可以仅根据拉取请求描述解决真实的 GitHub 问题，符合 SWE-bench Verified 基准。然而，尽管自动化测试有助于验证功能，但人类审核在确保解决方案与更广泛的系统要求一致方面仍然至关重要。

附录 2：为您的工具进行提示工程

无论您正在构建何种智能体系统，工具都可能是您智能体的重要组成部分。工具使 Claude 能够通过在我们的 API 中指定其确切结构和定义与外部服务和 API 进行交互。当 Claude 做出响应时，如果计划调用工具，它将包括一个工具使用块在 API 响应中。工具定义和规范应与整体提示一样，得到同样多的提示工程关注。在这个简短的附录中，我们描述了如何为您的工具进行提示工程。

指定同一操作通常有几种方法。例如，您可以通过编写差异（diff）来指定文件编辑，或者通过重写整个文件。对于结构化输出，您可以在 markdown 或 JSON 中返回代码。在软件工程中，这些差异在外观上是微不足道的，可以无损转换。然而，某些格式对于 LLM 来说比其他格式更难写。编写差异要求在编写新代码之前知道块头中有多少行在变化。将代码写在 JSON 中（相比于 markdown）需要额外转义换行符和引号。

我们对工具格式的建议如下：

给模型足够的 tokens，以便在写作时能够“思考”，而不是写进死胡同。
保持格式接近模型在互联网上自然出现的文本格式。
确保没有格式“开销”，例如必须准确计算数千行代码或转义任何写的代码。

一个经验法则是考虑人机接口（HCI）投入多少精力，并计划在创建良好的智能体-计算机接口（ACI）上投入同样多的精力。以下是一些想法：

设身处地为模型着想。根据描述和参数，使用这个工具是否显而易见，还是需要仔细思考？如果是这样，那么对于模型来说也可能是如此。良好的工具定义通常包括示例用法、边界情况、输入格式要求以及与其他工具的明确界限。
如何改变参数名称或描述以使其更明显？将其视为为您团队中的初级开发人员撰写出色的文档字符串。这在使用许多相似工具时尤其重要。
测试模型如何使用您的工具：在我们的工作台中运行多个示例输入，查看模型的错误，并进行迭代。
采用防错机制（Poka-yoke）设计您的工具。改变参数，使其更难出错。

在为 SWE-bench 构建智能体时，我们实际上在优化工具上花费的时间比在整体提示上更多。例如，我们发现模型在智能体移动出根目录后使用相对文件路径的工具时会出错。为了解决这个问题，我们将工具更改为始终要求绝对文件路径——我们发现模型以这种方式使用毫无问题。

标签工作流智能体