构建有效的代理系统

Feb 19, 2025

原文链接：

构建有效的代理 \ Anthropic --- Building effective agents \ Anthropic

在过去的一年里，我们与数十个团队合作，在各个行业构建大语言模型(LLM)代理。我们一致发现，最成功的实现并不是使用复杂的框架或专门的库，而是使用简单、可组合的模式来构建。

在这篇文章中，我们分享了从与客户合作和自主构建代理过程中获得的经验，并为开发者提供构建有效代理的实用建议。

什么是代理？

"代理"可以有多种定义方式。一些客户将代理定义为完全自主的系统，能够长期独立运行，使用各种工具完成复杂任务。其他人则用这个术语描述更具规定性的实现，即遵循预定义工作流程的系统。在Anthropic，我们将所有这些变体都归类为代理系统，但在工作流和代理之间做出了重要的架构区分：

工作流是通过预定义的代码路径来编排LLM和工具的系统。
代理则是LLM能够动态指导自己的流程和工具使用的系统，保持对如何完成任务的控制。

下面，我们将详细探讨这两类代理系统。在附录1（"实践中的代理"）中，我们描述了客户在使用这些系统时发现特别有价值的两个领域。

何时（以及何时不）使用代理

在构建LLM应用程序时，我们建议寻找最简单的可能解决方案，只在必要时增加复杂性。这可能意味着完全不构建代理系统。代理系统通常会用延迟和成本来换取更好的任务性能，你应该考虑这种权衡何时是有意义的。

当需要更多复杂性时，工作流为定义明确的任务提供可预测性和一致性，而代理则在需要灵活性和模型驱动的决策制定时是更好的选择。然而，对于许多应用来说，通过检索和上下文示例优化单个LLM调用通常就足够了。

何时以及如何使用框架

有许多框架可以使代理系统更容易实现，包括：

来自LangChain的LangGraph；
Amazon Bedrock的AI代理框架；
Rivet，一个拖放式GUI LLM工作流构建器；以及
Vellum，另一个用于构建和测试复杂工作流的GUI工具。

这些框架通过简化标准的低级任务（如调用LLM、定义和解析工具以及链接调用）使入门变得容易。然而，它们往往会创建额外的抽象层，这些抽象层会掩盖底层的提示和响应，使其更难调试。它们也可能会在更简单的设置就足够的情况下诱使人增加复杂性。

我们建议开发者从直接使用LLM API开始：许多模式可以用几行代码实现。如果你确实使用框架，请确保你理解底层代码。对底层内容的错误假设是客户常见的错误来源。

查看我们的cookbook获取一些示例实现。

构建块、工作流和代理

在本节中，我们将探讨我们在生产中看到的代理系统的常见模式。我们将从基础构建块——增强型LLM开始，逐步增加复杂性，从简单的组合工作流到自主代理。

构建块：增强型LLM

代理系统的基本构建块是经过检索、工具和记忆等增强功能增强的LLM。我们当前的模型可以主动使用这些功能——生成自己的搜索查询、选择适当的工具，并确定要保留什么信息。

工作流：提示链接

提示链接将任务分解为一系列步骤，每个LLM调用处理前一个调用的输出。你可以在任何中间步骤上添加程序检查（见图中的"gate"），以确保流程仍在正轨上。

何时使用这个工作流

这个工作流非常适合可以轻松且清晰地分解为固定子任务的情况。主要目标是通过使每个LLM调用成为更简单的任务来用延迟换取更高的准确性。

提示链接有用的示例：

生成营销文案，然后将其翻译成不同的语言。
写一个文档大纲，检查大纲是否符合某些标准，然后基于大纲写文档。

工作流：路由

路由对输入进行分类并将其引导到专门的后续任务。这个工作流允许关注点分离，并构建更专门化的提示。没有这个工作流，为一种输入优化可能会损害对其他输入的性能。

何时使用这个工作流

路由适用于存在不同类别且最好分别处理的复杂任务，以及可以通过LLM或更传统的分类模型/算法准确处理分类的情况。

路由有用的示例：

将不同类型的客户服务查询（一般问题、退款请求、技术支持）引导到不同的下游流程、提示和工具。
将简单/常见问题路由到较小的模型（如Claude 3.5 Haiku），将困难/不寻常的问题路由到更强大的模型（如Claude 3.5 Sonnet），以优化成本和速度。

工作流：并行化

LLM有时可以同时处理任务，并通过程序化方式聚合其输出。这个工作流，即并行化，表现为两个关键变体：

分段：将任务分解为并行运行的独立子任务。
投票：多次运行相同任务以获得多样化的输出。

何时使用这个工作流

当分割的子任务可以并行化以提高速度，或者需要多个视角或尝试以获得更高置信度的结果时，并行化是有效的。对于具有多重考虑因素的复杂任务，当每个考虑因素由单独的LLM调用处理时，LLM通常表现更好，允许对每个特定方面进行集中注意。

并行化有用的示例：

分段：

实现防护栏，其中一个模型实例处理用户查询，而另一个筛选不当内容或请求。这往往比让同一个LLM调用同时处理防护栏和核心响应表现得更好。
自动化评估以评估LLM性能，其中每个LLM调用评估模型在给定提示上的不同方面的性能。

投票：

审查代码中的漏洞，其中几个不同的提示审查代码并在发现问题时标记。
评估给定内容是否不当，多个提示评估不同方面或要求不同的投票阈值以平衡假阳性和假阴性。

工作流：编排器-工作者

在编排器-工作者工作流中，中央LLM动态分解任务，将其委派给工作者LLM，并综合其结果。

何时使用这个工作流

这个工作流非常适合无法预测所需子任务的复杂任务（例如，在编码中，需要更改的文件数量和每个文件中更改的性质可能取决于任务）。虽然在拓扑上类似，但与并行化的关键区别在于其灵活性——子任务不是预定义的，而是由编排器根据具体输入确定的。

编排器-工作者有用的示例：

对多个文件进行复杂更改的编码产品。
涉及从多个来源收集和分析信息以寻找可能相关信息的搜索任务。

工作流：评估者-优化器

在评估者-优化器工作流中，一个LLM调用生成响应，而另一个在循环中提供评估和反馈。

何时使用这个工作流

当我们有明确的评估标准，并且迭代改进提供可衡量的价值时，这个工作流特别有效。好的契合点有两个标志：首先，当人类表达他们的反馈时，LLM响应可以明显改进；其次，LLM可以提供这样的反馈。这类似于人类作者在产生精致文档时可能经历的迭代写作过程。

评估者-优化器有用的示例：

文学翻译，其中译者LLM可能最初没有捕捉到的细微差别，但评估者LLM可以提供有用的批评。
需要多轮搜索和分析以收集全面信息的复杂搜索任务，其中评估者决定是否需要进一步搜索。

代理

随着LLM在关键能力上的成熟——理解复杂输入、进行推理和规划、可靠使用工具以及从错误中恢复——代理正在生产中出现。代理开始工作时要么来自人类用户的命令，要么通过互动讨论。一旦任务明确，代理就会独立规划和操作，可能会返回人类寻求更多信息或判断。在执行过程中，代理必须在每一步获取环境的"基本事实"（如工具调用结果或代码执行）以评估其进展。然后，代理可以在检查点或遇到阻碍时暂停以获取人类反馈。任务通常在完成时终止，但也常常包括停止条件（如最大迭代次数）以保持控制。

代理可以处理复杂的任务，但它们的实现通常很简单。它们通常只是基于环境反馈在循环中使用工具的LLM。因此，清晰和深思熟虑地设计工具集及其文档至关重要。我们在附录2（"工具的提示工程"）中详细介绍了工具开发的最佳实践。

何时使用代理

代理可用于难以或不可能预测所需步骤数量的开放性问题，以及无法硬编码固定路径的情况。LLM可能会运行多个回合，你必须对其决策制定有一定程度的信任。代理的自主性使其非常适合在受信任环境中扩展任务。

代理的自主性意味着更高的成本，以及错误累积的可能性。我们建议在沙盒环境中进行广泛测试，并配备适当的防护措施。

代理有用的示例：

以下示例来自我们自己的实现：

一个用于解决SWE-bench任务的编码代理，这些任务涉及根据任务描述对多个文件进行编辑；
我们的"计算机使用"参考实现，其中Claude使用计算机完成任务。

组合和自定义这些模式

这些构建块并不是规定性的。它们是开发者可以根据不同用例塑造和组合的常见模式。与任何LLM功能一样，成功的关键是衡量性能并迭代实现。重申：只有在明显改善结果时，你才应该考虑增加复杂性。

总结

在LLM领域取得成功并不是要构建最复杂的系统。而是要构建适合你需求的正确系统。从简单的提示开始，通过全面评估优化它们，只有在更简单的解决方案不足时才添加多步骤代理系统。

在实现代理时，我们努力遵循三个核心原则：

保持代理设计的简单性。
通过明确展示代理的规划步骤来优先考虑透明性。
通过彻底的工具文档和测试来精心设计你的代理-计算机接口（ACI）。

框架可以帮助你快速入门，但当你转向生产时，不要犹豫减少抽象层并使用基本组件进行构建。通过遵循这些原则，你可以创建不仅强大而且可靠、可维护，并受到用户信任的代理。

致谢

作者：Erik Schluntz和Barry Zhang。本文借鉴了我们在Anthropic构建代理的经验，以及客户分享的宝贵见解，对此我们深表感谢。

附录1：实践中的代理

我们与客户的合作揭示了AI代理的两个特别有前途的应用，展示了上述模式的实际价值。这两个应用都说明了代理在需要对话和行动、有明确的成功标准、启用反馈循环，并整合有意义的人类监督的任务中如何增加最大价值。

A. 客户支持

客户支持将熟悉的聊天机器人界面与通过工具集成增强的功能相结合。这很适合更开放式的代理，因为：

支持互动自然遵循对话流程，同时需要访问外部信息和行动；
可以集成工具来获取客户数据、订单历史和知识库文章；
可以通过程序化方式处理发放退款或更新工单等操作；以及
可以通过用户定义的解决方案清晰地衡量成功。

几家公司通过基于使用的定价模型展示了这种方法的可行性，只对成功解决的案例收费，显示了他们对代理效果的信心。

B. 编码代理

软件开发领域在LLM功能方面显示出了显著的潜力，能力从代码补全发展到自主问题解决。代理特别有效，因为：

代码解决方案可以通过自动化测试验证；
代理可以使用测试结果作为反馈来迭代解决方案；
问题空间定义明确且结构化；以及
输出质量可以客观衡量。

在我们自己的实现中，代理现在可以仅基于拉取请求描述就解决SWE-bench Verified基准测试中的真实GitHub问题。然而，虽然自动化测试有助于验证功能，但人工审查仍然对确保解决方案符合更广泛的系统要求至关重要。

附录2：工具的提示工程

无论你构建哪种代理系统，工具都可能是你的代理的重要组成部分。工具通过在我们的API中指定其确切的结构和定义，使Claude能够与外部服务和API交互。当Claude响应时，如果它计划调用工具，它将在API响应中包含一个工具使用块。工具定义和规范应该得到与整体提示同样多的提示工程关注。在这个简短的附录中，我们描述如何对你的工具进行提示工程。

通常有几种方式可以指定相同的操作。例如，你可以通过编写差异或重写整个文件来指定文件编辑。对于结构化输出，你可以在markdown或JSON内返回代码。在软件工程中，这些差异是表面的，可以无损地从一种转换为另一种。然而，某些格式对LLM来说比其他格式更难写。编写差异需要在写新代码之前知道块头中有多少行在改变。在JSON内写代码（相比markdown）需要额外转义换行符和引号。

我们对决定工具格式的建议如下：

给模型足够的标记来"思考"，避免将自己写入死角。
保持格式接近模型在互联网上自然出现的文本。
确保没有格式"开销"，比如必须保持准确计数数千行代码，或对它写的任何代码进行字符串转义。

一个经验法则是思考在人机界面（HCI）上投入了多少努力，并计划在创建良好的代理-计算机界面（ACI）上投入同样多的努力。以下是一些关于如何做到这一点的想法：

站在模型的角度思考。基于描述和参数，使用这个工具是否显而易见，还是需要仔细思考？如果是，那么对模型来说可能也是如此。一个好的工具定义通常包括使用示例、边缘情况、输入格式要求，以及与其他工具的明确界限。
你如何改变参数名称或描述来使事情更明显？把这想象成为你团队中的初级开发人员写一个很棒的文档字符串。这在使用多个相似工具时特别重要。
测试模型如何使用你的工具：在我们的工作台中运行许多示例输入，看看模型会犯什么错误，并进行迭代。
对你的工具进行防错设计。改变参数使其更难犯错。

在构建我们的SWE-bench代理时，我们实际上花在优化工具上的时间比花在整体提示上的时间更多。例如，我们发现当代理移出根目录后，模型在使用相对文件路径的工具时会出错。为了解决这个问题，我们更改了工具以始终要求绝对文件路径——我们发现模型完美地使用了这种方法。

Git迁移到SVN