揭开Claude团队的神秘面纱：多智能体深度搜索的成功秘籍！

奕然发自凹非寺

量子位 | 公众号 QbitAI

那么，如何通过多智能体的方法来实现深度搜索呢？

最近，Claude团队分享了他们的一些新发现。

在这篇文章里，他们详细讲述了如何搭建一个高效的多智能体研究系统，这个系统的核心是主代理（The Lead Agent）负责生成和管理子代理（Subagents），共同并行处理复杂的查询，内容涵盖了系统架构、提示工程和评估方法等多个方面。

Claude团队也展示了不同行业利用这一功能的比例，其中专业领域软件系统开发占10%，而开发和优化专业及技术内容、业务增长和创收策略各占8%，协助学术研究和教育材料开发占7%，信息研究与审核占5%。

网友们对此的看法是：

Anthropic团队对AI模型的理解确实非常厉害啊。

快来一起看看这篇内容丰富的教程吧。

核心架构：协调员与工作者的搭档

Claude团队采用了一种叫做协调员-工作器的架构，专门用来高效管理不同智能体之间的任务分配和合作。下面的图就展示了这种多智能体架构的运行方式。

而且，这个系统是通过多步搜索的方式来查找信息，而不是用传统的静态检索。这样一来，它就能根据新发现动态调整，分析结果，从而输出高质量的答案。

上面的图就清晰展示了团队在多智能体研究系统中是如何完整运作的。

这个系统能让Claude借助网络、工作空间和定制工具的集成，灵活规划、搜索，并从庞大的语料库中提炼出优质答案。

主要的代理会把查询任务拆分，启动专门的子代理（每个子代理都有自己的工具、提示和记忆），并将他们的结果整合起来。

多智能体系统的高效运作

这种并行处理、广度优先的设计让Claude在研究任务中表现得更加出色，简直是性能大幅提升！

与单个代理的Claude相比，这一新系统在内部评估中成功率超过了90%，比如，Claude Opus 4作为主智能体，Claude Sonnet 4则是子智能体，整个多智能体团队在研究评估中的表现比单一的Claude Opus 4高出了90.2%。

通过把工作分散给多个代理以及上下文窗口，Claude的系统显著提升了推理能力和并行处理的能力，真是效率倍增！

而最新的Claude模型在token使用上表现得相当高效，升级到Claude Sonnet 4的性能提升，简直比在Claude Sonnet 3.7上翻倍的token预算还要强大。

不过，token的成本却比标准聊天贵了15倍。因此，多智能体架构能够有效扩展token的使用，以应对那些超出单个智能体处理能力的高价值查询。

提示工程：启发式方法的应用

Anthropic通过不断优化提示设计来改善代理的表现。他们采用了一些启发式方法，来应对任务复杂度、明确委托、选择工具以及制定思维策略。

团队还会引导代理清晰展示思考过程，拓宽思维轨迹，这样Claude在生成输出时能够多提供一些token。主代理利用这种思考机制来制定策略，评估完成任务所需的工具，判断查询的复杂程度，决定是否需要调用子代理，以及如何合理分配每个子代理的任务。

具体来说，方式如下：

了解代理的心理模型:团队借助控制台构建了模拟，使用确切的提示词和工具，逐步观察智能体的工作。这验证了有效的提示词依赖于对智能体行为的深刻理解，能够识别出最关键的优化路径。

分配任务:在系统中，主代理将查询拆解为子任务，并清晰描述目标、预期输出格式、可用工具及信息来源的指引，明确任务边界，再将子任务分配给子代理。

调整工作规模:为了让代理准确判断不同任务需要的工作量，团队在提示中加入了规模调整的指导方针。例如，简单的信息收集任务通常只需要一个子代理，调用工具3到10次；而复杂的研究任务则可能需要超过10个子代理，并且需要明确角色和职责的划分。

工具选择与设计的灵活性

为了帮助代理们更好地完成任务，团队提供了一些实用的方法。首先，建议他们检查所有可用的工具，确保这些工具与用户的需求相匹配。此外，团队还鼓励进行广泛的网络搜索，以获取更多外部信息，通常优先使用专业工具，而不是一些通用的工具。

不断自我完善：团队开发了一款工具测试智能体，它的功能是当遇到有缺陷的MCP工具时，尝试使用这些工具，然后重写工具说明，以避免再次出现问题。这种方法显著提高了智能体的工作准确率，任务完成时间减少了40%。

聚焦搜索范围：团队建议代理在开始时使用简短且宽泛的查询，这样可以先评估可用资源，然后再逐步缩小搜索的范围，以避免偏离主题。

并行调用工具：团队引入了两种并行策略来提升效率。第一，主智能体不再逐个生成子智能体，而是同时创建3到5个子智能体；第二，每个子智能体同时调用三个以上的工具进行信息检索和分析。这些改进使得复杂查询的处理时间缩短了90%，原本需要几小时才能完成的研究任务，现在几分钟就能搞定，而且信息覆盖面更广，效果超出其他系统的能力。

评估：方法灵活，保证结果

有效的评估对建立可靠的智能体非常重要。传统的评估方式往往是固定的，而多智能体系统则无法确定“正确的步骤”。

团队采取了一些方法，不仅能够判断智能体是否达成了预期结果，还能确保其遵循合理流程。

小样本评估：团队认为，先进行小规模测试，使用几个例子会比等到能够构建全面评估后再开始更有效。例如，在早期智能体开发中，微调一个提示词可能会将成功率从30%提升至80%。

利用LLM作为评判者：团队还引入了一个LLM作为“评判者”，根据预设的评分标准对每个输出进行评估，具体评估维度包括：

事实准确性：论断是否与参考来源一致？

引用准确性：引用内容是否真实反映了所引资料？

完整性：是否覆盖了所有任务要求的要点？

来源质量：是否优先使用了一手资料，而非低质量的二手来源？

工具的使用效率：我们该怎么评判？

你有没有想过，使用工具的时候最重要的是什么？对的，就是要合理而高效地利用它们！

我们的团队曾尝试让多个评估者对各个部分进行打分，结果发现：通过一次性的LLM调用，给出0.0到1.0的评分，其实是最稳定、最接近人工评估的方式。这真的很重要哦！

借助LLM的自动评估系统，研究人员能够以一种可扩展的方式，高效地评估成百上千个复杂的结果，这无疑大大提升了评估的速度和一致性。

但别忘了，人工评估也是至关重要的：人工评估者往往能发现那些自动评分无法察觉的异常情况，比如模型在处理一些不寻常问题时可能产生的误解、系统性故障，甚至是更微妙的偏见和信息来源的倾向性。

即使在高度自动化的评估体系里，人工测试依然是不可替代的关键环节，它能持续发现盲点，从而提升整个系统的可靠性。

另外，值得注意的是，多智能体系统常常会展现出一些涌现行为——这些行为并不是出自某种特定的编程逻辑，而是在多个智能体相互作用中自然而然产生的。比如说，稍微调整一下主智能体的某个参数，可能就会以意想不到的方式影响到子智能体的表现。

所以，要想构建一个成功的多智能体系统，理解它们的交互模式是关键。

这也意味着，针对智能体的最佳提示不仅限于简单的指令，更应该是一个定义合作框架的过程，包括劳动分工、解决问题的方法和资源的合理分配。

要想实现这样的合作框架，我们需要精心设计提示和工具，建立有效的启发式方法，确保可观察性，并形成紧密的反馈循环。

团队在Cookbook中开源了一些提示和示例，欢迎大家参考！

小变化引发的“大波动”

在智能体系统中，哪怕是微小的调整，都会引起连锁反应，造成我们常说的“蝴蝶效应”，最终可能导致重大行为和结果的变化。

智能体会维持“现状”，而错误会逐渐积累。为了应对这一点，团队建立了一个系统，可以在错误发生时从智能体的当前状态恢复。同时，他们利用模型的智能来处理问题，并结合重试逻辑和定期检查等安全措施。例如，当工具出现故障时，智能体会被通知并进行相应调整，这样的方式效果非常好。

调试需要创新的方法。团队引入了全面的生产环境监控机制，以系统化地找出代理失败的原因并进行修复。除了常规的观察指标，他们还跟踪智能体的决策过程和交互方式——这一切都不涉及具体对话内容，以保护用户隐私。这种结构化的高层观察能力使团队能及时发现根本问题，识别异常行为，从而修复常见故障。

更新时需要精细协调。团队必须确保在版本更新时不会破坏系统当前的运行状态。他们采用了彩虹部署策略，以避免中断正在运行的智能体，逐步将流量从旧版本转向新版本，同时让两个版本并行运作。

同步执行存在瓶颈。同步执行可能导致代理之间的信息流受阻，主代理无法有效引导子代理，子代理之间也难以协调，导致搜索被迫中断。为了解决这个问题，团队尝试了异步执行，这样可以实现更多的并行处理，代理们可以同时运作，并在需要时生成新的子代理。不过，异步执行也带来了结果协调、状态一致性以及子代理之间错误传播等挑战。团队相信，异步执行的性能提升将会超过处理这些复杂性所需的代价。

额外建议

对多回合状态变化的智能体进行终态评估。团队发现聚焦于终态评估比逐回合分析更加有效。这种方法承认智能体可能会选择不同的路径来达到相同的目标，同时确保最终结果符合预期。对于复杂的业务流程，别试图检查每个中间步骤，而是将评估分解为若干离散的检查点，观察在这些检查点中应该出现的特定状态变化。

长时程对话的管理。生产中的代理往往需要进行数百轮的对话，因此上下文管理策略必须精心设计。团队实现了代理对已完成工作阶段的总结，并将重要信息存储在外部内存中，以便在进行新任务时使用。

子代理将输出写入文件系统，以减少“电话游戏”现象。与主代理和子代理之间的引导-传递模式不同，专业代理可以直接创建输出，子代理调用工具将工作存储在外部系统，轻量级引用再传回协调器，这样可以提升整体的准确性和效率。