Anthropic 上线「做梦」功能，让 Agent 越睡越聪明

Anthropic 又又又更新了

之前 Claude Code 源码泄露的时候，大家惊奇的发现，里面有一个正在开发的功能：做梦

今天凌晨，做梦、成果评估、多 Agent 协作这三项功能，已经被上线到了 Claude Managed Agents。这东西之前报道过，是 Anthropic 的 Agent 托管服务，具体的可以看这里：Anthropic 官方 Harness 发布：全面解读 Managed Agents

这仨个功能里面成果评估和多 Agent 协作，这俩已经直接可用了。「做梦」则需要单独申请访问权限，申请地址在这：https://claude.com/form/claude-managed-agents

Agent 会做梦了

Agent 在每次工作（session）中会往 memory store 写东西，记住自己学到了什么。但时间长了，memory 里会堆满重复条目、过时信息和相互矛盾的记录

Dreaming 解决的就是这个退化问题。它是一个在 session 之间运行的异步任务，读取现有的 memory store 和过去的 session 记录（最多 100 个），然后生成一个全新的、整理好的 memory store：重复的合并，过时的替换成最新值，还能从多个 session 的交叉分析中发现新模式

Anthropic 上线「做梦」功能，让 Agent 越睡越聪明

Dreaming 的工作流程：从多个 session 和 memory store 中提炼出整理后的新 memory

在整个处理的过程中，做梦不会修改原始数据。输入的 memory store 保持原样，输出写到一个新的 store 里。不满意可以直接丢掉，不影响原始数据

Anthropic 官方的描述是，memory 让 Agent 在工作中记住学到了什么，dreaming 让 Agent 在工作间隙想明白这些经验意味着什么。一个是即时学习，一个是反思整理

目前支持 claude-opus-4-7 和 claude-sonnet-4-6 两个模型。dreaming 的耗时取决于输入量，通常几分钟到几十分钟，按标准 API token 费率计费

成果评估

以前让 Agent 干活，干完了需要人工检查，而成果评估（Outcomes）这东西，是把这个检查环节自动化了：你需要写一份评分标准（rubric），Agent 干完活之后，一个独立的 grader 会对着 rubric 逐项打分

它这个 grader 会运行在独立的上下文窗口里，不会影响上下文。如果 grader 判定某些条目没达标，会把具体差在哪里反馈给 Agent。Agent 拿着反馈改，改完再评，直到全部达标或者迭代次数用完（默认 3 次，最多 20 次）

Anthropic 内部测试的数据：outcomes 比标准 prompting loop 的任务成功率高了最多 10 个百分点，在文件生成任务上，docx 成功率 +8.4%，pptx 成功率 +10.1%。越难的任务提升越明显

Rubric 就是一份 Markdown 文档，按维度列出什么算合格。比如一个 DCF 模型的 rubric 会写：营收预测要用过去 5 年的历史数据、WACC 计算要标注假设来源、敏感性分析必须包含在内

配合这次同时推出的 Webhooks，你可以定义好 outcome，让 Agent 去干，干完了 webhook 通知你。不用盯着看

正义的群殴

当工作太复杂，多 Agent 协作系统就会让一个 lead agent 把任务拆成几块，分给不同的 specialist agent 并行处理，这个东西被叫做 multiagent orchestration

在这系统里面，每个 specialist 有自己的模型、prompt 和工具集，在自己的 session thread 里工作，上下文互相隔离。但它们共享同一个文件系统：一个 agent 写了文件，另一个 agent 能读到

Anthropic 上线「做梦」功能，让 Agent 越睡越聪明

Claude Console 里的多 Agent session 追踪界面，每个 agent 做了什么一目了然

线程是持久的：lead agent 可以回头找之前调用过的 agent 继续聊，那个 agent 还记得之前做了什么。在 Claude Console 里可以追踪每个 agent 的每一步操作，谁做了什么、什么顺序、为什么这么做，全程可见

一个有意的限制：只支持一层委托。Lead agent 可以调用其他 agent，但被调用的 agent 不能再调用下一层。这是为了防止 agent 链式调用失控

使用反馈

根据 Anthropic 的说法，有四家公司已经在生产环境或深度测试中用上了这些新功能，各自的场景和数据都挺有说服力

Harvey法律科技公司，用 Managed Agents 协调长文法律文书起草。加了 dreaming 之后，Agent 能记住上次 session 里学到的文件格式技巧和工具使用模式。他们测试的结果是完成率涨了大约 6 倍

Netflix平台工程团队做了一个日志分析 agent，要处理几百个 build 在不同来源的日志。用 multiagent 并行分析各批日志，只浮出反复出现的问题模式，忽略一次性的噪音

Spiral（by Every）一个写作工具，用了一个很聪明的模型分层方案：Haiku 当领队接需求、问跟进问题，然后把写作任务分给 Opus 的子 agent 干。要多个稿件就并行跑。用 outcomes 对着 Every 的编辑标准和用户的个人风格（从 memory 里取）给每篇稿子打分，不达标不交

Wisedocs医疗文档质检公司，用 outcomes 的 rubric 对照内部质检标准审核文档。实测数据：AI + 人类协作比纯人类审核快了 50%，多抓了 30% 的错误。不过他们也发现，自家 pipeline 处理速度是 Managed Agents 的 7 倍、成本只有十分之一，所以只把 Managed Agents 用在 QA 审核这个环节，不做主力处理

Dreaming 目前是 research preview，outcomes、multiagent 和 memory 在 public beta 阶段。想试 dreaming 需要单独申请

Anthropic 上线「做梦」功能，让 Agent 越睡越聪明