今天这期先看 Claude Sonnet 5。

它同时影响普通用户、开发者、Claude Code、GitHub Copilot 和 API 成本。对我们来说,最值得跟的不是它在榜单上多跑了几分,而是 Anthropic 把更强的多步骤执行力放进 Sonnet 这个更日常的档位里。

这件事如果成立,普通人手里会多一张牌:不是每个长任务都要先叫最贵的旗舰模型上桌。

今天只看这 3 件事

1. Anthropic 发布 Claude Sonnet 5

发生了什么:Anthropic 把 Sonnet 5 推到 Claude、Claude Code、API 和 GitHub Copilot,免费和 Pro 也默认能用。它主打更强的 coding、浏览器、终端和多步骤 agent 能力。

为什么重要:这不是单纯“模型更聪明”,而是把接近旗舰模型的执行力往更便宜、更日常的档位下放。以后很多 agent 工作流不一定先上最贵模型。

对我们有什么影响:可以继续跟“普通人怎么少返工”这条线:同一个任务,用 Sonnet 5、Opus 4.8、GPT-5.6 Sol 跑一遍,看谁更会收尾、谁更便宜、谁更容易出错。

2. Anthropic 推出 Claude Science 科研工作台

发生了什么:Claude Science 是面向科研人员的 AI 工作台,重点不是聊天,而是把常用科研工具、代码包、计算资源和可审计产物放进一个工作流里。

为什么重要:这说明大模型公司正在往行业工作台走。科研、医药、数据分析这类高价值场景,拼的不是会回答,而是能不能留下证据、跑计算、交结果。

对我们有什么影响:适合做“AI 产品开始从聊天框变成专业工作台”的选题。普通人不用懂药物研发,也能看懂一个趋势:以后工具会越来越像行业操作台。

3. Google 更新 Agent 质量评估和 ADK Go 2.0

发生了什么:Google 发布面向 coding agent 的质量飞轮方法,并让 ADK Go 2.0 GA。重点是把 agent 的构建、测试、上线、监控、复盘做成可重复流程。

为什么重要:agent 最大的问题不是 demo 跑不跑,而是上线后会不会悄悄做偏。Google 这套东西把“验收、回归测试、失败聚类”放到开发流程里。

对我们有什么影响:这条很适合接我们自己的工作流主线:不要只问哪个模型强,先问这套 agent 有没有验收标准、失败记录和回滚办法。

为什么今天还值得继续讲 agent

过去几天我们已经讲过访问权、企业部署和主权环境。今天如果还只是说“AI 进入真实工作流”,就重复了。

今天的新东西更具体:一边是 Sonnet 5 把更强的执行能力往便宜档位下放,一边是 Claude Science 和 Google ADK 把专业工作、质量评估、失败复盘这些东西往产品里塞。

这说明 agent 这条线开始过第一个尴尬阶段:不再只问“它会不会自己干活”,而是开始问“它干坏了谁发现、谁验收、谁付账”。

我的判断

今天最值得记住的,不是 Sonnet 5 到底离 Opus 还有多远。

真正的变化是:强 agent 能力开始从“旗舰体验”往“日常成本”掉。价格一掉,使用频率就会上来;频率一上来,原来可以靠手感糊过去的问题就会暴露出来。

比如一次代码修改,模型偶尔帮你改对了,很好。但如果你每天让它跑十几个任务,你就必须知道:它有没有改错文件,测试有没有真跑,失败记录有没有留下,出了问题能不能回滚。

所以今天这三条新闻放在一起,问的不是谁最聪明,而是谁更适合被你长期调度。

可以直接带走

今天可以做一个很小的动作:给你最常用的 agent 任务补一张验收卡。

不用复杂,就写四行:

  1. 这次让 AI 做什么?
  2. 结果怎么才算过关?
  3. 哪些地方必须人工看一眼?
  4. 出错以后怎么撤回?

如果你已经在用 Claude Code、Copilot、Codex 或任何自动跑任务的工具,这张卡比“再换一个模型”更值钱。

其他信号

  • Claude Sonnet 5 发布:Sonnet 5 把更强的浏览器、终端和多步骤执行能力放进更便宜的 Sonnet 档位,适合开发者重新计算日常 agent 任务的成本。
  • Claude Science 科研工作台正式上线:Claude Science 把科研工具、代码包、算力和可审计产物放到同一工作台里,说明 AI 正在从聊天助手转向行业级操作台。
  • 黑石未来3~5年拟投300亿美元在日本建AI数据中心,联合成立AI XPV平台:看点在宏观信号:AI 投资已经开始反映到经济结构里,不只是科技圈新闻。
  • OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试:GeneBench-Pro 评估的是模型在真实、混乱的计算生物学数据里能否做判断,适合观察 AI 科研工具离真实研究还有多远。
  • Claude Code 入门:智能体循环:这篇把 Claude Code 的循环拆成可理解的工作模式,能帮开发者判断什么时候该让 agent 继续跑,什么时候必须人工介入。
  • Claude Science:Claude Science 登上 Hacker News,说明科研工作台不只是行业客户话题,也会影响开发者对“AI 该怎样交付证据”的讨论。