今天这期先从一句话开始:
AI 编程、AI 科学、AI 政策,看起来是三条新闻,其实都在讲同一件事:AI 正在从演示场,挪进真实工作流。
今天只看这 3 件事
1. Claude 已经写进 Anthropic 自己的代码库
Anthropic 在一篇关于“AI 构建 AI”的文章里披露,到 2026 年 5 月,公司合并进代码库的代码里,80% 以上由 Claude 写出。它还说,2026 年二季度,典型工程师每天合并的代码量大约是 2024 年的 8 倍。
这条新闻的重点不是“AI 会写代码”。这件事我们已经听烦了。
重点是:AI 公司自己开始用 AI 加速下一代 AI 研发。人类工程师的位置,正在从亲手敲每一行代码,往任务设计、代码审查、风险判断和结果验收挪。
这对普通人也有提醒。以后会不会写代码仍然重要,但更值钱的能力,可能是能不能把一个问题拆给 Agent,能不能知道它做错了哪里,能不能把它安全地撤回来。
2. Claude 开始读化学 NMR 谱图
Anthropic 还发布了一篇化学能力评测,测试 Claude 读 NMR 谱图的能力。它用 20 个合成化学新分子做测试,把 Claude 和 ChemDraw、MestReNova 这些专业工具放在一起比。
这条不适合当成“Claude 已经超过化学家”的结论。样本很小,场景也很专业。
但它很适合作为一个信号:多模态模型正在从“看图聊天”,进入专业工作流。读结构、看实验数据、解释谱图,这些事情不是普通用户每天都会碰到,但它们说明 AI 的应用正在往更硬、更窄、更专业的地方钻。
这类新闻对我们真正有用的地方,不是记住 NMR 是什么,而是记住一个判断:以后每个行业都会有自己的“谱图”。AI 能不能进这个行业,关键就看它能不能读懂那些专业输入。
3. 白宫发布 AI 国家安全企业备忘录,推动国防和情报系统用 AI
白宫在 6 月 5 日发布 NSPM-11,要求加速 AI 在美国国家安全体系里的开发和使用。文件里也写明,相关 AI 技术不得用于未经授权的非法监控、言论审查或意识形态偏置。
这条不是普通工具更新,但它很值得放进观察列表。
AI 政策不只是“要不要监管模型”,也开始变成“政府自己怎么部署模型”。这会影响安全评测、政府采购、合规标准,以及 AI 公司和国家机构的合作方式。
为什么放在一起看
这三件事表面上离得很远。
一个是代码,一个是化学,一个是国家安全。
但它们放在一起,方向很清楚:AI 正在从“演示一个能力”,进入“嵌进真实工作流”。
真实工作流和演示不一样。
演示只要看起来很聪明。真实工作流要能被指挥、被检查、被约束,出了问题还要能追责、能回滚。
我的判断
今天最值得记住的,不是某家公司又发了一条新闻。
是人的位置又往后退了一格,也往上抬了一格。
以后很多活,AI 会更快地写、更快地算、更快地试。但谁来定义任务,谁来验收结果,谁来判断风险,谁来决定要不要真的上线,这些事情反而更重要。
所以我现在看 AI 新闻,会先问一句:
这条新闻改变了哪个工作流?
如果答案只是“模型又强了一点”,我会先放一放。如果答案是“某个行业、某个岗位、某个系统里的做事方式变了”,那就值得留下。
可以直接带走
今天可以做一个很小的动作:给你正在用的 AI 工具补一张验收卡。
不用复杂,就写四行:
- 这次让 AI 做什么?
- 结果怎么才算过关?
- 哪些地方必须人工看一眼?
- 出错以后怎么撤回?
越是看起来强的 AI,越需要这种朴素的验收动作。
其他信号
- OpenAI 的 Harness Codex 实践:值得看的是工程团队怎么让 Codex 读懂代码库、日志、界面和验证流程。它提醒我们,Agent 能力不只来自模型,也来自你给它搭的工作环境。
- Her 这个 Claude Code 会话分析工具:它能把
.jsonl会话记录重建成可读报告,标出部署、配置变更、密钥和高风险动作。这个方向很实用,因为 Agent 越能干,事后审计越重要。 - NVIDIA 与斗山集团合作物理 AI:机器人、工程机械、能源和材料都被放进合作范围,说明“物理世界里的 AI”还在继续升温。
- NVIDIA 与 SK Hynix 的下一代 AI 存储芯片合作:这类消息不适合普通人每天追细节,但它说明 AI 算力竞争已经不只是 GPU,也包括存储、封装、供应链这些底层环节。
- OpenAI 仍在推进 ChatGPT 超级应用:TechCrunch 引述 FT 的说法,OpenAI 想把 ChatGPT 往个人 Agent 和跨工具入口推。这个方向如果成立,问答产品会越来越像任务入口。