AI 日报 2026-06-29：开源模型开始挤进安全任务

今天这期继续接昨天的话题，但角度要换一下。

昨天讲的是强模型开始按资格发放。今天更麻烦的地方在于：如果开源权重模型也能进入网络安全这类严肃任务，只管住几个闭源大厂，就不等于管住了能力本身。

这不是一句“开源赢了”那么简单。真正值得看的是，能力扩散以后，控制点会从“谁发布模型”，转到“谁接入模型、谁路由任务、谁承担后果”。

今天只看这 2 件事

1. GLM-5.2 把“强安全模型”带进开源权重竞争

发生了什么：Semgrep 测试显示，智谱 GLM-5.2 在 IDOR 漏洞检测上超过 Claude Code，而且成本很低。它不是全面碾压闭源模型，但说明开源权重模型已经能摸到严肃安全任务。

为什么重要：美国一边限制 GPT-5.6、Mythos 这类强模型访问，另一边中国开源模型开始补上部分能力。真正变化是：安全能力可能不再只被少数闭源平台控制。

对我们有什么影响：以后看 AI Coding、安全检查、本地工作流，不能只盯闭源旗舰模型。开源权重一旦足够便宜、足够可部署，它会先进入那些预算敏感、合规复杂、需要本地控制的场景。

2. Anthropic Mythos 5 获准给部分美国机构恢复访问

发生了什么：Anthropic 说，美国政府允许 Mythos 5 重新给一批负责关键基础设施防御的美国组织使用，但 Fable 5 和更广泛开放还没恢复。

为什么重要：这不是简单解禁，而是“按机构资格发模型”。最强模型越来越像高风险工具，先给谁用、谁来审核、能不能给外国员工用，都会影响产品发布节奏。

对我们有什么影响：今天继续跟它，不是因为昨天没讲完，而是因为它和 GLM-5.2 形成了一个对照：闭源强模型在收口，开源替代能力在外溢。后续讲模型新闻，不能只讲谁更强，要讲谁能拿到、谁能部署、谁能审计。

这两条主线看起来一个在中国开源模型，一个在美国机构访问，但它们问的是同一件事：强能力到底靠什么被控制。

如果能力只在少数闭源 API 里，控制点主要是账号、客户名单、地区、合同和模型公司自己的安全策略。

但如果类似能力开始出现在开源权重里，控制点就会往下游移动：企业怎么接入，开发者怎么路由，团队怎么留日志，出错时谁负责。模型公司不再是唯一牌桌，使用模型的人也要上桌承担责任。

今天最值得记住的，不是 GLM-5.2 有没有“打赢”Claude，也不是 Mythos 5 到底恢复了多少访问。

真正的变化是：强模型的门槛开始一分为二。

一边是闭源模型，门槛在资格、地区、客户类型和安全审查；另一边是开源模型，门槛在部署能力、成本控制、日志审计和责任边界。普通团队以后不是简单选“最强的那个”，而是要问自己手里有什么牌：能不能本地跑，能不能查调用记录，能不能解释为什么把任务交给这个模型。

这会让很多公司重新算账。以前买一个旗舰模型账号就像买头等舱，现在更像组一套车队：有的车跑高速，有的车进小路，有的车便宜但要自己修。谁会调度，谁就更接近结果。

今天可以做一个很小的动作：把你常用的 AI 任务分成“必须闭源旗舰”和“可以开源替代”两类。

不用写复杂表格，先列五个任务就够：

写完你会发现，模型选择不是信仰题，是调度题。你手里不需要只有一张王牌，但你得知道每张牌该打在哪一桌。

Show HN: NanoEuler – GPT-2 scale model in pure C/CUDA from scratch：适合看底层成本：用纯 C/CUDA 复刻小模型，能帮学习者理解训练、推理和工程细节。
Wayfinder Router：在本地和托管的大语言模型之间进行确定性查询路由：适合多模型场景：不用再调用一个模型做路由，企业更容易控成本、审计和本地化。
Show HN: Bash4LLM+ – A lightweight, dependency-free Bash wrapper for LLM APIs：把 LLM API 直接塞回终端，适合脚本、CI、小自动化和临时排障，不必搭大平台。
四大顶级AI对决《文明VI》：Claude核平法国仍输，暴露感知与执行短板：游戏对局暴露 Agent 短板：会规划不等于能稳定感知、执行和管理长期目标。
Grok 4.5 私测于 SpaceX 和 Tesla，性能接近 Opus：仍是私测信号，重点看 xAI 能否把 SpaceX/Tesla 工程场景变成模型优势。