今天这期继续接昨天的话题,但角度要换一下。
昨天讲的是强模型开始按资格发放。今天更麻烦的地方在于:如果开源权重模型也能进入网络安全这类严肃任务,只管住几个闭源大厂,就不等于管住了能力本身。
这不是一句“开源赢了”那么简单。真正值得看的是,能力扩散以后,控制点会从“谁发布模型”,转到“谁接入模型、谁路由任务、谁承担后果”。
今天只看这 2 件事
1. GLM-5.2 把“强安全模型”带进开源权重竞争
发生了什么:Semgrep 测试显示,智谱 GLM-5.2 在 IDOR 漏洞检测上超过 Claude Code,而且成本很低。它不是全面碾压闭源模型,但说明开源权重模型已经能摸到严肃安全任务。
为什么重要:美国一边限制 GPT-5.6、Mythos 这类强模型访问,另一边中国开源模型开始补上部分能力。真正变化是:安全能力可能不再只被少数闭源平台控制。
对我们有什么影响:以后看 AI Coding、安全检查、本地工作流,不能只盯闭源旗舰模型。开源权重一旦足够便宜、足够可部署,它会先进入那些预算敏感、合规复杂、需要本地控制的场景。
2. Anthropic Mythos 5 获准给部分美国机构恢复访问
发生了什么:Anthropic 说,美国政府允许 Mythos 5 重新给一批负责关键基础设施防御的美国组织使用,但 Fable 5 和更广泛开放还没恢复。
为什么重要:这不是简单解禁,而是“按机构资格发模型”。最强模型越来越像高风险工具,先给谁用、谁来审核、能不能给外国员工用,都会影响产品发布节奏。
对我们有什么影响:今天继续跟它,不是因为昨天没讲完,而是因为它和 GLM-5.2 形成了一个对照:闭源强模型在收口,开源替代能力在外溢。后续讲模型新闻,不能只讲谁更强,要讲谁能拿到、谁能部署、谁能审计。
为什么放在一起看
这两条主线看起来一个在中国开源模型,一个在美国机构访问,但它们问的是同一件事:强能力到底靠什么被控制。
如果能力只在少数闭源 API 里,控制点主要是账号、客户名单、地区、合同和模型公司自己的安全策略。
但如果类似能力开始出现在开源权重里,控制点就会往下游移动:企业怎么接入,开发者怎么路由,团队怎么留日志,出错时谁负责。模型公司不再是唯一牌桌,使用模型的人也要上桌承担责任。
我的判断
今天最值得记住的,不是 GLM-5.2 有没有“打赢”Claude,也不是 Mythos 5 到底恢复了多少访问。
真正的变化是:强模型的门槛开始一分为二。
一边是闭源模型,门槛在资格、地区、客户类型和安全审查;另一边是开源模型,门槛在部署能力、成本控制、日志审计和责任边界。普通团队以后不是简单选“最强的那个”,而是要问自己手里有什么牌:能不能本地跑,能不能查调用记录,能不能解释为什么把任务交给这个模型。
这会让很多公司重新算账。以前买一个旗舰模型账号就像买头等舱,现在更像组一套车队:有的车跑高速,有的车进小路,有的车便宜但要自己修。谁会调度,谁就更接近结果。
可以直接带走
今天可以做一个很小的动作:把你常用的 AI 任务分成“必须闭源旗舰”和“可以开源替代”两类。
不用写复杂表格,先列五个任务就够:
- 哪些任务必须用最强模型,因为错误成本很高?
- 哪些任务只要便宜、稳定、能批量跑就够?
- 哪些任务不能把数据丢到外部 API?
- 哪些任务需要留下日志,方便以后复盘?
- 哪些任务出了错,团队必须能立刻停掉?
写完你会发现,模型选择不是信仰题,是调度题。你手里不需要只有一张王牌,但你得知道每张牌该打在哪一桌。
其他信号
- Show HN: NanoEuler – GPT-2 scale model in pure C/CUDA from scratch:适合看底层成本:用纯 C/CUDA 复刻小模型,能帮学习者理解训练、推理和工程细节。
- Wayfinder Router:在本地和托管的大语言模型之间进行确定性查询路由:适合多模型场景:不用再调用一个模型做路由,企业更容易控成本、审计和本地化。
- Show HN: Bash4LLM+ – A lightweight, dependency-free Bash wrapper for LLM APIs:把 LLM API 直接塞回终端,适合脚本、CI、小自动化和临时排障,不必搭大平台。
- 四大顶级AI对决《文明VI》:Claude核平法国仍输,暴露感知与执行短板:游戏对局暴露 Agent 短板:会规划不等于能稳定感知、执行和管理长期目标。
- Grok 4.5 私测于 SpaceX 和 Tesla,性能接近 Opus:仍是私测信号,重点看 xAI 能否把 SpaceX/Tesla 工程场景变成模型优势。