OpenAI转向专用小模型，Google拿你的数据换AI优势

01AI实验室不再比「最强」，OpenAI和Mistral同时押注专用工具型模型

GPT-5.4旗舰版发布不到一周，又出了mini和nano两个小版本。但这两个模型不是廉价替代品，从一开始就不是给人用的。

发布公告反复强调的关键词是sub-agent workloads。mini和nano针对编程、工具调用和多模态推理优化，核心场景是高频子代理任务。它们的「用户」是其他AI：当agent系统同时调度几十个子任务时，旗舰模型太贵太慢，专用轻量模型才是合理选择。

同一周，Mistral走了一条完全不同的路。它开源的Leanstral只做一件事：用Lean语言写形式化数学证明。这不是通用coding助手，方向窄到大多数开发者永远用不上。但对数学和安全关键领域的研究者来说，通用模型在形式化推理上远远不够，专用工具才能补这个缺。

两个发布来自不同实验室、面向不同场景，背后的判断却一致：通用旗舰模型的边际收益在递减，专用工具才是下一个价值高地。OpenAI做横向专用化，让小模型服务于agent生态的高频调用；Mistral做纵向专用化，在极窄领域做到通用模型做不到的深度。

竞争策略也因此分化。OpenAI的小模型是闭源产品，靠调用量赚钱；Mistral选择完全开源。旗舰模型阶段，开源意味着拱手让出最贵的资产，但专用工具阶段，开源一个窄领域agent的成本远低于开源通用大模型，换来的生态卡位却可能同样有效。项目开源后在Hacker News拿到735票，对一个数学证明工具来说极为少见。

模型竞赛从「最强」转向「最全工具链」专用小模型降低agent系统运行成本专用工具阶段改写开源竞争逻辑

来源

Introducing GPT-5.4 mini and nanoopenai.com Leanstral: Open-source agent for trustworthy coding and formal proof engineeringmistral.ai

02五角大楼要用机密数据训练AI，但同一技术可能已在流向伊朗

一批永远不能公开审计、不能独立做安全测试的AI模型，正在美国国防部的计划中成形。据MIT Technology Review报道，五角大楼正与AI公司讨论在安全设施内用机密数据训练军方专属模型。这不是采购商用AI来部署，而是把训练管道本身军事化。

Claude目前已在机密网络上运行，用于分析伊朗相关目标，但仅限推理层——模型回答问题，并不从机密数据中学习。五角大楼下一步要打通的是训练层：让模型直接吸收机密情报，生成商用版本不具备的专属能力。

但同一周，该媒体另一篇报道追踪到，OpenAI的商用技术正通过多条路径流入伊朗。最前沿的AI能力一旦变成产品进入市场，扩散就超出了出口管制能覆盖的范围。

美国政府想在密室中精确控制AI的训练数据和输出，却连商用AI产品的跨境流向都拦不住。训练管道的军事化计划目前仍在讨论阶段，而技术扩散已经在发生。

训练层军事化比部署层深一个量级机密模型无法接受外部审计技术管控与扩散的矛盾是结构性的

来源

The Pentagon is planning for AI companies to train on classified datatechnologyreview.com Where OpenAI's technology could show up in Irantechnologyreview.com

03Google免费开放「个人智能」，拿用户数据换AI竞争力

Google在大模型竞赛中一直扮演追赶者，但本周二换了个打法。它把「个人智能」功能免费开放给全美用户，让Gemini直接读取搜索记录、邮件和浏览历史来回答问题。此前这项功能只有付费订阅者才能用。

Google这么做有底气。它同时运营着全球最大的搜索引擎、用户最多的邮箱和份额最高的浏览器，没有第二家AI公司有这个数据组合。这些数据拼在一起，Gemini就能知道你在查什么航班、收件箱里躺着什么合同，给出的回答天然比通用模型更贴合需求。

这也解释了为什么选择免费。当各家大模型能力逐渐拉平，用户粘性取决于谁更了解面前这个人。付费墙挡住的每一个用户，都是一份喂不进模型的数据。

官方博客称，这项扩展覆盖搜索、Gemini应用和浏览器三个入口。用户不需要掏钱，只需授权自己的数据。

竞争维度从模型能力转向用户数据深度免费策略加速数据规模积累搜索、邮件、浏览数据一次性打包授权

来源

Bringing the power of Personal Intelligence to more peopleblog.google Now everyone in the US is getting Google's personalized Gemini AItheverge.com

Microsoft任命新Copilot负责人，统一消费端与企业端团队 Microsoft再次调整AI高管架构，将此前分别负责消费者和企业版Copilot的团队合并，由新负责人统一管理。调整旨在解决两条产品线长期各自为战的问题。 theverge.com

OpenAI：美国用户每天向ChatGPT发送近300万条薪资相关提问 OpenAI发布研究称，大量用户使用ChatGPT查询薪酬和收入信息，正在帮助缩小劳动力市场的薪资信息差。 openai.com

Google发布AI驱动的开源安全工具 Google宣布对开源安全领域追加投资，推出新的AI安全工具和代码安全功能，覆盖漏洞检测和代码审计环节。 blog.google

OpenSeeker完整开源搜索agent训练数据，降低深度搜索开发门槛 团队发布OpenSeeker，首个完整开源搜索agent训练数据集。此前高性能搜索agent的开发因缺乏公开高质量训练数据，基本被大厂垄断。 huggingface.co

首尔世界模型：基于真实街景的城市级视频生成 研究团队发布Seoul World Model（SWM），通过检索增强调节机制，将自回归视频生成锚定在首尔的真实街景图像上，实现城市规模的世界模拟。 huggingface.co

VET-Bench测试显示当前视觉语言模型无法完成基础物体追踪 新基准VET-Bench使用外观完全相同的物体，要求模型仅凭时空连续性进行追踪。测试结果：当前最强视觉语言模型表现接近随机猜测水平。 huggingface.co

MoDA机制让attention head跨层回溯，缓解深层LLM信号衰减 研究提出Mixture-of-Depths Attention，允许每个attention head同时关注当前层的序列KV对和前序层的深度KV对，配合硬件感知设计，改善深层大模型中浅层有效特征被逐层稀释的问题。 huggingface.co

RLCF：用社区反馈训练AI的科研品味 研究提出Reinforcement Learning from Community Feedback范式，利用大规模学术社区反馈信号训练模型判断和提出高潜力研究方向，聚焦此前被忽视的科研品味能力而非执行能力。 huggingface.co

EnterpriseOps-Gym：面向企业场景的agent规划评测基准 新基准模拟企业环境中的长期规划任务，包含持续状态变更和严格权限控制，填补现有评测未覆盖真实企业复杂性的空白。 huggingface.co

向混合xLSTM架构蒸馏Transformer实现无损知识迁移 研究定义了基于容差修正胜率的「无损蒸馏」标准，将Transformer LLM蒸馏到次二次复杂度的混合xLSTM架构中，在多项下游任务上达到与教师模型持平的表现。 huggingface.co