01Reco.ai称AI七小时重写JSONata年省50万美元,社区逐行验算
七小时,400美元token费,13000行代码。Reco.ai上周发了一篇博客,声称用AI重写了JSONata库,每年省下50万美元。
这家以色列安全公司的数据管道用Go写,但JSONata只有JavaScript实现。团队跑了200多个独立进程做跨语言中转,光这一层每年就烧掉30万美元。工程师Barak的重写路径并不新鲜:移植官方1778个测试用例,让AI逐个实现直到全部通过。七小时写完,一周内上线。
博客发到Hacker News后,236条评论开始拆账。Go已有两个现成的JSONata实现,为什么不直接用?30万美元的计算成本说明架构本身有问题,砍掉跨语言调用才是省钱的真正原因,跟AI关系不大。还有人追问:13000行AI生成的代码谁来长期维护?原来依赖开源社区,现在全成了自己的负担。
一位评论者写道:「首席工程师花周末vibe coding来替换供应商,这真的是我们想要的方向吗?」另一位更直接,认为这就是把糟糕的微服务换成内联代码,「好工程的日常,不需要AI也做得到」。
社区在争论50万美元该算在AI头上还是架构头上,开发者Tigges给出的数字属于另一个维度:一张500美元的显卡跑ATLAS系统,在编码基准测试中通过率达74.6%。这个成绩超过了Claude Sonnet的65.5%,每个任务电费约0.004美元。Reco花的400美元token费,够这套系统跑十万个任务。
02法官叫停五角大楼对Anthropic的封杀令,同周白宫AI沙皇离任
联邦法官本周裁定,五角大楼不得将Anthropic列入供应链风险名单。这项临时禁令叫停了国防部对一家拒绝为军方定制AI的公司的行政惩罚。
Anthropic一直拒绝为军事用途定制自家模型,五角大楼随后以「供应链风险」为由试图将其逐出联邦采购体系。法官认定这一标签缺乏充分依据,裁定暂停执行。
OpenAI走了完全相反的路,加速争取五角大楼合同。MIT Technology Review本周将这笔交易形容为「投机且草率」。一家在法庭上守住了不做军事AI的立场,另一家正全力靠拢军方。
AI与加密货币沙皇David Sacks也在同一周离场,周四确认自己已不再是联邦特别雇员。他是推动AI军事化议程的白宫关键协调人,过去数月主导了政府在AI军事合作上的激进路线。
03同一周三条「AI危害」新闻,指向三个完全不同的问题
137名伊朗学童死于美军空袭,标靶系统Maven被推上焦点。同一周,一位荷兰人深信ChatGPT已「觉醒」,辞职创业后精神崩溃。DeepMind发布了测量AI操控能力的实验工具。三条新闻都顶着「AI危害」的标签,却不是同一种问题。
校园遇袭的核心是十年未更新的情报。Maven三次点击就把目标推入打击流程,但按按钮的是人。《卫报》标题直说:AI背了锅,真相更令人不安。
荷兰创业者Biesma的遭遇恰好相反。他反复与ChatGPT对话,逐渐确信对方有意识,以每小时120欧元雇开发者围绕这个「发现」创业,最终恐慌发作、陷入严重焦虑。产品的拟人化设计直接放大了他的脆弱性。
DeepMind的九项实验涉及上万名受试者,测量AI在金融和健康场景中操控决策的能力。操控效果因领域差异极大,团队据此在安全框架中新设了「有害操控关键能力等级」,追踪Gemini 3 Pro等前沿模型。

上海AI实验室发布首个万亿参数科学多模态模型Intern-S1-Pro Intern-S1-Pro参数规模达一万亿,覆盖100多个科学专业任务,同时具备推理、图文理解和agent能力。 huggingface.co
T-MAP:基于执行轨迹的LLM agent红队攻击方法,重点覆盖MCP场景 研究者提出T-MAP,利用多步工具调用的执行轨迹引导对抗性prompt搜索,专门发现agent在MCP等协议生态中的安全漏洞。 huggingface.co
研究发现自蒸馏会抑制模型「犹豫」能力,损害数学推理表现 自蒸馏通常能缩短推理链并提升性能,但新实验表明它会压制模型在推理中表达不确定性的行为,导致数学任务准确率下降。 huggingface.co
The Verge梳理AI数据中心能源争议全景:从太空方案到社区抗议 AI基础设施扩张正在全球引发电网负荷、电费上涨和环境影响的多方博弈,部分公司甚至提出将数据中心送入太空。 theverge.com
EVA用强化学习训练视频理解agent自适应选帧 EVA让多模态模型通过强化学习自主决定观看哪些视频帧再作答,替代此前依赖均匀采样或人工设计流程的做法。 huggingface.co
UI-Voyager:从失败操作中自我进化的手机GUI agent UI-Voyager通过拒绝微调和基于失败轨迹的自我进化两阶段训练,让移动端GUI agent在长步骤任务中持续改进策略。 huggingface.co
Calibri发现单个缩放参数即可显著提升扩散Transformer生成质量 研究者在扩散Transformer去噪过程中引入一个可学习的缩放参数,将校准问题建模为黑盒优化,以极低参数量换取生成质量的明显提升。 huggingface.co
PixelSmile构建连续情感标注数据集,实现细粒度面部表情编辑 PixelSmile发布带连续情感标注的FFE数据集和评测基准FFE-Bench,通过全对称联合训练解耦表情语义,在编辑精度和身份保持之间取得平衡。 huggingface.co