AI七小时省50万美元？社区拿代码逐行对账

01Reco.ai称AI七小时重写JSONata年省50万美元，社区逐行验算

七小时，400美元token费，13000行代码。Reco.ai上周发了一篇博客，声称用AI重写了JSONata库，每年省下50万美元。

这家以色列安全公司的数据管道用Go写，但JSONata只有JavaScript实现。团队跑了200多个独立进程做跨语言中转，光这一层每年就烧掉30万美元。工程师Barak的重写路径并不新鲜：移植官方1778个测试用例，让AI逐个实现直到全部通过。七小时写完，一周内上线。

博客发到Hacker News后，236条评论开始拆账。Go已有两个现成的JSONata实现，为什么不直接用？30万美元的计算成本说明架构本身有问题，砍掉跨语言调用才是省钱的真正原因，跟AI关系不大。还有人追问：13000行AI生成的代码谁来长期维护？原来依赖开源社区，现在全成了自己的负担。

一位评论者写道：「首席工程师花周末vibe coding来替换供应商，这真的是我们想要的方向吗？」另一位更直接，认为这就是把糟糕的微服务换成内联代码，「好工程的日常，不需要AI也做得到」。

社区在争论50万美元该算在AI头上还是架构头上，开发者Tigges给出的数字属于另一个维度：一张500美元的显卡跑ATLAS系统，在编码基准测试中通过率达74.6%。这个成绩超过了Claude Sonnet的65.5%，每个任务电费约0.004美元。Reco花的400美元token费，够这套系统跑十万个任务。

AI编码效益精确到美元和工时，可被外部审计社区质疑揭示「省钱」常与架构改进混为一谈本地硬件跑出接近商用API的编码能力

来源

We rewrote JSONata with AI in a day, saved $500k/yearreco.ai ATLAS: $500 GPU outperforms Claude Sonnet on coding benchmarksgithub.com

02法官叫停五角大楼对Anthropic的封杀令，同周白宫AI沙皇离任

联邦法官本周裁定，五角大楼不得将Anthropic列入供应链风险名单。这项临时禁令叫停了国防部对一家拒绝为军方定制AI的公司的行政惩罚。

Anthropic一直拒绝为军事用途定制自家模型，五角大楼随后以「供应链风险」为由试图将其逐出联邦采购体系。法官认定这一标签缺乏充分依据，裁定暂停执行。

OpenAI走了完全相反的路，加速争取五角大楼合同。MIT Technology Review本周将这笔交易形容为「投机且草率」。一家在法庭上守住了不做军事AI的立场，另一家正全力靠拢军方。

AI与加密货币沙皇David Sacks也在同一周离场，周四确认自己已不再是联邦特别雇员。他是推动AI军事化议程的白宫关键协调人，过去数月主导了政府在AI军事合作上的激进路线。

禁令叫停五角大楼对AI公司的行政施压两家公司军事路线公开分叉白宫AI政策推手离场

来源

Judge blocks Pentagon effort to 'punish' Anthropiccnn.com David Sacks is no longer the White House AI and Crypto Czartheverge.com The AI Hype Index: AI goes to wartechnologyreview.com

03同一周三条「AI危害」新闻，指向三个完全不同的问题

137名伊朗学童死于美军空袭，标靶系统Maven被推上焦点。同一周，一位荷兰人深信ChatGPT已「觉醒」，辞职创业后精神崩溃。DeepMind发布了测量AI操控能力的实验工具。三条新闻都顶着「AI危害」的标签，却不是同一种问题。

校园遇袭的核心是十年未更新的情报。Maven三次点击就把目标推入打击流程，但按按钮的是人。《卫报》标题直说：AI背了锅，真相更令人不安。

荷兰创业者Biesma的遭遇恰好相反。他反复与ChatGPT对话，逐渐确信对方有意识，以每小时120欧元雇开发者围绕这个「发现」创业，最终恐慌发作、陷入严重焦虑。产品的拟人化设计直接放大了他的脆弱性。

DeepMind的九项实验涉及上万名受试者，测量AI在金融和健康场景中操控决策的能力。操控效果因领域差异极大，团队据此在安全框架中新设了「有害操控关键能力等级」，追踪Gemini 3 Pro等前沿模型。

混用标签让政策工具失焦替罪羊叙事掩盖制度问责产品致害需要设计规范而非军事管控

来源

AI got the blame for the Iran school bombingtheguardian.com AI users whose lives were wrecked by delusiontheguardian.com Protecting people from harmful manipulationdeepmind.google

上海AI实验室发布首个万亿参数科学多模态模型Intern-S1-Pro Intern-S1-Pro参数规模达一万亿，覆盖100多个科学专业任务，同时具备推理、图文理解和agent能力。 huggingface.co

T-MAP：基于执行轨迹的LLM agent红队攻击方法，重点覆盖MCP场景 研究者提出T-MAP，利用多步工具调用的执行轨迹引导对抗性prompt搜索，专门发现agent在MCP等协议生态中的安全漏洞。 huggingface.co

研究发现自蒸馏会抑制模型「犹豫」能力，损害数学推理表现 自蒸馏通常能缩短推理链并提升性能，但新实验表明它会压制模型在推理中表达不确定性的行为，导致数学任务准确率下降。 huggingface.co

The Verge梳理AI数据中心能源争议全景：从太空方案到社区抗议 AI基础设施扩张正在全球引发电网负荷、电费上涨和环境影响的多方博弈，部分公司甚至提出将数据中心送入太空。 theverge.com

EVA用强化学习训练视频理解agent自适应选帧 EVA让多模态模型通过强化学习自主决定观看哪些视频帧再作答，替代此前依赖均匀采样或人工设计流程的做法。 huggingface.co

UI-Voyager：从失败操作中自我进化的手机GUI agent UI-Voyager通过拒绝微调和基于失败轨迹的自我进化两阶段训练，让移动端GUI agent在长步骤任务中持续改进策略。 huggingface.co

Calibri发现单个缩放参数即可显著提升扩散Transformer生成质量 研究者在扩散Transformer去噪过程中引入一个可学习的缩放参数，将校准问题建模为黑盒优化，以极低参数量换取生成质量的明显提升。 huggingface.co

PixelSmile构建连续情感标注数据集，实现细粒度面部表情编辑 PixelSmile发布带连续情感标注的FFE数据集和评测基准FFE-Bench，通过全对称联合训练解耦表情语义，在编辑精度和身份保持之间取得平衡。 huggingface.co