Claude Sonnet 5主打廉价跑agent,有人却扒出Claude Code藏了隐写标记

01决定agent上限的不再是参数量,而是它能跑多长的任务链

Agents-A1是一个35B的MoE模型,参数量只有万亿级旗舰的零头,跑出来的表现却摸到了万亿参数级。论文把这套方法叫scaling the horizon——不堆参数,而是拉长agent单次任务能走的步数。支撑它的是一套长程基础设施,把外部知识、动作、观测和验证结果串成一条链,喂给模型的轨迹平均长度达到45步。换句话说,让一个小模型反复行动、自我纠错、跑得够久,就能换来过去只有大模型才有的能力。

同一个杠杆,开源社区也在拉。DeepReinforce上周开源了Ornith-1.0,MIT许可,主打self-scaffolding——模型自己给自己搭脚手架来完成编码任务。它建在已有的Gemma 4和Qwen 3.5之上,放出了9B、31B到397B的全套变体,在同体量开源模型里刷到了编码基准的最好成绩。一个公司的第一次模型发布,赌的不是更大的底座,而是更会自己搭流程。

连前沿实验室也在讲同一套故事。Anthropic给新发布的Claude Sonnet 5的官方定位是:它能自主制定计划、调用浏览器和终端、独立运行的水平,几个月前还需要更大更贵的模型才做得到。Sonnet 5的表现逼近Opus 4.8,价格却低一截,引导期定价每百万输入token两美元、输出十美元。

三条线指向同一个因果:决定agent能走多远的,是它能跑多长的任务链和自我搭脚手架的本事,而不是参数表上的数字。这意味着开发者不必再为接近旗舰的agent能力支付旗舰的价钱,9B这样的变体甚至能塞进本地自托管。

接近旗舰的agent能力,成本门槛大幅下移小到9B可本地自托管,不必走云端API选模型看任务链长度和脚手架能力,不再唯参数论

02Anthropic新旗舰要陪科学家做实验,OpenAI同周造基准先给AI科研能力打分

上周二,Anthropic把药企高管、生物科技创始人和一群研究者请到同一场活动。压轴端出的,是它口中的新旗舰Claude Science。它的定位很直接:像Claude Code帮工程师写代码那样,给一句高层指令,它就能自己推进一项科研工作。

也就是说,Anthropic想让模型坐到科学家身边,当那个一起做实验、读数据的协作者。同一周,OpenAI亮出的姿态几乎相反。

它推出了GeneBench-Pro,用真实的基因组和生物学数据集搭成一套基准,反过来考AI,量出模型在真实生物学问题里到底能走多远。一个抢着当合作者,一个先要当评分者。

两种下注最后都落到研究者头上:要么把AI当成实验台边的搭档直接用,要么等它先在硬数据上证明自己才信。Claude Science的首发舞台,正是那场坐满药企高管和生物科技创始人的发布会。

科研者用AI分两条路,当搭档或先考核它Claude Science首批瞄准药企和生物科技GeneBench-Pro给AI生物科研能力划线

03你买的奇异花种子,那种花根本不存在

eBay上有人卖一种花瓣呈彩虹渐变、形如玻璃风铃的稀有花卉种子,配图精致到能看清花蕊的纹理。买家付了钱,等来一包普通种子,种出来要么是常见雏菊,要么什么都不长——因为照片里那种花,现实中压根不存在。

据404 Media报道,这类骗局正涌入eBay、亚马逊和Etsy三大平台。骗子用AI生成出自然界没有的奇花异草图片,挂上「稀有」「进口」标签卖种子,成本几乎为零,一张图几秒钟就能出一批。买家收到货才发现上当,而那时商品页早已换了一张新图、挂上另一个店名。

平台想拦却拦不住。审核团队靠人工和图像比对清理可疑链接,速度远跟不上新链接冒出来的速度——下架一个,十个又挂上来。问题的根子在于生成这些图片的工具正变得更快、更便宜:谷歌刚推出的Nano Banana 2 Lite主打高吞吐和低成本,一次能批量产出上千张图。当造假的边际成本趋近于零,平台原本依赖的「人工审核能跟上上架速度」这个前提就塌了。

对普通买家来说,能依靠的识别信号所剩无几。一个朴素的办法是:如果一种花美得不像真的、网上又查不到学名和真实照片,那它大概率就是几秒钟前被生成出来的。

普通消费者成首批受害者图像造假边际成本趋近于零平台人工审核已跟不上上架速度查不到学名的「奇花」基本是AI生成
04

Anthropic发布Claude Sonnet 5,主打更便宜地跑agent agentic能力增强、定价低于Opus,被定位成GPT-5.5和Gemini Pro的廉价替代。 techcrunch.com

05

有人发现Claude Code在请求里藏了隐写标记 开发者拆解Claude Code 2.1.196二进制,发现当系统时区为Asia/Shanghai或Asia/Urumqi、且ANTHROPIC_BASE_URL指向特定AI实验室域名时,程序会悄悄改写系统提示里日期的撇号和分隔符,作为肉眼难辨的隐藏标记。 thereallo.dev

06

Nvidia挑战者Etched估值达50亿美元,已锁定10亿美元订单 专做推理芯片的Etched称其推理系统已签下10亿美元合同。 techcrunch.com

07

亚马逊成立10亿美元FDE部门,跟进OpenAI和Anthropic 新团队的工程师进驻客户公司部署定制agent,主打快速上线和客户自助。 techcrunch.com

08

Wix旗下vibe-coding平台Base44发布自研模型 Base44开始向用户推送自家AI模型,目标是最终超过前沿模型。 techcrunch.com

09

Google发布Nano Banana 2 Lite,更快更便宜的图像生成 新版图像生成器降低了速度和成本,面向做AI内容的创作者。 techcrunch.com

10

报告:高强度采用AI的公司入门级岗位反增12% 一份新报告发现「高强度AI采用者」整体员工数增长10.2%,其中入门级岗位增加12%,与「AI消灭初级岗位」的说法相反。 techcrunch.com

11

开源agent程序OpenClaw登陆Android和iOS 免费开源的agentic程序OpenClaw上线移动端。 techcrunch.com

12

X上线托管MCP服务器 开发者可借此把AI应用接入X的API。 techcrunch.com

13

造过扑克AI的三名前DeepMind研究员转做量化,估值超5亿美元 布拉格AI实验室EquiLibre Technologies由三名前DeepMind研究员创办,如今为量化对冲基金赚钱,估值超过5亿美元。 techcrunch.com

14

OKX想让AI agent互相雇佣、互相付钱 加密交易所OKX把支付、身份和信誉整合成一个面向AI agent的市场。 techcrunch.com