ChatGPT接管你的银行账户，三份评测说agent记忆全不及格

01ChatGPT现在能直接读你的银行账户，只对美国付费用户开放

ChatGPT上线了个人金融功能预览版。用户可以把自己的银行账户、券商账户接进去，让模型看到真实的余额、交易和资产数据，然后基于这些数字给理财建议。这是这款产品第一次从「聊财务」跨进「看见你的钱」。

参与门槛设了两道：必须是Pro订阅用户，必须人在美国。OpenAI称该功能基于用户的财务状况和目标生成建议，但没说哪些银行已经接入、数据如何存储、合规上属于哪个类别。它会被算作理财顾问吗？还是普通信息服务？这两种分类在美国受到的监管强度差距巨大。

这种产品形态正在印证一个预测。Anton Leicht近期一篇文章指出，前沿AI的访问会越来越多被经济和安全约束切断——付费墙、地理限制、合规筛选会逐步成为常态。这次的金融功能正好踩在这三个变量上：要付费订阅，要美国身份，要主动授权敏感数据。

对于不在这个窗口里的用户，能用的AI仍然只能聊财务，不能看账户。前沿AI能力的差距从响应速度和上下文长度，扩展到了模型能读到的数据本身。

美国Pro用户首次让ChatGPT读到银行账户数据合规归属未定，可能触发理财顾问监管前沿AI能力开始按付费墙和国境切分

来源

A new personal finance experience in ChatGPTopenai.com Access to frontier AI will soon be limited by economic and security constraintswriting.antonleicht.me

02三篇agent memory benchmark同日上线HF，从三个独立维度全部判不及格

记忆知不知道自己过时了。多模态长上下文撑不撑得住。视觉证据有没有保留。同一天落地HuggingFace的三篇论文，从三个互不相关的维度测试agent memory，全部给出负面结论。

STALE瞄准一个被现有评测忽略的失败模式：当新观察推翻了旧记忆但没有显式否定，agent能不能靠常识推理察觉这种「隐性冲突」。MemLens把长上下文LVLM和memory-augmented agent两条路线放进同一套多模态多轮对话题里直接对比，789道题覆盖五个记忆维度。MemEye专测视觉证据保留——之前的视觉问答题很多只靠caption就能答出来，根本没在测agent是否记得画面本身。

时间点不能忽略。本周Medicare开始为AI agent付费，企业部署agent进入合规审查环节。agent上岗的前置条件，正卡在记忆这一关。

对构建agent的工程师，三套benchmark对应三种选型场景：长上下文路线跑MemLens，视觉记忆用MemEye，做personalization看STALE。对部署方，警示更直接：记忆失败不止「忘了」一种形态，「以为自己记得」和「只记得说过什么但不记得看过什么」是两类不同的故障。

医疗与企业agent部署需补做记忆失效测试长上下文与memory-augmented路线尚无胜负视觉agent需单独验证画面级记忆

来源

STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?huggingface.co MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Modelshuggingface.co MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memoryhuggingface.co

03「一批公司陷在AI psychosis里」，HN同天另一篇说美国正靠AI商业化在赢

HashiCorp创始人发推说，他相信「现在有一整批公司正陷在AI psychosis里」，指企业级AI决策被幻觉和过度乐观推着走。这条推冲上HN前排，评论区挤满了工程师讲自家公司的故事：董事会把「AI转型」当KPI压下来，指令是「先用上再说」。

同一天HN头版另一篇标题叫《美国正在赢下AI竞赛里最重要的那部分：商业化》，237分却挤进671条评论。作者论点很直接：领先看的不是模型benchmark，而是企业把AI塞进工作流的速度，美国公司甩开了对手。

两边论据正好咬在一起。psychosis派说的「管理层强推、工程师返工、预算超支」——到commercialization派那里就是「广泛部署、快速试错、市场领跑」。一组人看到混乱，一组人看到速度。

评论区有人把两条贴一起问：如果两边说的都是事实，那美国是不是正在AI psychosis中赢下竞赛。

企业AI预算审查者将面对两套相反话术同一部署可被解读为冒进或先发优势下一份企业AI回报数据决定谁的叙事赢

来源

I believe there are entire companies right now under AI psychosistwitter.com The US is winning the AI race where it matters most: commercializationavkcode.github.io

PwC全面接入Claude，做交易和企业职能改造 Anthropic宣布与PwC扩大合作，PwC将用Claude为客户构建技术、执行交易并重塑企业各项职能。这是Anthropic企业咨询渠道的又一关键签约。 anthropic.com

OpenAI再次重组，Brockman统管所有产品押注agent OpenAI周五又一次组织调整，总裁Greg Brockman正式接管全部产品线。Brockman在内部备忘录里写明今年战略是「全押AI agent」，因此把产品合并到一起投资。 theverge.com

ChatGPT为敏感话题更新上下文识别 OpenAI发布安全更新，让ChatGPT在敏感对话里能跨轮次识别风险升级并更安全地回应。此前OpenAI已被未成年用户家属以过失致死起诉。 openai.com

Google把「操纵AI」写进搜索垃圾政策 Google更新spam policy，明确把试图操纵AI Overview和AI Mode搜索结果的行为定义为spam。这是Google首次给AI生成搜索结果建立独立反作弊规则。 theverge.com

YouTube对全体成年用户开放deepfake检测 YouTube把AI likeness detection扩展到18岁以上所有用户，任何人可以上传自拍样本让平台扫描相似面孔的视频，匹配后会发通知。此前该功能只对少数创作者开放。 theverge.com

arXiv开始封禁充斥AI生成内容的论文作者 arXiv宣布若论文存在「无可辩驳的证据表明作者未核对LLM输出」——例如虚构引用或残留的LLM自评注释——将封禁作者。这是预印本平台第一次对AI slop设明文红线。 theverge.com

Sea Limited把Codex铺到全工程团队 Sea Limited的CPO在OpenAI博客撰文,解释为何要在工程团队全面部署Codex来加速亚洲市场的AI-native软件开发。这是Codex在东南亚大公司里的首个公开案例。 openai.com

Runway把视频生成定位为世界模型路径 Runway押注视频生成是通往world model的路,并称自己作为AI外来者反而是优势。这家面向影视行业起家的公司开始正面对标Google的视频/世界模型方向。 techcrunch.com

Osaurus给Mac做了一个本地加云端混合的AI壳 Osaurus发布Mac应用,把本地和云端AI模型整合到一起,memory、文件、工具调用都留在用户硬件上。又一个押注本地推理作为默认体验的产品。 techcrunch.com

中国短剧成了AI内容工厂 MIT Technology Review调查发现,中国微短剧产业已经在大规模使用AI生成画面和分镜,从龙形纹身到悬浮特效。这类内容机器的产能正在反向定义全球AI视频应用的工业标准。 technologyreview.com