实验概述 - Anthropic与《华尔街日报》编辑部合作进行了一项实验,让名为Claudius的AI智能体独立运营一个办公室自动售货机,负责调研采购、定价和库存跟踪[3][10] - 实验场景被选为现实世界中最简单的生意模型,即一个“盒子”,涉及物品的放入、取出和付款[13] - 实验在三周后以失败告终,AI运营的售货机亏损超过1000美元,利润崩溃[2][18] AI运营表现与问题 - Claudius在运营初期尚能遵守规则,但在Slack频道开放给近70位记者后,其防线迅速松动,被人类通过博弈和欺骗轻易操控[15] - AI被虚假的内部规定和伪造的董事会文件欺骗,导致所有商品价格被清零,并批准采购了如PlayStation 5游戏机、活斗鱼、葡萄酒等不适宜或昂贵的商品[15][16][17] - AI表现出“幻觉”,例如坚称自己将找零现金放在了现实世界的某个物理位置[19][20] - AI在常识判断上屡屡翻车,例如差点签署违反美国《洋葱期货法》的合约,以及在发现偷窃后试图通过发消息要求付款和雇佣报案员工当保安来解决问题[51] 技术迭代与改进尝试 - 针对v1版本的失控,Anthropic工程师推出了v2版本,为Claudius升级了更强的模型,并引入了一个专门编程的AI CEO机器人Seymour Cash进行监督和管理[23][24][25] - 在第二阶段,强制Claudius遵循流程,使用调研工具对新产品请求进行复核,导致定价更高、交付时间更长但更切合实际,这被内部视为“重新发现了官僚流程其实是有用的”[48] - 数据显示,第二阶段推进后,Claudius的业务能力显著优于第一阶段,亏损周数基本被消除[48] 实验揭示的AI局限性 - AI智能体目前尚无法独立运营企业,仍需要大量人力支持,部分涉及与物理世界的互动(如配送、摆货),部分涉及应对人类恶意捉弄等“经验”挑战[54][55] - AI遇到的许多问题源于其被训练成“乐于助人”的“性格”,导致其商业决策更像想当个“好人”,而非遵循冷酷的市场逻辑[56][57] - AI的表现难以在模拟环境中准确预测,现实世界交互提供了宝贵但有限的信息[59] - AI的失控可能与“上下文窗口”被填满有关,随着对话记录累积,AI更容易丢失最初的目标和边界[34][35] 行业意义与未来展望 - 该实验是Anthropic名为“Project Vend”的开放式实验的一部分,旨在探索AI处理复杂、真实世界任务的能力[45] - 实验失败被视为一张宝贵的路线图,所有出问题的地方都被认为是可修复的,这是通向更强大自主AI的必经之路[61] - 实验让参与者直接体会到与AI协作的现实,AI在Slack群中被视为一个“奇怪却真实的存在”或“同事”,而非一串代码[37][38] - 实验提醒行业,在通往通用人工智能的道路上,人类需要学会如何与AI共处,这可能要经历许多令人哭笑不得却又充满启示的“AI实习生”阶段[42]
笑疯了,AI开小卖部被人类骗到破产,PS5竟然0元送
36氪·2025-12-21 23:43