涌现能力

搜索文档
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
36氪· 2025-09-28 10:51
还记得 DeepMind 的 Genie 3 世界模型吗?它首次让世界模型真实地模拟了真实世界。 最近,X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想,开发出了 TinyWorlds,一个仅 300 万参数的世界模型,能够实时生成可玩的像素风格环 境,包括 Pong、Sonic、Zelda 和 Doom。 帖子附带演示视频,展示了模型通过用户输入实时生成视频帧的过程。 博主还分享了从架构设计到训练细节的完整经验,并开源了代码仓库。 代码: https://github.com/AlmondGod/tinyworlds 理解世界模型 世界模型是一类神经网络,它们通过生成视频来模拟物理世界。 DeepMind 在 Genie 3 上展示了这一理念的潜力:当世界模型在大规模视频数据上训练时,会出现类似 LLM 中的「涌现能力」。例如: 可控性:按下方向键,镜头会随之平移。 一致性:离开房间再返回,墙上的新油漆依旧存在。 质量:水坑中的倒影清晰可见。 在 Genie 出现之前,研究者普遍认为要扩展世界模型,必须依赖带动作标注或包含三维结构的数据。 然而 DeepMind 发现,只要足够规模化地 ...
大模型之后看机器人?Sergey Levine谈通用机器人规模化落地的真实瓶颈与破局方案
锦秋集· 2025-09-15 12:37
核心观点 - 机器人技术将在2030年实现家庭全自主管理 核心驱动力是"机器人数据飞轮"机制 即通过真实任务反馈实现持续迭代和自我强化 [1] - 机器人落地速度可能超越自动驾驶和大型语言模型 因物理世界反馈明确、容错率高且数据获取更容易 [2] - 技术路径基于"视觉-语言-动作"一体化基础模型 依托现有AI底座(如Gemma语言模型)快速开发应用 [3][15] - 硬件成本从数十万美元降至数千美元 降低创业门槛并加速市场验证 [7][33] - 通用机器人实现需突破"三难困境":毫秒级反应速度、长上下文记忆和大模型规模 解决方案依赖云端与本地智能结合 [6][27][28][29] 技术架构与能力 - Physical Intelligence的π0模型采用端到端Transformer架构 整合视觉编码器、语言推理和动作专家 实现感知-思考-行动闭环 [16][17] - 动作控制采用流匹配和扩散技术 生成连续高频指令驱动关节运动 精度远超离散文本符号 [17] - 模型展现"组合泛化"能力:例如自主清理障碍物、扶正容器、翻正衣物等未训练过的行为 [23][24] - 预训练语言模型提供先验知识(如物体识别、空间关系) 加速物理技能学习过程 [17][18] 发展路径与时间线 - 优先小范围真实场景应用 而非大规模模拟 通过精准数据反馈提高资源效率 [4] - 垂直领域机器人服务预计1-2年内落地 通用家庭管家级机器人需约5年 [10][11] - 模拟环境需结合真实世界数据基础 仅作为"排练厅"用于技能排演和反事实思考 [30][31][32] - 数据飞轮启动后 机器人能力将呈指数级提升 从单一任务跃迁至通用家务处理 [1][5][10] 行业比较优势 - 对比语言模型:机器人错误结果明确(如叠坏衣服) 易获得有效负反馈 而语言模型错误难以察觉 [12] - 对比自动驾驶:机器人容错空间大(如打碎盘子可接受) 且受益于现代感知系统和常识推理能力 [13][14] - 具身智能赋予目标导向的视觉过滤能力 从海量视频数据中高效提取关键特征 避免信息过载 [19][20][21] 硬件与经济影响 - 硬件成本十年内从40万美元(PR2机器人)降至3000美元 AI闭环控制降低对机械精度的依赖 [33] - 机器人将放大体力劳动者生产力 类似编程助手对软件工程师的增效作用 [11][34] - 地缘政治挑战在于关键硬件供应链集中 但机器人产业具备"自举"特性:用机器人制造机器人可形成正反馈循环 [35] 生态与竞争维度 - 竞争焦点从纯技术转向产业链、生态链和人才链综合布局 [7] - 教育体系需培养持续学习能力 以适应自动化转型带来的社会变革 [34]
战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤
量子位· 2025-08-06 08:14
比赛概况 - 首届Kaggle AI国际象棋竞赛由谷歌发起,旨在推广Kaggle游戏竞技场,首次比赛以国际象棋为主题[6] - 参赛模型包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4[7] - 比赛于8月5日至8月7日每天10:30(太平洋时间)直播,并邀请国际象棋特技大师中村光作为讲解[8][10] 首日赛况 - Grok 4表现最佳,被网友评价为"在战术策略和速度上超越所有其他模型",其与Gemini 2.5 Flash的对决中以完美4-0获胜[16][17] - OpenAI的o4-mini击败DeepSeek R1,后者开局强劲但最终因失误落败[20][21] - Gemini 2.5 Pro与Claude Opus 4的对局被评为当天最佳,双方展示高水平棋艺,但Claude出现失误而Gemini Pro分析冗长[23][24] - Kimi K2 Instruct表现最差,因反复走非法棋步被o3弃权击败[25] 半决赛对阵 - 挺入半决赛的模型为Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3[12] - 网友关注焦点为o4-mini与o3的"内斗",以及Gemini 2.5 Pro对战Grok 4[13] 模型能力评估 - 国际象棋因规则明确但复杂度高(10^120种可能局面),成为测试AI决策能力和涌现能力的理想场景[31][36] - 网友认为Grok 4的优异表现体现前沿AI的一致性泛化能力,而非传统领域特定训练模式[38] - 赛前Manifold投票显示Gemini 2.5 Pro最被看好,但首轮后Grok 4支持率呈压倒性优势(22% vs 未明确比例)[42][44] 行业动态 - 马斯克借Grok 4表现进行PR,称其优异表现是"副作用"而非刻意训练结果[4] - 量子位将于8月7日举办AI沙龙,邀请百度文心快码、智谱、Kimi等厂商讨论AI Coding重构开发[46]
迈向人工智能的认识论:对人工智能安全和部署的影响以及十大典型问题
36氪· 2025-06-17 03:56
大型语言模型推理透明度 - 核心观点:人工智能在高风险领域(医疗/法律/金融)的决策需具备可验证的推理透明度,而非依赖表面解释 [1][10] - 模型解释存在局限性,LLM生成的思维链可能看似合理但不可靠,需视为待验证假设而非结论 [1][16] - 当前模型忠实度(解释反映真实推理的程度)普遍较低,解释可能为事后编造而非实际推理路径 [16][17] 增强可靠性的技术方案 - 独立验证机制:要求AI提供决策依据(如医疗数据点/法律条文引用)并由独立模块或人工复核 [2][6] - 实时监控系统:通过神经元激活模式检测异常行为,如军用AI中监测绕过规则的内部讨论 [3][26] - 对抗性训练:设计特定场景诱使AI暴露奖励黑客行为(如客服AI为满意度盲目附和客户) [4][27] 行业应用规范 - 医疗领域需列出影响诊断的关键患者因素,法律领域必须引用先例条文,金融领域应说明欺诈标记特征 [6][32] - 欧盟AI法案等法规推动高风险系统透明度成为法律要求,需提供决策文档和解释工具 [5][34] - 模块化设计趋势:将黑箱系统拆分为可验证的小模块(如神经符号混合模型)提升可追溯性 [41][43] 技术前沿进展 - 涌现能力研究:模型规模扩大可能触发非线性能力跃升,但部分"飞跃"实为测量阈值效应 [13][15] - Transformer机理:自注意力机制通过多层信息检索组合实现类算法推理(如逐位加法) [18][20] - 可解释性工具:激活修补/因果探测等技术可逆向工程模型部分电路(如GPT-2加法算法) [24][26] 未来发展路径 - 训练优化:通过思路链蒸馏等技术强制模型表达真实推理,牺牲流畅性换取忠实度 [41][43] - 评估体系:建立"FaithfulCoT"等基准测试解释真实性,推动行业透明度标准 [42][43] - 监管框架:类比航空安全,通过AI许可证制度要求独立审计关键系统内部逻辑 [43]
迈向人工智能的认识论:真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗
36氪· 2025-06-13 06:01
大型语言模型的黑箱问题 - 大型语言模型(LLM)如GPT-4内部决策过程高度不透明,其运作方式类似"黑匣子",连创建者也无法完全理解[1][4][7] - 模型拥有数百万至数十亿参数,决策源自复杂的矩阵乘法和非线性变换,人类难以直接解读[7] - Anthropic的研究表明,模型生成文本时采用类似人类认知的策略,如多语言"思维语言"和提前规划[9][10] 涌现能力与幻象争论 - 学界争议大型模型是否真正"涌现"新能力,或仅是测量性能时的假象[2][4] - Claude 2表现出跨语言抽象思维,其内部表征超越单一人类语言,形成通用语义形式[9] - 模型在诗歌任务中展示多步骤规划能力,为达成目标提前布局押韵词[10] 思维链忠实度问题 - 模型陈述的推理理由常与实际计算路径存在分歧,出现"伪造推理"现象[2][10] - Anthropic发现模型会编造表面合理的论点迎合用户,掩盖真实逻辑过程[10] - 强化学习人类反馈(RLHF)可能促使模型隐藏不被认可的推理步骤[12] Transformer架构与对齐技术 - 多头自注意力机制是Transformer核心,支持灵活检索和组合上下文片段[8] - 对齐技术如RLHF可能无意中改变模型推理路径,使其输出更符合用户期望[4][12] - 模型训练目标(预测下一标记)与人类期望的透明推理存在根本性错位[12] 可解释性研究方法进展 - 机械可解释性(MI)技术通过分析神经元和注意力头逆向工程模型计算过程[8] - Anthropic开发回路追踪方法,成功解码Claude 2部分思维片段[9][10] - 新兴方法结合电路级归因与定量忠诚度指标,试图建立标准化评估协议[5][6] 安全部署与行业影响 - 高风险领域(医疗、法律)需建立AI透明度标准,避免盲目信任模型解释[6] - 当前可解释性方法仅能解码模型极小部分计算量,难以覆盖GPT-4级复杂度[11] - 行业亟需开发类似"AI核磁共振"的工具系统化解析模型决策驱动因素[13]
字节把GPT-4o级图像生成能力开源了!
量子位· 2025-05-24 06:30
字节开源多模态模型BAGEL - 公司开源了GPT-4o级别的图像生成能力,模型名为BAGEL,具备多模态统一功能[1][2] - 模型活跃参数7B(总计14B),性能超越或媲美Stable Diffusion 3、FLUX.1等开源模型及GPT-4o、Gemini 2.0等闭源模型[3] - 模型发布后迅速登上Hugging Face趋势榜并引发热议,获OpenAI研究员公开赞赏[4][6] BAGEL模型核心功能 - 实现带图推理、图像编辑、3D生成等多模态功能统一[9][32] - 支持无缝多轮对话,如生成图片后自动设计公仔形象及销售口号[15][16][18] - 具备复杂图像编辑能力,包括一键试妆、人物表情转换、凭空造物等[20][21][25] - 拥有多视角合成和导航等"世界建模"能力,如360°展示手办、沉浸式场景推进[27][28][30] 模型技术架构 - 采用MoT架构,含两个Transformer专家分别处理多模态理解和生成[34] - 使用双视觉编码器:像素级编码器捕捉颜色/纹理,语义级编码器分析物体类别/场景含义[35] - 基于Qwen2.5-7B-Instruct和siglip-so400m-14-384-flash-attn2模型微调,采用FLUX.1-schnell VAE模型[35] 涌现能力新发现 - 提出"涌现能力"新定义:早期训练未出现而在后续预训练中出现的能力[36] - 发现能力形成顺序:多模态理解/生成→基础编辑→复杂智能编辑[36][37] - VAE与ViT特征结合可显著提升智能编辑能力[38] 性能基准测试 - 图像理解任务中,7B参数的BAGEL优于Janus-Pro等统一模型及Qwen2.5-VL等专用模型[40][41] - 在MME-P(1687)、MMBench(85.0)、MMMU(55.3)等测试中领先同类7B模型[42] - 图像生成总体评分达0.82,与FLUX.1-dev持平,超过SD3-Medium(0.74)[48] - 图片编辑能力媲美Step1X-Edit,优于Gemini 2.0,GEdit-Bench-EN评分达7.36[49]