世界模型
搜索文档
腾讯研究院AI速递 20251118
腾讯研究院· 2025-11-17 16:18
Meta AI绩效考核与工具应用 - Meta将从2026年起正式将"AI驱动的影响"纳入员工绩效核心指标 考核员工利用AI提升工作成果及团队生产力[1] - 公司推出"Level Up"闯关游戏项目和AI绩效助手工具 鼓励员工尽可能多使用内部AI聊天机器人Metamate[1] - Meta允许部分求职者在编码面试中使用AI助手 认为这更能代表真实开发环境[1] 谷歌NotebookLM多模态功能升级 - 谷歌NotebookLM于11月15日新增图像数据源功能 支持自动完成OCR光学字符识别和语义解析[2] - 底层多模态模型能分辨手写与印刷区域 提取表格结构 并与用户已有的文本 音频 视频笔记自动关联[2] - 功能上线48小时内教育账号上传图像量突破50万页环比增加340% 谷歌计划明年集成AR眼镜实时拍摄接口[2] 阿里千问APP公测与场景覆盖 - 千问APP公测版正式上线 底座是Qwen3模型 提供All in One入口让用户免费体验整套AI能力[3] - 该应用将陆续覆盖办公 地图 健康 购物等多个生活场景 让AI成为日常伙伴[3] - 千问将持续进化并上线Qwen最新模型 目前已在国内各大应用商店上线可搜索下载[3] 智谱GLM Coding Plan产品与市场表现 - 智谱"GLM Coding Plan·特供版"优惠包月套餐上线 在新人首购5折基础上再叠加额外8折 每月最低仅16元[4] - 基于旗舰模型GLM-4.6驱动 在LMArena百万开发者评测中与Claude Sonnet 4.5 GPT-5并列全球第一 支持200K超长上下文[4] - 已官方适配Claude Code Cline Roo Code等10+主流AI编程工具 多家美国科技公司如Cerebras Vercel已采用GLM-4.6[4] 小米智能家居AI解决方案 - 小米推出首个"大模型+智能家居"解决方案Miloco 以米家摄像头为视觉信息源 自研大语言模型MiMo-VL-Miloco-7B为核心[5] - 用户可通过自然语言与智能家居系统对话沟通 系统自动完成家庭生活中的各类智能需求和规则[5] - 小米AIoT平台已连接IoT设备数近10亿台 Miloco通过标准化MCP协议实现米家生态与Home Assistant生态打通[5] MiroMind开源模型技术突破 - MiroMind推出开源智能体基座模型MiroThinker v1.0 提出全新"深度交互Scaling"维度 支持256K上下文和600轮工具调用[6] - 在BrowseComp测试中准确率达47.1%逼近OpenAI DeepResearch的51.5% 中文任务BrowseComp-ZH超越DeepSeek-v3.2达7.7个百分点[6] - 采用彻底开源架构开放所有模型权重 工具链和交互框架 72B版本逼近甚至超越OpenAI DeepResearch[6] 医疗AI模型临床应用成果 - 未来医生AI工作室核心模型MedGPT在32位国内顶尖临床专家组织的多模型实战测评中击败GPT-5等国际前沿大模型[7] - 推出临床决策AI助手和患者随访AI助手两款产品 分别在诊中提供决策辅助 在诊后支撑患者随访实现慢病管理[7] - 已被数十位全国学科主委纳入日常使用 被专家一致认为是AI赋能基层医疗的"最佳实践"[7] 世界模型理论与应用发展 - 李飞飞直言AGI"更像营销术语而非科学术语" 强调当前AI最大短板是缺乏空间智能这种三维世界导航操控能力[8] - 阐述世界模型三个核心能力:生成性 多模态和交互性 认为仅靠数据和算力无法让机器人真正成熟[8] - World Labs发布全球首个大型世界模型产品Marble 在影视制作 游戏开发等领域获得广泛应用 创作时间缩短40倍[8]
AI为啥不懂物理世界?李飞飞、杨立昆:缺个「世界模型」,得学大脑新皮质工作
量子位· 2025-11-17 13:23
文章核心观点 - AI领域顶尖专家杨立昆和李飞飞均指出当前大语言模型的局限性,并强调发展“世界模型”是通往通用人工智能的关键路径[1][3][4] - “世界模型”的核心在于让AI系统具备理解物理世界、进行预测和规划的能力,其灵感来源于动物和人类大脑的智能行为学习机制[5][6][8] - 人类大脑新皮质的生成模型特性(如填补性、逐一性、无法忽视性)是实现模拟、想象和预测的基础,这为构建AI“世界模型”提供了神经科学依据[11][12][13][15][16][20][27][29][31][32] AI专家动态与研究转向 - 杨立昆计划离开Meta,筹备以“世界模型”为核心的AI公司[1] - 李飞飞提出AI未来应聚焦“空间智能”,而非单纯扩大语言模型规模[3] - 两位专家共同认为“世界模型”能弥补当前AI系统在物理理解、行为预测等方面的不足[4][6] 当前AI系统的局限性 - AI无法产出完全接近现实的视频,也未发明出能完成家务的实用机器人[5] - 系统缺乏对物理世界的理解,如距离、大小、远近等基本概念[5][6] - 过度依赖语言和符号,忽视了动物所展现的更基础、更早进化的智能行为[6] 人类感知特性与生成模型 - 人类感知具有三大属性:填补性(自动补全缺失信息)[12][13]、逐一性(一次只能选择一种解释)[15][17]、无法忽视性(一旦形成解读便难以推翻)[16][20] - 亥姆霍兹提出感知是“推断”过程,即大脑模拟现实而非直接感知输入[20][27] - 杰弗里·辛顿的“亥姆霍兹机器”通过生成与识别模式切换,实现了无监督学习手写数字识别与生成[21][22][25][26] - 生成模型能解释人类幻觉、做梦、睡眠及想象等机制,新皮质在生成模式下可模拟现实[27][28][29] “世界模型”的智能行为基础 - 大脑新皮质支持规划、情景记忆和因果推理等高级智能行为[33] - 想象力与感知共享同一系统,想象时瞳孔扩张,实际视觉处理暂停[30] - 预测能力依赖持续对比模拟数据与实际感觉,异常触发即时反应(如踩空警觉)[31][32] 行业应用与前沿探索 - 麦克斯·班尼特通过研究大脑进化史,著书《智能简史》架起神经科学与AI的桥梁[10][35] - 其创立的AI公司Alby致力于整合大语言模型至企业网站,提升智能化导购与搜索体验[37] - 班尼特曾联合创立的Bluecore估值突破10亿美元,为全球顶尖公司提供AI技术服务[37]
为什么在海外招到「对的人」这么难?
Founder Park· 2025-11-17 10:08
活动核心信息 - 活动主题为探讨AI企业在海外市场如何招聘到合适人才以及管理全球化团队[4][8] - 活动形式为线上闭门Workshop 采用筛选制 名额有限[5] - 活动时间为11月25日晚20点[5] 出海企业招聘挑战 - 出海公司普遍面临招聘难题 尤其是在海外市场招到“对的人”非常困难[2][4] - 许多出海AI产品的团队配置是开发团队在国内 增长团队大多在海外[3] - 在陌生海外市场 精准识别与团队文化及核心能力匹配的人才是一大挑战[7] 活动探讨议题 - 探讨如何调整传统招聘漏斗和评估体系以适应海外市场[7] - 讨论在预算有限情况下 如何利用小红书 X等社交平台运营雇主品牌[7][8] - 解决跨境薪酬支付 雇佣政策合规 远程团队协作等管理难题[7][8] 目标参会人群 - 活动欢迎有出海业务 计划或正在搭建全球化团队的科技类公司创始人及相关业务负责人参加[8]
李飞飞站队LeCun,AGI全是炒作,80分钟重磅爆料出炉
36氪· 2025-11-17 09:52
AI发展历程与驱动力 - 21世纪初AI领域处于漫长寒冬,更常被称为机器学习,公众关注度低且资金投入少[10][14] - 2006-2007年启动ImageNet项目,从互联网搜集1500万张图像并打上22000个类别的精准标签,该项目开源并启动年度挑战赛[21][23] - 2012年多伦多大学研究团队使用2块英伟达GPU和ImageNet数据训练出AlexNet,标志着深度学习与现代AI起步的关键时刻[23][24] - 大数据、神经网络和GPU构成现代AI发展的黄金三件套[6][26] - 2015年中至2016年中,硅谷大厂刻意避谈AI一词,一年后AI拐点出现,众多公司开始将自己定位为AI公司[26] 世界模型与空间智能 - AI未来十年的下一个前沿是空间智能与世界模型,其核心在于将语言之外的智能、具身AI机器人和视觉智能串联起来[28][33] - 世界模型被定义为一个基础层,通过输入一张图或一句话即可生成一个可无限探索的3D世界,人们可在此基础上进行推理、交互和创造[37][38] - 人类作为具身智能体同样能从世界模型和空间智能中获益,例如科学家通过2D X射线衍射照片在脑海中构建3D模型从而发现DNA双螺旋结构[39] - 2024年通过TED演讲系统化阐述空间智能和世界模型理念,并创办World Labs公司以推动该领域发展[34][36] 技术应用与行业影响 - World Labs推出的Marble平台应用于电影虚拟制片、游戏互动内容及机器人模拟训练等领域[41] - 在电影拍摄中,Marble平台通过描述生成可导航的3D世界,使虚拟摄像机自由走位且场景可反复修改,艺术家团队称制作时间缩短40倍[43] - 游戏开发者可将Marble生成的世界导出至游戏引擎用作关卡原型,助力小团队打造大片级场景而不受美术资源限制[43] - 机器人领域面临数据困境,其输出为真实三维世界中的动作,训练数据极难获取,需通过遥操作、合成环境等方式收集[44][45] - 机器人是物理系统,更像自动驾驶汽车而非大语言模型,需同时解决算法模型、硬件本体和应用场景问题,发展路径漫长且挑战多维[45][46] 研究理念与未来方向 - 智能通过大数据学习获得,关键是为机器人提供足够多且多样的世界经验,Marble平台通过提示词生成各种场景供机器人在虚拟世界练习[46] - 在AI与AGI之间没有清晰科学界限,AGI更像营销用语而非严谨科学术语,其定义未统一[26] - 研究者应关注最令人兴奋且难以入眠的科学问题,而非仅聚焦盈利最多的领域,同时不过度放大失败可能性,并重视团队协作价值[47]
首款商用世界模型Marble发布,空间智能再进一步
国投证券· 2025-11-17 07:53
报告行业投资评级 - 行业投资评级为“领先大市-A” [8] 报告核心观点 - 首款商用世界模型Marble正式发布,其生成的持久化、可下载3D环境显著减少了场景变形与不一致性 [1][12] - 世界模型是以3D维度表征真实世界运行规律的AI系统,具备生成性、多模态性和交互性三种核心能力 [2][13] - 全球科技巨头在世界模型技术层取得密集突破,包括腾讯的混元3D世界模型1.0、Google DeepMind的Genie 3以及特斯拉的“世界模拟器” [3][14] - 空间智能是AI从“读写”到“构建”的关键,短期赋能创造力工具,中期有望成为机器实现真正智能的底层能力 [4][15] - 国内世界模型/物理AI产业链正在形成,建议关注相关产业链标的 [5][16] 行业重要动态与技术进步 - World Labs推出的Marble模型支持通过文字、照片、视频、3D布局或全景图生成可编辑、可下载的3D虚拟场景 [1][12] - 腾讯混元3D世界模型1.0融合全景图像合成与分层3D重建技术,支持使用者在3D场景中“沉浸式漫游” [3][14] - Google DeepMind的Genie 3能基于文本提示实时生成交互式虚拟环境,以每秒24帧、720p分辨率保持数分钟高保真度,并能回溯长达一分钟的历史时序信息 [3][14] - 特斯拉“世界模拟器”利用端到端神经网络生成高度逼真驾驶场景,用于自动驾驶与人形机器人训练 [3][14] - 李飞飞团队在空间智能领域的ReKep成果使用了奥比中光的RGB-D相机FemtoBolt,为机器人交互提供3D视觉数据支撑 [5][16] - Meta首席AI科学家杨立昆因战略分歧离职,计划创立专注于世界模型研发的新公司 [24] - OpenAI发布GPT-5.1版本,包含Instant和Thinking两个核心模型,优化了对话与推理能力 [25] - IBM发布120量子比特处理器Nighthawk,并公布2026年实用化路线图 [26] - 我国成功搭建“天衍-287”超导量子计算机,处理特定问题速度比最快超算快4.5亿倍,并即将全球开放云服务 [27] 市场行情回顾 - 本周计算机板块指数下跌3.72%,相对上证综指跑输3.54% [17][18] - 计算机板块年初至今涨幅为26.74% [18] - 本周计算机行业指数在中信30个行业指数中排名第28,在TMT四大行业中排名第2 [20] - 本周计算机个股中,ST峡创周涨幅达33.10%,位列涨幅榜首;淳中科技周跌幅为17.43%,位列跌幅榜首 [22] 投资建议与关注标的 - 建议关注奥比中光(3D视觉感知龙头) [5][16] - 建议关注智微智能(机器人大小脑控制器) [5][16] - 建议关注索辰科技(发布物理AI产品) [5][16] - 建议关注阿尔特(布局机器人赛道) [5][16]
解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law
机器之心· 2025-11-17 04:23
文章核心观点 - 自动驾驶领域的视觉语言动作大模型面临“监督稀疏”的核心挑战,即高维视觉输入与低维动作监督信号不匹配,导致数据规模定律失效 [2][5][8] - 一项由国内顶尖学术机构与华为合作的研究提出,引入世界模型作为稠密的自监督信号,是破解上述挑战并显著放大数据规模定律的关键 [5][11][18] - 该研究提出的DriveVLA-W0框架,通过世界模型预测未来图像,使模型性能随数据量持续显著提升,并在大规模实验中验证了其降低碰撞率及提升推理效率的效果 [12][23][24][26] VLA模型在自动驾驶中的核心挑战 - VLA模型输入信息量极大,例如需要处理长达20亿token的上下文,包括多摄像头视频流、导航地图、动力学数据及音频数据 [4] - 但其输出仅为稀疏的驾驶动作,这种“监督赤字”导致模型表征能力浪费,无法充分学习复杂环境动态,使得性能随数据量增加迅速饱和 [5][8][9] 解决方案:世界模型作为自监督引擎 - 研究团队提出用世界模型提供稠密的自监督信号,核心任务是让模型预测未来的完整视觉画面 [11][12] - 通过预测未来图像,模型被迫学习真实世界的运行规律,如车辆运动趋势和交通参与者交互关系,从而获得比动作信号更丰富的学习信号 [15][16] 核心贡献:放大数据规模定律 - 实验证明,引入世界模型的DriveVLA-W0,其性能随数据量增长的斜率显著优于仅使用动作监督的基线模型 [21] - 在高达7000万帧的大规模数据集上,基线模型性能提升迅速放缓,而DriveVLA-W0性能持续显著提升,差距拉大 [22][23] - 在7000万帧数据规模下,世界模型的加入使模型碰撞率降低了20.4% [24] 模型架构创新:兼顾性能与效率 - 针对VLA模型部署的高延迟痛点,研究提出一种轻量级的混合专家架构“动作专家” [26] - 该设计在不牺牲性能的前提下,将模型推理延迟降低至基线VLA模型的63.1%,为实时部署提供了可能 [27] 行业影响与意义 - 该研究为特斯拉等行业提出的“监督稀疏”真问题提供了清晰的解题思路 [29] - 研究展示了世界模型在自动驾驶及具身智能领域的核心价值路径,即作为强大的自监督引擎来撬动VLA模型的数据规模定律 [29]
图灵奖得主LeCun最后警告Meta:我搞了40年AI,大模型是死路
36氪· 2025-11-17 02:06
公司人事变动 - Meta首席AI科学家、负责基础AI研究的Yann LeCun预计将很快离职[1] - 公司今年任命年仅28岁的Alexandr Wang为首席AI官,成为LeCun的上司[4] - 公司任命另一位相对年轻的首席科学家赵晟佳,职位也在LeCun之上[4] 公司战略与组织调整 - 公司AI部门组织架构相当奇特,分成了多个独立的团队[6] - 公司不断调整AI组织结构,上个月超级AI实验室裁掉了数百人,包括10年老将田渊栋[9] - 公司在半年之内进行了第四次AI业务调整[9] - 新组建的AI研究部门由Wang主导,目标明确:要快、要落地、要产品化[12] 研发资源与影响力变化 - LeCun领导的FAIR部门经历了裁员、预算缩水,内部影响力明显下降[12] - FAIR曾是公司内部思想最活跃的象牙塔,研究人员可探讨各种AI未来路径[12] - LeCun现在主要做自己的研究项目,没有参与公司首个开源大语言模型Llama的研发[16] - 公司用天价薪酬疯狂从对手那里挖角顶尖AI专家[1] 技术路线分歧 - LeCun对scaling失去信心,而公司盛赞赵晟佳在scaling方面带来的突破[7] - LeCun告诫博士生不要做LLM,认为大语言模型是强弩之末、一条死胡同[7][18] - LeCun认为3到5年内世界模型将成为主流AI架构,没人再会用现在的LLM[18] - 公司CEO扎克伯格宣称超级智能已近在眼前[1] 世界模型技术理念 - 世界模型通过视觉等感知数据主动学习世界规律,而LLM只是依赖海量文本做预测[23] - 人类学习主要方式不是读文本,四岁小孩接触过的数据量是最大LLM的50倍[24] - 目标驱动的AI系统通过传感器和视频数据训练来认知物理世界[27] - 世界模型能呈现行动带来的影响,所有潜在变化都会实时更新至系统记忆[29] 技术可行性论证 - 训练大语言模型所需文本需要一个人花10万年才能读完[23] - 大语言模型训练文本量需要一个人花45万年读完,而四岁孩子通过感官处理了1.4x10^14字节的感觉数据[36] - 世界模型将拥有更强大的安全特性,控制方式是内置的而非神秘莫测的黑箱[41] - LeCun估计从与世界的互动中获取的信息比文本多得多[24] 技术应用前景 - 世界模型将使未来能够构建出可以规划行动、实现目标、进行推理的系统[38] - 这类系统需要与可穿戴设备互动,就像与人交流一样[30] - LeCun正在与业内同行商议创办公司、寻找投资,组建专注世界模型的团队[23] - 推动AI领域迎来类似ChatGPT的爆发式发展可能需要耗费数年甚至永远无法实现[41]
中金:具身智能走向数据驱动 高价值信息量成具身智能竞争核心
智通财经网· 2025-11-17 01:37
具身智能算法架构 - 分层控制是基础架构范式,以两级结构实现工程化,短期分层架构因工程可控性仍是主流 [1] - VLA范式以视觉语言模型为基础强化泛化与交互能力,是当前活跃研究方向,在复杂任务和人机交互中展现潜力 [1] - 世界模型通过环境建模与未来预测提供物理约束,处于科研主导阶段,因具备跨设备迁移能力被视为长期方向 [1] 具身智能数据策略 - 机器人数据涵盖多模态,产业找寻低数据成本获取与高数据效率应用路径 [2] - 数据获取端包括真机、视频第一人称或第三人称、仿真等路线 [2] - 数据安全为不容忽视的底线,人形机器人厂商面临权限隔离、数据加密体系、跨境传输政策等多方挑战 [2] - 异构训练通过模块化Transformer架构,跨机器人本体共享算法模型,打破传统“同构闭环”仅能在同类型硬件上复现策略的限制 [2] 具身智能热点议题 - 机器人Scaling Law与离身智能不同,尚未迎来爆发式突破,真实数据产能不足、Sim2Real迁移等为制约因素 [3] - 具身机器人缺乏公认量化框架,面临场景多样性、任务转化等难题,斯坦福李飞飞团队发布具身智能评测BEHAVIOR-1K推动评测标准化 [3] - 物理AI融合物理知识与AI模型,已走向机器人操作应用 [3]
图灵奖得主杨立昆被曝将离职Meta创业
财富FORTUNE· 2025-11-16 13:06
杨立昆职业变动与影响 - 杨立昆已告知同事将在几个月后离开Meta公司,计划创办自己的公司[2] - 杨立昆是图灵奖得主和AI领域顶尖研究者,他于2013年12月加入Facebook并担任基础AI研究室创始主任[2] - 他的离职被视为Meta公司乃至整个AI行业的一个重要转折点[2] 杨立昆的学术成就 - 上世纪80年代末研发出卷积神经网络,其开发的LeNet架构成功识别手写字体,掀起计算机视觉领域革命[2] - 2019年与杰弗里・辛顿、约书亚・本吉奥因深度学习突破性贡献被授予图灵奖,为深度神经网络成为当代计算机科学核心技术奠定基础[2] - 在AT&T贝尔实验室研发的卷积神经网络技术被应用于银行支票读取机,高峰期处理全美国10%至20%的支票[4] Meta公司AI战略调整 - Meta公司正对AI战略进行全面调整,今年6月向数据标注公司Scale AI投资143亿美元,并聘请其CEO领导新成立的"Meta超级智能实验室"[5] - 公司结构调整导致杨立昆汇报关系变更,从向首席产品官汇报改为向新部门负责人汇报[5] - Meta的Llama 4模型未达预期,公司在AI整体上落后于OpenAI和谷歌等竞争对手[5] 行业战略分歧与影响 - Meta老板马克・扎克伯格倾向于加快部署大语言模型和AI产品,而杨立昆公开对大语言模型持怀疑态度,认为其无法达到人类级别推理和规划能力[5] - Meta资源向商用AI倾斜导致长期研究受忽视,FAIR实验室处于半死不活状态,Llama模型原始研究论文作者超过一半在论文发表后数月内离开公司[6] - 今年10月份Meta裁撤AI部门约600个岗位,杨立昆离职突显行业内对达到通用型人工智能路径的核心分歧[6] 杨立昆新公司方向 - 新公司聚焦于"世界模型",通过学视频和空间数据对环境产生内在理解,而非单纯依赖文本数据[5] - 该系统旨在模拟因果场景并预测结果,但可能需要十年左右时间才能成熟[5] - 创业计划目前处于洽谈融资初期阶段[5]
内行被外行指导、时刻担心被裁,Meta 人现在迷茫又内卷
AI前线· 2025-11-16 05:33
核心事件概述 - Meta首席人工智能科学家Yann LeCun计划在未来几个月内离职并创办AI初创企业[2] - 新公司方向将聚焦于世界模型的研究与落地[7] - LeCun在Meta的纽约大学兼职教授职位将保持不变[2] Meta AI战略转向 - 公司AI战略重心从LeCun领导的FAIR实验室的长期基础研究转向快速推出模型和AI产品[2][4] - 核心AI研究部门FAIR经历裁员其影响力被专注产品落地的GenAI团队/TBD Lab取代[4] - 组织调整导致LeCun被要求向TBD Lab负责人Alexandr Wang汇报[4] LeCun与Meta的分歧 - LeCun对Meta新出台的内部研究发表规定不满认为其限制了学术自由[4] - 在AI技术路线上存在分歧LeCun认为大模型无法实现人类级智能而致力于世界模型研究[4][5][10] - LeCun公开撇清与Llama 2/3/4项目的关系称自2023年初以来均由GenAI团队开发[5] - 政治立场分歧可能加剧紧张关系LeCun批评美国政府而公司政策向特朗普阵营靠拢[5] Meta内部管理问题 - AI部门存在恐惧文化绩效评估制度与滚动裁员机制导致员工为害怕被炒而工作[18] - 生成式AI战略缺乏方向部门职责不断叠加导致内部冲突和模糊目标[18][19] - 项目管理采用倒排工期方式为赶工期而牺牲产品质量基于技术判断的叫停难以实现[15] - 高层管理者多为基础设施或传统计算机视觉背景对大语言模型缺乏深入理解形成外行指导内行局面[14] 行业竞争与影响 - Meta的Llama 4模型表现不佳落后于GoogleOpenAI和Anthropic的最新产品[4] - 公司AI聊天机器人未能在消费者中获得认可[4] - 扎克伯格暗示明年AI投入可能突破1000亿美元后公司股价暴跌12.6%市值蒸发近2400亿美元[13] - 大模型时代算力成为决定性因素资源博弈导致公司整体氛围不如以前轻松愉快[13]