AGI
搜索文档
小米突发新模型,主打“极致性价比”,罗福莉:“这只是我们AGI图线路上的第二步”
华尔街见闻· 2025-12-17 02:52
从市场影响来看,MiMo-V2-Flash的入局可能搅动现有开源AI模型的竞争格局。其官方公布的每百万输入token 0.1美元、输出token 0.3美元的极低 成本,结合高达150 tokens/秒的推理速度,为开发者和企业提供了极具吸引力的选择,或将加速高性能AI技术在更广泛场景的应用和普及,尤其 是对其庞大的"手机 x AIoT"生态系统形成强大赋能。 11个小时前,小米深夜"突袭式"发布并开源了其最新的专家混合架构(MoE)大语言模型MiMo-V2-Flash。该模型总参数量达3090亿,活跃参数为 150亿,采用对开发者友好的MIT开源协议,基础版权重也已经在Hugging Face上发布。 小米MiMo团队负责人罗福莉(Fuli Luo)在社交平台上明确表示:"MiMo-V2-Flash已经上线。这只是我们AGI路线图上的第二步。"这一表态凸 显了小米在AI领域的长远规划和技术雄心。 性能媲美DeepSeek-V3.2,并且"极具性价比" MiMo-V2-Flash在多个权威基准测试中展现了强大的实力,其性能表现足以和部分顶尖的开源及闭源模型同台竞技。 根据小米官方公布的数据,在衡量编程能力的S ...
海外云厂商资本开支乐观,通信ETF(515880)涨超2%,光模块占比超54%
搜狐财经· 2025-12-17 02:37
今年以来通信ETF(515880)在A股表现优异,在AI发展叙事的助力下,截至写稿,年内涨幅超110%,居全市场ETF涨幅第一。 消息面,海外云厂商在AI领域的资本开支及指引仍保持乐观,Oracle的财报资本开支远超彭博一致预期,并大幅上修FY2026的资本开支。算力板块受催化, 光模块占比超50%的通信ETF(515880)涨超2%。 海外云厂商资本开支乐观,可持续关注AI主线 海外云厂商在AI领域的资本开支及指引仍保持乐观,我们有理由相信明年的资本开支增长仍将得以延续。我们最新一次从科技巨头处听到资本开支的消息 是上周Oracle的财报,其120.3亿美元的资本开支远超彭博一致预期(82.5亿美元),并大幅上修FY2026的资本开支至500亿美元。 在这一基准情形(资本开支延续增长)下,看好通信ETF(515880)等深度参与海外算力产业链的A股相关标的(它们大都处于供应链的上游),该产品的 光模块含量超过54%,服务器含量超过19%,叠加光纤、铜连接等成分,核心环节成分占比超过80%。 此外,我们继续长期看好国产替代的广阔前景。一方面,尽管近期美国批准NVIDIA H200及同级AMD MI、Intel ...
倒计时3周离职,LeCun最后警告:硅谷已陷入集体幻觉
36氪· 2025-12-16 07:11
对当前主流AI发展路径的批判 - 核心观点认为大语言模型路线是死路,无法通往人类水平的人工智能,硅谷对不断“堆大”LLM的痴迷是一条死路 [1][3] - 指出当前基于LLM的AI智能体在可靠性、数据效率、多模态处理上远远不足 [12] - 批评行业存在危险的“羊群效应”,科技巨头几乎都在做同一件事即疯狂堆叠LLM,形成了“单一的文化” [26][28] - 明确表示所谓的ASI路线——不断训练LLM、用更多合成数据、雇几千人做后训练、折腾RL新技巧——完全是胡说八道且永远不可能成功 [1][28] 提出的替代技术路线:“世界模型” - 主张“世界模型”才是实现人类水平AI的“正确方法”,其能够预测动作后果并用于规划,是智能的重要组成部分 [12][14] - “世界模型”在抽象表征空间中进行预测,而非像素级输出,旨在处理高维、连续和嘈杂的模态数据,这是LLM完全做不到的 [3][14][23] - 其技术基础是联合嵌入预测架构,旨在学习一个抽象的表示空间以消除输入的不可预测细节 [16] - 近20年来一直确信构建智能系统的正确途径是通过某种形式的“无监督学习”,JEPA的发展克服了早期孪生网络的模型坍塌问题 [17] 关于数据与智能的对比 - 训练一个性能不错的LLM需要互联网上约30万亿Token的文本数据,这仅相当于约15,000小时的视频 [21][22] - 一个4岁孩子醒着时看到的视觉信息大约是16,000小时,现实世界数据的结构比文本丰富得多,仅靠文本训练永远无法达到人类水平的AI [22] - 合成数据有用,但LLM并不真正理解通过经验习得的基本概念,只是被微调出来给出正确答案,更像是“反刍”而非真懂 [25] 创业公司AMI的创立与目标 - 决定在Meta外部创办Advanced Machine Intelligence,专注于“世界模型”并计划延续开放研究的传统 [4][5] - 创办AMI的动因之一是为了摆脱硅谷的单一文化,该公司是全球性的,总部将设在巴黎,并在纽约等地设立办公室 [30] - AMI的目标不仅是研究,还会打造与世界模型、规划相关的实际产品,并成为智能系统的核心供应商 [9] - 认为投资者现在愿意为这类基础研究创业公司买单是一种新现象,这在以往是不可能的 [4] 对AI行业现状与Meta的评论 - 指出行业风向正在转变,越来越多实验室选择闭源,这种趋势不利于真正突破性的研究 [4] - 透露Meta AI重组后重心完全放在了LLM,FAIR正被推向“更短期的项目”,较少强调发表论文,更多专注于协助GenAI Lab进行LLM研究,这是其选择出来创业的部分原因 [39][41] - 认为即使在硅谷的各家公司内部,也有不少人心里很清楚LLM这条路走不通 [28] - 点评了一些大模型公司,例如指出Ilya创立的SSI甚至包括他们的投资人都不知道这家公司要做什么 [41] 对AGI概念与发展时间线的看法 - 认为“通用人工智能”这个概念完全没有意义,完全是胡扯,因为人类智能是超级专业化的 [31] - 乐观预测如果在JEPA、世界模型、规划等方向未来两年取得重大进展,可能在5-10年内看到接近人类或狗智能水平的AI,但这已是极度乐观 [33] - 更现实的预测是,由于历史上多次出现未预见的障碍,实现超越可能需要20年甚至更久 [33] - 认为最难的部分不是从狗到人类,而是达到狗的水平,从灵长类动物到人类主要缺的是“语言” [35][36] 对研究文化与人才培养的建议 - 强调真正的研究需要发表论文,没有别的办法,这是目前很多行业正在遗忘的事情 [11] - 建议年轻人学习“保质期长”的知识以及能“学会如何学习”的东西,因为技术演变太快 [43] - 具体建议深入学习数学、电气工程、机械工程、物理学等基础学科,计算机科学只需学到能熟练编程的程度,这些基础能让人在AI快速变化中站稳脚跟 [45][46] - 认为“世界模型”所在的地方类似于大脑的前额叶皮层,而LLM在语言编码/解码上表现不错,或许能充当大脑的韦尼克区和布罗卡区 [36][38]
8点1氪:麦当劳多款餐品涨价;深圳一地厕所安装“吸烟会变透明”玻璃;纳斯达克称申请将工作日交易时长延长至23小时
36氪· 2025-12-16 00:12
麦当劳产品调价 - 麦当劳于12月15日对多款餐品进行价格上调,涨幅在0.5元至1元之间 [4] - 具体调价产品包括:巨无霸汉堡、双层深海鳕鱼堡、麦香鱼均上涨1元;麦乐鸡、那么大鸡排上涨1元;红油添香小酥肉、麦麦脆汁鸡、中份薯条、脆脆薯条、玉米杯、麦旋风和新地均上涨0.5元 [4] - 被网友称为“穷鬼套餐”的“1+1随心配”套餐价格未调整,仍为13.9元起,但其中部分单品组合因单品涨价而出现1元涨幅 [4] 蜜雪冰城早餐套餐市场反馈 - 蜜雪冰城7.9元早餐套餐因性价比问题引发热议,被消费者与社区早餐摊、便利店对比 [7] - 消费者认为其套餐(预包装面包+调制乳饮)缺乏现做热食的饱足感,而路边摊“2元豆浆+3元包子”仅需5元,便利店热乎蒸包套餐约7元 [7] - 蜜雪冰城门店工作人员回应称暂未收到价格调整通知,总部客服表示会将问题反馈上级 [8] 玛莎拉蒂电动车大幅降价与销售 - 玛莎拉蒂纯电版格雷嘉官方指导价89.88万元,降价后裸车价格仅为35.88万元,降幅达54万元 [9] - 该车型国内库存不足100台,已迅速售罄,且公司之后大概率不再生产 [9] - 销售人员不建议客户购买此纯电版车型,原因是保有量小,未来维修麻烦且配件难找 [9] 美国大学学费上涨 - 美国多家大学上调学费,使取得本科文凭的总花费逼近40万美元(约合人民币282万元) [9] - 韦尔斯利学院估算今年本科生年度总支出将首次突破10万美元(约合人民币70.6万元),成为全美首个跨过此门槛的高校 [9] 自动驾驶与汽车行业动态 - 工业和信息化部公布中国首批L3级有条件自动驾驶车型准入许可,两款车型将在北京、重庆指定区域开展上路试点 [10] - 特斯拉首席执行官埃隆·马斯克确认公司已启动无安全员的Robotaxi路测,并计划在三周内取消安全员,实现真正无人驾驶载客 [15] 人工智能与科技行业融资及产品发布 - 前OpenAI首席技术官Mira Murati创办的Thinking Machines Lab最新估值达500亿美元,其首款产品Tinker已全面开放并接入万亿参数级推理模型Kimi K2 Thinking [17] - 英伟达发布Nemotron 3系列开源模型,包括Nano/Super/Ultra版本,该模型引入混合型Mamba-Transformer专家混合架构 [18] - 人形机器人与具身智能核心零部件企业“因克斯”完成近2亿元人民币新一轮融资,这是其年内完成的第三轮融资 [19] - 沈阳兴业机床有限公司完成5000万元人民币A轮融资,资金将用于五轴联动核心技术迭代、智能生产车间扩建及人才建设 [20] - 基因技术公司“君跻基因”完成近亿元A轮融资,资金将用于产线升级、技术研发及全球市场拓展 [21] 消费与零售行业动态 - 胖东来发布招聘公告,招聘60名技术岗位人员,其中产品研发工程师年薪为25万-30万元 [10] - 中国黄金协会发布《黄金以旧换新经营服务规范》团体标准,旨在推动业务规范化、专业化、透明化发展 [12] - 中国现存滑雪相关企业超1.32万家,年内已新增近2300家,其中华北地区企业近3200家,占比24.10% [22] 上市公司公告与资本市场 - 寒武纪公告拟使用母公司资本公积金27.78亿元弥补母公司累计亏损 [13] - 东方园林公告其合伙企业拟以现金购买海城锐海100%股权和电投瑞享80%股权,预计构成重大资产重组,其中海城锐海100%股权挂牌转让底价为1410.00万元 [14] - 纳斯达克向美国证券交易委员会申请将股票及交易所交易产品的交易时长从每周五个交易日的16小时延长至23小时 [7] - 12月15日美股收盘,三大指数集体下跌,道指跌0.09%,纳指跌0.59%,标普500指数跌0.16%,特斯拉涨超3% [9] 其他行业新闻 - 影片《阿凡达3》预售总票房突破3000万元 [10] - 同仁堂回应磷虾油涉嫌造假,称涉事产品未经授权擅自使用“北京同仁堂”字样,已启动司法程序 [11] - 韩国大韩航空公司表示将对乘客乱动机舱安全门的行为采取“零容忍”政策,过去两年间遭遇14次相关事件 [16] - 英国12月份房屋挂牌价环比下跌1.8%,至358128英镑(约合479425美元) [16] - 数据公司Palantir宣布与法国国土安全总局续签一份为期三年的合作协议 [16]
估值1.05万亿!DeepSeek双登《自然》封神,中国AI如何做到颠覆?
搜狐财经· 2025-12-15 22:07
2025年末,一位中国创业者再度引爆科技圈。 国际顶级期刊《自然》新鲜出炉的年度十大科学人物榜单上,DeepSeek创始人梁文锋赫然在列。 要知道,该榜单每年仅甄选十位真正推动科学进步的领军者。梁文锋的入选,源自其带领团队研发的 DeepSeek大模型对全球AI格局的颠覆性重塑。 而这并非他与《自然》的首次邂逅——今年9月,他作为DeepSeek-R1论文核心作者已登上期刊封面, 短短三月内再次上榜,实力毋庸置疑。 正如《自然》赋予他的"Tech disruptor"评语,这位40岁的创业者已是公认的AI领域革命者。 接连的高光时刻,让梁文锋的崛起之路格外耀眼。他与估值1.05万亿的DeepSeek所缔造的传奇,究竟是 时运眷顾还是实力使然? 一、破局者之路,从10万到万亿的逆袭 长期以来,海外科技巨头始终认定中国AI难触核心技术,只能在产业链下游挣扎。然而,一位年轻企 业家的实践路径,正在系统性地扭转这一认知。 2013年,职业生涯起步阶段的梁文锋带着有限资本,进入变幻莫测的金融市场。当时他对人工智能的理 解尚处于探索阶段,却已展现出敢于挑战常规的勇气与远见。 两年后,他创立幻方科技,专注于量化投资这一专业 ...
DeepMind科学家惊人预测:AGI在2028年实现,大规模失业要来了
36氪· 2025-12-15 02:50
AGI发展时间线与阶段预测 - Google DeepMind首席AGI科学家Shane Legg预测,最小AGI(Minimal AGI)有50%的可能性在2028年实现 [1][9] - 完全AGI(Full AGI)预计将在最小AGI出现后的3-6年内实现 [11] - 人工超级智能(ASI)将远超人类认知能力,是AI发展的终极形态 [3][5][13] AGI的定义与能力标准 - AGI被定义为能够完成人类通常具备的所有典型认知任务的人工智能体 [6] - 当前AI在语言、知识、编码等领域已远超常人,但在视觉推理、长期学习、因果关系理解上仍有不足 [6] - AGI的发展是一个连续光谱,而非一个突然的临界点或开关 [7] 技术基础与硬件优势 - 推动AI进化需要数据、算法和架构的共同进化 [6] - 现代数据中心在多个物理指标上远超人类大脑:能耗达上百万瓦(人脑约20W)、运算频率可达数十GHz(人脑100-200Hz)、信号传播速度达光速(人脑每秒约30米)[13][17] - 从物理结构、计算资源和信息密度看,人类智能只是一个起点,数据中心具备扩展至万吨级体积和高并发大吞吐量带宽的潜力 [14][16][17] 行业竞争与驱动因素 - 全球竞争性激励机制决定了“谁先拥有超级智能,谁就拥有未来”,涉及国家安全、经济增长和技术领先 [19][21] - 即使存在风险,也不可能让全人类同时暂停超级智能的研发,因此其到来不可避免 [19] 潜在社会经济影响与变革 - AGI将颠覆建立在“人类劳动创造价值”逻辑上的现行社会系统,人类的脑力劳动将不再是稀缺资源 [22] - 可能导致“倒挂式结构性失业”:高级程序员、法律助理、财务分析师、撰稿人、翻译、咨询顾问、客服等高薪认知职位首当其冲 [22] - 基层体力工作(如水电工、护士、建筑工人)和“人情价值”高的职业(如心理咨询师、育儿者)暂时相对安全 [22] - AGI不会让资源变少,但需要重新设计资源分配机制,例如探讨全民基本收入(UBI)制度的可行性 [24] 未来社会愿景与挑战 - 若能驾驭智能革命,将带来前所未有的黄金时代:新药发现周期缩短十倍、AI实现全球能源系统碳中和、为每个孩子量身定制教育、辅助宇宙探索 [19] - AGI甚至可能帮助解决意识、伦理、自由意志等人类哲学问题 [19] - 核心社会问题将转向如何定义人的“尊严”、“意义”和“非生产性价值”,以及如何在失去工作身份后重构幸福 [24] - 未来社会的核心可能不再是竞争和工作,而是人是否拥有被尊重的价值感、探索的自由、精神层面的满足,以及通过创造、表达、关爱、学习等方式定义自我 [33][34] - 需要哲学家、心理学家、社会学者、教育者、艺术家、城市规划者、法学家等全社会共同面对AGI带来的挑战 [35] 紧迫性与行动呼吁 - 距离预测的2028年仅剩约三年,社会结构变革、教育体系转型、就业逻辑重构的冲击迫在眉睫 [27] - 如果没有提前准备,AGI可能像2020年的疫情一样让所有人措手不及 [27] - AGI的到来是人类有史以来最重大的事件之一,它既可能是巨大福祉,也可能是失控洪水,最终结果取决于人类的智慧、勇气与集体想象力 [36][37][38]
腾讯研究院AI速递 20251215
腾讯研究院· 2025-12-14 16:01
OpenAI GPT-5.2发布与市场反馈 - OpenAI在十周年发布号称“最强专业知识工作模型”的GPT-5.2系列,但上线24小时后在X平台和Reddit上遭遇用户集体差评,被批评过于平淡、安全审查过度、情商堪忧 [1] - 第三方基准测试显示GPT-5.2表现不佳:在SimpleBench测试中得分低于一年前的Claude Sonnet 3.7,在LiveBench测试中得分低于Opus 4.5和Gemini 3.0,甚至在简单问题上回答错误 [1] - 用户最诟病的是其安全拒绝机制过于严格,导致模型的共情力和语境感知能力下降,在情感支持等场景中给出的建议机械且脱离现实 [1] 谷歌推出Gemini Deep Research Agent - 在GPT-5.2发布前一小时,谷歌推出全新版Gemini Deep Research Agent,该产品基于Gemini 3 Pro构建,并通过多步强化学习训练以提高准确性并减少幻觉 [2] - 新版Agent在多项基准测试中取得领先成绩:在Humanity's Last Exam测试集中达到46.4%,在DeepSearchQA上取得66.1%,在BrowseComp测试中获得59.2%的高分 [2] - 谷歌同步推出了开源的网络研究Agent基准DeepSearchQA和全新的交互式API,后者支持服务器端状态管理、远程MCP工具调用和后台执行长时间推理循环 [2] Runway发布通用世界模型GWM - Runway正式发布5大更新,包括升级的Gen-4.5旗舰视频模型和首个通用世界模型GWM-1,前者支持原生音频生成编辑和多镜头编辑功能 [3] - GWM-1是一个自回归模型,支持逐帧预测和实时干预,包含三种变体:可探索环境的GWM Worlds、对话角色的GWM Avatars和机器人操作的GWM Robotics [3] - 英伟达CEO黄仁勋发来祝贺视频,标志着行业从单纯的“视频生成”迈向真正的“世界模拟”,AI开始理解物理世界的底层逻辑 [3] 谷歌AI翻译与浏览器创新 - 谷歌翻译引入Gemini模型能力,推出支持任何品牌耳机的实时语音翻译Beta版,覆盖超过70种语言,并能保留说话者的语调、重音和节奏 [4] - 文本翻译引擎经过重构,能智能解析俚语和成语的上下文,而非生硬逐字翻译,支持英语与近20种语言(包括中文、日语、德语等)互译 [4] - Chrome团队在Google Labs推出实验性浏览器Disco,其核心概念是GenTabs生成式标签页,可将网页内容转化为包含地图、行程表的交互式微型应用 [4] 腾讯混元3D模型与拓竹科技合作 - 拓竹科技旗下3D模型平台MakerWorld全面升级,接入腾讯混元3D 3.0大模型,并上线全新手办生成器“印你”,用户只需上传一张图片即可生成可打印的3D模型 [5][6] - 混元3D 3.0首创3D-DiT分级雕刻技术,建模精度提升3倍,几何分辨率高达1536³,支持36亿体素超高清建模,使五官更立体、细节更锐利、纹理更逼真 [6] - MakerWorld平台已有20款各具特色的建模工具,吸引全球超过200万用户,此次接入顶尖生成式AI技术使设计周期大幅缩短,创作不再受限于建模技术 [6] 迪士尼与OpenAI达成战略合作 - 迪士尼向OpenAI进行10亿美元股权投资,并获得购买额外股权的认股权证,这是Sora平台首次迎来大型内容授权合作伙伴 [7] - 双方达成三年期许可协议,第一年具有排他性,Sora和ChatGPT Images将获得迪士尼旗下超过200个角色授权,包括米老鼠、漫威、皮克斯和星球大战角色,但不包含真人肖像或声音 [7] - 迪士尼将利用OpenAI的API构建新产品工具覆盖Disney+流媒体平台,为员工部署ChatGPT用于内部工作流程,粉丝精选创作视频将在Disney+播放 [7] AI在数学研究领域取得突破 - 数学家埃尔德什于1975年提出的Erdos1026问题困扰数学界50年,在AI辅助下,人类团队仅用48小时便攻克并给出正式证明,陶哲轩称AI带来了全新理解,绝非简单搜索 [8] - Harmonic的AI系统Aristotle在Lean证明辅助语言中自动证出c(k²)=1/k,AlphaEvolve系统则探索c(n)数值结果帮助提炼出干净公式 [8] - AI通过深度搜索找到了2024年Baek、Koizumi、Ueoro论文的完整解,这在传统模式下可能需要数周甚至数月,此次证明了AI在生成新数学洞见而非仅检索现有文献方面的能力 [8] 宇树科技推出人形机器人应用商店 - 宇树科技正式上线行业内首个致力于将人形机器人功能模块化、标准化的内容分发平台——人形机器人应用商店,旨在解决复杂动作开发难、用户上手门槛高的问题 [9] - 应用商店集成用户广场、动作库、数据集及开发者中心四大核心模块,用户无需底层代码编写能力即可像安装手机软件一样一键部署云端运动控制算法 [9] - 首批上线应用包括基于G1系列机器人的“李小龙”截拳道与“扭扭舞”预设,通过独家动力学算法结合高精度动作捕捉数据,将武术动作库无缝移植到机器人硬件 [9] DeepMind科学家对AGI发展的预测 - Google DeepMind首席AGI科学家Shane Legg预测,最小AGI有50%的可能性在2028年实现,完全AGI将在最小AGI出现后3-6年内实现,随后进入超级智能ASI阶段 [10] - 他认为AGI并非一个临界点,而是一个连续光谱,分为三阶段:最小AGI能完成普通人的典型认知任务,完全AGI能完成最杰出人类的认知任务,ASI全面超越人类所有认知领域 [11] - AGI将导致倒挂式结构性失业,高层认知工作首当其冲,基层体力工作暂时安全,社会需要重新设计分配机制并重构人类在失去工作身份后的幸福定义 [11] 生成式AI用户趋势与市场格局 - Similarweb发布的2025年度AI报告显示,全球生成式AI平台月访问量超过70亿次,同比暴涨76%,移动端App下载量达19亿次,一年内翻了3倍多 [12] - 18-34岁用户占比反而下降约15%,说明年纪更大的用户正在快速涌入,ChatGPT已跻身全球前五大网站,但95%的用户仍同时使用谷歌,形成互补双入口格局 [12] - AI Mode成为首个访问量突破1亿的生成式AI搜索功能,互联网正从“被搜索检索”变成“被AI谈论” [12]
2026 将近,世界模型到底更「世界」了吗?
机器之心· 2025-12-13 02:30
文章核心观点 - 近期Runway发布新产品,将视频生成推向可交互的“世界模拟”,引发了关于“世界模型”本质的讨论:它究竟是面向创作的界面、用于训练的模拟器,还是面向推理的认知框架[1] - 世界模型的概念在2024至2025年间经历了快速演变,从强化学习语境中的内部环境模型,扩展到更通用的世界演化建模,并与LLM一同被视为通向AGI的关键路线[4][8] - 当前业界对世界模型的定义存在模糊与分裂,主要围绕“如何建模”展开技术路线之争,例如OpenAI的Sora强调像素级模拟,而Meta的V-JEPA强调抽象表征预测[6][7] - 国内外厂商积极布局世界模型,但其动机各异,有的为补充数据引擎,有的为搭建时空认知新框架,融资热潮进一步加剧了概念歧义[3][8] 从 RL 分支到演化建模,世界模型这两年经历了怎样的转变? - **2024年初的强化学习语境**:世界模型最初定义相对收敛,被视为智能体的“内部环境模型”,是一个从当前状态和动作预测下一状态的函数,旨在将试错成本转移到内部推演,提高样本效率和规划能力[4][5] - **工程化能力拆解**:同一时期,世界模型被定义为三类能力的组合:将高维感知压缩为可用表征、在时间上预测未来、以及利用预测进行规划和决策,Transformer和自监督学习开始被纳入讨论,但整体仍是强化学习的延展[6] - **概念外推与通用化**:进入2024年,业内理解开始延伸,将其从“针对具体子任务的动态模型”外推到更通用的世界演化建模,并认为存在“语言生成→图像生成→3D生成→世界生成(同时具备时序与空间序建模)”的趋势链条[6] - **概念边界模糊化**:同时,世界模型的概念边界变得更模糊,表征形式(视频序列还是3D表征)、物理规律的融入方式、输入关系组织等均被视为未收敛的开放问题[6] - **技术路线分化(2024年2月)**: - **OpenAI的Sora路线**:被称为“world simulators”,强调在像素空间中学习现实世界的三维结构与物理规律,并能够模拟世界演化[6] - **Meta(LeCun)的V-JEPA路线**:强调世界模型不是在像素层面补全,而是在抽象表示空间预测被遮蔽的视频片段,允许丢弃不可预测信息以换取更高训练效率,其训练更强调自监督与未标注数据预训练[6] - **核心争议转移**:主题从“要不要做世界模型”转变为“世界模型如何建模”,争议焦点在于应从像素层逐步抽象,还是直接在抽象空间跳过像素细节[7] - **对现有路线的批评**:有研究者认为当前路线(如Sora和V-JEPA)只学到了部分物理规律,距离“完整世界模型”还有差距,提出构成“连贯世界模型”还需要孤立对象的表征、跨时空的先验变化规律以及康德范畴,并指出Sora的缺陷无法通过扩大训练规模弥补,V-JEPA则仍未理解康德范畴[7] 界面、模拟器还是认知框架,世界模型的定义依旧模糊? - **地位提升至与LLM同级**:进入2025年,世界模型被推至与LLM同级的位置,分析认为Google DeepMind、Meta和Nvidia等公司正从纯LLM转向世界模型,目标是实现“Physical AI + 超级智能”,部分原因是LLM路线提升放缓[8] - **与LLM及VLA的差异**: - 世界模型的目标是在内部构建包含物理、时间、空间维度的环境表征,用于规划和决策,可应用于无人机、自动驾驶、机器人等领域[8] - 有观点指出,当前LLM更像启发式方法拼盘,离真正的世界模型还很远[8] - 与视觉语言动作模型相比,世界模型代表了更底层的认知方式,强调物理规律和空间理解,更适合长期演进[8] - **概念同名但内核分裂**:发展至今,世界模型出现了“概念同名但内核分裂”的现象,它可以指代系统内部的潜在状态、给智能体训练用的类游戏模拟器,或任何能生成可走动3D场景的内容管线[8] - **融资热潮放大歧义**:世界模型的融资热潮进一步放大了这种歧义,只要产品贴上世界模型标签,往往很少有人继续追问其是否真正支持预测、规划和泛化[8] - **技术路线三分法**:有分析将世界模型的技术路线重新划分为界面、模拟器和认知框架三条路径[9] 重押还是凑数,国内外各厂商如何布局世界模型? - **布局动机各异**:大厂布局世界模型,动机可能是在补充“数据引擎”,也可能是在搭建“时空认知”的新框架[3]
安永企业家奖2025获奖企业家介绍专辑(四)
搜狐财经· 2025-12-12 07:49
"安永企业家奖"2025获奖名单正式公布,十二位来自中国内地和中国香港/澳门的杰出企业家获得了"安永企业家奖"2025殊荣。 让我们来认识一下获奖企业家。 安永企业家奖2025获奖者 科技业 黄伟博士是云知声创始人兼CEO,他毕业于中国科学技术大学,获信号与信息处理博士学位。作为国内最早一批从事人工智能语音语义相关研究的科研人 员,曾主导开发全球首款手机声纹认证系统,连续三年获美国国家标准技术署说话人识别评测的世界第一。2012年,黄伟博士洞察到人工智能语音语义技 术的商业化前景,创立云知声,并带领企业于2025年6月成功登陆香港交易所主板市场,成为"AGI第一股",也是全球首批实现大模型商业化的人工智能 企业,公司市值后续一度突破600亿港元。 黄伟博士深耕AI领域多年,是国内AI产业重要推动者。在他的带领下,云知声主要以包括大模型技术、智算平台、多模态交互技术、AI芯片、领域知识 图谱等的全栈式AI硬核技术为核心,并以成熟且领先的工程化能力实现了在医疗、家居、楼宇、教育、交通、汽车、政务、金融等十余个实体经济场景 下的AI应用落地,取得了骄人的发展成绩。 黄伟博士连续五批参与国家"科技创新2030"新一代 ...
别让米其林主厨削土豆,英伟达用“小脑指挥大脑”,重构AGI生产力
36氪· 2025-12-12 01:35
觉得大模型消耗的算力过大,英伟达推出的8B模型Orchestrator化身「拼好模」,通过组合工具降本增效,使用30%的预算,在HLE上拿下37.1%的成 绩。 最近,NVIDIA Research发现,只要经过适当微调,小模型已足以「指挥」大模型 英伟达研究团队的新模型Orchestrator仅有 80 亿参数(8B)的模型,不仅比以往的工具使用类AI智能体准确率更高、成本更低,还能在工具选择上精准对 齐用户的偏好。 在HLE基准测试中,Orchestrator斩获了37.1%的高分,一举超越了GPT-5(35.1%),同时在效率上提升了2.5倍。 在tau2-Bench和FRAMES测试中,Orchestrator同样以大幅优势领先 GPT-5,而其成本仅为后者的30%左右。 在多项指标上,Orchestrator均实现了性能与成本的最佳平衡,并能出色地泛化至未曾见过的工具中。 预印本链接:https://arxiv.org/abs/2511.21689 为什么「强模型+工具」还是不够好? 面对Humanity's Last Exam(HLE)这类超难综合推理考试,现在的大模型虽然「什么都懂一点」,但一到 ...