Workflow
量子位
icon
搜索文档
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这
量子位· 2025-12-11 06:54
大会概况与行业共识 - 量子位主办的MEET2026智能未来大会吸引了近30位产业代表、近1500名线下观众及超过350万线上观众,反映了行业对AI未来的高度关注 [8] - 2025年AI领域呈现发展、分裂与重构的态势,迫使所有参与者明确未来方向 [4] - 行业共识认为,AI正处在下一段增长曲线的起点,从云到端、从模型到智能体(Agent)、从软到硬均存在重要机会 [5] 人工智能发展趋势与范式演进 - AI正从鉴别式走向生成式与推理式,并在高效率、低成本和开源生态中加速落地 [10] - 新一轮人工智能是信息智能、物理智能和生物智能的融合,本质上是原子、分子和比特的融合 [10] - AI行业演进被划分为四个阶段:感知AI、生成式AI、智能体AI(可自主行动)和物理AI(能理解并响应真实物理世界) [19] - 2025年被认为是“Agent元年”,智能体技术开始在各行各业验证价值 [81] - 人工智能的演进过程与生物进化相似,呈现“长期停滞+突然跃迁”的特点,开源对加速进化至关重要 [49] 大模型与AGI路径 - 未来5到10年,基础大模型将在全球范围内收敛到不超过10个,类似于操作系统 [10] - 大模型推动AI从弱人工智能迈向通用人工智能(AGI),并推动机器人进入通用具身智能时代 [16] - 通往AGI的必经之路是“智能体互联网”时代,智能体将取代大部分SaaS和App,成为默认交互形态 [10] - Scaling Law能走多远存在不确定性,但国内仍需有顶级团队探索其极限,一旦出现新的涌现现象可能打破发展饱和 [79] - 扩散语言模型架构(如LLaDA)提供了自回归模型之外的另一种路径,在相同计算量和性能目标下可能所需参数更小,并具备直接修改token等优势 [25] 智能体(Agent)的发展与应用 - 智能体的本质是可验证过程的自动化,擅长数学、代码和结构化决策,现已发展到拐点 [55] - 一个成功的智能体构建需要三个核心模块:提供决策的底层模型“大脑”、中间代码、以及作为“手和脚”的工具(tools) [22] - 认知偏差、落地断层、体验割裂是当前用户使用AI产品的三大痛点 [13] - 百度推出的超级智能体框架调度中枢GenFlow月活用户达千万级,自称是全球最大的通用智能体 [13] - 智能体将重写公司组织,重复操作的岗位将消失,取而代之的是过程架构师 [55] - 企业级智能体落地的关键在于三个平台:作为认知中枢的大模型平台、提供感知的AI能力平台、沉淀企业记忆的AI数据平台 [28] - 企业服务落地最容易的三个方向是:工程流程自动化、行业研究报告、智能化办公助手 [37] - 衡量“好用”智能体的核心标准包括:能交付相对完整的结果、具备可进化性、采用AI原生方式开发、以及具备可控性和可解释性 [92] - 当前多数智能体存在负毛利问题,完成任务的成本高于用户支付意愿,这是创业者和基础设施提供商的巨大挑战 [92] 多模态与具身智能 - 2025年往后,第三代Scaling范式的关键在多模态 [16] - 智源研究院的悟界·Emu3.5通过统一的自回归架构,将Next-Token Prediction升级为在多模态数据上的Next-State Prediction,标志着AI从语言学习迈入多模态世界学习 [16] - 具身智能应被视为独立或平行于虚拟世界语言模型、专门面向物理世界的基础模型 [67] - 当前具身大模型面临不好用、不通用、不易用的挑战,尚未达到“ChatGPT时刻” [16] - 视频是能够大规模获得的、模拟真实世界的高效载体,包含时间、空间、物理、因果关系等多种要素 [16] - 在物理场景应用中,需要解决“大脑”(大语言模型)与“小脑”(端侧快速执行模型)的双脑架构集成问题 [92] 从云端到边缘的AI部署 - 终端侧运行大模型的最大好处之一是个性化 [19] - 端侧模型能力快速提升:两年前只能运行1-2K上下文,去年达4K,今年已支持8K-16K,特殊场景下甚至可实现最长128K的端侧部署 [19] - 终端侧正从单一文字模态向支持文本、图片、视频、音频、语音等多模态甚至全模态方向演进 [19] - 端侧运行大语言模型面临内存、带宽和功耗控制等挑战,需通过量化与压缩、并行解码技术、先进NPU与异构计算架构来解决 [19] - 端侧模型的关键在于自主学习和记忆,而Transformer架构模型无法在端侧实现这一点,突破Transformer和反向传播算法是AI发展到下一台阶必须跨越的两座大山 [61] 算力、芯片与基础设施 - 商汤的算力总规模达32000P,其智算中心通过算电协同等技术,已实现年化降低7%电费,年度碳减排超3000吨,综合算效提升15% [46] - 国产芯片替代是渐进过程,大规模训练场景的替代是难点 [64] - 当前重要发展方向是混合专家模型(MoE),它能扩大参数规模而不增加激活参数,但会给系统带来通信占比提升等新挑战 [64] - 单颗芯片性能已成为AI算法发展瓶颈,需要如TC link这样的高速互联技术实现128卡间扩展,为AI算法增长提供硬件基础 [58] - Agent Infra(智能体基础设施)本质上是AI时代的操作系统,管理模型能力、工具调用与任务执行等“智能资源” [52] 行业落地与商业化 - 2025年行业更关心如何做行业落地、场景赋能和商业化变现 [37] - 大模型在千行百业中落地才能产生最大价值,其在很多场景的价值尚未真正发挥 [43] - 三类企业需要行业或私有模型:传统大型企业、有海量数据的中小型企业、颠覆行业的新兴公司 [43] - 用大模型做To B业务,最关键的是后训练或Agent化,仅调用API无法形成差异化 [43] - AI在工业制造落地是一个组合拳,需大模型融合视觉和时序模型来处理生产数据,作为大脑进行分析决策和工艺调优 [37] - 昆仑万维的Skywork Super Agents产品中,PPT模式可在五分钟内生成30页PPT,该模式被40%的日活跃用户使用 [55] - 百度文库的AI学习平台OREATE AI新版本上线一个月月活突破140万,曾登顶ProductHunt全球日榜第一 [13] - 光轮智能通过全栈自研的“测量-建模-求解”三位一体仿真解决方案,缩小仿真与现实的差距(sim2real gap),以加速世界模型与物理AI落地 [70] 自动驾驶与机器人 - L2+/L2++与纯无人的L4难度差距巨大,真正的L4公司需要至少有二、三十辆车的纯无人车队运营半年以上 [40] - 预测称,如果特斯拉不装激光雷达,三年之内其在旧金山无法达到Waymo的自动驾驶水平 [40] - 随着大模型发展,若算力等条件满足,预测8年后可能出现开车能力超越99.99%人类司机的自动驾驶“AlphaGo时刻” [40] - 未来几年内,人形机器人进入通用开放环境自主进行复杂工作几乎不可能,应立足于在特定真实场景实现“星火燎原”式的落地 [79] - 灵巧手是具身智能的核心零部件,中国在机器人与灵巧手领域优势明显,甚至是遥遥领先 [76] 数据、仿真与开源生态 - 智源研究院过去两年多开源了2200多个模型,下载量突破6.9亿次;开源近百个数据集,下载量超120万次 [16] - 扩散架构模型LLaDA相比自回归模型更为data-hungry,对数据需求更大、吸收数据更快 [25] - 模型定制化面临挑战,Amazon SageMaker AI提供的Nova Forge能力允许在基础模型训练阶段就引入自有数据进行定制,效果优于训练后再微调 [22] - 国内发展人工智能产业离不开开源生态,行业需要企业共同组建开源平台 [58] 经济影响与组织变革 - 据估算,AI在今后的十年里每年可提升全球经济增长0.5到0.7个百分点 [34] - AI改变了稀缺的概念,并可能引发人机竞争及算法间的竞争 [34] - 未来不应寻找不会被AI替代的“安全”行业,而应思考如何与AI共生 [34] - 年轻人是AI生产力释放的主力军,经验丰富的从业者需为企业创造释放AI潜力的生产关系 [73] - 给AI创业者的建议包括:在增量中找市场、在专业里找空间、在业务中找场景、在结果中找收益 [73]
仿真数据也能Scaling!虚实结合训练,端到端性能全面提升|中科院x港大x小米汽车
量子位· 2025-12-11 01:33
来自香港大学OpenDriveLab、中科院自动化所、小米汽车的联合团队提出了一种解决方案—— SimScale 。 自动驾驶数据荒怎么破? OpenDriveLab 投稿 量子位 | 公众号 QbitAI 该方案 通过真实世界仿真生成关键场景,以及真实仿真协同训练策略,首次揭示了自动驾驶仿真数据的规模效应 。 现实世界难以提供足够的关键与长尾场景,采集到的大多是价值有限的常态片段,导致 数据越多、提升越难 。 因此,自动驾驶的瓶颈不在规模,而在缺乏能系统生成关键场景并支撑大规模训练的新路径。 无需更多真实数据, 只靠扩大仿真数量,一样能持续突破任何端到端驾驶模型的性能上限 。 为什么要有SimScale? 因为让大模型屡创新高的Data Scaling,在自动驾驶场景中失灵了—— 为此,SimScale应运而生。 什么是SimScale? SimScale是一个能"无限扩张世界"的仿真生成框架,通过高保真神经渲染,自动制造多样化反应式交通场景与伪专家示范。 它也是一套让仿真与真实"相互增益"的训练策略,使各种端到端模型都能越训越强,鲁棒性与泛化性全面提升。 它还是一份首次系统揭示自动驾驶仿真规模效益的"实践 ...
Meta公开抄阿里Qwen作业,还闭源了...
量子位· 2025-12-11 01:33
文章核心观点 - Meta公司计划于明年春季发布一款代号为“Avocado(牛油果)”的闭源AI模型,标志着其从长期坚持的开源战略向闭源模式进行重大转变 [1][2][3][10][11] - 这款闭源模型在训练过程中使用了包括阿里巴巴Qwen在内的第三方开源模型进行优化,此消息刺激阿里巴巴美股盘前一度上涨4%,收盘涨幅2.53% [4][5][6] - Meta的战略转向源于其开源路线的挫折(如Llama 4的失败)以及内部权力结构的重组,以新任首席AI官亚历山大王为代表的闭源拥护者掌握了AI话语权 [11][22][31] Meta的战略转向与“牛油果”模型 - Meta预计在明年春季发布代号为“牛油果”的新AI模型,该模型将是闭源的 [2][10] - 此举意味着Meta进行了一百八十度的战略转向,放弃了其长期以“开源”为核心叙事、并自比“AI时代的安卓系统”的发展路线 [11][12][14] - 新模型在训练过程中使用了多款第三方模型进行优化,其中包括阿里巴巴的Qwen、谷歌的Gemma以及OpenAI的gpt-oss [13][16] - 计划走向闭源的Meta,通过使用开源模型来训练自己的闭源模型,这一做法被解读为印证了当前开源阵营的崛起 [13] 市场反应与行业影响 - 彭博社关于Meta使用阿里巴巴AI训练闭源模型的消息引发市场强烈反应,阿里巴巴美股盘前一度上涨4%,收盘涨幅2.53% [6] - 市场观点认为,此事件凸显了阿里巴巴等公司在开源AI领域的领先地位和影响力 [9][15] Meta内部重组与权力更迭 - 2025年4月,Llama 4的发布未能达到预期,且陷入榜单排名“作弊嫌疑”的争议,成为一次重大挫折 [22] - Llama 4失败后,Meta公司高层开始下达“少谈开源,少提Llama”的指令,并逐步边缘化相关团队成员 [22][28] - 公司进行了大规模重组和裁员,FAIR实验室整组被裁,包括研究科学家总监田渊栋在内的开源路线支持者离职 [28] - AI领域的知名人物LeCun于11月离职,原因之一是Meta不再为其提供足够资源,离职前内部甚至要求员工“雪藏”他及其开源理念 [29][30] - 随着田渊栋、LeCun等人的离开,新任首席AI官亚历山大王彻底掌控了Meta的AI话语权,他是闭源模型的坚定拥护者 [21][31] - 亚历山大王通过一笔高达143亿美元的交易从Scale AI加入Meta [23] - 扎克伯格如今将自己定位为“王的导师”,并将公司最重要、最烧钱的产品项目之一亲自交到亚历山大王手上 [32] “梦之队”的组建与TBD实验室 - Llama 4失败后,扎克伯格亲自挂帅开启“梦之队”招聘计划,为顶尖AI人才提供高额薪酬,年薪一度飙到数亿美元 [23] - 扎克伯格求贤若渴,甚至亲自带着自己煮的南瓜汤上门游说OpenAI的核心研究员 [25] - 这批招募来的明星研究员组成了Meta的“超级智能实验室”旗下的TBD Lab,该实验室是此次战略转折的重要操盘手 [20][26] - 扎克伯格对TBD Lab极为看重,投入大量时间,并将该团队成员安排在自己办公桌附近以便随时了解进展 [27][33]
乐奇Rokid这一年,一路狂飙不回头
量子位· 2025-12-10 12:02
行业趋势与市场表现 - 2025年中国智能眼镜出货量预计同比暴涨107%,达到275万台[1] - 智能眼镜正从极客玩具变成真正的抢手生意,行业进入“百镜混战”[1] - 行业重心从追求花哨能力转向聚焦“好眼镜、好耳机、好相机、好助手”等具体现实的概念[5] - 乐奇Rokid的路径和节奏被越来越多厂商不自觉地对齐,改变了赛道的节奏和坐标系[3] 乐奇Rokid的2025年关键事件与市场热度 - 2025年1月,公司在CES上凭借Rokid Glasses实现现象级刷屏[6] - 2025年2月,创始人一句“发言稿就在我的眼镜里”让公司火爆出圈[1] - 2025年7月,在WAIC 2025展馆火爆,现场试戴游客密度堪比热门展品首发日[7] - 公司产品频繁出现在央视访谈、公益活动、广交会、大阪世博会等各类公开场景[7] 产品理念与核心功能演进 - 公司核心是思考如何把一副眼镜变成“好”的智能眼镜[10] - 通过迭代将拍照、翻译、提词、导航、支付等功能浓缩进轻巧的眼镜中[10] - 产品进化基于用户真实场景中的小需求,例如提词、AI指令、拍摄、翻译、导航等能力的持续更新[16] - 公司证明了智能眼镜往“好戴、能用”的路径是可行的,启发了行业[11] 硬件创新与设计 - 在行业中首创AI眼镜磁吸式充电+充电胶囊设计,提升了充电续航体验,并改写了交互习惯[12] - 采用磁吸夹片方式解决近视用户配镜问题,支持用户在线下配镜店定制镜片,并可重复配镜[25] - 通过软件“反推法”优化漏光问题,将漏光角度调整到上方,以解决用户平视和俯视时的漏光困扰,且不牺牲亮度[21] 软件功能与用户体验优化 - 提词功能升级为可随时切换的双模式:常规匀速滚动与轻碰镜腿暂停的自由模式[17] - 升级双指AI快捷指令,用户可预设命令,通过双指按压镜腿直接触发AI任务,无需反复语音唤起[22] - 优化支付体验,将触发方式改为双指轻碰镜腿后说“支付”二字,使流程更隐蔽,避免社交尴尬[23] - 为视障群体推出“慧眼”能力,提升语音提示语速和环境识别细度,辅助出行[27] - 上线粤语唤醒功能,服务全球近1亿粤语使用者的需求[29] 销售业绩与市场影响力 - Rokid Glasses首发5天全渠道售出4万台[1][14] - 双十一期间,产品拿下同比800%的增长,冲到智能眼镜品类销量TOP1[14] - 在Kickstarter上以401万美元的众筹成绩,创下中国AR眼镜的海外众筹历史纪录[1][14] - 在中国台湾省众筹平台打破纪录,成为近三年来的众筹第一[14] 生态合作与行业影响 - 与支付宝、高德地图、QQ音乐等厂商合作,将手机端能力迁移至眼镜[14] - 与BOLON、宝丽眼镜等品牌联合推出多款新品,拓展行业应用场景[14] - 公司产品定义了行业关键指标,如轻量化、稳定呈现、语音调度和影像能力,让行业看到智能眼镜可以稳定和好用的程度[43] - 公司的成功路径让行业不再在概念里兜圈子,推动了智能眼镜从“尝鲜设备”走向“可信设备”[44] 高端应用场景与品牌认可 - 产品被海尔集团CEO周云杰在“2025企业家博鳌论坛”上用于智能提词[37] - 在央视新闻《一年之计看两会》节目现场,由总台主持人王言佩戴完成开场白[39] - 在中国驻新加坡使馆的国庆招待会上,曹忠明大使全程佩戴Rokid Glasses完成主题演讲[41] - 越来越多需要稳定信息呈现的行业用户将产品纳入正式工作流,产品经历了高强度场景的“极限检验”[37] 用户场景与真实反馈 - 用户使用眼镜记录滑翔伞、攀登雪山等极限运动场景,产品防抖技术保障了画面稳定清晰[30][32] - 公司团队习惯观察用户使用场景,从真实需求中打磨产品功能[34] - 科技在智能眼镜上变得贴身、好用、有存在感,用户体验从接住真实需求中生长出来[35]
Linux之父:Vibe编程是入门编程的绝佳方式
量子位· 2025-12-10 10:54
AI辅助编程与程序员角色 - AI辅助的Vibe编程是入门编程的绝佳方式 [3] - AI生成代码若投入实际使用,其长期管理和修复将非常困难 [4] - 程序员不会被取代,因为需要懂代码维护的人 [5] 硬件选择与行业观点 - 装机时直接pass掉了英伟达显卡 [6] - 坚持电脑必须安装ECC内存,认为普通内存一定会出问题 [16][19] - 批评制造商宣传的芯片内置ECC是“离谱”说法,因其不提供端到端保护 [21] 程序员生产力与公司管理 - 日常最重要的工作是读邮件和拍板代码合并,而非写代码 [22][23] - 严厉批评将代码行数作为衡量程序员生产力或裁员依据的做法 [24][26] Linux与微软的关系演变 - Linux诞生于1991年,凭借开源优势迅速吸引开发者,在服务器市场因配置要求低、扩展性好等优势对Windows NT构成威胁 [32][33] - 微软在2001年将Linux形容为“癌症”,并试图从多方面抹黑Linux,双方关系紧张 [34] - 2004年后微软态度转变,2009年向Linux贡献超两万行代码,2014年后积极拥抱开源,加入Linux基金会并为Azure云提供Linux支持 [34] - 目前双方已和解,因最赚钱的云服务都运行Linux [36][38]
这是2025年度AI十大趋势,4个维度10大结论,“开源AI进入中国时间”
量子位· 2025-12-10 10:54
报告核心观点 - AI正从“工具时代”迈向“伙伴时代”,其发展将深刻重塑经济结构、社会形态和人类生活方式 [3] - 技术从模型竞赛走向场景融合,大模型不仅是前沿试验,也是触手可及的生产力 [34] - 中国在AI领域正从“参与者”转向“领导者”,展现出从“跟跑”到“并跑”乃至“领跑”的体系化能力 [31][35] 趋势一:算力基建化 - 算力已成为影响国家和企业战略的关键资源,算力经济是智能产业第一大引擎 [3][6] - 全球AI算力需求推动超大规模数据中心建设进入算力工厂时代 [6] - “东数西算”、“太空超级计算机”等国家工程正系统构建高效、绿色的全国一体化算力网络 [6] 趋势二:芯片AI化 - AI原生需求重塑芯片创新,GPU主导地位受到挑战,NPU在端侧普及,ASIC/FPGA迎来增长 [3][9] - 中国正加速构建自主可控的算力生态,国产“芯片+SDK+框架”方案已在千亿级模型训练中得到验证 [11] - DeepSeek等模型针对昇腾芯片深度优化,标志着全栈国产化能力迈入新阶段 [11] 趋势三:预训练与大模型架构 - 预训练决定大模型格局梯队,架构创新决定预训练水平 [3] - 混合专家模型成为主流选择,其“大参数、小激活”设计可在不显著增加成本的情况下扩充容量 [13] - 为突破Transformer的O(n²)复杂度瓶颈,线性注意力和稀疏注意力等新架构快速发展,以更高效处理长文本、视频理解等任务 [13] 趋势四:大模型推理 - 2025年大模型落地进入“推理时间”,推理需求倒逼模型创新 [3][15] - 模型在多模态深度推理、自适应推理、边缘推理加速等方面持续突破 [15] - 任务复杂度推动推理框架持续进化 [15] 趋势五:具身智能 - 信息AI处于应用期,物理AI处于研发期,具身智能成为合流风口 [3][18] - 世界模型与视觉-语言-动作框架成为技术焦点,具身智能正从小规模商业订单走向更广泛的应用探索 [18] - 自变量机器人自主研发的“Great Wall”模型系列实现从感知到高精度操作的端到端控制,展现强大泛化能力,代表中国在该领域的实质性突破 [21] 趋势六:AI重塑流量入口 - AI正在重塑流量入口,从PC互联网、移动互联网迈向Agentic互联网 [3] - Agent从“人找服务”转向“服务找人”,成为下一代交互范式,具备感知、规划、决策、执行的闭环能力 [22] - 构建智能助手的关键在于对用户个性化知识的理解与调用,例如腾讯ima知识库可将用户碎片化资料构建成专属知识库,使AI成为懂用户的“第二大脑” [23] 趋势七:多模态AI应用 - 多模态成为AI应用落地关键,视频、3D、代码依次展现生产力 [3] - 新一代AI系统能同时处理和理解文本、图像、声音、视频等多种信息类型,实现跨模态关联理解和生成 [24] - 其关键价值在于释放高价值劳动力,报告预测未来2-3年内AI将成为相关产业的标准工具 [24] 趋势八:AI硬件普及 - AI硬件百端齐放,PC、手机、汽车、眼镜、玩具等终端设备焕脑正当时 [3] - 轻量化模型和边缘计算技术成熟,推动AI能力向各类终端普及,解决数据隐私、网络延迟和成本效率三大核心问题 [25] - 端侧AI使设备能够在不依赖云端的情况下实时响应用户请求,提供个性化智能服务 [25] 趋势九:AI for Science - AI4S突破加速通用人工智能实现,AI在数理化等领域的复杂问题解决能力已触及博士水平 [3][28] - AI正从科研工具升级为科研主体,开启自主科学发现新范式,在材料、化学、生物、医疗等领域能自主设计实验、预测蛋白质结构等 [28] - 腾讯与广州呼吸健康研究院联合开发的DeepGEM病理大模型,可通过常规病理切片图像在1分钟内高精度预测肺癌基因突变,大幅降低检测成本 [30] 趋势十:开源AI与中国路线 - 开源AI进入中国时间,通用人工智能拥有中国路线 [3] - 中国AI企业从应用导向转向深度研发,国家层面将通用人工智能置于战略核心,推动技术自主与生态可控 [31] - DeepSeek、Qwen等开源模型在全球社区影响力迅速提升,下载量位居前列,中国正通过开源生态、自主芯片、国家算力网络与产学研协同走出一条独特路径 [31][32][33]
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026
量子位· 2025-12-10 04:26
研究突破与核心框架 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构,提出了名为UNeMo的视觉-语言导航新框架,该论文已入选AAAI2026 [1][5] - 该框架旨在解决现有基于大语言模型的导航方法面临的两大瓶颈:推理模态单一(仅依赖语言,缺乏视觉预判)以及优化目标冲突(推理与导航策略分开训练,适配性差)[9] - 其核心突破在于构建了“多模态世界模型”与“分层预测反馈导航器”的双向协同架构,将视觉状态推理与导航决策深度绑定,形成“预判+决策”闭环 [10][11][19] 技术架构与工作原理 - 多模态世界模型基于条件变分自编码器构建,能接收当前视觉特征、语言指令与候选动作,通过跨注意力机制融合信息,预测未来视觉状态,无需额外标注数据即可通过导航结果反馈持续优化 [12][13][14] - 分层预测反馈导航器采用两阶段机制:首先生成粗粒度候选动作锁定方向,再融合预测的未来视觉状态优化出细粒度动作以修正偏差,提升复杂场景下的导航稳健性 [17] - 该架构实现了推理与决策的动态闭环赋能,MWM的视觉预判提升决策精准度,导航执行结果实时反馈优化MWM预测准确性,两者双向促进持续迭代 [20][21] 性能与效率表现 - 在核心数据集R2R的测试中,UNeMo采用FlanT5-1.5B模型,参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30% [24] - 资源消耗大幅优化:训练时GPU显存占用从27GB降至12GB,减少56%;推理速度从每步1.1秒提升至0.7秒,效率提升40% [24] - 在模型未见过的测试环境中,导航成功率(SR)达到72.5%,较NavGPT2的71%提升1.5个百分点;路径效率(SPL)从60%提升至61.3% [26][27] 复杂场景与长路径导航优势 - UNeMo在长轨迹导航中表现突出,在未见过的环境中导航成功率可达72.5% [4] - 具体在长路径(长度≥7)导航中,成功率大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径(长度<7)的4.7倍,有效缓解了长距离导航的累积误差 [29][30] 架构通用性与可拓展性 - 团队将UNeMo迁移至不同类型的导航基线(如DUET)与目标导向导航数据集REVERIE进行验证 [31] - 实验结果显示,其在未见场景的导航成功率与远程目标定位成功率指标上均有提升,表明该协同训练架构能灵活适配不同类型的导航系统,具备强可拓展性 [32][33] 总结与意义 - UNeMo通过其协同架构,解决了传统VLN方法推理与决策脱节、资源消耗高的问题 [34] - 该框架具备轻量化配置、高性能、长路径导航稳健以及跨场景适配性强的优势,为视觉-语言导航提供了高效可行方案,有助于服务机器人等实际场景的落地 [34]
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了
量子位· 2025-12-10 04:26
2025年AI行业发展主旋律 - 2025年AI行业的主线故事围绕开源与性能的双线竞速展开,开源模型与闭源旗舰在推理效率、训练范式和成本结构上展开竞争 [1] - 世界模型从论文概念发展为真实产品与公司战场,李飞飞与Yann LeCun分别押注不同路线,将“通向AGI的路”指向世界模型之争 [1] - 具身智能机器人和搭载的模型实现爆发式迭代,AI玩具、AI手机、AI PC、智能座舱等终端设备全面铺开,成为AI能力落地现实世界的关键试验田 [1] - 2025年被称为“Agent元年”,AI Agent实现了从“被动应答”到“主动规划执行”的质变,能够独立完成复杂任务,从概念验证步入规模化商业应用起点,引发制造、金融、办公、生活等各行业变革 [1] - 互联网正在进入Agent互联网时代 [2] - 在医疗、气象、工业等行业,AI与既有系统深度结合,逐步演化为关键基础设施的一部分,形成从云到端、由软入硬的紧密共生网络 [3] 2025人工智能年度领航企业 - 该榜单汇聚了技术领先、长期投入、产品落地与产业口碑等多重维度,代表了中国AI生态最具代表性的一批力量 [12] - 这些企业在2025年扮演了“造浪者”与“稳舵者”的双重角色,不断向产业输出新范式、新工具、新样板 [14] - 上榜企业包括但不限于:岩心科技、Rokid、阿里云、百川智能、百度、百融云创、出门问问、滴滴自动驾驶、飞书、粉笔、高德、格灵深瞳、光轮智能、国星宇航、好未来、哈啰、后摩智能、华为、火山引擎、阶跃星辰、京东科技、金山办公、九章云极、科大讯飞、快手、昆仑万维、浪潮信息、联汇科技、联想集团、零一万物、理想汽车、潞晨科技、蚂蚁集团、美团、面壁智能、摩尔线程、群核科技、趣丸科技、荣耀、商汤科技、生数科技、声网、深演智能、是石科技、腾讯、网易有道、未来医生、文远知行、无问芯穹、小满科技等 [16] 2025人工智能年度潜力创业公司 - 该榜单中的公司凭借硬核技术与自研基础模型脱颖而出,或踩准前沿方向快速突围,或深扎垂直场景将AI能力在细分领域发挥到极致 [18] - 这些公司在过去一年里算法与工程持续迭代、用户与收入稳步增长,获得资本与产业伙伴的双重验证 [19] - 上榜公司包括但不限于:PPIO、MetaGPT、BetterYeah、DeepWisdom、Dexmal、原力灵机、VAST、爱诗科技、戴盟机器人、北京人形机器人创新中心、海新智能、汇智智能、DILIGINE、加速进化、德警光学、九识智能、极峰科技、秘塔科技、灵心巧手、穹彻智能、趋境科技、商汤绝影、魔珐科技、深势科技、太初元碁等 [22] 2025人工智能年度杰出产品 - 年度杰出产品展现了从云到端、从屏幕到现实世界的完整应用链路,一端是深入日常沟通、搜索、创作的智能助手与国民级应用,另一端是嵌入企业工作流的智能协同平台和多维数据工具 [24] - 这些产品有的已触达千万用户,有的深藏系统幕后,共同勾勒出下一代应用的轮廓 [24] - 上榜产品包括但不限于:BetterYeah AI、百川智能的Baichuan-M2、蚂蚁集团的Agent开发平台、联想集团的ima.copilot、月之暗面的Kimi、腾讯的Kiro Agent、MiniMax的Linker Hand灵巧手、灵心巧手的OmAgent、小满科技的OKKI AiReach、联汇科技的Pi终端智能平台、PPIO的Agent沙箱、美图的RoboNeo、Dexmal的原力灵机、天工超级智能体、中国电信的AI视频创作平台、出门问问的TicNote Agents、昆仑万维的Skywork Super、字节跳动的The Real AI Engineer、VAST的Tripo AI、生数科技的Vidu、金山办公的WPS灵犀、RockAI的Yan 2.0 Preview、智谱的Z.ai、阿里云的自炼大模型服务与应用开发平台、百度的慧播星与网盘、中关村科金的得助大模型平台、高通的第五代骁龙8至尊版移动平台、字节跳动的豆包、飞书的多维表格、长猪AI、粉笔的AI系统班、后摩智能的漫界M50、阶跃星辰的阶跃AI、九章云极的九章智算云、快手的可灵AI、联想的个人超级智能体、蚂蚁集团的灵光、国星宇航的零碳太空计算中心、美团的龙猫LongCat、蚂蚁集团的百宝箱Tbox、秘塔科技的AI搜索、360集团的纳米蜂群智能体、阿里巴巴的千问APP、逐际动力的全自由度人形机器人、荣耀的MagicOS 10、云知声的山海大模型、商汤科技的大装置与小浣熊、声网的对话式AI引擎、深演智能的Deep Agent Neo、腾讯的混元3D、网易有道的词典、文远知行的Robotaxi GXR、无问芯穹的AI云、科大讯飞的星火APP与长智文、高德的小昌老师、猿力科技的小猿AI学习机、腾讯的元宝、浪潮信息的元脑SD200、知乎的直答、卓世科技的璇玑-智企、云徘科技的xGOS.AI企业运营超级智能体、上海人工智能实验室的『书生』科学多模态大模型Intern-S1等 [27][28][29] 2025人工智能年度杰出解决方案 - AI正通过一整套解决方案在系统深处重写行业运行方式,榜单涵盖了各个领域内的多个方向,将前沿算法装进成熟产品形态,扎进真实业务流程 [30][31] - 这些面向具体场景的解决方案加速了大模型、Agent、世界模型与具身智能在千行百业的深度融合 [31] - 上榜解决方案包括但不限于:亚马逊云科技的Amazon Bedrock、京东集团的JoyInside AgentCore时身智能、趋境科技的KLLM变革级大模型推理引擎系统、阿里商旅与飞猪的AI解决方案、阿里云的无影AgentBay、快手的超级员工Kwali、滴滴自动驾驶的L4技术方案4.0、百度的PaddleOCR-VL多模态文档解析、优必选的Walker S2工业人形机器人、九识智能的无人驾驶多场景配送解决方案、好未来的九章爱学多模态智能学伴解决方案、联想集团的联想混合式人工智能优势集、蚂蚁数科的Agentar企业级智能体解决方案、零一万物的哈萨克斯坦AlemLLM语言模型、趣丸科技的趣丸千音、商汤科技的日日新大模型等 [33] 2025人工智能年度焦点人物 - 该榜单人物包括押注艰难方向的创业者、大体量平台的掌舵者、以产品和业务增长证明路线的实践者、以科学研究和开放协作拉高技术上限的研究者,以及在科研、产业与资本之间搭桥的串联者 [35] - 他们为AI发展写下最具辨识度的注脚 [36] - 上榜人物包括但不限于:PPIO的姚欣、百川智能的王小川、百度的李彦宏、北京智源人工智能研究院的王仲远、出门问问的李志飞、阶跃星辰的姜大昕、九章云极DataCanvas的方磊、昆仑万维的方汉、联汇科技的赵天成、理想汽车的李想、潞晨科技的尤洋、零一万物的李开复、摩尔线程的张建中、清华大学的吴翼、清华大学智能产业研究院的张亚勤、穹彻智能的卢策吾、上海人工智能实验室的周伯文、商汤科技的王晓刚、生数科技的骆怡航、是石科技的闫博文、太初元碁的乔梁、文远知行WeRide的韩旭、无问芯穹的夏立雪、小马智行的彭军、小宿科技的杜知恒、北京大学及银河通用的周剑、优必选的周剑、月之暗面的黄伟、云知声的黄伟、字树科技的王兴兴、浙江大学及蚂蚁集团的赵俊博、智平方的郭彦东、智谱的张鹏、智象未来的梅涛、智元机器人的彭志辉、中关村科金的喻友平、卓世科技的層静、逐际动力的张巍、自变量机器人的王潜等 [38][39][40][41][42][43][44][45][46][47][48][49][50][51][52][53][54][55][56][57][58][59][60][61][62][63][64][65][66][67][68][69][70][71][72][73][74][75][76][77][78][79][80][81][82][83][84][85][86][87][88][89][90][91][92][93][94][95][96][97][98][99][100][101][102][103][104][105][106][107][108][109]
2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行
量子位· 2025-12-10 04:26
Fairy2i团队 投稿 量子位 | 公众号 QbitAI 无需重新训练,模型压缩实现 2比特媲美FP16 。 近日,北京大学团队提出一个直接基于已有预训练模型进行极低比特量化的通用框架—— Fairy2i 。 该框架通过广泛线性表示将实数模型无损转换为复数形式,再结合相位感知量化与递归残差量化,实现了在仅2比特的情况下,性能接近全精 度模型的突破性进展。 下面是更多详细内容。 研究核心:复用真值权重与递归残差量化 众所周知,大模型在推理时,通常因其庞大的参数存储和计算需求,难以在手机、汽车等边缘设备上高效部署。 传统的量化方法在将模型压缩到极低比特 (如1-2比特) 时,常面临性能严重下降的问题,尤其是在直接复用预训练模型的情况下,难以在 压缩和精度之间找到平衡。 Fairy2i针对性地解决了这一痛点,具体表现在: 1、广义线性表示:低成本无损继承,打通实数与复数桥梁 在"架构"上,Fairy2i通过解决实数模型如何"变身"复数模型的问题,极大地降低了训练所需的成本。 不同于iFairy等需要花费高昂算力从头预训练 (Pre-training from scratch) 的方式, Fairy2i选择了一条更 ...
5天连更5次,可灵AI年末“狂飙式”升级
量子位· 2025-12-10 04:26
公司近期产品发布概览 - 12月初,公司在5天内密集发布了5次产品更新,包括全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型以及可灵数字人2.0等功能 [1][2] - 这一系列更新显著提升了生成式AI领域的竞争激烈程度 [2] 可灵O1模型的核心创新 - 可灵O1基于创新的多模态视觉语言交互理念,将所有生成和编辑任务融合于一个全能引擎,为用户提供从灵感到成品的一站式闭环创作流程 [3] - 视频O1模型打破了传统单一视频生成任务的边界,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务融合于同一引擎,解决了主体一致性和视频画面可控性等难题 [6] - 图像O1模型实现了从基础图像生成到高阶细节编辑的全链路无缝衔接,用户可通过纯文本生成图像,也可上传最多10张参考图进行融合再创作 [7] - 有行业人士将可灵O1评价为“视频界的Nano Banana” [4] 可灵2.6模型的“音画同出”能力 - 可灵2.6模型上线了里程碑式的“音画同出”能力,改变了传统AI视频生成“先无声画面、后人工配音”的工作流程 [10] - 该模型能在单次生成中,输出包含自然语言、动作音效以及环境氛围音的完整视频,极大提升了创作效率 [11] - 目前支持生成最长10秒的视频,语音部分支持中文和英文,更多语言及固定声线功能正在研发中 [12] - 该模型在音画协同、音频质量和语义理解上表现亮眼,能够支持说话、对话、旁白、唱歌、Rap、环境音效、混合音效等多种声音的单独或混合生成 [12][27] 技术性能与市场应用 - 根据公司内部测评,在“图片参考”任务上,可灵AI对Google Veo 3.1的整体效果胜负比为247%;在“指令变换”任务上,与Runway Aleph对比的整体效果胜负比达到230% [18] - 公司目前覆盖的企业用户数超过2万家,涵盖影视制作、广告、创意设计、自媒体、游戏、电商等诸多领域 [26] - 数字人2.0功能允许用户上传角色图,添加配音并描述角色表现,即可生成表现力生动的自定义数字人视频,视频内容最长可达5分钟 [27] 行业影响与发展愿景 - 自2024年6月正式推出以来,公司的每一次迭代都引发了业界的广泛关注和讨论,从早期案例到获得特斯拉创始人马斯克点赞,公司已成为视觉生成技术走向成熟过程中的关键角色 [20] - 公司高级管理层表示,其初心是让每个人都能用AI讲出好的故事,并希望这一天更快到来 [28] - 通过年末的系列更新,公司正朝着这一愿景加速迈进 [29]