量子位
搜索文档
GPT-5.2果然反超谷歌Gemini 3 Pro!北大数院校友核心贡献
量子位· 2025-12-12 01:00
GPT-5.2系列产品发布与核心定位 - OpenAI在成立十周年之际快速迭代发布GPT-5.2系列,距GPT-5.1发布仅30天,显示出公司加速产品迭代的紧迫感 [1][16] - 新版本的核心升级方向是专门强化“打工能力”,即提升在各类实际工作场景中的生产力 [1] 多模态与复杂任务处理能力 - 视觉理解能力大幅提升,能更准确地标记主板上的元件 [4] - 长文档处理能力是升级重点,在256k上下文长度的4针版MRCRv2评测中达到接近100%准确率 [30] - 能够处理超越最大上下文窗口的复杂任务,兼容简洁回复模式以支持工具密集型、长时间运行的工作流 [33] - 在需要调用Python工具的高分辨率图形界面截图推理测试中得分达到86.3%,禁用工具则得分显著降低 [37][39] 专业与高经济价值任务表现 - 在GDPval测试中,涵盖美国GDP前九大产业的44个职业领域,能完成人类需4-8小时的任务 [18] - 在人类评委打分下,GPT-5.2 Thinking相比人类专家有71%的胜率,GPT-5.2 Pro胜率更高,且速度是人类的11倍以上,成本不到人类的1% [19][20] - 在投行分析师的电子表格建模任务上,GPT-5.2 Thinking平均得分相比GPT-5.1提升9.3%,从59.1%上升到68.4%,任务包括为财富500强公司搭建三表联动模型、构建杠杆收购模型等 [21] - 评委评价其输出质量有“令人兴奋且显著的飞跃”,成果看起来像由专业公司员工完成 [23] 代码与软件开发能力 - 代码能力刷新纪录,在SWE-bench Verified上得分达到80% [25] - 在更难的SWE-Bench Pro评测上,GPT-5.2 Thinking拿下55.6%的新高,该评测涵盖Python、JavaScript、TypeScript和Go,贴近真实工业场景 [26][27] - 在前端开发和涉及3D元素的复杂UI工作方面表现明显更强 [28] 工具调用与端到端工作流 - 工具调用能力达到新高度,在Tau2-bench Telecom多轮交互电话客服场景评测上取得98.7%的成绩,在零售场景也达到82% [40][41] - 这意味着更强大的端到端工作流程能力,例如解决客户支持案例、从多系统提取数据、运行分析并生成最终输出,且步骤间故障更少 [43] 科学推理与研究辅助能力 - 公司相信GPT-5.2 Pro和GPT-5.2 Thinking是当前世界上最适合辅助科学家的模型 [44] - 在研究生水平的GPQA Diamond问答评测上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking达到92.4% [45] - 在专家级数学评测FrontierMath上,GPT-5.2 Thinking以40.3%的解题率创下新纪录 [47] - 研究人员使用GPT-5.2 Pro探索统计学习理论中的开放问题,模型提出的证明被作者验证并通过了同行评审 [49] 效率、成本与事实准确性 - 在ARC-AGI测试中,GPT-5.2 Pro取得90.5%的最新SOTA得分,平均任务成本仅为11.64美元,相比一年前成本为4500美元的模型,效率在一年内提高了约390倍 [12][13] - 事实准确性方面,GPT-5.2 Thinking的幻觉问题相比GPT-5.1从8.8%减少到6.2% [52] - 公司提示模型仍不完美,关键内容需要人工复核 [53] 市场竞争与团队 - GPT-5.2在ARC-AGI测试中得分超过了谷歌Gemini 3 Pro的对应版本 [14] - GPT-5.2的核心团队成员多为2024年后加入的新面孔,且多具有数学专业背景,例如来自斯坦福、伯克利、中科大、北大的数学与统计学博士 [57][58][59][61][62] - 公司近期研究进展文章统一署名OpenAI,不再附上详细贡献者列表 [55] 产品使用与商业化 - 在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或Enterprise套餐,并选择GPT-5.2 Thinking或Pro版本 [24] - 生成复杂内容可能需要几分钟时间 [24]
高通万卫星:混合AI与分布式协同是未来 | MEET2026
量子位· 2025-12-11 11:37
AI应用演进的四个阶段 - 行业将AI应用演进梳理为四个阶段:感知AI、生成式AI、智能体AI和物理AI [3][9] - 感知AI是第一阶段,包括传统的自然语言处理、语音降噪、图片识别和分割等技术,多年前已在终端侧商业化落地 [13] - 生成式AI是第二阶段,随ChatGPT兴起,基于大量数据预训练并在人类监督下完成具体任务,如文生图、聊天机器人、翻译等 [14] - 智能体AI是第三阶段,能在几乎没有人类监督的情况下进行自主行动、预测、意图理解与任务编排,产业正呈现从生成式AI向智能体AI演进的路线 [18][19] - 物理AI是第四阶段,AI能理解真实物理世界并根据物理定律做出反馈,目前尚处于研究和探索初期 [20][21][22] 终端侧AI的现状与趋势 - 终端侧AI模型尺寸正不断增大:手机可支持近100亿参数,PC支持约200亿参数,车载场景可部署200亿至600亿参数模型 [23] - 终端侧模型质量持续提升,今年初已将支持思维链和推理能力的模型完全部署在端侧 [25] - 端侧模型支持的上下文长度显著增长:从两年前的1K至2K,到去年的4K,再到今年已能支持8K至16K典型用例部署,特殊场景下已实现128K上下文窗口的端侧部署 [26][27] - 终端侧AI正从单一文字模态,向支持文本、图片、视频、音频、语音等多模态甚至全模态演进 [28] 端侧AI的优势与核心挑战 - 在端侧运行大模型的最大优势之一是个性化,能在离数据产生最近的地方做推理,有利于保护用户隐私和安全,且完全免费、无需网络连接 [31][32] - 端侧运行大模型面临三大核心挑战:内存限制约束了模型能力上限;带宽限制影响AI推理速度和用户体验;在手机等高集成度设备上对能效控制提出极致要求,功耗过高易触发温控机制 [34][35] 高通公司的端侧AI技术破局之道 - 通过量化和压缩技术应对内存限制:从8 bit、4 bit到今年实现2 bit量化压缩,使端侧支持的模型尺寸越来越大,占用内存越来越小 [37] - 采用并行解码技术应对带宽限制:先在端侧运行较小的草稿模型一次性推理出多个token,再由原始大模型校验,以提高大语言模型的token生成速率,改善用户体验 [37][40][42] - 通过先进的NPU(包括eNPU架构)和领先的异构计算系统,推动端侧AI从被动式服务向主动式、个性化服务迈进 [37] 智能体AI的构成与用例 - 智能体AI是更复合、更复杂、更主动式的AI服务,其实现需要多个基础模块:一个具有推理能力的大模型以理解用户意图;以及调用本地或云端API执行任务的能力 [45][46][47] - 智能体AI用例示例:用户通过自然语言交互,智能体理解“发布微博”意图后,可自动打开微博APP、搜索照片、根据用户偏好加滤镜并完成发布,整个过程可全部运行在端侧 [50][52] 未来AI体验:分布式协同与混合AI - 未来将实现跨设备的分布式个性化大模型推理:算力较小的设备(如智能眼镜、手表)可通过Wi-Fi或蓝牙与算力较大的设备(如手机、PC、汽车)连接,共享本地数据并将大模型推理任务转移 [54] - AI体验将向混合AI方向发展:在终端侧运行垂类、高效的模型,提供更安全、个性化的服务;在云端运行更大尺寸的模型,提供能力更强、更通用的服务 [55][57] - 公司将凭借低时延、高速且安全的连接技术,确保混合AI场景下的端云协同 [58]
张亚勤院士:基础大模型最终不超过10个,十年后机器人比人多 | MEET2026
量子位· 2025-12-11 09:00
文章核心观点 新一轮人工智能是信息智能、物理智能和生物智能的融合,在规模定律驱动下,智能从模式识别“涌现”为生成式与推理式AI,并正快速演化为智能体范式[2][3][12] 以ChatGPT和DeepSeek为里程碑,AI发展正从预训练时代迈向以推理为核心的“DeepSeek时刻”,并在高效率、低成本和开源生态中加速落地[4][11][12][14] 未来5-10年,产业将进入“智能体互联网”时代,智能体将取代大部分SaaS和App,成为人机交互的默认形态,这也是通往通用人工智能(AGI)的必经之路[6][12][38][40] AI发展范式演进 - **新一轮AI的本质是三大智能融合**:即信息智能、物理智能和生物智能的融合,本质上是原子、分子和比特的融合[2][8][12] - **智能涌现的关键驱动**:在规模定律(Scaling Law)持续作用下,当参数规模、数据体量与算力跨过阈值,智能从鉴别式AI“涌现”为生成式AI,再走向以智能体为代表的新范式[3][10][11] - **两大里程碑事件**:ChatGPT通过统一表征与token化,将文本、语音、图像乃至蛋白质、点云等数据纳入同一空间,实现了从鉴别式AI到生成式AI的跨越[4][10] DeepSeek则以高效率、高性能、低价格和开源路径,将大模型从“预训练时代”推向以推理为核心的“DeepSeek时刻”[4][11][14] AI发展的五大趋势 - **趋势一:生成式AI正快速演化为智能体**:智能体是近两年AI领域最重要的创新,其任务长度在过去七个月增长了两倍,准确度已大于50%,与人类对齐[15][17][18] - **趋势二:规模定律重心转移**:规模定律在预训练阶段已放缓,更多智能发展转移至后训练、推理和智能体阶段[19] 推理的单位成本在过去一年下降了10倍,而智能体本身的算力要求一年增长了10倍,两者成本效应相互平衡[19] - **趋势三:从信息智能走向物理与生物智能**:大语言模型正走向视觉语言动作模型(VLA)[20] 无人驾驶在2024年已到达“ChatGPT时刻”,预计到2030年(DeepSeek时刻),约10%的新车将拥有L4级无人驾驶能力[20] 机器人是未来最大赛道之一,预计未来10年左右,机器人的数量将超过人类数量[21] - **趋势四:AI风险同步放大**:随着智能体的出现,AI相关的风险至少翻倍[22] - **趋势五:开源成为主流生态**:开源将成为更大、更主要的平台和生态,预计约80%的模型为开源,20%为闭源[23] 未来产业格局:智能体互联网 - **基础大模型如操作系统般收敛**:基础大模型相当于AI时代的操作系统,全球范围内最终将收敛到不超过10个,主要由中美两国引领[6][12][23][35] - **智能体取代传统软件形态**:智能体会取代今天的大部分SaaS和手机App,成为企业和个人与世界交互的默认形态[6][30] 未来的企业架构将包含GPU、大模型、数据以及由人和智能体共同构成的人力资源[25] - **形成新的产业架构与经济形态**:产业将重构为“基础模型+垂直/边缘模型+智能体网络”的新格局[12][23] 智能体不仅在形成网络,也在形成新的经济形态[25] 整个产业规模将比PC时代、移动时代大一个、两个甚至三个数量级[37] - **是通往AGI的必经之路**:智能体互联网是未来5-10年最大的发展方向,也是实现通用人工智能(AGI)的必经之路,需要新的算法体系如记忆体系、世界模型等[12][38][40] 预计未来五年,现有的自回归架构、Transformer、Diffusion等技术可能被颠覆[41] 技术应用与展望 - **医疗智能体案例**:清华大学已开发出全球首个医疗智能体无人医院,利用多智能体网络模拟三甲医院,能在两天内完成相当于医院两到三年的病例处理,且准确度更高[31][33] 智能体主要作为医生的助理,未来每位医生都可能拥有自己的智能体[34] - **AGI实现时间表**:预计需要15-20年时间,依次完成从信息智能到物理智能,再到生物智能的跨越[12][42]
量子位编辑作者招聘
量子位· 2025-12-11 06:54
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 参与核心采访,对话产业专家、技术大牛、撰写AI云落地案例。 任职要求: AI财经商业方向 岗位职责: 任职要求: AI产品方向 岗位职责: 任职要求: 站在AI浪潮之巅 :第一时间接触和了解AI领域最新 ...
英伟达GPU被SpaceX送上太空!在天上训练卡帕西的NanoGPT
量子位· 2025-12-11 06:54
核心观点 - 人类首次在太空轨道上成功训练并运行了AI大模型 这标志着太空计算与AI融合的重大技术突破 其核心驱动力在于突破地球能源与基础设施的瓶颈 为AI算力发展开辟新路径 [2][7][13] 太空AI首秀事件 - 事件由初创公司Starcloud主导 通过SpaceX火箭将搭载英伟达H100芯片的Starcloud-1卫星发射升空 [6] - 在轨卫星上成功运行了谷歌的开源大模型Gemma 并获得了其回应 [4][9] - 首次在太空中直接训练了大语言模型 即前OpenAI联合创始人Andrej Karpathy打造的NanoGPT 训练数据使用了莎士比亚全集 [4][9] 太空计算的发展目标与规划 - Starcloud公司的长期目标是建造基于太阳能面板的轨道数据中心 规划算力达5GW 并预期其造价与运营成本将显著低于地球数据中心 [10] - 公司计划在2026年10月的下一次发射中携带更多英伟达H100芯片 并将Blackwell平台送入太空 [11] - 公司CEO指出 转向太空发展的核心原因是地面面临的能源限制 太空在土地、制冷方面约束更少 且有持续充足的太阳能供给 [12][13] 行业参与与竞争格局 - 谷歌CEO表示计划将TPU发射至太空 最早的两颗卫星预计2027年初启程 [15] - 中国科研机构与企业在该领域早有布局 自2019年起便开始探索太空智能计算 [16][17] - 2024年 中科天算团队完成大模型在轨部署 国星宇航联合之江实验室成功发射全球首个太空计算星座“三体计算星座”首批12颗卫星 并于9月实现常态化商业运行 [18] - 2024年11月 中科天算发布“天算计划” 提出在近地轨道建设算力达10 EOPS的万卡超级智能体集群 [19]
纯文本驱动视频编辑,清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象
量子位· 2025-12-11 06:54
LoVoRA团队 投稿 量子位 | 公众号 QbitAI 近年来,基于扩散的视频生成模型的最新进展极大地提高了视频编辑的真实感和可控性。然而,文字驱动的视频对象移除添加依然面临巨大挑 战: 不仅需要精准定位目标对象,还要同时保持背景连续性、时序一致性以及语义匹配。 现有大多数方法在推理时必须依赖用户提供的掩码或参考帧来确定编辑区域,这不仅增加了使用门槛,也限制了模型在真实场景中的实用性和 泛化能力。 为了解决上述难题,清华&华为&中科大团队提出 LoVoRA (Learnable Object-aware Localization for Video Object Removal and Addition)——一个真正意义上文本驱动、无需掩码和参考帧的视频对象移除与添加框架。 LoVoRA 能够仅凭文本提示精准定位编辑区域,并进行时序一致、背景自然的视频编辑,无需任何人工掩码或外部控制信号。大量实验和用 户评测表明,LoVoRA 在编辑质量、背景一致性、时序稳定性等指标上均优于现有基线方法。 数据集构建 现有的基于指令的视频编辑数据集,例如InsViE, Ditto, Senoritia, ICVE-SFT等 ...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这
量子位· 2025-12-11 06:54
大会概况与行业共识 - 量子位主办的MEET2026智能未来大会吸引了近30位产业代表、近1500名线下观众及超过350万线上观众,反映了行业对AI未来的高度关注 [8] - 2025年AI领域呈现发展、分裂与重构的态势,迫使所有参与者明确未来方向 [4] - 行业共识认为,AI正处在下一段增长曲线的起点,从云到端、从模型到智能体(Agent)、从软到硬均存在重要机会 [5] 人工智能发展趋势与范式演进 - AI正从鉴别式走向生成式与推理式,并在高效率、低成本和开源生态中加速落地 [10] - 新一轮人工智能是信息智能、物理智能和生物智能的融合,本质上是原子、分子和比特的融合 [10] - AI行业演进被划分为四个阶段:感知AI、生成式AI、智能体AI(可自主行动)和物理AI(能理解并响应真实物理世界) [19] - 2025年被认为是“Agent元年”,智能体技术开始在各行各业验证价值 [81] - 人工智能的演进过程与生物进化相似,呈现“长期停滞+突然跃迁”的特点,开源对加速进化至关重要 [49] 大模型与AGI路径 - 未来5到10年,基础大模型将在全球范围内收敛到不超过10个,类似于操作系统 [10] - 大模型推动AI从弱人工智能迈向通用人工智能(AGI),并推动机器人进入通用具身智能时代 [16] - 通往AGI的必经之路是“智能体互联网”时代,智能体将取代大部分SaaS和App,成为默认交互形态 [10] - Scaling Law能走多远存在不确定性,但国内仍需有顶级团队探索其极限,一旦出现新的涌现现象可能打破发展饱和 [79] - 扩散语言模型架构(如LLaDA)提供了自回归模型之外的另一种路径,在相同计算量和性能目标下可能所需参数更小,并具备直接修改token等优势 [25] 智能体(Agent)的发展与应用 - 智能体的本质是可验证过程的自动化,擅长数学、代码和结构化决策,现已发展到拐点 [55] - 一个成功的智能体构建需要三个核心模块:提供决策的底层模型“大脑”、中间代码、以及作为“手和脚”的工具(tools) [22] - 认知偏差、落地断层、体验割裂是当前用户使用AI产品的三大痛点 [13] - 百度推出的超级智能体框架调度中枢GenFlow月活用户达千万级,自称是全球最大的通用智能体 [13] - 智能体将重写公司组织,重复操作的岗位将消失,取而代之的是过程架构师 [55] - 企业级智能体落地的关键在于三个平台:作为认知中枢的大模型平台、提供感知的AI能力平台、沉淀企业记忆的AI数据平台 [28] - 企业服务落地最容易的三个方向是:工程流程自动化、行业研究报告、智能化办公助手 [37] - 衡量“好用”智能体的核心标准包括:能交付相对完整的结果、具备可进化性、采用AI原生方式开发、以及具备可控性和可解释性 [92] - 当前多数智能体存在负毛利问题,完成任务的成本高于用户支付意愿,这是创业者和基础设施提供商的巨大挑战 [92] 多模态与具身智能 - 2025年往后,第三代Scaling范式的关键在多模态 [16] - 智源研究院的悟界·Emu3.5通过统一的自回归架构,将Next-Token Prediction升级为在多模态数据上的Next-State Prediction,标志着AI从语言学习迈入多模态世界学习 [16] - 具身智能应被视为独立或平行于虚拟世界语言模型、专门面向物理世界的基础模型 [67] - 当前具身大模型面临不好用、不通用、不易用的挑战,尚未达到“ChatGPT时刻” [16] - 视频是能够大规模获得的、模拟真实世界的高效载体,包含时间、空间、物理、因果关系等多种要素 [16] - 在物理场景应用中,需要解决“大脑”(大语言模型)与“小脑”(端侧快速执行模型)的双脑架构集成问题 [92] 从云端到边缘的AI部署 - 终端侧运行大模型的最大好处之一是个性化 [19] - 端侧模型能力快速提升:两年前只能运行1-2K上下文,去年达4K,今年已支持8K-16K,特殊场景下甚至可实现最长128K的端侧部署 [19] - 终端侧正从单一文字模态向支持文本、图片、视频、音频、语音等多模态甚至全模态方向演进 [19] - 端侧运行大语言模型面临内存、带宽和功耗控制等挑战,需通过量化与压缩、并行解码技术、先进NPU与异构计算架构来解决 [19] - 端侧模型的关键在于自主学习和记忆,而Transformer架构模型无法在端侧实现这一点,突破Transformer和反向传播算法是AI发展到下一台阶必须跨越的两座大山 [61] 算力、芯片与基础设施 - 商汤的算力总规模达32000P,其智算中心通过算电协同等技术,已实现年化降低7%电费,年度碳减排超3000吨,综合算效提升15% [46] - 国产芯片替代是渐进过程,大规模训练场景的替代是难点 [64] - 当前重要发展方向是混合专家模型(MoE),它能扩大参数规模而不增加激活参数,但会给系统带来通信占比提升等新挑战 [64] - 单颗芯片性能已成为AI算法发展瓶颈,需要如TC link这样的高速互联技术实现128卡间扩展,为AI算法增长提供硬件基础 [58] - Agent Infra(智能体基础设施)本质上是AI时代的操作系统,管理模型能力、工具调用与任务执行等“智能资源” [52] 行业落地与商业化 - 2025年行业更关心如何做行业落地、场景赋能和商业化变现 [37] - 大模型在千行百业中落地才能产生最大价值,其在很多场景的价值尚未真正发挥 [43] - 三类企业需要行业或私有模型:传统大型企业、有海量数据的中小型企业、颠覆行业的新兴公司 [43] - 用大模型做To B业务,最关键的是后训练或Agent化,仅调用API无法形成差异化 [43] - AI在工业制造落地是一个组合拳,需大模型融合视觉和时序模型来处理生产数据,作为大脑进行分析决策和工艺调优 [37] - 昆仑万维的Skywork Super Agents产品中,PPT模式可在五分钟内生成30页PPT,该模式被40%的日活跃用户使用 [55] - 百度文库的AI学习平台OREATE AI新版本上线一个月月活突破140万,曾登顶ProductHunt全球日榜第一 [13] - 光轮智能通过全栈自研的“测量-建模-求解”三位一体仿真解决方案,缩小仿真与现实的差距(sim2real gap),以加速世界模型与物理AI落地 [70] 自动驾驶与机器人 - L2+/L2++与纯无人的L4难度差距巨大,真正的L4公司需要至少有二、三十辆车的纯无人车队运营半年以上 [40] - 预测称,如果特斯拉不装激光雷达,三年之内其在旧金山无法达到Waymo的自动驾驶水平 [40] - 随着大模型发展,若算力等条件满足,预测8年后可能出现开车能力超越99.99%人类司机的自动驾驶“AlphaGo时刻” [40] - 未来几年内,人形机器人进入通用开放环境自主进行复杂工作几乎不可能,应立足于在特定真实场景实现“星火燎原”式的落地 [79] - 灵巧手是具身智能的核心零部件,中国在机器人与灵巧手领域优势明显,甚至是遥遥领先 [76] 数据、仿真与开源生态 - 智源研究院过去两年多开源了2200多个模型,下载量突破6.9亿次;开源近百个数据集,下载量超120万次 [16] - 扩散架构模型LLaDA相比自回归模型更为data-hungry,对数据需求更大、吸收数据更快 [25] - 模型定制化面临挑战,Amazon SageMaker AI提供的Nova Forge能力允许在基础模型训练阶段就引入自有数据进行定制,效果优于训练后再微调 [22] - 国内发展人工智能产业离不开开源生态,行业需要企业共同组建开源平台 [58] 经济影响与组织变革 - 据估算,AI在今后的十年里每年可提升全球经济增长0.5到0.7个百分点 [34] - AI改变了稀缺的概念,并可能引发人机竞争及算法间的竞争 [34] - 未来不应寻找不会被AI替代的“安全”行业,而应思考如何与AI共生 [34] - 年轻人是AI生产力释放的主力军,经验丰富的从业者需为企业创造释放AI潜力的生产关系 [73] - 给AI创业者的建议包括:在增量中找市场、在专业里找空间、在业务中找场景、在结果中找收益 [73]
仿真数据也能Scaling!虚实结合训练,端到端性能全面提升|中科院x港大x小米汽车
量子位· 2025-12-11 01:33
来自香港大学OpenDriveLab、中科院自动化所、小米汽车的联合团队提出了一种解决方案—— SimScale 。 自动驾驶数据荒怎么破? OpenDriveLab 投稿 量子位 | 公众号 QbitAI 该方案 通过真实世界仿真生成关键场景,以及真实仿真协同训练策略,首次揭示了自动驾驶仿真数据的规模效应 。 现实世界难以提供足够的关键与长尾场景,采集到的大多是价值有限的常态片段,导致 数据越多、提升越难 。 因此,自动驾驶的瓶颈不在规模,而在缺乏能系统生成关键场景并支撑大规模训练的新路径。 无需更多真实数据, 只靠扩大仿真数量,一样能持续突破任何端到端驾驶模型的性能上限 。 为什么要有SimScale? 因为让大模型屡创新高的Data Scaling,在自动驾驶场景中失灵了—— 为此,SimScale应运而生。 什么是SimScale? SimScale是一个能"无限扩张世界"的仿真生成框架,通过高保真神经渲染,自动制造多样化反应式交通场景与伪专家示范。 它也是一套让仿真与真实"相互增益"的训练策略,使各种端到端模型都能越训越强,鲁棒性与泛化性全面提升。 它还是一份首次系统揭示自动驾驶仿真规模效益的"实践 ...
Meta公开抄阿里Qwen作业,还闭源了...
量子位· 2025-12-11 01:33
文章核心观点 - Meta公司计划于明年春季发布一款代号为“Avocado(牛油果)”的闭源AI模型,标志着其从长期坚持的开源战略向闭源模式进行重大转变 [1][2][3][10][11] - 这款闭源模型在训练过程中使用了包括阿里巴巴Qwen在内的第三方开源模型进行优化,此消息刺激阿里巴巴美股盘前一度上涨4%,收盘涨幅2.53% [4][5][6] - Meta的战略转向源于其开源路线的挫折(如Llama 4的失败)以及内部权力结构的重组,以新任首席AI官亚历山大王为代表的闭源拥护者掌握了AI话语权 [11][22][31] Meta的战略转向与“牛油果”模型 - Meta预计在明年春季发布代号为“牛油果”的新AI模型,该模型将是闭源的 [2][10] - 此举意味着Meta进行了一百八十度的战略转向,放弃了其长期以“开源”为核心叙事、并自比“AI时代的安卓系统”的发展路线 [11][12][14] - 新模型在训练过程中使用了多款第三方模型进行优化,其中包括阿里巴巴的Qwen、谷歌的Gemma以及OpenAI的gpt-oss [13][16] - 计划走向闭源的Meta,通过使用开源模型来训练自己的闭源模型,这一做法被解读为印证了当前开源阵营的崛起 [13] 市场反应与行业影响 - 彭博社关于Meta使用阿里巴巴AI训练闭源模型的消息引发市场强烈反应,阿里巴巴美股盘前一度上涨4%,收盘涨幅2.53% [6] - 市场观点认为,此事件凸显了阿里巴巴等公司在开源AI领域的领先地位和影响力 [9][15] Meta内部重组与权力更迭 - 2025年4月,Llama 4的发布未能达到预期,且陷入榜单排名“作弊嫌疑”的争议,成为一次重大挫折 [22] - Llama 4失败后,Meta公司高层开始下达“少谈开源,少提Llama”的指令,并逐步边缘化相关团队成员 [22][28] - 公司进行了大规模重组和裁员,FAIR实验室整组被裁,包括研究科学家总监田渊栋在内的开源路线支持者离职 [28] - AI领域的知名人物LeCun于11月离职,原因之一是Meta不再为其提供足够资源,离职前内部甚至要求员工“雪藏”他及其开源理念 [29][30] - 随着田渊栋、LeCun等人的离开,新任首席AI官亚历山大王彻底掌控了Meta的AI话语权,他是闭源模型的坚定拥护者 [21][31] - 亚历山大王通过一笔高达143亿美元的交易从Scale AI加入Meta [23] - 扎克伯格如今将自己定位为“王的导师”,并将公司最重要、最烧钱的产品项目之一亲自交到亚历山大王手上 [32] “梦之队”的组建与TBD实验室 - Llama 4失败后,扎克伯格亲自挂帅开启“梦之队”招聘计划,为顶尖AI人才提供高额薪酬,年薪一度飙到数亿美元 [23] - 扎克伯格求贤若渴,甚至亲自带着自己煮的南瓜汤上门游说OpenAI的核心研究员 [25] - 这批招募来的明星研究员组成了Meta的“超级智能实验室”旗下的TBD Lab,该实验室是此次战略转折的重要操盘手 [20][26] - 扎克伯格对TBD Lab极为看重,投入大量时间,并将该团队成员安排在自己办公桌附近以便随时了解进展 [27][33]
乐奇Rokid这一年,一路狂飙不回头
量子位· 2025-12-10 12:02
行业趋势与市场表现 - 2025年中国智能眼镜出货量预计同比暴涨107%,达到275万台[1] - 智能眼镜正从极客玩具变成真正的抢手生意,行业进入“百镜混战”[1] - 行业重心从追求花哨能力转向聚焦“好眼镜、好耳机、好相机、好助手”等具体现实的概念[5] - 乐奇Rokid的路径和节奏被越来越多厂商不自觉地对齐,改变了赛道的节奏和坐标系[3] 乐奇Rokid的2025年关键事件与市场热度 - 2025年1月,公司在CES上凭借Rokid Glasses实现现象级刷屏[6] - 2025年2月,创始人一句“发言稿就在我的眼镜里”让公司火爆出圈[1] - 2025年7月,在WAIC 2025展馆火爆,现场试戴游客密度堪比热门展品首发日[7] - 公司产品频繁出现在央视访谈、公益活动、广交会、大阪世博会等各类公开场景[7] 产品理念与核心功能演进 - 公司核心是思考如何把一副眼镜变成“好”的智能眼镜[10] - 通过迭代将拍照、翻译、提词、导航、支付等功能浓缩进轻巧的眼镜中[10] - 产品进化基于用户真实场景中的小需求,例如提词、AI指令、拍摄、翻译、导航等能力的持续更新[16] - 公司证明了智能眼镜往“好戴、能用”的路径是可行的,启发了行业[11] 硬件创新与设计 - 在行业中首创AI眼镜磁吸式充电+充电胶囊设计,提升了充电续航体验,并改写了交互习惯[12] - 采用磁吸夹片方式解决近视用户配镜问题,支持用户在线下配镜店定制镜片,并可重复配镜[25] - 通过软件“反推法”优化漏光问题,将漏光角度调整到上方,以解决用户平视和俯视时的漏光困扰,且不牺牲亮度[21] 软件功能与用户体验优化 - 提词功能升级为可随时切换的双模式:常规匀速滚动与轻碰镜腿暂停的自由模式[17] - 升级双指AI快捷指令,用户可预设命令,通过双指按压镜腿直接触发AI任务,无需反复语音唤起[22] - 优化支付体验,将触发方式改为双指轻碰镜腿后说“支付”二字,使流程更隐蔽,避免社交尴尬[23] - 为视障群体推出“慧眼”能力,提升语音提示语速和环境识别细度,辅助出行[27] - 上线粤语唤醒功能,服务全球近1亿粤语使用者的需求[29] 销售业绩与市场影响力 - Rokid Glasses首发5天全渠道售出4万台[1][14] - 双十一期间,产品拿下同比800%的增长,冲到智能眼镜品类销量TOP1[14] - 在Kickstarter上以401万美元的众筹成绩,创下中国AR眼镜的海外众筹历史纪录[1][14] - 在中国台湾省众筹平台打破纪录,成为近三年来的众筹第一[14] 生态合作与行业影响 - 与支付宝、高德地图、QQ音乐等厂商合作,将手机端能力迁移至眼镜[14] - 与BOLON、宝丽眼镜等品牌联合推出多款新品,拓展行业应用场景[14] - 公司产品定义了行业关键指标,如轻量化、稳定呈现、语音调度和影像能力,让行业看到智能眼镜可以稳定和好用的程度[43] - 公司的成功路径让行业不再在概念里兜圈子,推动了智能眼镜从“尝鲜设备”走向“可信设备”[44] 高端应用场景与品牌认可 - 产品被海尔集团CEO周云杰在“2025企业家博鳌论坛”上用于智能提词[37] - 在央视新闻《一年之计看两会》节目现场,由总台主持人王言佩戴完成开场白[39] - 在中国驻新加坡使馆的国庆招待会上,曹忠明大使全程佩戴Rokid Glasses完成主题演讲[41] - 越来越多需要稳定信息呈现的行业用户将产品纳入正式工作流,产品经历了高强度场景的“极限检验”[37] 用户场景与真实反馈 - 用户使用眼镜记录滑翔伞、攀登雪山等极限运动场景,产品防抖技术保障了画面稳定清晰[30][32] - 公司团队习惯观察用户使用场景,从真实需求中打磨产品功能[34] - 科技在智能眼镜上变得贴身、好用、有存在感,用户体验从接住真实需求中生长出来[35]