Workflow
量子位
icon
搜索文档
AI把PC天花板打破了
量子位· 2025-11-23 04:09
文章核心观点 - PC行业并未触及天花板,全球PC出货量连续四个季度同比增长,2025年第三季度达到7590万台,同比增长9.4% [1] - AI技术正在重塑PC行业,拉高PC的价值天花板,并推动行业进入新的增长周期 [5][24][31] - 联想作为行业龙头,其财报和战略表明公司已进入由AI驱动的新增长周期,AI业务营收占比达30% [3][33][51] 联想2025/26财年第二财季财报表现 - 总营收达1464亿元人民币,同比增长15%,创下单财季历史新高 [6] - 经调整净利润为36.6亿元人民币,同比增长25%,利润增速高于营收增速 [2][12][13] - 综合毛利率为15.4%,略低于去年同期的15.7% [14] - 研发费用为41亿元人民币,同比增长6%,投入方向包括AI、液冷技术等 [21] 联想三大业务板块表现 - 智能设备业务收入1081亿元,同比增长12%,占总收入73.8%,是公司基石业务 [8] - 基础设施业务收入293亿元,同比增长24%,增速居首,AI基础设施需求是核心拉动力 [8] - 解决方案和服务业务收入90亿元,同比增长18%,连续18个季度双位数增长,运营利润率超22% [8] PC业务与市场地位 - 公司PC出货量全球第一,市场份额首次突破25%,较第二名高出5.7个百分点 [2][11] - 联想AI PC在Windows AI PC市场份额达31.1%,稳坐全球第一 [11] - AI PC单位平均售价比传统PC高出约5%-10%,为硬件厂商带来毛利率提升机会 [32] AI战略与业务进展 - AI业务营收占比达总营收30%,同比增长13个百分点,成为新增长引擎 [3][34][35] - 推行“混合式AI”战略,算力按场景分布在“端、边、云”三层次 [36][37] - 在个人智能领域提出“一体多端”战略,“一体”指天禧AI个人超级智能体,“多端”指AI PC、AI手机等设备 [42][43] - 企业智能领域构建全栈能力,AI服务器高双位数增长,液冷技术业务收入同比大增154% [46][48] 行业展望与公司前景 - Gartner预测到2025年AI PC将占全球PC出货量的31% [32] - 全球PC市场预计将有5%-10%的可持续增长 [52] - 联想在中国市场AI PC出货占笔记本出货量比重有望从Q2财季的27%提升至Q4的35% [52] - 公司判断已进入结构更优、质量更高、确定性更强的新增长周期 [51]
卡帕西大模型横评方法太好玩了!四大AI匿名参赛评分,最强出乎意料
量子位· 2025-11-23 04:09
项目概述 - 卡帕西发布名为“大模型议会”(LLM Council)的Web应用,该项目在GitHub上已获得337个星标和53个分支[1][5] - 项目界面与ChatGPT类似,但核心功能是调用多个大模型通过OpenRouter开会商议用户问题[2] - 系统工作流程包括多模型同时回答、匿名互评和主席模型汇总最终答案三个步骤[7][8][12] 技术流程 - **第一步:多模型并行回答**:通过OpenRouter同时调用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多个大模型回答同一问题,并以标签视图展示结果[7][18] - **第二步:匿名互评机制**:所有模型对其他模型的回复进行匿名评估,根据准确性和洞察力给出评分和详细理由[8][9][10] - **第三步:答案汇总输出**:指定主席模型汇总所有回复,形成统一最终答案交付用户[12][13] 性能发现 - 在多模型互评中,GPT-5.1被一致认为提供最强、最有洞见的答案,Claude被公认为最弱,Gemini 3和Grok-4排名居中[21] - 模型表现出较低偏见倾向,通常愿意承认其他模型的答案更优[24] - 尽管模型自评结果与人类主观评价存在差异(如卡帕西认为Gemini 3答案更简洁凝练),但多模型集成方法显示出巨大探索潜力[23][24] 项目背景与发展 - LLM议会系统延续了卡帕西早前分享的LLM分阶段深度阅读项目,该项目将阅读流程重塑为与LLM协作的三阶段过程[15][19] - 相关项目在GitHub上获得较高关注度,其中一个项目收获1.8k星标[17] - 行业专家认为模型自评可能成为一种新的“自动benchmark”方式,多模型集成有望成为未来LLM产品的突破点[6][24]
图片生成仿真!这个AI让3D资产「开箱即用」,直接赋能机器人训练
量子位· 2025-11-23 04:09
技术突破与核心创新 - 提出PhysX-Anything框架,是首个面向仿真、具备物理属性的3D生成范式,仅需单张图像即可生成高质量、可直接用于仿真的3D资产[5] - 该框架能同时生成显式几何结构、关节运动以及物理参数,解决了现有方法普遍缺失密度、绝对尺度、关节约束等关键物理信息的问题[5][6] - 采用由粗到细的生成框架,通过多轮对话依次生成整体物理描述与各部件几何信息,最终解码输出六种常用格式的可仿真3D资产[8] 技术实现细节 - 提出一种新型3D表征方式,基于体素构建几何表示,在32体素网格上由视觉语言模型建模粗略几何,再由下游解码器细化,实现超过193倍的token压缩比[10][27] - 设计可控的flow transformer模块,将粗体素表示作为扩散模型的引导信号,以控制细粒度体素几何的生成[14] - 使用最近邻算法将重建网格划分为部件级组件,结合全局结构信息与细粒度体素几何,生成用于仿真的URDF、XML及部件级网格[15] 性能评估与比较 - 在PhysX-Mobility数据集上的评估显示,PhysX-Anything在几何与物理两类指标上均取得最优表现,其绝对尺度误差大幅降低至0.30[18][19] - 在基于视觉语言模型的评估中,PhysX-Anything在几何与运动学参数两项指标上均显著优于所有对比方法,得分高达0.94[20][21] - 人类志愿者评估结果显示,PhysX-Anything的生成结构在几何与物理属性都获得最高分,几何得分为0.98,物理属性多项得分在0.84至0.98之间[22] 应用潜力与行业影响 - 生成的仿真就绪3D资产可以直接导入模拟器,并用于接触丰富的机器人策略学习,展示了在推动多种下游机器人与具身智能应用方面的巨大潜力[25][26] - 该框架有望为3D视觉、具身智能与机器人研究开辟新的方向,推动从“视觉建模”到“物理建模”的范式转变[28] - 团队构建了覆盖47个常见真实类别、具备丰富物理标注的PhysX-Mobility数据集,大幅拓展了现有物理3D资产的多样性[27]
沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断
量子位· 2025-11-23 01:00
文章核心观点 - 机会不仅来自技术本身,更来自理解技术如何改变智能载体、交互方式、计算架构与数据,从而重新分布能力、资源与价值[1][19] - 智能演进可从五个维度梳理:算法范式、智能载体、交互范式、计算架构、数据,为创新者提供识别机会的思考框架[1][5] 算法范式维度 - AI算法从监督学习阶段演进至强化学习阶段,未来将迈向自主学习阶段[3][4] - 监督学习阶段构筑表达与生成能力,强化学习阶段引入因果与执行能力[3] 智能载体维度 - 关注点从语言和多模态模型转向世界模型与具身模型[7] - 智能载体从抽象符号空间迈向物理空间[8] 交互范式维度 - 人机交互经历命令行、图形界面、搜索、推荐到自然交互的范式迁移[11] - 自然交互分层为被动响应、交互式执行、具备提议能力的主动模式,交互方式从文本扩展至语音、手势及脑机接口[12] 计算架构维度 - 计算架构从通用走向专用、从单一走向多元[14] - GPU刺激深度学习爆发,但能耗与成本攀升,推动推理、端侧、强化学习等专用芯片涌现[14][15] 数据维度 - 数据从模拟世界的静态教材变为探索世界的动态反馈,再变为归纳世界的验证假设证据[17] - 数据从人类数据枯竭转向合成数据兴起,再转向AI主动探索获取实验数据,从限制模型能力的约束变为推动AI主动学习的工具[17] 未来个体与组织 - 个体能力被AI放大,多环节协作任务可由单个个体端到端完成[21] - 组织重心从管控转向定义问题、融合个体协作,未来CEO或变为首席氛围官[22][23] 创新项目成果 - DINO-X Grasp模型实现万物可抓取,精准识别物体、预测抓取点位,结合深度信息还原三维结构指导机械臂操作[25][29] - 模型不挑设备与场景,在4090显卡上实现10帧/秒实时推理速度,兼容主流深度相机与机械臂,支持移动端运行[31][32][41] - 已应用于招商局集团港口集装箱验残、桥梁螺钉检测等场景,并与美团机器人研究院合作[33][34] - MoonBit编程语言为AI时代设计,首个原生提供AI助手的语言,性能超越Java近10倍,代码体积比Rust小30%[37] - 用户从去年2.6万增至超10万,预计2026年底达100万,已有北美云厂商付费客户[38] - Smart渲染器打破美国Arnold等公司垄断,支持英伟达、AMD、国产GPU及苹果芯片,实现秒级实时渲染[43][46][48] - 已被《流浪地球》特效制作方MoreVFX、《哪吒》制作方光线动画等顶级公司使用[49]
罗福莉首个小米成果!开源具身大模型
量子位· 2025-11-22 06:00
文章核心观点 - 小米公司的MiMo团队发布了业界首个开源的、融合自动驾驶与具身智能两大领域的统一多模态基础模型MiMo-Embodied [6] - 该模型在自动驾驶与具身智能共计29个基准测试中全部实现了最先进性能 [2] - 此项研究由新入职的团队负责人罗福莉作为核心作者,智能驾驶首席科学家陈龙作为项目负责人,标志着公司在空间智能与自动驾驶融合领域的重要技术突破 [1][47] 技术方案与创新 - 模型基于MiMo-VL架构,通过构建涵盖通用视觉、具身任务及驾驶场景的高质量数据集,并采用包含思维链和强化学习的渐进式四阶段训练策略 [8] - 四阶段训练策略具体包括:具身智能监督微调、自动驾驶监督微调、思维链推理微调和强化学习微调,批量大小分别为512、512、512和32,学习率分别为2×10⁻⁶、2×10⁻⁶、2×10⁻⁶和1×10⁻⁶ [23][24] - 该方案有效打破了室内操作与户外驾驶之间的领域鸿沟,解决了现有视觉语言模型缺乏统一性、存在领域差距与迁移困难等挑战 [10][12][14] 性能表现评估 - 在具身能力评估中,MiMo-Embodied在可供性预测、任务规划和空间理解等核心领域表现优异,在RoboRefit测试中得分82.30,在CV-Bench测试中得分88.82,显著超越对比模型 [28][29] - 在自动驾驶能力评估中,模型在CODA-LM测试中得分58.55,在Drama测试中得分76.14,在NuInstruct测试中得分83.58,在所有感知、预测和规划基准测试中均取得强劲性能 [30] - 定性评估显示模型能有效处理复杂真实世界任务,包括具身导航与操作、交叉路口转弯、弯道掉头、跟车和变道超车等多样化自动驾驶场景 [32][34][38][40] 团队与战略意义 - 研究团队由新加盟的AI专家罗福莉负责,其拥有阿里巴巴达摩院和DeepSeek的资深研发经验,项目负责人陈龙曾任职于Wayve和Lyft,具备丰富的自动驾驶研发背景 [45][46][48][49] - 此项研究成果是公司在智能驾驶与具身智能交叉领域的重要布局,未来将基于此模型探索具身智能视觉-语言-动作模型,以增强复杂环境中的交互能力 [43] - 模型已在GitHub和Huggingface平台开源,参数规模为7B,便于行业进一步研究与应用 [50]
AI问答,直接「拍」给你看!来自快手可灵&香港城市大学
量子位· 2025-11-22 03:07
技术突破 - 提出“视频作为答案”新范式,将AI回答从文字描述升级为动态视频生成[3][8] - 模型能够理解输入视频和问题,推理出符合逻辑的下一事件,并生成视觉连贯的视频[11][12][13] - 核心创新在于Joint-GRPO强化学习算法,协同优化视觉语言模型和视频扩散模型,解决语义与视觉错配问题[19][21][24] 模型架构 - 采用两阶段工作流程:感知与推理阶段生成描述下一事件的文本标题,条件化生成阶段结合文本和视觉特征生成答案视频[20] - 通过专业化分工与协同优化,实现理解与生成能力的同步提升,相比统一模型在关键指标上取得显著进步[47][48] 性能表现 - 在事件预测准确性指标ROUGE-L上,VANS相比最强统一模型取得近三倍性能提升[46] - 生成视频语义忠实度指标CLIP-T大幅领先,视频质量指标FVD达到最低分数78.32,显示更高视觉逼真度[47][48] - 定性分析显示模型在细粒度语义理解与可视化上具有优势,能精准呈现如“撒碎芝士”等具体动作[51][53] 应用场景 - 程序性教学领域可实现定制化教学视频,根据用户当前进度生成无缝衔接的指导内容[37][39][40] - 多未来预测功能支持基于不同假设生成多种合理未来视频,为创意写作和互动娱乐开辟可能性[41][43]
国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,划重点:开源
量子位· 2025-11-22 03:07
模型性能突破 - 上海人工智能实验室推出的P1-235B-A22B模型在IPhO 2025理论考试中获得21.2/30分,成为首个达到国际物理奥林匹克竞赛金牌线的开源模型,仅次于Gemini-2.5-Pro与GPT-5 [1][3] - 在包含最新13项顶级物理竞赛的HiPhO基准上,P1-235B-A22B单一模型取得12金1银的成绩,与Gemini-2.5-Pro并列第一,超过GPT-5的11金 [34][35] - 引入PhysicsMinions智能体框架后,P1-235B-A22B平均成绩从35.9分提升至38.4分,在所有33个顶流模型中排名第一,超过Gemini-2.5-Pro的37.7分和GPT-5的37.4分 [5][38] - 在中国物理奥林匹克CPhO 2025人工评分中,P1-235B-A22B获得227/320分,显著超过当届全国金牌第一名人类选手的199分 [6][41] - 轻量级模型P1-30B-A3B同样表现优异,取得8金4银1铜的成绩,排名开源模型第三,超过部分闭源模型 [38] 技术方法论 - 团队构建了高质量的物理训练数据集,包含5065道奥赛级文本物理题,其中4126道为物理奥赛真题,939道来自竞赛教材,覆盖五大领域和二十五个子领域 [11][13] - 题目复杂度极高,平均题干长度为367个token,最长可达3386个token;平均解答长度为349个token,最长可达5519个token [12][13] - 采用多阶段强化学习流程,使用为长链推理优化过的GSPO方法,通过将每个题目上的若干条解答作为一个组来构建优势函数,缓解奖励稀疏问题 [19][20] - 训练过程中引入基于题目难度的动态数据筛选机制,只保留基座模型通过率在0到0.7之间的题目,并逐步扩展模型的探索范围和可生成的最大长度 [23] - 针对训练与推理阶段的概率偏差问题,引入了Truncated Importance Sampling进行校正 [28] 智能体框架创新 - 设计了专为物理推理的协同进化多智能体系统PhysicsMinions,包含视觉工作室、逻辑工作室和审查工作室三个交互式模块 [30] - 在纯文本模型P1的应用中,逻辑工作室实例化P1作为求解器,审查工作室同样使用P1担任审查器,通过自我改进机制优化解答 [33] - 系统采用循环审查流程,直到解答连续通过预设次数的审查,显著提高了推理稳定性与最终表现 [31] 数据集与评测基准 - 团队构建了HiPhO高难度评测集,覆盖2024–2025年最新13场物理赛事的理论题,包括IPhO、APhO、EuPhO等国际和区域性高难赛事 [34] - 评测集包含33个顶流模型进行对比,其中11个为闭源模型,22个为开源模型 [34] - 为确保数据质量,团队采用Gemini-2.5-Flash、Claude-3.7-Sonnet、GPT-4o三大模型交叉验证答案,并进行人工检查 [17] 开源策略与跨领域价值 - 团队承诺全链路开源,包括模型、算法、评测集以及智能体框架 [9] - 定向的物理推理训练不仅没有损害模型的通用能力,反而让P1在数学、STEM、代码和通用推理多个任务上表现优于基座模型,显示出跨领域的迁移价值 [42]
首位“80后”院士,来自北大数院
量子位· 2025-11-22 03:07
文章核心观点 - 北京大学数学科学学院1980年出生的刘若川教授当选中国科学院院士,成为首位“80后”院士,标志着北大数院“黄金一代”数学家群体中产生了首位院士代表 [1][2][4] 人物背景与学术成就 - 刘若川于1999年获得第40届国际数学奥林匹克竞赛金牌并保送北大,2008年从麻省理工学院获得博士学位,2012年回归北大任教 [6][7] - 其主要研究领域为算术几何与代数数论,在p进霍奇理论、p进自守形式及代数K理论等前沿方向取得杰出成果,并对非交换p进霍奇理论作出开创性工作 [8] - 其与合作者开展了算术几何与代数拓扑的交叉研究,给出了拓扑循环同调全新的计算方法,开辟了新的研究方向 [9] - 2017年,37岁的刘若川获得国家杰出青年科学基金项目资助 [10] - 2020年,其独立完成的“p进霍奇理论及其应用”项目荣获国家自然科学奖二等奖 [11] - 2024年,刘若川获得拉马努金奖,该奖授予未满45周岁、做出杰出科研工作的发展中国家青年数学家 [12][13] “北大数学黄金一代”群体 - “北大数学黄金一代”指2000年前后进入北京大学、踏上数学研究道路的数学新星群体,包括1999级的刘若川、2000级的袁新意、李驰等多位学者 [14][17] - 著名数学家张寿武曾评价该群体“他们合在一起,应该是中国数学的未来” [18] - 该群体成员之间至今仍保持紧密合作关系,刘若川的最新研究论文中就有同属“黄金一代”的肖梁教授参与 [19][21] - 目前,除刘若川外,肖梁、袁新意等“黄金一代”成员也已在北京大学北京国际数学研究中心任教 [26] 科研理念与学术环境 - 刘若川认为,科学研究需要好的场域,这由好的科研理念、风气以及多元优秀的科学家组成 [24] - 他强调与同行讨论、探索尝试对于产生想法和火花的重要性 [20] - 他认为,优秀的科学家达到一定“密度”,有利于增进交流和相互启发 [25]
抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI
量子位· 2025-11-22 03:07
大会核心信息 - 大会主题为“共生无界,智启未来”,聚焦AI技术穿透产业、学科与场景边界,成为社会演进核心动能 [3] - 将于2025年12月10日在北京金茂万丽酒店举行,预计吸引上千名科技从业者参与,百万观众线上围观 [2][105][107] - 关注前沿技术与产业落地进展,涵盖强化学习、多模态、芯片算力、AI+行业、AI出海等热议话题 [4][5] 大会核心议程与发布 - 议程结合学术前沿与商业落地的最新碰撞,展示来自Infra、模型、产品产业的领先技术成果 [5] - 将权威发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项 [6][103] - 将发布年度AI十大趋势报告,结合技术成熟度与落地现状,提名并分析十大AI趋势及代表案例 [104] 参会嘉宾阵容(学术界与产业界领袖) - 张亚勤:清华大学智能产业研究院院长、中国工程院院士,数字视频和AI领域世界级科学家,曾任百度总裁、微软全球资深副总裁 [12][13] - 孙茂松:清华大学人工智能研究院常务副院长、欧洲人文和自然科学院外籍院士,主持国家973项目等20余项科研项目 [17] - 王仲远:北京智源人工智能研究院院长,曾任职于快手、美团、Facebook,发表论文100余篇,获ICDE 2015最佳论文奖 [21][22][23] - 何晓冬:IEEE Fellow、京东集团高级副总裁,发表论文200余篇被引用6万余次,带领团队打造JoyAI大模型并应用于零售、物流等行业 [30] - 韩旭:文远知行创始人兼CEO,带领公司在全球11国超30城开展自动驾驶业务,2024年登陆纳斯达克,2025年登陆港交所 [35][36] - Daniel Povey:小米集团首席语音科学家、IEEE Fellow,著名开源语音识别工具Kaldi的提出者,谷歌学术引用近52000次 [40] 参会嘉宾阵容(企业技术与业务负责人) - 王颖:百度集团副总裁,负责文库事业部、网盘事业部,2021年加入后全面领导百度互娱和垂类业务创新 [26] - 杨帆:商汤科技联合创始人、大装置事业群总裁,主导AI基础设施建设,推动身份验证、安防等业务规模化落地 [53][54] - 万卫星:高通公司AI产品技术中国区负责人,负责终端侧AI引擎软硬件规划及生态系统建设 [58][59] - 陈晓建:亚马逊云科技大中华区产品部总经理,负责云服务落地及产品管理,拥有超过20年企业级业务经验 [63][64] - 喻友平:中关村科金总裁,前百度智能云副总裁,提出“平台+应用+服务”大模型落地三级引擎战略 [75][76] - 赵俊博:浙江大学研究员、蚂蚁集团资深技术专家,首创数据库大模型TableGPT,参与PyTorch早期研发 [72] 参会嘉宾阵容(创业公司及前沿技术探索者) - 尤洋:潞晨科技创始人、新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜,任职于谷歌、英伟达等公司 [48] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型,首倡“群体智能”理念推动AGI发展 [80][81] - 王潜:自变量机器人创始人兼CEO,其硕士工作成为Transformer注意力机制最早基础之一,致力于端到端大模型驱动通用机器人 [90][91] - 乔梁:太初元碁联合创始人兼COO,曾任国家超算无锡中心AI研发中心副主任,主导国产异构众核平台超大规模并行深度学习框架研发 [86][87]
对话范浩强:10亿融资之前,我们手搓了5000元“丐版硬件”
量子位· 2025-11-21 09:00
公司成立与融资进展 - 公司于2025年3月正式成立,创始团队来自旷视等AI企业,具备AI 1.0时代的实战经验[5][6][18] - 成立9个月内完成3轮融资,近期获得阿里巴巴独家投资的A+轮融资,金额达数亿元[4] - 公司目前规模为百余人,融资节奏快但强调执行不因资本而变形[59][60] 技术方向与产品定位 - 公司聚焦具身智能领域,从To B工业场景切入,优先落地物流行业的拣选分发等高频环节[20][21] - 核心产品基于自研端到端多模态具身智能大模型MMLA,搭配双抓夹机械臂,实现非结构化物品的抓取与分类[21][22] - 产品已在上海等地仓库完成POC(概念验证),具备基础交付能力[22][23] 硬件研发标准 - 工业级执行体需满足三大指标:无故障时间1万小时、按年为单位升级、主力型号每年迭代一代[27][31] - 因科研机无故障时间仅百小时或千小时,无法满足生产要求,公司选择自研硬件[28] - 专业硬件团队已组建,计划明年发布新一代配合移动平台的具身版本[28] 开源战略与生态建设 - 公司开源具身智能链条三件套:Dexbotic(脚本化实验流程)、DOS-W1(模块化数据采集机器人)、Robochallenge(真机评测平台)[38][39][41][44] - Robochallenge平台联合抱抱脸等机构,吸引智源研究院、清华大学等数十家高校及企业参与,并于11月20日成立组委会[44][47] - 开源目的包括降低行业门槛、展示技术实力、促进合作,并计划明年开源具身智能基座模型[49][50][55][58] 行业认知与发展策略 - 公司认为具身智能技术成熟需十年长周期,参考AI 1.0时代人脸识别从实验室到城市级应用的经验[63][65] - 当前市场处于早期阶段,客户多为观望态度,公司强调长期信心与短期耐心,拒绝追求短期上市或收购的节奏[60][65][68] - 团队注重系统工程能力,主张在核心环节追求可控性,并通过开源构建行业基础设施[32][37][50]