量子位

搜索文档
拿下3D生成行业新标杆!昆仑万维Matrix-3D新模型鲨疯了,一张图建模游戏场景
量子位· 2025-08-12 02:27
3D生成技术突破 - Matrix-3D由昆仑万维推出,支持从单图像生成高质量、可自由探索的3D全景场景,几何关系准确且色彩自然[10][11][15] - 模型在主流评估指标上超越360DVD、Imagine360和GenEx,取得全景视频生成任务的SOTA成绩[11] - 支持360°自由视角浏览、大范围场景生成及自定义运动轨迹控制,泛化能力显著优于现有方法[21][25][28] 核心技术优势 - 采用全景图而非透视图作为中间表达,突破视角范围限制,提升沉浸感与下游应用兼容性[46][47][49] - 通过网格渲染策略增强几何一致性与色彩一致性,避免噪声条纹问题[54][55] - 提供双路径3D重建方案:前馈神经网络方案10秒完成生成,3DGS优化方案实现精细场景[40][68] 数据与训练创新 - 自建Matrix-Pano数据集包含116K条全景视频序列(22M帧),覆盖504个3D场景及多样天气光照条件[64][65] - 训练中引入LoRA微调与Cross Attention机制,提升生成精度与控制能力[53][60][62] - 采用自动化轨迹生成系统,确保视频物理合理性与工业级平滑效果[69][70] 公司战略布局 - 昆仑万维持续加码空间智能领域,Matrix系列已涵盖3D场景生成与可交互视频生成,形成技术矩阵[12][75][85] - 2024年研发费用达15.4亿元(同比+59.5%),研发团队1554人占比73.41%,资源投入行业领先[87][88] - 技术路径覆盖"AI基础研究-基座模型-产品应用"全链条,目标构建AGI关键能力[83][84][89] 行业应用前景 - 3D生成技术可赋能VR虚拟现实、游戏开发及影视制作,推动数字世界内容生产效率[77] - 空间智能被视为实现AGI的核心技术,自动驾驶与具身智能为物理世界重要落地方向[78][80] - 开源策略加速生态构建,Matrix-Game与Matrix-3D均为工业界首批10B+级空间智能开源模型[12][82]
OpenAI夺金IOI,但输给3位中国高中生
量子位· 2025-08-12 01:14
OpenAI AI推理系统在IOI竞赛中的表现 - OpenAI的推理模型在2025年IOI线上竞赛中获得总分533.29分,在全球330名人类选手中排名第六,在所有AI参赛者中排名第一 [1] - 该AI系统超越了98%的人类参赛者,其中排名前五的人类选手中包括三名中国学生:刘恒熙(591.23分)、范斯喆(552.34分)和陈昕阳(534.42分) [1][2] - 值得注意的是,OpenAI并未专门为IOI训练新模型,而是整合了多个通用推理模型参赛 [2] 与去年表现的对比 - 相比2024年IOI竞赛中专门训练的o1-ioi模型仅获得213分(排名第49百分位),今年使用通用模型的成绩实现了显著提升 [4][13][14] - 2024年的o1-ioi模型采用了复杂的人工设计test-time推理策略,包括生成10000个候选解、基于自生成测试用例聚类排序等,但效果不佳 [14][15][17] 竞赛规则与AI参赛细节 - IOI是全球中学生计算机科学领域最高级别赛事,要求参赛者在5小时内独立解决3道高难度算法题,全程断网且无法借助外部资料 [8] - 2025年IOI共有来自84个国家的330名参赛者,满分600分,金牌分数线为438.30分,最终28人获金牌 [9] - OpenAI的AI系统遵守与人类相同的规则:5小时时间限制和50次提交次数限制,且未使用互联网或RAG技术 [10][11][12] 行业竞争与模型表现 - 马斯克发布的IOI Benchmark排名显示,Grok 4在编码方面以26.2%准确率超越GPT-5(20.0%)获得第一,但成本(3/15美元)和延迟(4265.88秒)较高 [6][7] - GPT-5在2025Q1测试中是唯一能解决难题分组(5.9%)的模型,其平均响应长度超过10万token,是o3的3倍 [18][19][20] - 其他主要模型表现:Gemini 2.5 Pro(17.1%)、Claude Opus 4.1(15.2%)、Claude Sonnet 4(6.5%) [7]
GitHub独立时代落幕!CEO离职创业,微软全面接管
量子位· 2025-08-12 01:14
GitHub管理层变动与战略调整 - CEO Thomas Dohmke宣布年底离职 计划重返创业[2] - 微软决定不再任命新CEO 将GitHub完全并入2025年1月成立的CoreAI部门[3] - 自2018年75亿美元收购后 GitHub将结束6年独立运营状态[5] GitHub业务表现与AI转型 - 用户数从7300万翻倍至1 5亿 年度经常性收入突破10亿美元[8] - 推出变革性AI编程助手GitHub Copilot 重塑开发者工作流程[9] - AI项目数量过去一年增长一倍 平台加速向AI领域转型[20] CEO职业背景与领导成果 - 创始人Thomas Dohmke拥有跨学科背景 博士研究融合软件与机械工程[11][12] - 曾创立移动应用测试平台HockeyApp 2014年被微软收购后加入公司[17][18] - 2021年接任CEO后主导AI战略 Copilot推动代码生成效率提升[20] 微软整合战略与组织架构 - GitHub将向CoreAI部门汇报 该部门由前Meta高管Jay Parikh领导[27] - 工程团队向微软开发者事业部总裁Julia Liuson汇报 产品团队向AI平台副总裁Asha Sharma汇报[28] - 双线汇报结构旨在强化与Azure云平台及微软AI战略的协同[29] 行业竞争与未来趋势 - Cursor Replit等AI编程初创公司以"氛围编程"挑战传统编辑器[31] - Dohmke预测未来2-5年AI可能生成90%代码 开发者角色转向AI战略与系统设计[24] - 开源社区或担忧平台中立性丧失 但微软强调深度整合将加速AI功能迭代[33][34] 核心数据指标 - 全球最大代码托管平台覆盖1 5亿开发者[6] - HockeyApp被收购前实现零外部融资[18] - CoreAI部门整合微软开发者部门 AI平台和关键技术团队[27]
GPT-5数字母依然翻车!马库斯:泛化问题仍未解决,Scaling无法实现AGI
量子位· 2025-08-11 10:12
GPT-5性能缺陷 - 在字母计数任务中出现错误,如将blueberry中的b错误计数为3个而非实际2个[2][6] - 变换提示词策略后仍坚持错误答案,如将单词开头blue中的b重复计数两次[5][6] - 被直接纠正后仍出现位置漂移错误,如将第三个b的位置从第七字母错误定位到第六字母[9] 多模态与逻辑推理问题 - 在图像识别任务中无法识别异常特征,如将5条腿的斑马和3条腿的鸭子判断为正常生物[27] - 国际象棋规则理解存在缺陷,仅4个回合后就出现非法移动操作[23] - 伯努利原理演示现场出现翻车情况[21] 模型泛化能力局限 - 思维链(CoT)方法在训练分布外失效,表明模型泛化能力不足[33] - 存在持续30年未解决的分布漂移问题,影响模型泛化性能[38] - 最新模型仍存在与1998年神经网络相同的泛化问题[37] 技术路线争议 - 缩放法则(Scaling)被质疑无法实现AGI目标[40] - Transformer中的注意力机制被认为并非终极解决方案[40] - 神经符号(Neuro-symbolic)AI被提出作为解决泛化问题的替代路径[41]
WRC整理床铺机器人背后模型曝光!端到端双系统全身智能VLA,仅凭少量微调就能get任务
量子位· 2025-08-11 10:12
星海图团队 投稿 量子位 | 公众号 QbitAI 报告的两大核心贡献是构建了真实世界开放数据集Galaxea Open-World,以及提出了基于"系统1(System 1)/系统2(System2)"理论的 双系统G0架构,并通过分阶段训练策略验证了其有效性。 G0模型评测结果全面优于π0完整模型,作为全球首个开放场景下的高质量真机数据集,即将面向所有具身智能开发者全面开源。 △ 星海图端到端双系统全身智能VLA模型G0 全球首个开放场景高质量真机数据集 仅凭少量后训练微调,机器人就能完全自主、连续不断地完成床铺整理任务。 而它的每一步思考与动作实时投放在大屏幕上。 在本届2025WRC上,星海图将G0模型带到展会现场,让观众直观看到"机器人在想什么、怎么做",刷新现场展示任务难度,稳定完成长程、 柔性、全身移动操作任务。 现在,星海图正式发布端到端双系统全身智能VLA模型——星海图G0,该模型将大规模开放世界真机数据集与双系统视觉-语言-动作 (Vision-Language-Action)架构结合,旨在提升机器人在非结构化环境中的泛化能力与任务适应性。 星海图开放世界数据集(Galaxea Open- ...
GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次
量子位· 2025-08-11 08:32
GPT-oss模型行为分析 - 模型在没有提示词的情况下消耗超过30000个token凭空生成多米诺骨牌编程问题并反复求解5000多次 [2][17][18] - 模型训练数据覆盖几乎所有常见编程语言,其中Perl占比尤其高,但Java和Kotlin的实际占比可能被低估 [7][9] - 模型生成内容高度集中于数学和代码领域,主动进行推理且多用英语表达,不同于自然网页文本或普通聊天机器人交互内容 [11][13] 模型训练与语言特性 - 模型在推理过程中频繁进行语言转换,从英语演变为"Neuralese"并在多种语言间切换 [20][21][22] - 模型输出中出现特殊伪影如"OCRV ROOT",推测源于训练数据使用OCR技术扫描书籍时的识别偏差 [24][25][26] - 模型对unicode使用熟练但物理领域表现不佳,偶尔会创造不存在的物理学理论 [10][29] 模型性能与问题 - GPT-oss-20b在SimpleQA任务中准确率仅0.067,幻觉率高达0.914 [34] - 模型会花费2小时推理无解问题如"生成3x3字母矩阵",或创造不存在的理论名称如"量子重力波动理论" [36] - 模型在处理日常琐事时表现不稳定,可能拒绝谈论或完全崩溃 [37] 数据与建议 - 分析数据已公开在Hugging Face平台供研究使用 [31] - 建议对模型高度冗余输出进行去重,并对比不同规模模型的输出以深入理解机制 [32]
黄仁勋像押注OpenAI一样押注中国机器人,英伟达首批Jetson Thor芯片给了他
量子位· 2025-08-11 08:32
英伟达在中国具身智能领域的布局 - 英伟达正在将押注OpenAI的成功经验复制到机器人领域,通过Jetson Thor芯片支持中国机器人公司发展[1][2] - 英伟达与中国多家机器人公司深度合作,包括银河通用、宇树科技、阿里云、北京人形机器人创新中心等[4][6] - Jetson Thor芯片性能显著提升:计算能力达上一代Jetson Orin的7.5倍,每瓦性能提升3.5倍,I/O吞吐量提升10倍[2][30][31] 银河通用的发展路径 - 采用轮式双臂双手形态,主打高续航和工业级安全性,G1机器人已实现大规模自主商用[19] - 率先在中国部署Jetson Thor芯片,机器人展示出丝滑运动性能和实时视觉处理能力[19] - 开发具身智能大模型VLA,实现自然语言交互和复杂环境导航,全球首发无需建图的TrackVLA和抓取基础大模型Grasp VLA[20] - 合成数据占比达99%,与英伟达合作生成百亿级抓取操作和柔性物体操作大数据集[21] - 商业化落地包括100多家无人药房和"太空舱"零售终端,已完成超20亿元人民币融资[23][24] 宇树科技的技术路线 - 认为人形机器人是通用AI的理想载体,未来组装机器人将像组装电脑一样简单[8][10] - 产品线包括售价3.9万元的人形机器人和A2机器狗,后者自重37千克可负载30千克[11] - 机器人登上央视春晚表演全自动编队跳舞,16台机器人实现毫秒级同步[12] - 使用NVIDIA Isaac Sim平台训练动作,已掌握舞蹈、跳跃、空翻等多种动作[13] - 开发20自由度灵巧手,目标实现自然交互如倒水等日常任务[13] 具身智能行业发展趋势 - 具身智能时代发展速度将快于AI大模型产业[7] - 人形机器人市场可能每三年产值增长10倍[6] - 通用机器人有望成为下一个数万亿人民币市场的革命性产品[15][17] - 行业呈现多元化发展路径,包括"运动优先"和"智能优先"不同路线[6] 英伟达的机器人技术架构 - 提出机器人领域需要三台计算机:机器人本体计算机、AI工厂计算机和仿真计算机[28] - Isaac平台整合硬件和软件栈,Jetson Thor是专为机器人设计的"实时推理机器"[29] - 仿真工具包括Isaac Sim、Isaac Lab和NVIDIA Cosmos,用于环境仿真和强化学习[34] - 世界基础模型虽处起步阶段,但已为机器人研发带来全新能力[33]
让64张卡像一张卡!浪潮信息发布新一代AI超节点,支持四大国产开源模型同时运行
量子位· 2025-08-11 07:48
国产开源模型发展 - 国产开源模型如DeepSeek R1、Kimi K2等在Hugging Face热度榜及关键指标(推理能力、长文本处理、多模态理解)上表现突出 [1] - 主流开源模型参数量突破万亿级别,显存需求达数TB量级 [1] - Agentic AI范式推动多模型协同与复杂推理链,计算与通信需求爆炸式增长 [2] 元脑SD200技术突破 - 浪潮信息发布超节点AI服务器元脑SD200,支持单机运行四大国产开源模型及超万亿参数推理 [3][5] - 64卡整机实现超线性扩展(DeepSeek R1推理性能提升3.7倍,Kimi K2提升1.7倍) [6][11] - 采用3D Mesh开放架构,通过Open Fabric Switch实现64卡统一编址,显存达4TB,内存64TB [7][8] - 百纳秒级低延迟通信,支持原生内存语义对齐,优于业界主流方案 [8] - 内置Smart Fabric Manager优化全局路由,PD分离框架提升推理效率 [9] Agentic AI对基础设施的挑战 - 智能体AI需多模型协同(如代码生成、逻辑推理、知识检索模型),交互频次与计算量激增 [14][15] - 万亿参数模型跨机通信延迟问题突出,传统InfiniBand网络难以应对高频小数据包场景 [15][16] - 元脑SD200通过统一计算域与8倍地址空间扩增,解决显存容量与延迟问题 [19] 超节点设计理念 - Scale Up路径选择:硅基芯片性能提升受限,Scale Out架构高延迟问题显著 [20][21] - 元脑SD200在有限物理空间内聚合64路GPU,平衡物理定律与工程实践 [22][24] - 系统化设计整合现有技术,最大化用户价值 [22] 开放生态战略 - 基于OCM(开放算力模组)与OAM(开放加速模块)架构,支持Intel、AMD、ARM等多平台及异构加速器协同 [25][27][29] - 兼容PyTorch、vllm等主流框架,降低用户迁移成本 [11][32] - 推动"智能平权",通过开放架构降低企业使用门槛,共享AI技术红利 [33][34][35]
错信AI幻觉,一男子用溴化钠替代食用盐,真给自己吃出幻觉了
量子位· 2025-08-11 07:48
AI健康建议误导案例 - 一名60岁男性因轻信ChatGPT建议,将食用盐替换为泳池清洁用溴化钠,导致严重溴中毒[1][4] - 患者体内溴含量达1700 mg/L,超出正常范围(0.9-7.3 mg/L)200多倍,引发妄想症和幻觉[2][5][6] - 溴中毒症状包括偏执、视听幻觉及抗拒治疗,需通过盐水利尿排毒但患者拒绝饮水[8][9] ChatGPT建议缺陷分析 - 患者基于"大学营养学经历"背景,要求AI提供完全无氯饮食方案,未获健康风险警示[4][10] - 医生测试ChatGPT 3.5发现其推荐含溴化物但缺乏医疗级背景追问和明确警告[14][15] - GPT-5版本已改进为建议低钠盐替代方案,并能自动纠正"替代氯"为"减盐"需求[18][19] AI产品迭代对比 - 早期版本(ChatGPT 3.5/4.0)存在健康建议不严谨问题,可能直接推荐危险化学品[12][14] - GPT-5升级后能理解用户真实需求,自动转向科学减盐方案并规避有害物质推荐[18][21] - 案例显示AI产品需加强背景信息识别和风险提示功能,特别是在医疗健康领域[16][17]
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
量子位· 2025-08-11 07:48
核心观点 - OpenAI在gpt-oss开源模型中采用MXFP4数据类型,显著降低推理成本75%,同时内存占用减少至BF16模型的1/4,生成token速度提升4倍[1][5] - MXFP4量化技术使1200亿参数模型可运行于80GB显存显卡,16GB显存显卡可支持200亿参数版本[2] - 该技术通过压缩权重存储(半字节/参数)和优化内存带宽,实现降本增效[7][12][14] 技术细节 MXFP4特性 - 采用4位微缩放浮点数(MXFP4),权重存储大小仅为FP32的1/8[12][15] - 通过32个高精度数值共享8位缩放因子,平衡数据压缩与精度[20][22] - 硬件兼容性强,无需原生支持FP4(如Nvidia H100)[26][27] 性能对比 - 1200亿参数模型总参数量116.83B,Checkpoint Size 60.8GiB;200亿参数版本总参数量20.91B,Checkpoint Size 12.8GiB[3] - Nvidia Blackwell芯片FP4运算性能达9 petaFLOPS,较BF16(2.2 petaFLOPS)提升显著[24] 行业应用 - 90%的gpt-oss模型权重采用MXFP4量化,直接降低运行成本[4] - 行业趋势显示FP8量化已无显著质量损失,DeepSeek等公司直接使用FP8训练[30][31] - 英伟达推出NVFP4作为竞品,缩放块大小更小(16 vs MXFP4的32),精度更高[33] 技术局限性 - MXFP4可能因缩放块粒度不足导致质量下降,需权衡精度与计算效率[32] - 低精度数据类型(如FP4)传统上被视为性价比妥协,但MXFP4通过优化实现可行性[29][34]