机器之心

搜索文档
商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
机器之心· 2025-08-12 07:34
具身智能与世界模型 - 具身智能「大脑」以「世界模型」为内核,成为AI下一阶段竞争焦点 [1] - 世界模型被视为通往「类人智能」的解法,业界形成新共识 [1] - 2025年下半年具身智能「大脑」成为全球AI领域焦点 [1] - 世界模型技术研究曲线与具身智能产业发展路径交汇,引发行业争夺战 [2] 行业动态与厂商布局 - 谷歌推出具身智能RT-2模型,AI教母李飞飞聚焦具身智能创业 [3] - 国内厂商密集发布具身智能平台:智源研究院RoboBrain、华为云CloudRobo、字节跳动GR-3、京东JoyInside、商汤「悟能」、腾讯Tairos [3] - 商汤优势在于计算机视觉起家、多模态大模型打磨经验、智能驾驶沉淀、大装置算力支持 [3] - 商汤通过「悟能」平台将多年积累赋能行业 [3] 技术突破与挑战 - 大模型带来导航、人机交互、VLA端到端操作三方面技术突破 [7][8] - 自动驾驶技术进步使机器人导航功能提升 [9] - 多模态大模型带来全新人机交互方式 [10] - 世界模型通过学习物理规律和交通法则实现更高层次智能 [12] - 硬件质量和数据缺乏是主要挑战,尤其是规模化数据生产困难 [13] - 仿真数据与现实差距大,计算机视觉技术可带来新动能 [14] 商汤的技术布局 - 「开悟」世界模型应用于智能汽车,衍生出「悟能」具身智能平台 [5] - 平台包含10万3D资产,支持多视角学习,保持150秒时空一致性 [5] - 世界模型三大技术优势:时空一致性(11摄像头同步)、内容可编辑、反应速度实时 [21][23][24] - 「悟能」平台提供第一视角和第三视角数据,推动端到端VLA实现 [27][29] - 与机器人厂商合作形式为提供SDK软件功能API调用 [33] 应用场景与未来展望 - 机器狗可实现陪伴守护,家庭机器人建立情感连接 [30] - 具身智能成熟后将形成人机社交网络,机器人可完成多项家庭功能 [36] - 每项功能突破都将带来巨大市场想象空间 [37] - 商汤规划提供包含视觉、交互、导航、操作的「机器人大脑」 [39]
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
机器之心· 2025-08-12 03:10
大模型推理能力演进 - 推理大模型和思维链技术使模型具备深度思考能力 显著提升不同任务的泛用性 [1] - 借助思维链 大模型能够对任务进行深入分析并完成规划拆解 从而胜任长周期高复杂度工作 [1] - 深度思考能力使得推理过程更直观 便于发现执行环节问题并针对性调整指令 [1] AI智能体发展现状 - 深度思考的推理模型催生了拥有多种辅助功能与自主能力的AI智能体 [2] - 当前大模型出现偏科现象 对长周期复杂任务的追求影响了其推理模式 [3] - 在编码等工作流中 过度思考的负面效应尤为显著 [4] 过度思考的具体表现 - 大模型在默认状态下表现出过度的自主代理倾向 超出日常使用需求 [6] - 在编码任务中倾向于进行长时间推理 包括全代码库文件搜索和网络反复检索 [6] - 对开发中代码的边缘情况过度分析 甚至在简单查询中也需要数分钟响应时间 [6] - 简单任务如脚本错误检查本不需要复杂分析 但模型仍进行深度思考 [6] 用户应对策略 - 用户经常需要中断LLM进程并使用限制性指令控制其思考深度 [7] - 以GPT-5为例 OpenAI试图通过集成模型自动决定思考深度但问题仍未解决 [8] - 图像编辑任务中 模型经过38秒深度思考仍未调用相应功能 [9][11] - 用户普遍怀念GPT-4o的直接响应模式 [12] 行业需求变化 - 需要建立可精确指定任务紧迫程度的机制 从快速检查到深度分析的多层级选择 [12] - 用户建议内置深度设置功能 避免每次手动指定思考程度 [16] - 基准测试优化导致模型偏向长周期任务假设 影响普通任务响应 [16][18] 问题根源分析 - 过度思考源于模型在长周期任务上的基准测试优化追求 [16] - 模型无法区分简单咨询与高风险考试两种情境 默认采用深度思考模式 [17][18] - 行业发展不能完全以基准测试分数为追求目标 [19]
东方理工·甬江论坛|新大学、新使命,邀你共启未来
机器之心· 2025-08-12 03:10
论坛概况 - 宁波东方理工大学将于2025年11月8日至9日举办2025甬江论坛,旨在吸引海内外优秀学者加盟并分享最新研究成果[4][5] - 论坛主题围绕"书藏古今 港通天下"的宁波历史文化特色,目标共建世界级教育科研平台[4][5] 学科领域 - 学校设立理学、工学、信息、商科四大学科群,重点发展基础学科及集成电路、人工智能等前沿交叉学科[7] - 具体研究方向包括数学/物理等基础科学(理学)、智能制造/新能源等工程领域(工学)、人工智能/集成电路等信息科技(信息)[8] - 采用国际通行的Tenure-track制度,全球招聘助理教授至讲席教授等职位[7] 人才引进政策 - 要求申请人拥有博士学位、顶级期刊发表记录及中英文教学能力,提供全球竞争力的薪酬与科研启动资金[10] - 福利体系包含住房津贴、子女教育、医疗保险及退休年金等全方位保障[10][11] 学校发展现状 - 已签约100名PI,包括16名院士、52名国家级人才,96%教师具备2年以上海外经历[25] - 科研成果显著:发表524篇Science/Nature论文,获23.7亿元科研经费,获批25项国家自然科学基金项目[25][26] - 建立5个省级科研平台,成为国家自然科学基金依托单位[26] 教育体系 - 2025年首次招收74名本科生,设立数理基础科学等4个专业,最高录取分691分(省排名430)[28][33] - 2022年启动博士生联合培养项目,已与上海交大等4所高校合作培养243名博士生[28][29] 战略合作 - 与12所国际顶尖院校及24所国内机构签署合作协议,覆盖人才培养、科研合作等领域[31] - 合作原则强调资源共享与优势互补,推动科研成果转化[31]
ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace
机器之心· 2025-08-12 03:10
核心观点 - 小红书AIGC团队提出DynamicFace方法,通过扩散模型与3D人脸先验的深度融合,解决了视频人脸交换中的身份一致性和运动一致性问题 [5][6][7] - 该方法在影视、游戏、自媒体与电商三大场景具有广泛应用潜力,可实现降本增效和沉浸式体验升级 [6] - 实验结果显示DynamicFace在身份保持和运动一致性方面优于现有6种主流换脸方法,ID Retrieval达到99.20,Eye Consistency仅0.16 [23][24] 技术原理 - 采用可组合三维面部先验的显式条件解耦,将人脸条件分解为身份、姿态、表情、光照及背景五个独立表征 [9] - 设计身份-细节双流注入机制,通过Face Former和ReferenceNet分别保证全局身份一致性和细粒度纹理迁移 [10][11] - 开发即插即用时序一致性模块FusionTVO,通过分段加权融合和总变差约束解决长视频帧间跳动问题 [12] 行业应用 - 影视行业:通过数字替身实现"先拍脸、后拍景"的拍摄流程,降低补拍成本 [6] - 游戏行业:支持玩家自拍生成360°可旋转角色,配合语音驱动实现NPC口型情绪同步变化 [6] - 自媒体与电商:品牌代言照可批量生成不同角度的口播视频,虚拟主播实现7×24小时自然表情直播 [6] 性能对比 - 定量实验显示DynamicFace在FaceForensics++和FFHQ数据集上全面超越对比方法 [23] - ID Retrieval指标达99.20,显著优于第二名SimSwap的98.50 [23] - Eye Consistency指标0.16,优于其他方法最佳成绩0.22 [23] - 定性对比显示基于GAN的方法身份一致性差,其他扩散模型方法运动一致性不足 [21][22]
是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
机器之心· 2025-08-12 03:10
模型能力 - GLM-4.5V在「图寻」游戏全球积分赛中击败了99.99%的人类玩家,展现出超强视觉推理能力[9] - 模型能通过建筑风格、植被类型、道路标识等环境信息进行精准定位,甚至给出精确经纬度[20][21] - 在视觉错觉测试中,模型快速识别出穿蓝色上衣和白色裤子的人与穿紫色衣服的人[16] - 模型能准确读取模糊光线下的时钟时间,克服了AI系统读取时钟准确率仅38.7%的行业难题[38][41] - 对相似场景如慕田峪与八达岭长城,模型能根据墙体完整度和游客数量等细节精准区分[44][47] 技术架构 - GLM-4.5V采用106B总参数、12B激活参数的架构,支持64K多模态长上下文[127] - 视觉编码器采用AIMv2-Huge,通过三维卷积提升视频处理效率[127] - 引入二维旋转位置编码和双三次插值机制,增强高分辨率图像适应性[127] - 语言解码器采用3D-RoPE位置编码,提升多模态空间理解能力[127] - 训练采用三阶段策略:预训练、监督微调和强化学习,在41个公开视觉多模态榜单达到开源SOTA水平[128][129] 应用场景 - 在安防监控领域,模型能处理含视觉错觉和遮挡的图片,具备高准确率识别能力[19] - 前端开发中,模型可根据截图或视频复刻网页布局,实现可交互功能[87][91][93] - 教育领域能总结10分钟英文演讲视频,准确提取人物、地点和事件等关键信息[61][65] - 本地文档处理方面,模型能解读论文图表并理解数据逻辑关系[101][103] - 在景区寻人等场景,模型可精准识别特定特征的人员或宠物[112][113] 行业影响 - 模型开源策略推动行业从性能竞赛转向实用价值创造,提升开发者定制灵活性[132] - 在GUI Agent领域展现核心能力,如准确定位电商商品和PPT操作按钮[121][123] - 视觉推理能力覆盖复杂图表、多图长文本等实际任务,拓展多模态应用边界[10] - 相比闭源模型,开源方案提供更高透明度,促进AI技术在各行业落地[132] - 模型实战表现优于benchmark成绩,反映行业向真实场景效果评估的转变趋势[131]
Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
机器之心· 2025-08-12 00:15
核心技术与架构 - 采用完全独立的纯解码器Transformer架构 从参数初始化开始完全独立训练 提供20亿和70亿参数两个版本[4] - 规避预训练模型的授权限制和固有偏差 架构设计不受限制[4] - 选择SBER-MoVQGAN作为图像分词器 在MS-COCO数据集上实现最优重建质量[7] 多任务处理能力 - 创新采用统一图像分词方案 通过上下拼接将图生图任务视为单张图像 实现多任务训练与文生图的一致性[9] - 单一模型支持文生图、主体驱动生成、图像编辑、可控生成和密集预测五大任务[9] - 在Graph200K多任务基准测试中表现优异 证明纯自回归模型在单一框架下完成多模态生成任务的可行性[17] 推理优化策略 - 采用模型量化技术 将权重量化为4位整数同时保持激活张量为bfloat16 通过PyTorch 2.0原生编译工具实现优化[13] - 运用推测式Jacobi采样 通过静态KV缓存和静态因果注意掩码方案兼容静态编译框架 实现加速采样[13] - 优化后减少60% GPU显存消耗 通过并行解码显著提升生成效率[13] 性能表现对比 - 文生图任务中GenEval分数达0.80 与顶级生成模型相当 在"两个物体"测试中达0.92分 "颜色属性"测试中达0.72分[14][15] - 70亿参数版本在DPG综合评分达84.30分 超越Janus-Pro-7B的84.19分和Infinity的83.46分[15] - 在可控生成任务中Canny条件F1分数达0.49 深度条件RMSE为17.42 显著优于ControlNet等对比模型[19] 未来发展计划 - 重点优化采样时间长的问题 提升用户体验[21] - 计划从多模态生成扩展至多模态理解 增强整体功能性和性能[21]
刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
机器之心· 2025-08-12 00:15
OpenAI在IOI 2025的表现 - OpenAI的推理模型在2025年国际信息学奥林匹克(IOI)中取得金牌级别的高分,在AI参赛者中排名第一 [1] - 在330位人类参赛者中,OpenAI的得分仅落后于5位人类选手,排名第6 [5] - 公司遵守了与人类选手相同的比赛规则:5小时答题时间和50次提交限制 [5] 技术细节 - OpenAI没有使用互联网或检索增强生成(RAG),仅能访问基础的终端工具 [6] - 公司使用了一组通用推理模型,没有针对IOI进行专门训练 [7] - 唯一的辅助策略是选择要提交的解答并与IOI API建立连接 [7] 成绩进步 - 相比去年IOI的表现,OpenAI今年实现了巨大飞跃 [8] - 成绩从去年的第49百分位跃升至第98百分位 [9] - 过去几周在AtCoder世界总决赛、IMO和IOI上都取得优异成绩 [9] 模型特点 - 直接使用IMO金牌模型参加IOI竞赛,未做任何改动 [14] - 在采样的所有模型中,IMO金牌模型表现最佳 [14] - 模型展示了强大的通用推理能力,未经过专门训练就取得优异成绩 [15] 行业影响 - 公司在IMO和IOI的连续成功展示了最新研究方法的巨大进步 [9] - 网友期待OpenAI推出采用相同技术的公开版本 [17] - 联合创始人Greg Brockman盛赞模型"金牌级的表现" [13]
「一只手有几根手指」,你的GPT-5答对了吗?
机器之心· 2025-08-11 10:40
多模态大模型视觉理解能力缺陷 - 顶尖大模型如GPT-5、GPT-5-Thinking、Gemini 2.5 Pro和Grok 4在基础视觉常识问题(如"一只手有几根手指")上频繁出错,答案受语言歧义(英文finger可指4或5指)和图像语境影响[1][6][9][10][11][17][24] - 模型错误率高达100%(如六指图中文语境),反事实图像(如5条腿的狗)识别准确率仅约17%,显示对视觉内容的基础理解能力不足[17][33] 视觉语言模型的技术局限性 - 当前多模态大语言模型(MLLM)过度依赖语言先验和记忆知识,而非真实视觉分析,导致视觉模块仅通过语言模式猜测而非真正"看懂"图像[26][34] - 以语言模型初始化视觉-语言-动作模型(VLA)存在陷阱,虽在基准测试中表现进步,但未解决核心感知问题(如物体计数、空间关系)[36] 评估体系与解决方案 - 需建立以视觉为中心的严谨评估标准(如CV-Bench基准测试集),系统性检验2D/3D视觉能力(计数、深度感知等),并评估超过20种视觉编码器[31][32] - 应开发更强视觉基础模型(如从世界模型入手再叠加语言模块),避免将视觉作为语言附属输入,需重新探索3D基础模型和视频扩散模型[36][38] 行业影响与研究方向 - 公司可能依赖语言先验捷径宣称"多模态推理"成功,但实际应用于机器人等现实场景时将暴露缺陷并付出代价[31] - 需暂停仅叠加CLIP/DINO的符号化方案,转向从零构建4D先验(如4D-LRM),彻底脱离语言先验干扰[38]
4D空间智能:AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次
机器之心· 2025-08-11 10:40
4D空间智能重建技术综述 技术定义与价值 - 4D空间智能重建旨在从视觉数据还原三维空间的动态演化过程,整合静态场景结构与时空动态变化,构建具有时间维度的空间表征系统 [2] - 该技术在虚拟现实、数字孪生和智能交互等领域具有关键价值,正成为新一代人工智能发展的基础设施 [2] - 前沿研究从几何重建转向场景物理属性和交互逻辑建模,支撑智能体与虚拟环境的拟真交互 [2] 研究框架分层 - 底层三维属性重建(Level 1):聚焦深度感知、相机定位、点云构建与动态跟踪四大核心要素 [6][7] - 三维场景组成要素重建(Level 2):实现人物、物体及建筑结构的精细化建模,NeRF和3D高斯点云等技术显著提升重建质量 [6][9] - 完整4D动态场景重建(Level 3):通过形变场建模或显式时序编码引入时间维度,支持沉浸式视觉体验 [6][10] - 交互关系重建(Level 4):建立场景元素间动态交互模型,人体与物体运动关联研究取得突破 [6][12] - 物理规律重建(Level 5):整合重力、摩擦等物理约束,推动虚拟世界从视觉真实向物理真实进化 [6][18][22] 关键技术进展 - 底层重建:DUSt3R系列工作实现联合优化,VGGT框架可在秒级完成3D线索估计 [7] - 动态建模:NeRFies、HyperNeRF等形变场方案与Dynamic NeRF等时序编码方案形成两大技术路线 [10] - 物理仿真:PhysHOI、PhysicsNeRF等框架实现人体运动仿真和复杂物理现象建模 [22] 应用前景 - 当前技术已在影视特效、自动驾驶仿真等领域实现应用 [23] - Level 5物理引擎的完善将推动人机交互和数字孪生应用更加逼真自然 [23] - 未来可能发展Level 6技术,进一步模糊虚拟与现实的边界 [23]
智谱终于发布GLM-4.5技术报告,从预训练到后训练,细节大公开
机器之心· 2025-08-11 07:12
GLM-4.5模型发布与市场反响 - 智谱开源新一代旗舰模型GLM-4.5及轻量版GLM-4.5-Air 首次在单个模型中实现推理、编码和智能体能力的原生融合 并在12项全球测试中综合成绩排名全球第三 国产和开源模型中均位列第一 [2] - 模型发布后引发海内外AI圈热议 官方推文浏览量突破120万 GLM-4.5连续7天登顶Hugging Face趋势榜单 [2] - 与OpenAI开源的gpt-oss系列对比测试中 GLM-4.5整体表现保持领先优势 [6] 技术架构创新 - 采用MoE混合专家架构 通过"瘦高"结构设计(减少宽度增加深度)提升推理能力 隐藏维度5120配备96个注意力头(常规模型的2.5倍) [21] - 引入Muon优化器加速收敛 配合QK-Norm技术增强注意力稳定性 加入MTP层实现推测解码提升推理效率 [24] - 参数规模达3550亿 激活参数320亿 包含89层MoE和1层MTP 在同类模型中计算效率显著提升 [23] 训练方法论突破 - 采用多阶段训练方案:15T通用语料预训练+7T代码/推理语料训练 中期训练将序列长度从4K扩展至128K [25][27] - 预训练数据覆盖网页/社交媒体/学术/代码等多源信息 第二阶段重点上采样编程与科学数据强化推理能力 [28] - 中期训练分三环节:代码仓库级训练(32K序列)、合成推理数据训练、长上下文与智能体训练(128K序列) [30] slime强化学习框架 - 专为大模型RL训练设计的开源框架 支持同步/异步混合训练模式 GitHub已获1200星 [31][32] - 核心模块包括训练(Megatron)、rollout(SGLang+Router)和Data Buffer 实现环境交互与训练解耦 [35] - 采用FP8混合精度推理加速数据生成 同时保持BF16训练精度 显著提升智能体任务训练吞吐量 [34][48] 性能基准测试表现 - 智能体任务:TAU-bench表现接近Claude Sonnet4 BFCL-v3总分第一 BrowseComp优于Claude Opus4 [44][45] - 推理能力:AIME24/SciCode超越OpenAI o3 七项基准平均表现优于Claude Opus4 接近DeepSeek-R1 [47][50] - 代码能力:SWE-bench Verified超越GPT-4.1 Terminal-Bench超过Claude Sonnet4 成为其最强竞品 [52][53] 行业影响与意义 - 技术报告完整披露从架构设计到训练方法的实现路径 为国产开源大模型发展提供重要参考 [56] - 首次在单一模型中实现ARC(智能体/推理/代码)能力统一 推动LLM向通用问题求解器进化 [18][19] - 开源生态建设成效显著 模型与框架同步开放 形成完整技术闭环 [14][32]