机器之心

搜索文档
全奖读AI!人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
机器之心· 2025-09-04 04:11
机器之心发布 机器之心编辑部 在阿联酋 2031 国家人工智能战略的驱动下,穆罕默德・本・扎耶德人工智能大学(MBZUAI) 正以 AI 专业学术全球排名前十的硬实力,重塑 AI 教育格局。这所 由阿联酋总统创立的学术引擎,不仅承载着中东向科技转型的雄心,更以丰厚奖学金覆盖所有学位项目,为全球优秀人才铺就一条通往未来的黄金大道。 迎向未来:国家战略背书的 AI 学术高地 2017 年,阿联酋总统穆罕默德在石油经济腹地播下一颗 AI 种子 —— 启动了《阿联酋人工智能战略 2031》(UAE National Strategy for Artificial Intelligence 2031),目标是在 2031 年使阿联酋成为全球人工智能领域领导者。 在能源、物流、旅游、医疗、教育、网络安全等九大优先行业部署人工智能,通过概念验证资金和政府 — 企业联合试点,提升国家核心竞争力。 引入全球顶尖科研力量,共建 MBZUAI(全球第一所专注于研究人工智能的大学)、国家虚拟研究院、"思想家计划" 等,形成区域人才高地。 通过设立加速器、20 亿迪拉姆创新基金、外资激励计划,培育本土初创企业,吸引外国直接投资。 打造 ...
SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统
机器之心· 2025-09-04 04:11
论文发表与系统创新 - 快手与清华大学联合开发的灵犀系统论文被ACM SIGCOMM 2025录用 该会议是计算机网络领域历史最悠久、声望最高的旗舰学术会议 录用率极低[2] - 灵犀系统是业界首个成功部署在大规模生产环境中、面向用户个性化体验的自适应视频流优化系统 其设计初衷是攻克显式用户评分干扰、控制带宽导致体验受损、优化不连续及规模化难题[4] - 该系统通过无显式反馈、无负面影响、持续优化、用户级定制和大规模部署的特性 与离线数据分析、用户打分和播放干预等传统方法形成显著区别[4] 研究背景与问题识别 - 传统QoS优化方法存在性能瓶颈 大规模A/B测试显示不同QoS优化算法在系统级指标上虽有差异 但均无法在总观看时长这一核心用户体验指标上产生持续显著优势[7] - 卡顿事件是影响用户体验的最主要负向因素 其对用户退出率的影响量级达到10⁻¹ 是视频质量(10⁻³)和视频平滑度(10⁻²)的10-100倍[23][25] - 用户对卡顿的感知存在显著个体差异 平均可容忍卡顿时长的累积分布显示差异巨大且稳定 用户可分为敏感型、阈值敏感型和不敏感型三种模式[27][29] 灵犀系统算法设计 - 系统采用模块化架构 作为动态优化目标调整模块与现有ABR算法兼容 通过无播放干预、无显式反馈和实时偏好追踪实现安全部署和持续优化[32] - 在线贝叶斯优化(OBO)为每个用户独立运行 利用高斯过程代理模型和采集函数在探索与利用间权衡 持续迭代寻找最优ABR参数如卡顿惩罚因子[34] - 蒙特卡洛采样基于用户历史网络状况建立带宽模型 进行多次虚拟播放模拟 通过退出率预测器评估候选参数的长期影响[35] - 混合退出率预测器结合个性化神经网络和整体统计模型 神经网络针对卡顿场景输入短期播放状态和长期用户状态 统计模型处理未卡顿场景[38][44] 实验效果与性能提升 - 大规模A/B测试显示灵犀系统在总观看时长、平均视频码率和总卡顿时长上均取得全面显著提升 实现QoE与QoS的双重优化[46] - 低带宽用户(<2000 kbps)获得显著收益 卡顿时长减少约15% 系统自动分配更保守的ABR参数以降低卡顿风险[52] - 用户卡顿敏感度与ABR参数存在负相关关系(相关系数-0.47至-0.25) 对卡顿越敏感的用户系统分配参数越保守 直接验证个性化优化效果[53][54] 系统价值与行业意义 - 灵犀系统推动自适应视频流优化范式从单一静态的系统级目标转向动态独立的个性化用户目标 实现真正的"千人千面"[57] - 该系统为弱网用户带来15%的卡顿减少 并通过差异化策略匹配不同敏感度用户 为大规模个性化QoE优化提供突破行业瓶颈的关键路径[58]
长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
机器之心· 2025-09-04 04:11
核心技术突破 - 推出商用级长时序音频驱动人物视频生成模型InfinityHuman 创造性解决长期动画中身份漂移和细节失真两大核心难题 [2][6] - 通过姿态引导优化技术确保数字人在长时间视频中保持面部特征 光影风格一致性 避免传统技术中越生成越不像问题 [8] - 采用手部特定奖励反馈学习机制 精准捕捉手部交互和面部微表情 显著提升手部关键点准确性 减少手指畸变和关节异常 [8][13] 技术实现框架 - 采用由粗到细策略 先通过低分辨率音视频生成模块得到粗略动作视频 再通过姿态引导细化模块生成高分辨率视频 [11] - 低分辨率模块基于Flow Matching和DIT 融合多模态信息并通过多模态条件注意力机制增强音视频对齐 [11] - 姿态引导细化模块利用参考图像作为身份先验 通过前缀潜变量参考策略确保长时生成中的时序连贯性与外观一致性 [11] 性能表现 - 在EMTD和HDTF数据集评估中 视觉真实感(FID)和时序连贯性(FVD)指标均优于FantasyTalking Hallo3等主流基线方法 [13] - 消融实验表明移除姿态引导模块会导致视觉质量下降 身份一致性减弱 取消手部奖励机制则使手部关键点精度下降 [13] - 实现高分辨率长时长视频生成任务中真实感 一致性与动作自然度的全面提升 支持生成30秒至3分钟专业级视频 [4][14] 商业化应用 - 已实现电商带货虚拟主播沉浸式讲解 企业培训虚拟讲师课程录制 自媒体数字人主播每日内容量产等多场景商用级应用 [7][8] - 对中文语音支持效果尤为出色 在分钟级长视频中保持身份稳定与手部动作自然 充分满足中文内容创作需求 [7] - 技术部署至商业化即创平台 为内容创作 教育培训 电商直播等领域提供低成本高质量数字人解决方案 [16] 技术生态布局 - 团队形成从基础研究到商业化落地的完整技术链路 涵盖语音合成与视频生成两大方向 [15] - 语音合成领域推出MegaTTS3 Make-An-Audio 2等模型 视频生成领域构建覆盖长视频 3D肖像 实时驱动的完整技术矩阵 [16] - 通过GitHub开源平台分享多项核心技术 包括长视频模型HumanDiT 个性化3D建模MimicTalk等研究成果 [16]
让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
机器之心· 2025-09-04 03:27
技术突破 - 清华大学与北京航空航天大学团队开发BSC-Nav框架 实现智能体在真实环境中执行"制作早餐"等移动操作任务[2][4] - BSC-Nav是首个受生物大脑空间认知机制启发的统一框架 赋予智能体卓越的通用导航能力和高阶空间感知与交互能力[7] - 框架通过模仿生物大脑构建和维护空间记忆的原理 为智能体植入结构化空间记忆系统 解决当前AI缺乏长期环境记忆的瓶颈问题[7][8][11] 技术架构 - BSC-Nav核心包含三大协同记忆模块:地标记忆模块、认知地图模块和工作记忆模块[13][17][18] - 地标记忆模块采用开放词汇检测器识别环境显著物体 记录类别标签和空间位置 形成稀疏高效的地标记忆[17] - 认知地图模块通过DINO-V2实时编码观测图像特征 采用"意外驱动"策略更新认知地图 避免冗余存储[17] - 工作记忆模块实现人脑视觉-空间工作记忆功能 采用"联想增强"检索策略处理模糊指令 实现精准定位[18] 性能表现 - 在Habitat物理仿真环境中进行大规模实验 覆盖62个场景和8195个导航片段[20] - 在物体导航任务中 HM3D数据集上成功率高达78.5% 比此前SOTA方法UniGoal高出24.0%[24] - 在文本实例导航任务中将成功率提升近一倍 展现强大多模态理解与定位能力[24] - 在长指令导航基准VLN-CE R2R中 零样本导航效率SPL达53.1% 远超所有对手[26] 实际应用 - 与松灵机器人团队合作打造移动机器人平台 在200平方米双层真实室内环境测试[33] - 在75次随机起点测试中实现80%以上导航成功率 任务成功定义为停止位置距离目标小于1米[35] - 能够无缝衔接复杂移动操作任务 包括清理桌面、搬运饼干盒和完整"制作早餐"任务[38] - 在主动具身问答基准表现显著超越所有基线方法 能准确解析空间推理问题并给出精准回答[28][29] 技术意义 - 证明具身智能进化不完全依赖算力和参数堆砌 生物演化提供的智能范式足够强大和高效[41][42] - 实现从"被动反应"到"主动认知"的关键跃迁 使机器真正理解空间 记忆成为关键因素[11][42] - 团队计划将类脑记忆框架扩展到更动态环境和更复杂认知任务中[42]
特斯拉下一代金色Optimus原型现身?一双「假手」成为最大槽点
机器之心· 2025-09-04 03:27
特斯拉Optimus机器人展示 - Salesforce CEO发布金色涂装Optimus对话视频 盛赞其开启物理智能体革命并成为生产力变革者 [1] - 机器人定价异常高昂 达到20万至50万美元 远超此前预测的2万至3万美元大规模量产价格 [1][10] - 演示中机器人行走略显迟钝但稳定性良好 具备基础对话和引导功能 [8][11] 技术性能表现 - 二代Optimus拥有高自由度脖子和灵活仿生双手 展示过跳舞、倒饮料、物体识别等多样化能力 [15] - 部分用户指出机器人存在噪音大、动作笨重及响应延迟问题 手部虽形似真人但可能为金属一体式非功能结构 [12][16][18] - 对话功能被质疑集成Grok语音系统 但遭官方否认 [16][18] 行业竞品对比 - Figure公司同期展示机器人完成将碗碟装入洗碗机的全新动作 强调其Helix模型具备强大泛化能力 [21] - 两家公司演示风格差异明显 Figure侧重预设任务执行而特斯拉展示临时互动场景 [22][26] - 用户批评Figure机器人放置餐具随意 未展示人机指令交互能力 [22]
刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
机器之心· 2025-09-03 08:33
文章核心观点 - 谷歌Nano Banana模型通过优化提示词设计显著提升图像生成能力 官方发布六类文本转图像提示模板以最大化模型潜力[8][11] - 用户通过创意提示词实现多样化应用场景 包括产品摄影、风格化插画、文字渲染、商业摄影、极简设计及连续性艺术创作[3][6][16] - 模型在图像编辑一致性和稳定性方面存在技术局限 部分场景下表现不及Qwen和Kontext Pro等竞品[39] 提示词模板分类总结 照片级写实场景 - 需包含机位角度、镜头类型、光线及细节描写 例如使用85mm肖像镜头生成带有景深效果的垂直人像[13][15] - 模板结构包含拍摄类型、主体动作、环境光照及画幅比例 强调纹理细节以实现逼真效果[14] 风格化插画与贴纸 - 需明确艺术风格、关键特征及色板 白色背景需在提示词中特别声明[18] - 案例如卡哇伊风格的小熊猫贴纸 采用粗轮廓线和简单赛璐珞着色[19] 文字渲染应用 - 擅长生成含清晰文字的图像 需指定文字内容、字体风格及整体设计[22] - 模板包含图像类型、品牌概念及色彩方案 案例为黑白极简咖啡店logo[23] 产品模型与商业摄影 - 适用于电商及广告场景 强调高分辨率影棚灯光与特定角度[26] - 模板包含产品描述、背景表面及三点柔光箱设置 案例为混凝土台面上的陶瓷咖啡杯特写[27][28] 极简与留白设计 - 适用于网页及营销素材背景 主体位于画框特定位置并保留大量负空间[30] - 案例为右下角红枫叶与灰白背景的组合 采用顶部柔光照明[32] 连续性艺术创作 - 适用于漫画分镜及视觉叙事 需清晰描述场景角色及对话文本[35] - 模板包含艺术风格、前后景细节及情绪光照 案例为黑白 noir 风格侦探场景[36][37]
ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
机器之心· 2025-09-03 08:33
研究团队与论文背景 - 论文由北京大学王选计算机研究所团队完成 第一作者为博士生徐铸 通讯作者为博士生导师刘洋 团队在TPAMI、IJCV、CVPR、ICML等顶会发表多项成果[2] - 研究主题为弱监督动态场景图生成 论文标题《TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring》[2][6] - 该研究已被ICCV 2025接收 相关代码与模型已全部开源[3][6] 研究问题与瓶颈 - 当前弱监督动态场景图生成方法依赖外部预训练目标检测器 但在动态场景中检测质量欠佳 存在物体定位不准和置信度过低问题[5] - 目标检测质量成为性能主要瓶颈 实验显示使用不同检测结果会使场景图性能产生显著差异[5][8] 方法创新与技术细节 - 提出时序增强关系敏感知识迁移方法(TRKT) 通过关系敏感知识挖掘和双流融合模块提升检测质量[8][10] - 关系敏感知识挖掘模块生成类别特定注意力图 利用光流信息进行时序增强 使注意力图具备运动感知能力[10][14] - 双流融合模块包含定位修正模块(LRM)和置信度提升模块(CBM) 分别优化检测框定位精度和置信度分数[15][17][19] - 通过加权框融合算法整合内部物体候选与外部检测结果 最终输出修正后的检测结果[17][20] 实验结果与性能对比 - 在目标检测指标上显著提升:Average Precision从11.4提升至23.0(提升13.0%) Average Recall从32.5提升至28.8[23] - 在动态场景图生成任务中全面超越基线:有约束条件下Recall@50从25.79提升至27.45 无约束条件下从31.69提升至33.92[24][25] - 消融实验验证各模块有效性:单独使用CBM提升AP 1.2% 单独使用LRM提升AP 2.0% 组合使用提升AP 2.8% 加入帧间注意力增强(IAA)后进一步提升AP 8.9-10.6%[27][28] 对比分析与优势体现 - 显著优于现有弱监督方法PLA和NL-VSGG 也超越视觉语言模型RLIP和RLIPv2[24][25][26] - 可视化结果显示生成场景图更完整 人物定位更准确 证明方法有效提升伪标签质量[31]
Anthropic承认模型降智后仍放任其偷懒?Claude Code用户信任崩塌中
机器之心· 2025-09-03 08:33
大模型降智现象 - 用户和媒体频繁报告大模型能力下降现象 包括OpenAI GPT-5测试中表现不及预期以及Anthropic Claude Opus系列的质量问题 [1][3] - Anthropic罕见公开承认Claude Opus 4.1在2025年8月25日17:30 UTC至8月28日02:00 UTC期间出现质量退化 影响部分请求 表现为智能水平降低 回答格式错误和工具调用异常 [5][6] - 问题源于推理堆栈更新 公司已对Claude Opus 4.1回滚更新 同时发现Claude Opus 4.0也受相同问题影响 正在回滚处理 [6] 用户反馈与市场影响 - 尽管Anthropic声称事件已解决 但截至9月1日用户对Claude Code的负面反馈持续增加 许多用户报告模型持续"偷懒"和性能低下 [7][10][12] - 用户转向GPT-5现象显著 开发者私下更偏好使用GPT-5编写代码 认为其性价比高 每月20美元费用物有所值 [8][9][13] - 具体性能投诉包括:Sonnet 4此前能直接构建项目 而Opus 4.1连简单脚本都无法生成 性能表现与使用时间相关 凌晨顺畅而白天高峰期限流后糟糕 [12][13] 行业技术动态 - 大模型供应商首次正面承认降智问题 打破此前从未公开承认的行业惯例 [3] - 研究者推测性能问题可能源于Anthropic正在研发新模型 或与推理系统更新有关 [9][13] - Cursor Agent CLI与GPT-5组合表现受到开发者认可 尤其在精心设计的提示词下效果显著 [9]
其实,扩散语言模型在最终解码之前很久,就已确定最终答案
机器之心· 2025-09-03 04:33
扩散语言模型加速技术 - 扩散语言模型(DLM)成为自回归模型的有力替代方案,具备高效并行解码和灵活生成顺序等优势 [1] - DLM在实际应用中推理速度仍慢于自回归模型,主要由于缺乏KV-cache机制以及快速并行解码导致的性能下降 [2] - 研究发现早期答案收敛现象:在GSMK和MMLU数据集中,仅需半数优化步骤即可分别实现97%和99%样本正确解码 [3] Prophet解码方法 - Prophet是一种无需训练的快速解码策略,通过监控top-2答案候选间的置信度差距自适应判断是否提前解码剩余token [3][6] - 采用早期提交解码机制,在模型预测稳定时一次性提交所有剩余token,与固定步数解码形成鲜明对比 [6][9] - 该方法将终止解码决策建模为最优停止问题,权衡计算成本与错误风险 [9] 性能表现 - 在LLaDA-8B模型上,Prophet在MMLU达到54.0%(加速2.34倍),ARC-C达到83.5%(加速1.88倍) [10][13] - 在Dream-7B模型上,MMLU准确率66.1%(较完整模型67.6%仅下降1.5%),速度提升2.47倍 [10][13] - 数学推理任务中,GSM8K准确率76.8%(与完整基线77.1%基本相当),速度提升1.69倍 [10][13] - 规划任务中Sudoku性能从35.0%提升至38.0%,同时实现3.40倍加速 [13] 技术优势 - 早期提交解码可避免后续噪声精炼步骤破坏已正确预测,在HellaSwag任务中表现70.9%超越完整基线的68.7% [10][11] - 提供稳健且模型无关的解决方案,显著提升DLM在实际应用中的可行性 [12] - 与静态截断方法相比,能有效避免过早终止解码导致的准确率下降风险 [11]
从复刻魔术开始,RoboMirage打开了机器人仿真的新世界
机器之心· 2025-09-03 04:33
具身智能数据挑战与仿真平台价值 - 具身智能发展依赖海量高质量交互数据 但现实数据采集成本极高 单台机械臂硬件投入需数万元且难以规模化[1] - 仿真环境成为重要解决方案 能以更低成本、更高效率实现无限次试错 快速积累大规模交互经验[1] - 行业对仿真数据提出更高要求:更高物理精度、更丰富交互类型(覆盖刚体/软体/流体)、更强扩展性与稳定性[1] RoboMirage平台核心特性 - 全物体类型兼容的可扩展接触建模框架:支持刚体/1D/2D/3D可形变体/多关节结构 具备强耦合仿真能力并允许用户自定义扩展[4] - 高精度多体动力学仿真能力:支持刚体/软体及复杂接触的强耦合模拟 可捕捉动静摩擦等微观动力学细节 精度远超传统模拟器[5] - 工业级稳定算法保障:依托隐式积分和凸优化方法 确保仿真稳定性与时间一致性 彻底解决穿模问题[6] - Pythonic设计:接口友好易于上手 方便开发者快速集成与定制[7] - GPU驱动异构加速技术:利用GPU大规模并行计算 实现工业级精度下的高性能快速仿真[8] 高精度仿真在魔术场景的应用 - 明日环魔术仿真:模拟金属环与柔性绳索间复杂接触缠绕 稳定处理动态接触避免穿模[10] - 橡皮筋穿越魔术仿真:精准模拟弹性体缠绕/拉伸/形变 包括粘滞阻尼/张力变化/自碰撞特性[12] - 抽桌布魔术仿真:高精度捕捉布料瞬时滑动及物体摩擦惯性 兼顾非平衡动态与稳定性[14] - 洗扑克牌仿真:模拟多张纸牌极小时间步交错插入时的接触力与摩擦细节 维持接触连续性[15] 多源数据生态与Sim-to-Real体系 - 数据生态包含三部分:仿真生成训练验证样本、互联网语料/技术文档/说明书等文本数据、少量真机实验多模态传感数据[17] - 多源数据为仿真结果提供验证依据 帮助微调感知与策略模型并增加语义约束[17] - 高精度仿真基座与多源数据体系协同 有效缩小Sim-to-Real Gap 加速算法向现实环境迁移[17] 家具拼装复杂任务突破 - 完成迄今最复杂/精度最高/步骤最多的具身操作任务:家具拼装[19] - 模型能深度理解零件结构逻辑 实现多部件检测/感知/插拔/旋转配合 并自主分解多步骤任务[20] - 通过自适应插接路径规划和接触力调控 实现高精度高稳定性拼装 并能根据实时反馈力动态调整策略[20] - 支持标准化物理接触分析 无需为每种对象或机器人单独开发算法[22] 技术路线与未来展望 - 通过高精度仿真与多源数据协同 在高复杂度具身操作任务中实现前所未有的稳定性与精确度[24] - 将持续突破仿真精度/泛化能力与真实交互的一体化边界[25] - 技术路线将加速具身智能从实验室到现实世界的跨越 催生新的人机协作模式[25]