机器之心

搜索文档
快手可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破
机器之心· 2025-09-13 08:54
文章核心观点 - 快手可灵团队提出MIDAS框架 通过自回归视频生成结合轻量化扩散去噪头 实现多模态条件下实时流畅的数字人视频合成 具备低延迟 多模态控制与长时序一致性三大核心优势[2] - 该系统支持音频 姿态 文本等多种输入信号 通过统一多模态条件投影器编码到共享潜在空间 实现语义和空间一致的数字人生成[5] - 在双人对话 多语言歌唱合成和交互世界建模等任务中表现优异 生成延迟低于500ms 支持长达4分钟的连续生成且质量衰减显著低于基线方法[13][14] 技术架构 - 采用因果潜在预测加扩散渲染设计 嵌套类似大语言模型的自回归架构逐帧预测潜在表示 再由轻量级扩散头进行去噪和高清渲染[7] - 使用高压缩率自编码器DC-AE 压缩比高达64倍 每帧图像最多用60个令牌表示 支持最高384×640分辨率图像重建[8] - 基于Qwen2.5-3B作为自回归主干网络 扩散头采用PixArt-α/mlp结构 支持分块流式生成每块6帧[12] 性能表现 - 端到端生成延迟低于500ms 扩散头仅需4步去噪 在效率与视觉质量间取得最佳平衡[4][14] - 支持双人实时对话交互 生成与语音同步的口型 表情和倾听姿态[13] - 实现中文 日文 英文歌曲的唇形同步 生成视频可达4分钟无显著漂移[13] - 在Minecraft数据集训练后展现出良好场景一致性与记忆能力[13] 数据与训练 - 构建约2万小时大规模多模态对话数据集 涵盖单人 双人对话场景及多语言多风格内容[10] - 引入可控噪声注入训练策略 通过20级噪声桶和对应嵌入缓解自回归模型推理阶段的曝光偏差问题[12] 应用前景 - 为虚拟人直播 元宇宙交互 多模态AI智能体等应用奠定技术基础[16] - 模块化设计允许灵活扩展至更多模态与控制信号[16] - 未来将探索更高分辨率 更复杂交互逻辑下的生成能力 并推进系统在真实产品环境中的部署[17]
清华、上海AI Lab等顶级团队发布推理模型RL超全综述,探索通往超级智能之路
机器之心· 2025-09-13 08:54
文章核心观点 - 强化学习正成为推动大语言模型向大推理模型演进的核心方法 通过可验证奖励机制提升模型在数学、编程等复杂任务中的推理能力 [2][3][5] - OpenAI o1和DeepSeek-R1展示了RL训练带来的突破性进展:模型性能随训练算力和推理思考时间增加而持续提升 揭示了除预训练外的新扩展路径 [10] - RL通过奖励最大化目标和自监督数据生成克服数据限制 被视为实现通用人工超级智能的潜在技术路径 [12] 前沿模型发展 - DeepMind早期已证明RL智能体仅凭像素和得分反馈即可学会玩《打砖块》游戏 AlphaGo系列通过自我对弈超越人类棋手 [2] - 大模型时代RL最初应用于人类偏好对齐(RLHF) 近期转向提升模型推理能力 形成大推理模型新范式 [2][3] - OpenAI o1和DeepSeek-R1成为重要里程碑:前者通过RL训练和推理时间扩展提升性能 后者采用基于规则的准确率奖励和编译器测试驱动奖励 [10] 基础组件 - 奖励设计包含可验证奖励(如数学答案正确率)、生成式奖励、密集奖励、无监督奖励和奖励塑形等多类方法 [14] - 策略优化涵盖策略梯度目标、基于评论家算法、无评论家算法、离策略优化和正则化目标等方向 [14] - 采样策略包括动态结构化采样和采样超参数优化 旨在提升训练效率 [14] 关键问题 - RL在大推理模型中的角色存在"能力锐化"与"能力发现"之争 需明确其核心作用 [14] - RL与监督微调(SFT)存在泛化与记忆的差异 需平衡两者关系 [14] - 奖励类型区分过程奖励与结果奖励 影响模型学习路径 [14] 训练资源 - 静态语料库、动态环境和训练基础设施构成三大资源类别 需进一步标准化发展 [14] - 现有资源虽可复用 但仍需完善以支撑大规模RL训练需求 [5] 应用场景 - 编程任务通过代码测试通过率作为奖励 提升模型代码生成能力 [14] - 智能体任务关注语言智能体与环境的长期交互演化 [7] - 多模态任务、多智能体系统、机器人任务和医学应用构成RL重要落地方向 [14][15] 未来方向 - 持续RL、基于记忆的RL和基于模型的RL被视为LLM强化学习重点发展领域 [15] - 潜在研究方向包括高效推理教学、潜在空间推理、预训练RL、扩散模型RL及科学发现应用等 [15]
Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3
机器之心· 2025-09-13 08:54
产品发布 - Meta AI团队正式发布MobileLLM-R1高效推理模型系列 包含基础模型和最终模型版本 参数规模包括140M、360M和950M [4][5] - 该系列模型专门针对数学、编程和科学问题进行监督微调训练 并非通用聊天模型 [6] - 公司同时发布完整训练方案和数据源以确保可重复性 支持进一步研究 [8] 性能表现 - 950M参数模型仅使用约2T高质量token进行预训练 总训练token量少于5T 但性能与使用36T token训练的Qwen3 0.6B相当或更佳 [8] - 在MATH基准上准确率比Olmo 1.24B模型高出约五倍 比SmolLM2 1.7B模型高出约两倍 [10] - 在编码基准测试中表现远超Olmo 1.24B和SmolLM2 1.7B 在完全开源模型中创下新最高水平 [10] 技术规格 - 模型采用文本输入输出模态 上下文长度基础版为4k 最终版为32k 词汇表大小128k 共享嵌入 [15] - 140M模型配置为15层、576维、2048隐藏维度 360M模型为15层、1024维、4096隐藏维度 950M模型为22层、1536维、6144隐藏维度 [14] 研发团队 - 项目由三位华人研究科学家领衔 研发时间长达一年 [17][18] - Zechun Liu专注于大模型高效部署与优化 在顶级会议期刊发表20多篇论文 引用量达数千次 [21][22][23] - Ernie Chang专注于自然语言处理和多模态学习 参与开发代理评估方法和移动设备优化研究 [24][26] - Changsheng Zhao专注于模型量化和神经网络架构 参与开发极低比特量化研究和Llama Guard变体 [30][31][33] 行业影响 - 小参数模型训练成本较低 便于尝试最新技术 模型体量下降可覆盖更多端侧设备 实现更大面积落地 [15] - 机器学习社区欢迎通义和Meta等顶尖团队基于小体量模型的探索 [15] - 随着训练成本普遍下降 行业将获得更好的模型 [16]
AI 硬件,将带来下一个「苹果」还是昙花一现?
机器之心· 2025-09-13 01:30
智能手机行业现状与AI硬件兴起背景 - 智能手机升级性能更快功能更强但被指创新乏味行业似乎走到卷无可卷尽头[1] - 科技巨头开始押注AI硬件市场试图开辟全新交互方式包括AI眼镜和其他可穿戴设备[1] AI硬件的iPhone时刻与巨头布局 - a16z联合创始人Marc Andreessen认为消费科技领域下一个重大飞跃将来自极具变革性设备使智能手机显得老旧而原始发明公司可能成为下一个苹果创新可能需三年甚至二十年涉及眼睛界面语音操作系统或环境计算技术[5] - Meta首席执行官扎克伯格称未来未佩戴AI功能眼镜可能处于相当大认知劣势[5] - Meta CTO Andy Bosworth指出未来5年内出现多档次AI眼镜有高端超清体验和低分辨率设备不完全替代智能手机但让更多人在新场景获取信息[5] - OpenAI CEO奥特曼与前苹果设计师Jony Ive合作计划2026年推新一代AI计算机级别便携设备无需屏幕仅凭摄像头麦克风实时感知环境通过与智能手机等设备联动提升AI交互效率内部目标迅速出货上亿台[5] - 苹果将智能眼镜列为重点项目计划2026年推出带摄像头麦克风和Siri语音分析功能AR/AI眼镜[6] - 谷歌推出新一代智能助手Gemini for Home通过Gemini Live提供实时推理更丰富语言理解和专家建议逐步取代Nest音箱和智能显示器上Google Assistant[7] - 谷歌开发新Android XR眼镜用于发送消息提供逐向导航和实时对话字幕[7] - 各大巨头将AI能力作为底层基础设施融合在生态系统中力图引领下一代个人计算平台演进[8] AI硬件市场规模与产品形态 - 2023年全球可穿戴技术市场规模约1200亿美元机构预计几年后达约1580亿美元[9] - AI眼镜关注度极高IDC数据显示预计2025年全球智能眼镜市场出货量达1205万台[9] - Rokid创始人兼CEO祝铭明认为未来10年可穿戴眼镜核心突破点一定是AI需做到好眼镜好耳机好相机好AI[9] - AI+AR眼镜行业最终走向类似手机行业寡头格局由于个性化需求市场可能有10-20家主流厂商[9] - 详细AI硬件产品包括Ray-Ban Meta二代眼镜售价200-379美元搭载Meta AI和12MP摄像头支持Hey Meta唤醒信息查询翻译等[9] - Oakley Meta HSTN运动型智能眼镜2025年6月上市售价399-499美元配备3K Ultra HD摄像头和IPX4防水8小时使用19小时待机搭配充电盒后续航48小时[9] - AirGo Vision AI眼镜2024年12月上市售价299美元起内置GPT-4o视觉识别支持实时翻译地标提示可拆卸摄像头模块[9] - Rokid Glasses国内AR/AI智能眼镜2025年9月上市售价599美元采用双Micro-LED波导显示12MP摄像头和Snapdragon AR1 Gen1芯片支持GPT-5实时翻译导航语音交互续航约10小时[9] - Halliday AI投影式智能眼镜国内2025年3月上市售价489美元内置DigiWindow投影支持实时字幕翻译40种语言会议转录摘要重35g续航8小时支持触控戒指操作[9] - iKKO ActiveBuds AB02入耳式耳机2024年上市售价329美元内置ChatGPT和ZenoV模型支持57种语言实时翻译语音转写智能笔记[9] - Acer AI TransBuds翻译耳机2025年上市价格未公布支持双向翻译15种语言一耳佩戴即可字幕转写[9] - Timeketle W4 Pro商务翻译耳机2024年上市售价449美元支持42种语言双向翻译内置屏幕6小时续航配合App提供会议级翻译[9] - Acer FreeSense Ring Bee腕带健康监测戒指腕带夹子吊坠2025年上市价格未公布钛合金材质监测心率血氧HRV睡眠等[9] - Ultrahuman Ring健康监测戒指2025年上市售价350-2200美元支持睡眠活动压力监测提醒咖啡因摄入[9] - 三星Galaxy AI戒指健康支付戒指预计2025年Q4上市价格待定采用固态电池与三星手机健康生态深度集成可能支持支付和精确健康监测[9] - Plaud NotePin可夹式录音笔2023年上市售价159美元双麦克风降噪实时转录对话生成摘要提醒续航7天与日历任务管理器集成适用于企业学术场景[9] - Omi头戴设备前额脑电波传感器2025年上市售价89美元脑电传感器加GPT-4o免语音交互支持第三方插件平台[9] - Limitlessai胸针胸针式设备2024年上市售价399美元内置语音助手摄像头翻译实时记录对话生成字幕笔记[9] - Friend AI项链颈挂式挂坠2024年上市售价99美元内置麦克风始终监听通过手机App返回文本提醒定位AI陪伴[9]
扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源
机器之心· 2025-09-12 11:31
模型技术突破 - 蚂蚁集团与中国人民大学联合团队开发业界首个原生MoE架构扩散语言模型LLaDA-MoE,使用20T训练数据实现技术验证[2][15] - 模型激活参数仅1.4B但性能对标自回归稠密模型Qwen2.5-3B,推理速度提升数倍[2][17] - 采用非自回归掩码扩散机制,突破自回归模型单向建模限制,支持并行解码和双向依赖关系捕捉[12][38] 架构与训练优势 - 总参数量7B的MoE架构显著提升计算效率,在代码、数学等结构化任务表现突出[26][29] - 复用蚂蚁百灵大模型20T高质量训练数据及自研ATorch训练框架,支持专家并行技术加速训练[26] - 扩散语言模型数据利用效率达自回归模型3倍以上,支持从重复数据中持续提取增量信息[40] 性能表现 - 在MMLU测评获67.18分超越LLaDA-8B的65.5分,在MATH数学任务达58.68分显著优于Dream-7B的39.2分[33] - 代码生成任务中HumanEval得分61.59分接近Qwen2.5-3B的60.37分,MultiPL-E达52.53分远超稠密扩散模型29分水平[33] - 在Agent对齐任务IFEval严格提示测试中获59.33分,优于同类扩散模型及Qwen2.5-3B的58.2分[33] 技术理论价值 - 扩散模型通过迭代去噪过程逼近数据分布,突破自回归模型链式法则概率分解的局限性[35] - 双向建模机制提升全局一致性,支持局部片段重新采样修正,适用于代码生成和文档编辑场景[38] - 理论证明最大似然估计准则可实现指令跟随、上下文学习等能力,非自回归模型独有特性[35] 战略意义与开源计划 - 项目突破自回归范式路径依赖,探索通过不确定性换取智能上限提升的战略选择[44] - 模型近期将完全开源技术报告与推理加速代码,推动全球AI社区扩散语言模型发展[19][33] - 蚂蚁集团持续布局前沿方向包括动态MoE架构创新与混合线性架构探索,以AGI为北极星指标[46][47]
腾讯优图重磅开源Youtu-GraphRAG,实现图检索增强技术新突破
机器之心· 2025-09-12 11:31
核心观点 - 腾讯优图实验室开源Youtu-GraphRAG框架 通过算法创新实现图检索增强生成技术在成本与效果上的双重突破[2][3] - 在六个跨领域多语言基准测试中展现卓越性能 推动GraphRAG技术进入落地可用阶段[4] - 相比同类最佳方案实现构图成本节省30%以上 复杂推理任务准确率最高提升16%以上[6] 技术架构创新 - 通过Schema连接两个智能体 在图构建、索引和检索上实现垂直统一和认知闭环[8] - Schema引导的层次化知识树构建 通过四层架构(属性层、关系层、关键词层、社区层)实现跨领域知识自主演化[9][11] - 结构语义双重感知的社区检测 融合拓扑特征与子图语义信息 社区生成效果显著优于传统Leiden和Louvain算法[9] - 智能迭代检索机制 深度理解图Schema并将复杂查询转换为可并行处理的子查询[10] 性能优势 - 解决当前GraphRAG三大痛点:LLM构建图谱Token消耗大成本高昂、复杂问答解析精度有限、缺乏跨任务泛化能力[5] - 采用并行机制处理分解后的问题 支持迭代推理演进并提供清晰推理轨迹[31] - 专为企业级部署设计 具备高度扩展性和多环境无缝支持能力[31] 应用场景 - 多跳推理与总结:完美解决需要多步推理的复杂问题 如深度关联分析和因果推理[13] - 知识密集型任务:高效处理企业知识库问答、技术文档深度解析等场景[14] - 跨域扩展应用:支持学术论文、个人知识库、私域/企业知识库等多个领域[15] - 具体行业应用包括金融领域风险事件知识图谱、教育领域课程智能问答、科研领域跨学科知识发现[32] 部署与使用 - 提供四步开箱即用方案:获取代码、环境配置、一键部署、交互体验[19] - 支持Docker容器化部署 通过REST API提供服务[22] - 提供可视化知识图谱展示、交互式智能问答和实时推理路径追踪功能[23] 生态建设 - 提供公平匿名数据集AnonyRAG 防范大语言模型预训练过程中的知识泄露问题[25] - 开放社区贡献渠道 包括新种子Schema开发、自定义数据集集成和最佳实践应用案例分享[26][27][28] - 集成WikiData、PubMed、arXiv等开放数据集 支持企业内部文档和日志数据集成[32]
如何为LLM智能体编写工具?Anthropic官方教程来了
机器之心· 2025-09-12 11:31
智能体工具开发新范式 - 智能体工具开发需要从传统确定性系统转向非确定性范式,因为智能体在相同输入下可能产生不同输出[8][9][10] - 工具效能是决定智能体完成任务效率的关键因素,需要专门为智能体设计而非简单封装API[1][10][41] 工具开发流程 - 构建原型阶段需向Claude提供相关文档和软件库信息,可封装在本地MCP服务器或桌面扩展程序中进行测试[16][17][18] - 评估阶段应生成真实使用场景的提示响应对,建议任务需要多达数十次工具调用进行压力测试[24][25][27] - 通过编程方式运行评估,Claude的交错思维功能可分析工具调用原因[28][29] 工具设计原则 - 工具数量并非越多越好,应优先构建少量高价值工具,避免功能重叠导致智能体分心[41][43][46] - 工具应具有整合能力,能一次性处理多个离散操作,减少中间结果消耗的上下文空间[44][45][54] - 命名空间划分可帮助智能体区分功能重叠的工具,按服务或资源加前缀分组效果显著[48][49][50] 工具响应优化 - 工具响应应返回高信号信息,优先使用自然语言标识符而非技术标识符,可将准确率提高显著[52][56] - 响应结构需匹配LLM训练数据格式,JSON/XML/Markdown等格式性能因任务而异[57] - 对大量上下文响应应结合分页、过滤和截断功能,默认限制25000个token[58] 性能评估指标 - 除准确率外还需收集单次调用运行时间、工具调用总次数、总token消耗和错误情况等指标[30][39] - 分析时应关注智能体卡顿点、工具调用指标和未明确表达的行为模式[33][34][35] 工具描述优化 - 工具描述应像向新团队成员解释般清晰,明确输入输出参数命名规范[64] - 对工具描述进行微小改进可大幅降低错误率并提高任务完成率,Claude Sonnet 3.5在SWE-bench评估中取得最佳性能[64] 未来发展方向 - 智能体交互机制将持续演变,包括MCP协议更新和底层LLM升级[66] - 通过系统化评估驱动的方法确保工具随智能体能力同步发展[66]
姚顺雨离职OpenAI,「亿元入职腾讯」传闻引爆AI圈,鹅厂辟谣了
机器之心· 2025-09-12 02:17
核心观点 - 关于姚顺雨加入腾讯的传闻已被官方辟谣 但AI人才争夺战在行业内部持续升温 顶尖研究人员的流动和薪酬水平成为关注焦点 [1][5][7] 姚顺雨背景与成就 - 姚顺雨为OpenAI研究科学家 专注于将大型语言模型推向实际应用 特别是AI Agent开发 主导开发了OpenAI首个发布的智能体模型及产品Computer-Using Agent (CUA) [17][18] - 论文总引用量超过1.5万次 主要贡献包括ReAct(引用4354次) Tree of Thoughts(引用4022次) Reflexion(引用2697次)等开创性工作 [9][11] - 2024年提出"AI下半场"概念 认为AI领域正从"训练更强模型"转向"定义和评估真正有用的任务" 同年以27岁年龄入选《麻省理工科技评论》"35岁以下科技创新35人"中国区榜单 [19][21] 行业人才动态 - Meta被报道提供"上亿年薪"挖角顶尖研究员 国内各大厂全力加码AI人才竞争 [7] - 尽管姚顺雨加入腾讯被辟谣 但确认已从OpenAI离职 反映了高端AI人才的流动趋势 [5][7] 技术研究方向 - 算法类岗位聚焦大模型 机器学习基础理论 多模态 强化学习 AI for Science等方向 [27] - 研发类岗位关注大规模分布式训练框架 高性能计算 AI系统与架构 AI编译器 AI芯片协同优化等领域 [27] 人才培养与招聘 - 公司提供超大规模算力集群和数据支持 鼓励投身具备规模化潜力 强泛化能力 长期价值的研究 [33] - 招聘流程包括6场笔试 覆盖研发和算法方向 考试时间从2025年8月25日持续至10月13日 [29]
告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
机器之心· 2025-09-12 00:51
本文第一作者戴语琴,清华大学博士生。该工作为戴语琴在蚂蚁大安全实习期间完成,该工作属于蚂蚁集团大安全 Venus 系列工作,致力于打造搜索智能体 / UI 智能体。本文通讯作者为该校副教授吕帅,研究方向包括大语言模型、多模态生成、AI4Design。共同通讯作者沈永亮,浙江大学百人计划研究员,博士生导 师,研究方向包括大模型推理、RAG 检索增强生成、多模态生成模型等。 在检索增强生成(RAG)飞速发展的当下,研究者们面临的最大困境并非「生成」,而是「稳定」。 低信噪比 让关键信息淹没在冗余文档里, 错误累计 则让推理链像骨牌一样层层坍塌。这两大顽疾,使得现有 RAG 系统在复杂任务中难以真正可靠。 近期,一项由蚂蚁集团、清华大学、浙江大学、MIT、UC Berkeley、香港大学和新加坡国立大学等机构联合完成的研究提出了全新方案—— EviNote-RAG 。它 不仅在多个权威基准上实现了显著性能提升,更在训练稳定性与推理可靠性上带来了质的飞跃。 核心秘诀在于两个创新: 这一组合带来的改变是革命性的:训练曲线不再震荡,答案推理更加稳健。消融与补充实验进一步验证了这一点—— SEN 是性能提升的基石,而 EQ ...
全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成
机器之心· 2025-09-12 00:51
模型架构创新 - 采用混合注意力机制Gated DeltaNet与Gated Attention以3:1比例混合 实现性能与效率双重优化 在长序列建模中兼顾高效率和强召回能力[5][9] - 标准注意力层引入三项增强设计:输出门控机制缓解低秩问题 注意力头维度从128扩展至256 仅对前25%位置维度添加旋转位置编码[10] - 采用高稀疏度MoE架构 总参数量800亿 每次推理仅激活约30亿参数 稀疏度低至3.7%[11][20] 性能突破 - 80B参数模型仅激活3B参数 性能媲美235B旗舰模型Qwen3 并超越Gemini-2.5-Flash-Thinking[2][21] - 在编程评测LiveCodeBench v6、人类偏好对齐Arena-Hard v2及综合能力评测LiveBench中超越开源旗舰模型[21] - 数学推理AIME25评测获得87.8分 全面超越Gemini2.5-Flash-Thinking[21] 效率提升 - 预填充阶段吞吐量达Qwen3-32B的7倍(4k tokens上下文)和10倍以上(32k+ tokens上下文)[17] - 解码阶段吞吐量提升近4倍(4k上下文)和10倍以上(32k+长上下文)[18] - 训练成本仅为Qwen3-32B的十分之一以下 实现极致训练和推理性价比[20] 技术实现 - 采用Zero-Centered RMSNorm并对norm weight施加weight decay 解决QK-Norm导致的权重异常增长问题[12] - 初始化时归一化MoE router参数 确保训练早期专家被无偏选中[13] - 引入原生Multi-Token Prediction机制 优化多步推理性能并提高Speculative Decoding接受率[14] 模型发布 - 模型已在Qwen.ai平台上线并开源至HuggingFace和Kaggle[4][6] - 开源指令模型Qwen3-Next-Instruct和推理模型Qwen3-Next-Thinking两款模型[20] - 第三方平台已接入新模型 包括anycoder的vibe coding示例[24][25]