Workflow
机器之心
icon
搜索文档
具身智能从此「边听边说」,智源研究院开源原生全双工语音大模型RoboBrain-Audio
机器之心· 2025-09-25 03:20
论文链接:https://arxiv.org/abs/2509.02521 Hugging Face 模型页:https://huggingface.co/CofeAI/FLM-Audio 南洋理工大学,正式发布 RoboBrain-Audio(FLM-Audio) —— 首个支持 "自然独白 + 双训练范式" 的原生全双工语音对话大模型。 在一段自然对话音频中,用户连续提出多个不同问题,并多次在模型回答过程中打断。 RoboBrain-Audio 始终能够迅速停顿当前输出、准确理解新的问题并即时作答,展现出真实交流中所需的全双工、强 鲁棒性与高自然度。 RoboBrain-Audio 采用原生全双工 (Native Full-duplex) 架构,相比传统的 TDM(时分复用)模型在响应延迟、对话自然度上实现飞跃式提升,同时语言理解能力显 著强于其他原生全双工模型,标志着 具身智能体从 "能听会说" 向 "边听边说" 的交互能力跃迁。 根据公开数据,当前业界训练音频基座模型时使用的数据量已达到上千万乃至上亿小时,这些模型在音色克隆和长回复生成上更具优势,而 RoboBrain-Audio 仅使 用 100 ...
对抗协作+原型学习!深北莫FedPall开源,联邦学习破局特征漂移,准确率登顶SOTA
机器之心· 2025-09-24 09:25
研究背景与问题 - 特征偏移问题是联邦学习数据异构场景下普遍存在的挑战 同一类别的样本在不同客户端上表现出不同特征分布 导致决策边界模糊并严重影响分类性能[2] 研究方法与算法 - 提出FedPall算法 结合原型对比学习和对抗协作学习进行联合训练[2] - 客户端与服务器间引入对抗学习机制 通过客户端间协作将特征表示投影到统一特征空间[3] - 采用分层整合全局原型与局部特征的技术策略 混合原型特征用于训练全局分类器[3] - 通过KL散度增强不同客户端的异构信息 利用CE和全局原型对比损失训练特征编码器[5] - 将全局分类器部署至每个客户端取代本地分类器 以增强泛化能力[6] 实验设计与数据集 - 在三个特征漂移数据集(Digits、Office-10和PACS)上评估性能[8] - 与FedAvg、FedProx、FedBN、MOON等经典及SOTA基线方法进行比较[9] 性能表现 - Office-10数据集平均准确率达67.5% 较第二名ADCOL方法(61.4%)高出约6.1个百分点[9][10] - Digits数据集平均准确率达88.7% 较第二名FedBN方法(87.6%)高出约1.1个百分点[9][10] - PACS数据集平均准确率达60.6% 较FedBN方法(59.5%)高出约1.1个百分点[9][12] - 在MNIST-M客户端上准确率达85.9% 显著优于FedBN的76.3%[9][12] - 在Office-10数据集上以31.5个百分点的优势超越FedBN方法[12] 技术优势 - 对抗学习有效缓解MNIST-M客户端中的异构信息问题[12] - 融合对抗学习与协作学习的特殊设计能良好适应现实数据集的显著特征漂移[12] - 在所有子数据集上都取得第一或第二的准确率[12] 应用与局限 - 目前仅针对分类任务设计并在图像数据集上进行评估[12] - 未来计划验证框架在其他模态数据和更多任务类型的泛化能力[13]
大模型七连发,外国人馋透了!阿里云栖大会全栈升级够狠
机器之心· 2025-09-24 09:23
全栈AI体系升级 - 公司在2025云栖大会上发布全系列新模型 实现全方位技术突破 覆盖基础大模型、模型架构、代码专用模型、视频生成模型和全模态模型[2] - 新模型在智能水平、Agent工具调用、Coding能力、深度推理和多模态方面相较以往有大幅进步 多数已可直接上手使用和体验[4] - 公司宣布未来三年将投入超过3800亿元用于建设云和AI硬件基础设施 持续升级全栈AI能力[43] 基础模型突破 - 新一代旗舰模型Qwen3-Max正式发布 总参数量超过1万亿 分为指令和推理两大版本[7][8] - 模型在中英文理解、复杂指令遵循、工具调用和编程能力上实现突破 大幅减少大模型幻觉[8] - 在SWE-Bench评测中获得69.6分位列全球第一梯队 在Tau2 Bench测试上取得74.8分超过Claude Opus4和DeepSeek V3.1[8] - 推理增强版本Qwen3-Max-Thinking-Heavy实现结合工具的深度思考 在AIME25、HMMT等数学能力评测中获得满分 为国内首次[10] - 发布下一代基础模型架构Qwen3-Next 总参数80B仅激活3B 性能媲美千问3旗舰版235B模型[12][14] - 训练成本较密集模型Qwen3-32B大降超90% 长文本推理吞吐量提升10倍以上[14] 专用与多模态模型 - 编程模型Qwen3-Coder结合Qwen Code与Claude Code进行联合训练 具备强大代码生成和补全能力[17] - 该模型在OpenRouter平台调用量激增1474% 全球第二[18] - 视觉理解模型Qwen3-VL成为系列最强大视觉语言模型 核心模型Qwen3-VL-235B-A22B现已开源[19][21] - Instruct版本在关键视觉基准测试中优于Gemini 2.5 Pro Thinking版本在多模态推理任务上达到SOTA性能[21] - 模型具备视觉智能体、视觉编程及3D检测能力 能自主进行电脑和手机界面操作[22][23] - 上下文拓展至百万tokens 视频理解时长拓展到2小时以上[25] - 全模态模型Qwen3-Omni开源三大版本 在36项音视频领域公开评测中获32项开源最佳性能SOTA[26] - 音频识别、理解、对话能力比肩Gemini2.5-pro 支持文本、图像、音频、视频全模态输入[26] - Qwen3-Omni-30B-A3B-Captioner为全球首次开源的通用音频caption模型[27] 生成模型与语音技术 - 通义万相累计生成3.9亿张图像和7000万个视频[29] - 推出Wan2.5-preview系列模型 涵盖文生视频、图生视频、文生图和图像编辑四大功能[31] - 视频生成时长达到10秒 支持24帧每秒的1080P高清视频生成[31] - 首次实现音画同步的视频生成能力 能生成匹配的人声、音效和音乐BGM[31] - 新增语音大模型通义百聆Fun 包括语音识别模型Fun-ASR和语音合成模型Fun-CosyVoice[33][35] - Fun-ASR由数千万小时真实语音数据训练而成 Fun-CosyVoice提供上百种预制音色[35] 开源生态与战略布局 - 公司已开源300余款通义大模型 全球下载量突破6亿次 衍生模型突破17万个 稳居全球第一[41] - 超过100万家客户接入通义大模型[41] - 通义大模型家族覆盖从0.5B到480B的全尺寸和基础模型、编程、图像、语音、视频的全模态[37] - 公司战略路径包括坚定通义千问的开源开放路线打造AI时代的安卓系统 以及构建作为下一代计算机的超级AI云[45] - 大模型将替代现代操作系统地位成为链接所有真实世界工具的接口[45]
ICCV 25 Highlight | 扩散过程「早预警」实现6x加速,AIGC生图的高效后门防御
机器之心· 2025-09-24 09:23
研究背景 - 基于扩散模型的图像生成技术快速发展,用户可通过文本描述生成高质量图像,多个第三方机构已开源模型[6] - 开源社区繁荣带来后门攻击威胁,攻击者可通过在提示词中加入触发器篡改生成图像内容[8] - 传统分类模型的后门防御技术无法适配AIGC图像生成,因触发词主导性假设不成立且图像生成需多步迭代导致计算开销巨大[8] 核心发现 - 通过神经元激活分析发现触发器Token对模型内部状态的影响显著高于其他Token,且在生成早期迭代中尤为明显[11] - 理论证明文本条件对模型输出的影响随扩散过程推进而减弱,第一步模型状态最能反映可疑样本特征[15] - 定义"早期激活差异"现象,为防御框架提供理论基础[3] 技术方案 - 提出NaviT2I防御框架,基于神经元激活差异检测可疑样本,通过分析扩散过程加速检测[3] - 设计逐层神经激活差异量化方法,针对线性层和卷积层分别采用不同量化方法[17] - 通过计算替换非停用词前后的神经激活差异,定义语义改动幅度指标,使用评分函数判断异常激活[20][21] 性能表现 - 在八种主流后门攻击测试中,AUROC值达到96.3%,ACC值达到89.3%,相比基线方法提升20%-30%[23][24] - 检测速度显著提升,单样本处理时间仅1.242秒,相比基线方法加速至少6倍[25][26] - 在UNet和DiT两种架构上均保持有效性能,展现良好架构适应性[27][28] 研究价值 - 首次从神经元层面解决AIGC生图后门防御问题,为开源社区安全提供高效解决方案[29] - 该方法已入选ICCV 2025会议Highlight论文,预印本和代码均已公开[7]
数智赋能:建筑地产行业的转型突围与未来筑造
机器之心· 2025-09-24 07:48
行业趋势与转型动力 - 建筑地产行业作为全球经济核心支柱 在供应链重组和人口流动红利推动下展现出强劲韧性 为核心区域注入持续开发需求[1] - 人口结构变迁与远程办公浪潮正在重塑住宅 商业和城市建设需求格局[1] - ESG理念推动绿色发展成为行业共识 数字化转型成为企业激活运营创新和提升竞争力的关键引擎[1] 产品力与价值链重塑 - 全球对高品质生活追求推动"好房子 好小区 好社区 好城区"需求升级 驱动企业将产品力作为核心竞争力[4] - 制造业"研产供销服"全生命周期管理经验为行业"投融建管营"全链条优化提供关键范本[4] - 华为凭借对好产品的深刻理解和自身数字化实践 成为行业转型重要伙伴[4] - 中国建筑科学研究院与华为合作 从顶层规划 大数据平台到"一网一云"建设 深化行业级垂直产品合作[4] - 联发集团借助华为数字化能力打造"新青年好房子"系列 通过"1+2+3*N"数智蓝图实现模式创新[4] 数智化技术应用 - 数智化技术实现"投融建管营"全流程效率革命与质量升级[5][6] - 中指研究院预测AI赋能将从工具辅助升级为全产业链智能决策 未来竞争焦点转向空间与资产运营能力[6] - 设计端大模型技术重构创意与审查逻辑 华为昇腾算力与构力科技推出"知识驱动的审图智能体"提升审查效率[6] - 运营端深圳明源云与华为共建"业务-数据-AI"三层平台 支撑四大AI场景落地[8] - 设计与建造端数字孪生与AI技术释放数据潜能 万翼科技图云接入华为盘古大模型实现图纸全生命周期协同[8] - 斗拱BIM智能建模软件结合华为工业软件能力加快建筑软件研发进程[8] - AI智工管理平台集成鸿蒙物联网管理平台 构建"自主创新+生态系统"研发与应用体系[8] 空间价值重构 - 华为全屋光网与全屋智能将家庭打造成高速互联 场景随心的智能空间[8] - 设施云为楼宇降本节能 智慧园区以"数字大脑"实现运营可视可控[8] - 从房间到城区的全尺度空间都因数智技术焕发新活力[8] 行业未来展望 - 数智化是建筑地产转型必由之路 更是实现绿色低碳与高质量发展的核心支撑[9][10] - 华为将持续以数智技术为笔 生态协同为墨 与客户共绘行业转型蓝图[10]
AI4S新势力齐聚「SAIS Talk上智院星辰之夜」:五大前沿分享,等你来听
机器之心· 2025-09-24 07:48
上海科学智能研究院(上智院)概况 - 全球首个专注科学智能领域的研究院 成立于2023年9月 [2] - 使命是用人工智能驱动科学研究范式变革 赋能千行百业 [2] - 牵头研发伏羲气象大模型 燧人物质大模型 女娲生命大模型 星河启智科学智能开放平台等关键成果 [2] SAIS Talk活动信息 - 上智院主办的前沿技术分享会 已成功举行15期 [3] - 汇聚共性技术 物质科学 生命科学 地球科学等方向的青年研究员 [3] - 活动包含5-10分钟交流环节 涵盖表征学习 催化反应预测 生物分子动态模拟 单细胞图谱 全球天气预报等多个领域 [3] 表征学习研究进展 - 提出层级化时空表征与跨尺度隐式自回归建模框架 显著提升长期预测精度与稳定性 [5] - 在气候建模 流体力学及分子动力学等复杂系统展现重要应用潜力 [5] - 融合扩散模型与层级表征 提高复杂场景图像生成质量 实现零成本语义重采样控制 [5] 催化反应预测框架 - 开发RXNGraphormer统一预训练反应预测框架 弥合数值回归与序列生成的方法差异 [9] - 实现对化学反应活性 选择性和单步正向/逆向合成的精准预测 [10] - 模型能自发学习化学键变化规律 在多项预测任务中达到领先水平 [10] 生物分子动力学研究 - 基于4D扩散模型的生成框架实现蛋白质动力学轨迹生成或长时间尺度构象生成 [13] - 为阐释蛋白质功能与加速药物设计提供全新计算范式 [13] 单细胞调控关系识别 - 开发单细胞基因调控关系预测框架SCRIPT 长程调控预测性能较当前最优方法提升逾两倍 [17] - 在阿尔兹海默症和精神分裂症中发现未揭示的分子遗传学机制 [17] - 有望在复杂疾病的遗传诊断和药物靶点发现上发挥重要作用 [17] 全球天气预报系统 - FuXi-Weather为完全基于机器学习的全球天气预报系统 具备多源卫星观测资料同化能力 [21] - 实现循环资料同化与一体化预报 使用观测资料远少于传统数值预报系统 [21] - 能生成未来10天高精度天气预报 在观测稀疏区域预报表现优于欧洲中期天气预报中心HRES系统 [21]
机器人界的「Imagenet 时刻」,李飞飞团队官宣全球顶级具身智能挑战赛
机器之心· 2025-09-24 02:31
在计算机视觉的历史上,Imagenet 挑战赛曾被誉为 AI 发展的分水岭,引爆了深度学习的浪潮。那么,在具身智能与机器人领域,是否也会迎来类似的 "拐点时 刻"? 答案或许渐渐清晰。李飞飞团队与斯坦福 AI 实验室正式官宣:首届 BEHAVIOR 挑战赛将登陆 NeurIPS 2025。这是一个为具身智能量身定制的 "超级 benchmark", 涵盖真实家庭场景下最关键的 1000 个日常任务(烹饪、清洁、整理……),并首次以 50 个完整长时段任务作为核心赛题,考验机器人能否在逼真的虚拟环境中 完成真正贴近人类生活的操作。 为什么 BEHAVIOR 值得关注? 与以往碎片化的基准不同,BEHAVIOR 首次提出:一个真正的家庭机器人,必须同时具备跨房间导航、双手精细操控、长期规划与动态适应等多项能力。 任务规模前所未有:覆盖 1000 个家庭活动,50 个完整长程挑战,平均单个任务需要 6.6 分钟连续操作。 高保真环境仿真:基于 NVIDIA Omniverse 的高保真模拟器 OmniGibson,支持衣物折叠、液体倒水、加热 / 冷冻等复杂物理交互。 数据史无前例:10,000 条专家遥操作示范, ...
刚刚,Sam Altman发文,透露OpenAI正在干的大事业
机器之心· 2025-09-24 02:31
核心观点 - OpenAI联合甲骨文和软银在美国新增五个AI数据中心选址 作为星际之门Stargate计划的一部分 加上德克萨斯州阿比林旗舰站点及CoreWeave项目 规划容量达近7吉瓦 可为超500万户家庭供电 提前完成1月宣布的5000亿美元10吉瓦承诺 [1] - OpenAI首席执行官Sam Altman强调算力是人工智能兑现承诺的关键 通过星际之门计划取得历史性进展 为未来突破奠定基础 [3] - Altman在博客中提出人工智能使用增长惊人 未来或被视为基本人权 需大规模扩展AI基础设施 10吉瓦算力可能实现治愈癌症或个性化教育等突破 [5] - 愿景是打造每周生产一吉瓦规模新AI基础设施的工厂 需多年时间及全技术栈创新 重点在美国建设 扭转他国在芯片工厂和新能源领域领先局面 [6] 算力扩张计划 - 英伟达向OpenAI投资1000亿美元 用至少400万GPU打造超级AI巨兽 [1] - 五个新数据中心中三个与甲骨文合作 位于德克萨斯州沙克尔福德县 新墨西哥州多尼亚安娜县及中西部未公开地点 两个与软银合作 位于俄亥俄州洛兹敦和德克萨斯州米拉姆县 [1] - 星际之门计划使训练加推理基础设施变成大规模实体系统 支撑下一代AI模型发展 [3] 人工智能发展前景 - 人工智能越来越智能 获取AI能力将成为经济发展根本动力 甚至被视为基本人权 几乎每个人都希望更多AI为自己工作 [5] - 若AI按预期轨迹发展 10吉瓦算力可能实现治愈癌症或为每个学生提供个性化辅导等突破 需避免因计算资源限制而取舍 [5] 基础设施建设项目 - 打造每周生产一吉瓦规模新AI基础设施的工厂 需在芯片 电力 建筑到机器人技术等全技术栈层面创新 [6] - 重点在美国大规模建设设施 扭转他国在芯片工厂和新能源生产等领域的发展速度领先局面 [6] - 算力提升是推动营收增长的关键 已有令人兴奋的新融资思路 将在未来几个月介绍相关计划及合作伙伴 [6]
庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境
机器之心· 2025-09-23 04:08
核心观点 - 苹果基础模型团队负责人庞若鸣离职加入Meta 扎克伯格豪掷两亿美元招揽其加入超级智能团队[1] - 庞若鸣在苹果期间领导开发Apple Intelligence及AI功能核心基础模型 其工作具有高影响力和研究价值[3] - 高质量文本数据迅速枯竭 行业面临"规模壁垒" 需重新思考如何高效利用现有数据[4] - 提出Synthetic Bootstrapped Pretraining(SBP)方法 通过合成数据捕捉跨文档相关性 提升模型性能[5][6][7] 技术方法 - SBP分为三步流程:最近邻配对识别语义相似文档对 训练合成器模型生成相关内容 扩展合成创建大型语料库[7] - 使用Qwen3-Embedding-0.6B模型编码文档为1024维向量 采用ScaNN结合8-bit量化进行近似最近邻搜索[7] - 设置相似度阈值0.75筛选文档对 基于13-token滑动窗口检查重叠 移除近似重复文档[8] - 合成器与主模型使用相同Transformer架构 从预训练检查点初始化 学习条件概率p(d2|d1)[9] - 通过温度采样生成新文档 温度参数1.0 top_p参数0.9 过滤内部重复文档确保质量[10] 实验设计 - 基于Llama 3架构的3B参数Transformer模型 在5.82亿文档和4820亿token的DCLM数据集定制版本上训练[14] - 比较200B-token和1T-token训练规模下SBP与基线及Oracle模型性能差异[18] 性能表现 - SBP在200B规模实现Oracle模型42%性能增益 在1T规模实现49%性能增益[18] - Open Web Text2困惑度从5.74降低0.53 LAMBADA困惑度从6.87降低0.85[19] - ARC-Challenge零样本准确率提升1.28个百分点至35.32% ARC-Easy零样本准确率提升2.65个百分点至68.94%[19] - Winogrande零样本准确率提升1.90个百分点至60.14% TriviaQA单样本准确率提升3.36个百分点至22.51%[19] - WebQS单样本准确率提升3.74个百分点至8.56% MMLU五样本准确率提升1.26个百分点至60.48%[19] - 平均问答准确率提升2.17个百分点至49.49% 相当于Oracle模型47%的性能提升[19] 数据质量 - 合成数据重复率在200B规模为4.3% 在1T规模降至3.9% 接近真实数据1.8%的水平[24] - 重复文档检测率在200B和1T规模均为0.8% 与真实数据0.7%相当[24] - 非事实内容比例从200B规模的15.1%降至1T规模的8.7%[24] - 配对不相关比例从200B规模的25.6%显著降至1T规模的7.8%[24] 行业意义 - 解决大型语言模型可持续发展根本挑战 从获取更多数据转向提取现有数据更多价值[24] - 提供数据效率提升 延长现有数据集有效寿命 实现自我改进无需外部教师模型[27] - 贝叶斯解释表明实现概念级学习 超越表面级token模式 与模型规模扩展形成互补效益[27]
超越免训练剪枝:LightVLA引入可微分token剪枝,首次实现VLA模型性能和效率的双重突破
机器之心· 2025-09-23 04:08
核心创新 - LightVLA是一个旨在提升视觉-语言-动作模型推理效率且同时提升性能的视觉token剪枝框架 通过引入可微分视觉token剪枝和Gumbel-softmax引导的无参数token选择过程 实现自适应关键视觉token选择[5] - 在LIBERO基准测试中取得当前最佳性能 超越Pi-0、Openvla-OFT等经典VLA模型 并实现高效推理加速[6] - 提出两种token选择机制:无参数可微分剪枝框架LightVLA和基于可学习查询的剪枝框架LightVLA* 分别实现97.4%和较好性能提升[8][15] 研究动机与挑战 - 当前VLA模型面临计算开销大和推理延迟高的问题 主要源于视觉token的固有冗余[9] - 传统token剪枝方法面临效率与性能的权衡困境 现有工作为提升效率而剪枝视觉token会不可避免造成性能下降[9] - 需要让模型学会主动、任务自适应地关注信息最丰富的视觉区域 忽略无关冗余信息[9] 方法架构 - 使用可微分Token剪枝算法实现自适应剪枝 通过Query生成、Token评分和Token筛选三个步骤[16] - 采用Gumbel-softmax技巧将argmax变为可导运算 实现训练时梯度反向传播[19] - 对采样噪声方差进行线性衰减 从1逐渐衰减至0 提高训练前期探索能力和后期策略收敛[21] 性能表现 - 在LIBERO基准测试中平均成功率达到97.4% 全面超越各类强基线模型[22][29] - 仅保留平均78个视觉token 相比OpenVLA-OFT的512个token大幅减少 却实现更优性能[24][29] - 将FLOPs与延迟分别减少59.1%与38.2% 同时提升平均成功率2.6%[29] 技术验证 - 消融实验显示不引入噪声的变体保留72个视觉token 实现97.0%的次优性能[27] - 固定噪声引入使模型保留112个视觉token 但性能仍为97.0%[27] - 补充随机token会使性能下降至96.8% 随机丢弃10%token也会导致性能下降[30][31] 应用价值 - 为VLA模型轻量化与部署提供新颖解决方案 在实现更低计算开销和时延前提下取得更优性能[33] - 证明视觉模态存在高度稀疏性 大量视觉token未贡献有效信息[29] - 为解决VLA模型中的视觉冗余挑战提供新的范式[33]