多模态融合

搜索文档
全面超越DiffusionDrive, GMF-Drive:全球首个Mamba端到端SOTA方案
理想TOP2· 2025-08-18 12:43
端到端自动驾驶技术瓶颈与解决方案 - 当前端到端自动驾驶方案存在多模态融合架构瓶颈,主流TransFuser方法仅实现简单特征拼接而非结构化信息整合[4][6] - 传统LiDAR预处理方法丢失关键3D几何信息,标准自注意力机制缺乏空间感知能力,导致模型感知受限[8] - 中科大与中国矿业大学团队提出GMF-Drive框架,通过几何增强柱状表示与门控状态空间模型解决上述问题[7][8] GMF-Drive核心技术创新 - 设计14维几何增强柱状表示,保留高度变化、强度模式及局部表面几何信息,相比传统直方图方法显著提升感知精度[16][19] - 提出GM-Fusion模块整合三部分:门控通道注意力对齐多模态特征、BEV-SSM实现线性复杂度空间建模、分层可变形跨注意力精细化融合[19][37] - 采用自车中心极坐标编码与双扫描模式(光栅扫描+Z字扫描),实现方向感知与距离衰减的空间依赖建模[20][21][22] 性能表现与实验验证 - 在NAVSIM基准测试中PDMS得分达88.9,较最佳基线DiffusionDrive提升0.8分,其中可行驶区域符合率(DAC)达97.3(提升1.1分),自车推进率(EP)达83.3分[29][30] - 消融实验显示:8维柱状表示使PDMS从88.10提升至88.61,完整14维表示进一步升至88.85,证明几何信息保留的关键作用[33][34] - 融合架构对比中,HCA+BEV-SSM组合达到88.69 PDMS分,显著优于跨注意力(88.39)及通用状态空间模型(88.02)[35][36][37] 行业技术演进趋势 - 端到端自动驾驶从早期CNN方法演进至多模态系统,BEV表示成为重要里程碑,TransFuser及UniAD等Transformer架构主导当前方案[9] - 多模态融合存在三类方法:早期融合(原始数据层)、后期融合(决策层)及中期融合(特征层),当前主流为Transformer中期融合[10][13] - Mamba架构因线性计算复杂度优势成为潜在突破方向,有望替代计算量呈平方增长的Transformer架构[3][11]
全面超越DiffusionDrive!中科大GMF-Drive:全球首个Mamba端到端SOTA方案
自动驾驶之心· 2025-08-13 23:33
端到端自动驾驶框架GMF-Drive - 突破Transformer瓶颈,提出门控Mamba融合+空间感知BEV的端到端自动驾驶框架,通过几何增强柱状表示和空间感知状态空间模型实现高效多模态融合 [7][13][16] - 包含三个核心模块:数据预处理模块(14维柱状表示保留3D几何信息)、感知模块(GM-Fusion实现线性复杂度空间建模)、轨迹规划模块(截断扩散策略生成轨迹) [13][19][22] - 在NAVSIM基准测试中PDMS得分88.9,较DiffusionDrive提升0.8分,关键子指标DAC和EP分别达到97.3和83.3 [32][33] 多模态融合技术演进 - 当前主流方法采用TransFuser风格架构,直接拼接图像与LiDAR特征并通过自注意力处理,存在信息损失和缺乏空间感知两大缺陷 [3][5][6] - 多模态融合方法分为三类:早期融合(原始数据层)、后期融合(决策层)、中期融合(特征层),当前以Transformer为核心的中期融合为主流但计算量大 [10][11][14] - 行业趋势从早期CNN方法演进到多模态系统,关键里程碑包括BEV表示(TransFuser)、多任务整合(UniAD)、向量化表示(VAD)和稀疏表示(SparseDrive) [8][11] 技术创新点 - 几何增强柱状表示:14维特征包含点特征池化结果和统计特征(反射强度均值方差、PCA几何描述符),保留传统方法丢失的3D几何信息 [19][20] - GM-Fusion模块:整合门控通道注意力(特征对齐)、BEV-SSM(方向感知+双扫描模式空间建模)、分层可变形跨注意力(多尺度特征查询) [22][24][25] - 空间感知机制:自车中心极坐标编码实现维度交错,双扫描模式(光栅扫描+Z字扫描)结合距离衰减机制优化空间依赖建模 [24][25][26][27] 性能验证 - 定量比较:在相同ResNet-34主干和传感器输入条件下,PDMS得分88.9超越所有对比方法,DAC指标97.3显示精细空间特征提升场景理解能力 [32][33] - 消融实验:完整系统组件使PDMS提升0.75分,其中14维柱状表示贡献0.24分,GM-Fusion模块贡献0.74分,验证数据表示与架构设计的协同重要性 [37][38][39] - 融合架构对比:HCA+BEV-SSM配置PDMS达88.69,证明针对BEV优化的扫描模式与空间先验比通用序列模型(C-EffiMamba)更有效 [41][42]
如何提升录音管理速度?专业应用智能方案帮你解决
搜狐财经· 2025-08-09 23:03
录音管理行业现状 - 传统录音管理工具仅提供基础转写功能,转写精度早期较低,2018年ASR软件错误率较高,导致人工修改耗时[3] - 技术升级后转写精度显著提升至95%,但缺乏智能分析功能,仍需人工分类、查找和使用[4] - 2023年后行业逻辑转变,智能转写工具具备上下文理解能力,专业术语识别准确,支持发言人标注和噪音过滤[4] 技术升级核心变化 - 智能转写工具精度达98%,超越人工记录水平,并能自动分类内容如"讨论议题""待办事项""争议点"[5] - 从"转文字"转向"理解内容",工具可自动标红关键信息如"张总强调3次的预算问题"[5][6] - 支持结构化输出,包括发言人、时间戳、待办事项等,实现从体力劳动到脑力劳动的跨越[6] 主流工具类型对比 - 纯ASR转写工具:价格低、速度快,适合简单场景如学生笔记,但缺乏智能分析[7] - 智能分析+基础管理工具:可标重点、分章节,协作功能较弱,无法深度处理待办事项分配[7] - 全流程智能管理工具:覆盖录音到归档全流程,自动生成结构化纪要并同步协作工具,如听脑AI[8] 行业应用场景 - 企业会议场景:3小时会议纪要整理时间从2小时缩短至5分钟,效率显著提升[11] - 访谈调研场景:2小时访谈整理时间从4小时压缩至自动分类,高频词统计功能可识别核心问题如"操作复杂"[11] - 法律医疗场景:专业术语库定制使错误率低于人工记录,满足庭审、病例等高准确性需求[12] 未来发展趋势 - 实时智能交互:实现边录边分析,当场确认待办事项[16] - 多模态融合:结合PPT、白板内容生成关联性转写[16] - 个性化适配:工具可记忆用户习惯如客户口音、常用术语[16] - 合规安全升级:本地部署、加密存储、敏感信息自动打码功能将成重点[17] 企业选型建议 - 优先梳理场景需求,会议、访谈、培训等不同场景需匹配不同功能[18] - 数据安全为首要考虑因素,需明确存储位置、访问权限及第三方使用限制[18] - 工具需兼容现有工作流程如飞书、钉钉等协作软件,实现无缝衔接[18]
人形机器人的进化之路|2.5万字圆桌实录
腾讯研究院· 2025-08-04 09:23
具身智能技术突破 - 端到端大模型实现从L2到L4级跃迁 Physical Intelligence公司Π系列模型展示少样本学习能力[7][8] - 数据采集技术突破 主从臂式遥操/VR遥操/光学动捕等技术提升效率 AGL Bot World项目采集百万级真机数据[9] - 仿真技术显著提升 生成式模型使仿真效果从"非常假"到"视觉逼真" 物理交互仿真仍需加强[9] 技术瓶颈与挑战 - 开放环境任务执行能力弱 复杂技能/高精度场景下故障率高 存在安全风险[6] - 硬件成本与运维问题 单台机器人成本达数十万人民币 供电持久性不足[6] - 泛化能力存在局限 Physical Intelligence Π0模型在OOD场景成功率低于产业预期[10] 主流技术范式 - VLA(视觉-语言-动作)成为共识框架 但底层架构仍处探索期 存在自回归与Diffusion两条技术路线[32][33] - 系统1(直觉响应)与系统2(规划决策)协同方案 短程任务端到端解决 长程任务需规则介入[18][19] - 触觉模态(T)增强形成VTLA框架 触觉信号使响应延迟从2-3秒提升至毫秒级[15][16] 数据生态现状 - 真实数据与仿真数据存在鸿沟 刚体仿真准确度达80%-90% 柔性体/流体仿真仍困难[36][39] - 数据规模严重不足 具身数据量仅为语言模型的1/5000 需百亿级VLA token训练量[9][57] - 互联网视频数据利用受限 缺乏动作标签与多视角信息 需清洗与伪标签生成技术[42][43] 产业化路径 - 专业场景优先落地 工厂SOP场景成熟度高于开放家庭环境 规则系统现阶段更可靠[14][51] - 消费级产品渐进发展 扫地机器人+简易操作臂组合或成突破口 价格增幅需控在数百元内[50] - 中间件接口标准化需求迫切 需建立动作抽象层兼容不同机器人本体[26][27] 技术演进方向 - 世界模型与强化学习结合 数据驱动的物理规律模拟替代传统物理引擎[35][37] - 穿戴设备数据反哺 未来消费级设备可能意外积累海量具身数据[41] - 多模态持续扩展 红外/温度等非人类模态将增强环境感知能力[29][32]
中科院自动化所机器人视觉中的多模态融合与视觉语言模型综述
具身智能之心· 2025-08-04 01:59
多模态融合与视觉语言模型综述 - 系统整合了传统多模态融合策略与新兴视觉语言模型(VLMs),从架构设计、功能特性及适用任务等方面进行比较分析 [5] - 分析范围扩展到新兴应用场景如多模态SLAM、机器人操作和具身导航,展示其在复杂推理和长期任务决策中的潜力 [5] - 总结了多模态系统相对于单模态方法的关键优势,包括增强的感知鲁棒性、语义表达能力、跨模态对齐和高级推理能力 [5] - 对当前用于机器人任务的主流多模态数据集进行深入分析,涵盖模态组合、覆盖任务、适用场景和局限性 [5] 多模态融合技术 - 多模态融合策略分为早期融合、中期融合和晚期融合,各有优缺点 [11] - 编码器-解码器框架通过编码器提取不同模态特征,解码器融合特征产生最终输出 [11] - 注意力机制通过自适应加权能力捕获跨模态特征之间的长距离依赖关系 [11] - 图神经网络通过图结构建模多模态数据,提取和融合不同模态的高级语义表示 [11] 3D目标检测 - 激光雷达和相机融合是3D目标检测中的主要研究方向之一 [11] - 基于雷达和相机、激光雷达和雷达的融合研究也取得进展 [13] - 在nuScenes基准测试中,多模态融合方法显著提高了目标检测的精度和鲁棒性 [72] 导航与定位 - 具身导航依赖于多模态信息在动态和非结构化环境中指导智能体行动 [14] - 具身导航研究主要集中在目标导向导航、指令遵循导航和对话式导航三个方向 [14] - 视觉定位通过多模态融合显著提高了定位的准确性和鲁棒性 [17] SLAM与机器人操作 - 多模态SLAM通过整合异构传感器数据增强环境感知能力 [19] - 视觉-语言-动作模型通过整合视觉感知、语言理解和动作规划为复杂操作任务提供高效框架 [20] - 视觉和触觉的多模态融合对于机器人抓取任务的精度和稳定性至关重要 [21] 视觉语言模型技术演变 - 跨模态预训练通过大规模多模态数据学习视觉和语言之间的深层关联 [23] - 跨模态对齐和表示学习是视觉-语言模型的核心 [26] - Transformer架构已成为深度学习的核心,在自然语言处理、计算机视觉和多模态学习中取得重大进展 [29] 多模态数据集 - 多模态数据集在语义场景理解领域中起关键作用 [43] - 代表性数据集包括nuScenes、Waymo Open Dataset、SemanticKITTI等 [48] - 机器人操作数据集整合了视觉、语言、深度和触觉等多种模态信息 [47] 性能评估 - 定义了一系列关键评估指标,涵盖语义理解、3D目标检测、定位和导航等多个方面 [55] - 在nuScenes基准测试中,多模态融合方法显著优于单模态方法 [71] - 在Room-to-Room基准测试中,多模态预训练方法提高了跨模态对齐能力 [74] 挑战与机遇 - 面临低质量数据、异构性、高效训练和推理以及高质量数据集稀缺等关键挑战 [84] - 未来研究方向包括改进跨模态对齐技术、开发高效的训练和推理策略等 [93] - 自监督学习和合成数据生成是减少对标注数据依赖的重要方向 [66]
马斯克确认!三星获特斯拉165亿美元芯片合同;火狐关闭北京公司终止中国账户;索尼投资入股万代南梦宫
搜狐财经· 2025-07-28 05:00
三星电子与特斯拉合作 - 三星电子与特斯拉签署价值22.8万亿韩元(165亿美元)的芯片制造协议,合同期为2025年7月24日至2033年12月31日 [3] - 三星将在德克萨斯州的工厂为特斯拉生产下一代AI6芯片,目前三星生产AI4芯片 [3] - 台积电将在中国台湾生产AI5芯片,随后在亚利桑那州生产 [3] 特斯拉业务进展 - 特斯拉Optimus机器人量产进度滞后,今年产量仅数百台,远低于5000台目标 [4] - 工程师在机器人手部制造环节遇到困难,部分成品缺失可操作的前臂 [4] - 加州交通监管部门叫停特斯拉Robotaxi计划,限制其测试和载客服务 [5] 科技公司动态 - 火狐关闭北京公司并终止中国账户服务,但浏览器将继续正常运行 [6] - 阿里巴巴推出首款自研AI眼镜"哇哦-夸克AI眼镜",预计年内发布 [7] - Meta任命赵晟佳为超级智能实验室首席科学家,赵晟佳曾是GPT-4核心贡献者 [8] 半导体与AI行业 - 英伟达和AMD首席执行官支持特朗普政府AI行动计划 [9] - 索尼投资680亿日元获得万代南梦宫2.5%股份,将共同开发IP内容 [10] - OpenAI首席执行官表示用户与ChatGPT对话不具法律保密性 [11] 公司财务与市场 - 亚马逊创始人贝索斯套现57亿美元,亚马逊股价较4月底上涨38% [12] - 微软将花费超10亿美元处理490万吨有机废物以减少碳排放 [13] - 印度TCS公司因行业需求萎缩将裁员1.2万人,占员工总数2% [14] 消费电子市场 - 2025年折叠手机出货量预计达1980万部,渗透率约1.6% [15] - 三星折叠手机市场份额预计从45.2%降至35.4%,华为市占率达34.3% [15] - 苹果首款可折叠iPhone将配备7.8英寸内屏和5.5英寸外屏,预计2026年推出 [10]
清华大学具身智能多传感器融合感知综述
具身智能之心· 2025-07-27 09:37
具身智能与多传感器融合感知综述 I 核心观点 - 具身AI通过物理实体载体实现动态环境中的自主决策,是突破AGI发展瓶颈的关键路径[6] - 多传感器融合感知(MSFP)通过整合相机/LiDAR/毫米波雷达等异构数据,解决单一传感器在复杂环境中的局限性[7][12] - 现有研究存在数据异构性、时空异步性、传感器故障等核心挑战,需开发新型融合方法与跨模态对齐技术[12][69] II 传感器与数据集 - **相机数据**:提供丰富颜色/纹理特征但受光照条件影响显著,恶劣天气下性能下降50%以上[13] - **LiDAR数据**:输出高精度3D点云但存在稀疏性问题,雨雾天气中有效探测距离缩短30-40%[13] - **毫米波雷达**:在恶劣天气保持稳定性能,可直接测速但点云稀疏度比LiDAR高5-8倍[13] - **主流数据集**: - nuScenes包含140万张图像+39万次LiDAR扫描,覆盖23个物体类别[16] - Waymo Open包含126万3D边界框,涵盖昼夜/雨天等多场景[17] - KITTI提供14,999帧数据,标注精度达厘米级[14][15] III 融合方法分类 - **点级融合**:通过投影实现像素-点云对齐,PointPainting方法将分割掩码特征标注到LiDAR点[25] - **体素级融合**:AutoAlign框架实现动态特征对齐,无需依赖精确投影矩阵[24] - **区域级融合**:AVOD网络处理BEV和RGB图像,生成高分辨率特征图[30] - **多级融合**:TransFusion利用Transformer建立跨模态软关联,提升鲁棒性32%[32] IV 多智能体协作 - **协作优势**:CoBEVT框架通过轴向注意力模块,使多车系统感知范围扩大2.5倍[38] - **通信优化**:When2Com方法减少带宽使用40%,同时保持95%以上的分割准确率[47] - **深度补全**:CoCa3D通过共享深度信息,将远距离目标检测准确率提升28%[39] V 时间序列融合 - **密集查询**:BEVFormer v2通过两阶段检测架构,无需深度预训练数据[55] - **稀疏查询**:Sparse4D系列采用递归方法,计算效率提升60%[56] - **混合查询**:UniAD框架集成感知/预测/规划,轨迹预测误差降低22%[59] VI 多模态大模型 - **视觉-语言**:Sce2DriveX框架通过LLM实现驾驶决策准确率提升35%[66] - **3D空间理解**:LiDAR-LLM将点云转换为语言建模任务,问答准确率达89%[67] - **知识增强**:SafeAuto通过多模态基础模型,事故率降低42%[66] VII 未来方向 - **数据生成**:采用AIGC技术合成罕见场景数据,填补真实数据集空白[74] - **模型架构**:开发几何学习与MM-LLM结合的混合架构,处理不规则传感器数据[76] - **自适应算法**:零样本学习方法使模型泛化能力提升50%[76]
VLN-PE:一个具备物理真实性的VLN平台,同时支持人形、四足和轮式机器人(ICCV'25)
具身智能之心· 2025-07-21 08:42
视觉-语言导航平台VLN-PE的核心创新 - 推出首个支持人形、四足和轮式机器人的物理真实VLN平台VLN-PE,基于GRUTopia构建,可无缝集成MP3D之外的新场景[3][10] - 平台采用基于RL的控制器API,支持Unitree H1人形机器人、Aliengo四足机器人和Jetbot轮式机器人的物理仿真[13] - 引入90个MP3D场景并手动修复地面间隙,新增10个GRScenes合成家庭场景和3D高斯溅射扫描场景以增强环境多样性[14] 跨具身导航的关键发现 - 现有VLN-CE模型迁移到物理环境时成功率下降34%,暴露伪运动训练与物理部署的差距[15] - 模型性能因机器人类型差异显著,人形机器人表现最佳而四足机器人最差(相机高度0.5米时几乎失效)[36][37] - 联合训练三种机器人数据的模型实现最佳性能,验证跨具身训练的"一劳永逸"潜力[37][39] 多模态与光照条件影响 - 仅依赖RGB的NaVid模型在低光照下成功率下降12.47%,而RGB+深度模型的CMA和RDP表现更稳定[38] - 相机光源(CL)条件下模型性能普遍低于圆盘光(DL),反光问题导致导航误差增加[38] - 深度信息融合使CMA模型在DL300光照条件下保持85%的基础性能,显著优于纯RGB模型[38] 模型性能对比 - 70亿参数的NaVid模型零样本迁移表现最佳,但存在70%任务片段中过度旋转的问题[29][30] - 扩散模型RDP在3DGS-Lab-VLN数据集上达到30.63%成功率,较NaVid的5.81%提升5倍[31] - 基于地图的VLMaps方法在未见验证集取得20%成功率,证明非端到端方案的可行性[27][24] 数据收集与训练策略 - 使用物理控制器收集的训练数据使模型跌倒率降低8.36%,卡住率减少2.01%[33][34] - 在VLN-PE域内数据微调的Seq2Seq模型性能超越Habitat增强训练的模型,显示仿真过拟合风险[29] - 3DGS场景微调的600万参数小型模型超越NaVid,验证多样化训练分布的价值[30]
AI三问③模型之问 | 直面模型之问,以大爱共塑 AI 未来 ——WAIC 2025 大模型论坛以问题破局引领技术革新
36氪· 2025-07-17 03:21
2025世界人工智能大会(WAIC)核心内容 - 2025年7月26日至28日在上海世博中心等地举办 聚焦"AI三问"框架:数学之问(公理推演)、科学之问(实证研究)、模型之问(技术落地) 三者协同推动跨领域创新 [3] - 商汤科技承办7月27日"大爱无疆・模塑未来"大模型论坛 贯穿"模型之问"主题 聚集全球专家探讨模型本质难题 [3] 跨国界技术交流亮点 - 活动打造跨国界跨架构交流平台 聚焦"泛化性瓶颈与模型底层范式关联"问题 分析架构设计固有局限 探索技术突破路径 [4] - 汇集全球顶尖企业技术专家与高校学者 促进不同技术路线智慧碰撞 为解决大模型技术瓶颈提供多元视角 [4] 架构革新与产业应用 - 探索Transformer与非Transformer架构融合路径 研究跨模态智能的语义鸿沟问题 优化文本/图像等多模态融合技术 [5] - 直击"性能-开销曲线优化"痛点 研究降低训练能耗同时保持性能的方案 重点关注轻量化架构与非Transformer可能性 [5] - 学术界探讨推理时扩展架构性能边界 产业界展示工程化优化方案 促进理论研究与产业实践互动 [5] 全球技术共识与发展方向 - 产学研领袖共同探讨高阶智能实现障碍 分析复杂推理/自主决策等认知短板成因 形成包含中国智慧的技术方案 [6] - 海内外专家围绕算力优化/跨模态语义破解等议题凝聚共识 推动AI从技术竞争转向协同破题的新模式 [6] 大会配套内容 - 推出首份刊物《WAIC UP!》定位为"AI时代进化指南" 汇集跨领域先锋力量探讨技术跃迁与未来文明 [7][8][10]
新京报联合Xsignal发布首期“全媒介之星”中国AI应用榜
贝壳财经· 2025-07-11 02:45
市场格局 - 2025年上半年中国AI应用市场呈现"一超引领、多元跟进"特征,AI聊天机器人类应用以35%份额(7款产品上榜)稳居核心赛道 [2] - 豆包、DeepSeek、夸克组成"超级三巨头",合计占据超60%活跃用户(豆包2.05亿MAU、DeepSeek2.2亿MAU)并垄断核心流量入口 [5] - 第二梯队由AI虚拟角色(4款)、AI搜索引擎(2款)、AI图像生成/编辑(2款)构成,长尾领域如AI教育学习等各有1款产品上榜 [3] 竞争态势 - 头部与腰部差距显著:第4-5位的纳米AI搜索、即梦AI声量仅700万-800万,用户数约1400万,与头部形成量级鸿沟 [6] - 通用聊天机器人赛道垄断固化,豆包以3000万声量撬动2.05亿用户,夸克2000万声量积累9255万用户,验证高效转化路径 [7] - 垂直领域呈现差异化竞争,图像生成应用即梦AI以781万声量对应1402万用户,显示大众化趋势 [9] 产品策略 - 效率工具Manus以23万低声量获870万用户,凸显聚焦垂直刚需场景的竞争力 [7] - AI虚拟角色领域声量达210万-487万但用户仅54万-373万,商业模式尚未成熟 [11] - 头部玩家转向多模态融合、构建个性化智能体,垂直领域聚焦"小而美"精准定位 [12][13] 行业趋势 - 用户需求从"新奇体验"转向实际价值,场景化、专业化成为增长新引擎 [4] - 图像生成领域迎来爆发期,产品体验直接决定增长速度 [9] - 效率工具展现"刚需+高黏性"特质,通过AI智能体平台实现精准赋能 [10] 数据表现 - 豆包声量接近3000万,DeepSeek声量未披露但用户数达2.2亿,夸克声量2000万对应9255万用户 [5][7] - 典型案例对比:Lovekey键盘431万声量仅54万用户,Manus23万声量获870万用户 [7] - 即梦AI在图像生成领域781万声量对应1402万用户,转化效率显著 [9]