LIRA
搜索文档
【AI 产业跟踪】阿里成立 Qwen 具身智能小分队,蚂蚁集团开源万亿参数通用语言模型 Ling-1T:产业最新趋势跟踪,点评产业最新风向
国泰海通证券· 2025-10-13 08:51
报告行业投资评级 - 报告未明确给出具体的行业投资评级(如买入、增持、中性等)[1][2][3][4][5] 报告核心观点 - 报告核心观点为跟踪AI产业最新趋势与风向,重点关注各大公司在AI大模型、具身智能、AI应用等领域的重大进展与突破[2] AI行业动态 - 阿里巴巴正式组建Qwen具身智能小分队,由通义千问技术负责人林俊旸带队,标志着公司首次明确进入物理AI系统领域,旨在推动多模态基础模型从虚拟走向现实[6] - 阿里集团CEO吴咏铭表示未来五年AI投资将突破4万亿美元,Qwen团队的成立是公司AI战略向具身智能和机器人化阶段迈进的重要举措[6] AI应用资讯 - 新智慧游戏与电竞俱乐部TYLOO签约,将联合开发基于电竞多模态大模型的“专属AI教练”,助力其备战2026年全球总决赛,并共建联合实验室[7] - 美团无人机在深圳开通国内首个夜间即时零售无人机配送服务,服务时间延长至20时,并在香港开通新航线,配送时间由46分钟缩短至8分钟[8] - vivo发布全新操作系统OriginOS 6,全面升级AI功能并首次深度重构安卓系统底层,内置自研蓝心大模型[9] AI大模型资讯 - 蚂蚁集团开源万亿参数通用语言模型Ling-1T,在多项复杂推理和专业基准测试中取得SOTA成绩,尤其在竞赛数学AIME 25中超越谷歌Gemini系列[10] - 快手发布的KAT-Dev-72B-Exp模型以74.6%的成绩夺得SWE-Bench开源编程模型榜首,其自研强化学习框架使训练效率提升一倍以上,训练时间缩短62%[11] - 腾讯混元发布3D部件生成模型Hunyuan3D-Part,包含P3-SAM点云分割模型和X-Part形状分解生成模型,提升了3D零件生成的精准度和可控性[12] - 字节跳动Seed团队推出新型蛋白设计方法PXDesign,24小时内可生成数百个高质量蛋白候选,设计效率较传统方法提升约10倍,湿实验成功率达20%–73%[13] - 智谱发布GLM-4.6大模型,其代码生成能力在74个真实场景测试中超越Claude Sonnet 4,上下文长度提升至200K,并实现国产芯片寒武纪FP8+Int4混合量化部署[14] - DeepSeek发布V3.2-Exp模型,引入DSA稀疏注意力机制提升长文本处理与推理效率,API价格下调至5折起[15] 科技前沿 - 华中科技大学与金山办公联合提出LIRA多模态模型,通过语义增强特征提取器和交错局部视觉耦合模块,在分割任务中准确率较OMG-LLaVA提升8.5%,在MMBench上提升33.2%[16][17]
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
量子位· 2025-10-03 04:19
多模态大模型LIRA的技术突破 - 华中科技大学与金山办公团队联合提出多模态大模型LIRA,该模型在图像分割与视觉理解两项任务上均取得SOTA性能 [3][6] - LIRA的核心创新在于引入了两个新模块:语义增强特征提取器(SEFE)与交错局部视觉耦合(ILVC) [3] - 与InternVL2相比,LIRA在保持理解性能的同时,额外支持图像分割任务;与OMG-LLaVA相比,LIRA在图像分割任务上平均提升8.5%,在MMBench上提升33.2% [7] 现有技术痛点与LIRA的解决方案 - 现有模型如OMG-LLaVA和LISA存在分割结果不够精确、理解过程出现幻觉两大痛点,源于物体属性理解不足与细粒度感知能力局限 [1][2] - 语义增强特征提取器(SEFE)通过融合高层语义特征与细粒度像素特征,增强模型的属性理解能力,从而提升分割精度 [4][24][25] - 交错局部视觉耦合(ILVC)通过显式绑定局部图像区域与对应文本描述,为模型提供细粒度监督,从而有效减少理解幻觉 [5][24][26] 技术细节与工作原理 - SEFE模块融合了预训练多模态大模型的语义编码器和分割模型的像素编码器,通过多头交叉注意力机制融合特征后送入大语言模型 [28][29] - ILVC模块的工作流程为:使用token生成分割掩码,基于掩码裁剪图像区域并调整大小,输入SEFE提取局部特征,再将特征输入大语言模型生成区域描述,以此建立局部图像与文本的显式联系 [33][34] - 研究团队将根据用户查询和图像信息理解物体属性以实现准确分割的过程,定义为“推理分割”(Inferring Segmentation) [21][22] 实验性能与数据验证 - 在多个基准测试中,LIRA-8B模型在理解任务上表现优异,例如在VizWiz得分71.5、VQAv2得分80.4、MMB-en得分81.1、MMB-cn得分80.5 [36] - 在分割任务上,LIRA-8B模型在RefCOCO的TestA集得分83.4,在RefCOCO+的TestA集得分81.1,在RefCOCOg的Test集得分78.2 [36] - 消融实验证明SEFE模块有效:在InternLM2-1.8B骨干网络上,增加SEFE使VizWiz得分从62.7提升至67.0,VQAv2得分从71.1提升至76.1 [37] - ILVC模块能有效降低幻觉率:在ChairS数据集上,使用ILVC后,1.8B和7B规模模型的幻觉率分别降低了3.0%和4.8% [38] - 联合训练验证:LIRA-2B同时用理解数据和分割数据进行联合训练,性能仅较单独用理解数据训练略微下降0.2%,显著优于OMG-LLaVA在五个理解数据集上近15%的性能下降 [40][41] 行业意义与未来展望 - 该研究将多模态大模型的能力从视觉理解拓展至像素级分割,实现了理解与分割任务性能的协同提升 [9][43] - 研究团队探讨了token在分割任务中的作用,发现其logits能够准确反映被分割物体的属性,推测其可能蕴含更丰富的物体语义信息 [20][42] - 该工作为在细粒度多模态大模型中缓解幻觉提供了新视角,并为后续相关探索提供了启示 [43] - 该项目论文已被ICCV 2025录用 [8]