多模态协同
搜索文档
商贸零售行业周报:全球大模型能力再升级,阿里持续加码全栈AI能力-20251201
申万宏源证券· 2025-12-01 11:57
报告行业投资评级 - 报告对商贸零售及相关行业持“看好”态度 [2] 报告核心观点 - 全球AI技术迭代正从“规模竞争”全面迈向“可执行能力竞争”,海外大模型从“内容生成”向“任务执行”过渡,多模态协同成为关键突破方向 [7] - 谷歌Gemini 3系列模型性能全面升级,其图像模型Nano Pro已能支持专业级视觉内容生成,AI图像能力从C端娱乐向B端生产环节加速迁移,有望在全球零售营销体系中形成结构性降本增效 [4][9][11] - 阿里巴巴整合AI产品为“千问App”,公测一周下载量突破1000万次,展现强劲C端入口潜力,其定位从“对话助手”升级为“AI智能体”,旨在与电商、生活服务等实体经济场景深度融合 [16][18][43] - 当前AI技术迭代更注重实用性与场景落地,AI全栈能力与多模态协同正成为竞争关键,看好聚焦核心主业、坚定投入AI并开拓即时零售市场的相关板块 [4][48] 本周核心观点总结 - **谷歌Gemini 3模型性能提升**:与上一代相比,Gemini 3在数学推理、代码生成、跨模态理解等维度大幅提升,在GSM8K、MATH、MMMU等关键测试集表现位居前列,推理链更长、可解释性更强 [7][8] - **Nano Pro专业图像生成能力**:Nano Pro的高清文字渲染、4K信息图生成、复杂构图保持与可编辑性较上一代大幅提升,首次真正满足品牌KV、电商商品图、广告海报等专业内容需求 [9] - **阿里千问App生态整合**:千问App将地图、购物、支付、生活服务等阿里生态高频场景接入,用户可在同一入口体验Qwen3-Max、联网搜索、多模态问答等跨场景能力,定位升级为“AI智能体” [16][18][22] 本周行业行情回顾总结 - **指数表现**:在2025年11月24日至11月28日期间,商贸零售指数增长3.45%,相较于沪深300上涨1.81个百分点,在申万一级行业中排名第9位;社会服务指数增长3.92%,相较于沪深300指数上涨2.28个百分点,排名第6位 [4][25] - **个股表现**: - 商贸零售行业涨幅前3个股:茂业商业(+51.11%)、广百股份(+18.72%)、三江购物(+18.66%) [31] - 社会服务行业涨幅前3个股:君亭酒店(+22.65%)、西安饮食(+7.96%)、全聚德(+7.17%) [33] - **港股通持股**:商贸零售行业内港股通持股比例最高为阿里巴巴-W(11.53%);社会服务行业内最高为美团(19.35%) [33][39] 行业重点公司估值总结 - **电商板块**:阿里巴巴2025年预测PE为26倍,京东为11倍,拼多多为11倍,美团因2025年预测EPS为负值未计算PE,电商类平均估值(市值加权)2025E为21倍 [47][48] - **黄金珠宝板块**:老铺黄金2025年预测PE为24倍,菜百股份为15倍,老凤祥为15倍,周大生为13倍,黄金珠宝类平均估值(市值加权)2025E为21倍 [48] - **超市百货板块**:天虹股份2025年预测PE为50倍,家家悦为37倍,王府井为69倍,超市百货类平均估值(市值加权)2025E为22倍 [47][48]
2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】
前瞻网· 2025-06-03 05:12
多模态大模型核心技术-表征 - 表征学习是多模态任务的基础,涉及处理异质数据结合、不同噪声等级处理及模态缺失问题 [1] - Transformer出现前,CV领域主要使用CNN,NLP领域主要使用LSTM,多模态工作多采用异质网络单独提取特征后联合训练 [1] - Transformer统一多模态任务成为可能,2019年后基于Transformer的多模态预训练模型大量涌现 [1] 多模态大模型核心技术-翻译 - 跨模态翻译旨在将源模态映射到目标模态,如图像生成描述或文本生成图像 [2] - 基于语法模板的方法通过预设模板插入检测结果完成翻译,如图像描述中的who/what/whom/place插槽 [2] - 编码-解码器结构将源模态编码为隐特征后解码生成目标模态,如图像描述中CNN+RNN组合 [2] - 连续性生成针对时间严格对齐的流数据任务,如文本合成语音采用CNN并行预测+CTC loss [3] 多模态大模型核心技术-对齐 - 对齐用于发现不同模态子元素间关联性,如visual grounding任务 [7] - 显式对齐通过动态时间扭曲(DTW)、CCA等方法衡量相似性,深度学习方法逐渐流行 [7] - 隐式对齐通过注意力机制等解决潜在表示问题,降低对编码器的要求 [8] - 当前多模态对齐处于初期阶段,侧重人类指令对齐但忽略高层次价值整合 [8] 多模态大模型核心技术-融合 - 融合通过结合多模态数据增强性能,应用领域包括语音识别、情感识别和医学图像分析 [11] - 早期融合在特征层面合并模态,晚期融合在决策层面结合结果,混合融合综合两者优势 [11] - 神经网络成为主流融合方式,但图形模型和多核学习在数据有限或需可解释性时仍适用 [12] 多模态大模型核心技术-协同 - 协同学习利用一种模态数据训练另一种模态模型,分为并行、非并行和混合三类 [14] - 并行学习要求模态数据直接关联(如音视频同源),非并行学习通过类别重叠实现 [14][15] - 混合协同通过共享模态连接数据,已在视觉分类、动作识别和语义相似度估计中应用 [15]