多模态模型 - 财报，业绩电话会，研报，新闻 - Reportify

多模态模型

搜索文档

商汤发布NEO架构重新定义多模态模型效能边界

证券日报· 2025-12-02 06:13

文章核心观点 - 商汤集团正式发布并开源了全新的原生多模态模型架构NEO 该架构从底层设计打破了传统模块化范式的限制通过深层次融合实现了性能效率和通用性的整体突破标志着人工智能多模态技术迈入“原生架构”新时代 [2] - NEO架构旨在解决当前主流多模态模型“拼凑”式设计的痛点其设计“专为多模态而生” 实现了核心架构层面的多模态深层融合重新定义了模型的效能边界 [2] - 商汤致力于通过开源协作与场景落地双轮驱动将NEO打造为下一代可扩展可复用的AI基础设施以推动原生多模态技术从实验室走向广泛的产业化应用并加速构建下一代产业级技术标准 [3] 行业技术背景与现状 - 当前业内主流的多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式本质上仍以语言为中心图像与语言的融合仅停留在数据层面 [2] - 这种基于大语言模型（LLM）的扩展方式虽然实现了图像输入的兼容但“拼凑”式的设计学习效率低下且限制了模型在复杂多模态场景（如图像细节捕捉或复杂空间结构理解）下的处理能力 [2] 公司技术发展路径与成果 - 早在2024年下半年商汤便在国内率先突破多模态原生融合训练技术并以单一模型在SuperCLUE语言评测和OpenCompass多模态评测中夺冠 [3] - 基于上述核心技术商汤打造了日日新SenseNova 6.0 实现了多模态推理能力领先 [3] - 2025年7月公司发布日日新SenseNova 6.5 通过实现编码器层面的早期融合把多模态模型性价比提升3倍并在国内率先推出商用级别的图文交错推理 [3] - 此次发布的NEO架构彻底摒弃了传统模块化结构是从零设计的原生架构为日日新SenseNova多模态模型奠定了新一代架构的基石 [2][3] 开源与产业化战略 - 商汤已正式开源基于NEO架构的2B与9B两种规格模型以推动开源社区在原生多模态架构上的创新与应用 [3] - 公司计划通过开源协作与场景落地双轮驱动加速构建下一代产业级原生多模态技术标准 [3]

商汤(HK:00020)

多模态模型

人工智能多模态技术

商汤NEO架构

日日新SenseNova 6.0

日日新SenseNova 6.5

多模态模型

人工智能多模态技术

商汤NEO架构

日日新SenseNova 6.0

日日新SenseNova 6.5

超700亿！加仓

中国基金报· 2025-12-01 05:43

股票ETF市场整体概况 - 截至11月28日，全市场1268只股票ETF总规模达4.55万亿元 [4] - 11月28日股票ETF成交额合计1421.21亿元，较前一交易日1777.47亿元缩量超350亿元 [4] - 11月份股票ETF整体大幅净流入超700亿元，但11月28日单日出现净流出44亿元 [2][7][10] 单日市场表现与资金流向 - 11月28日A股市场低开高走，三大指数集体收涨，沪深两市成交量缩至1.59万亿元 [2] - 当日股票ETF市场总份额减少35.43亿份，净流出资金接近44亿元，仅12只股票ETF净流入超1亿元 [7][8] - 从全市场ETF看，11月28日债券ETF与策略风格ETF净流入居前，分别达6.59亿元与4.25亿元；行业主题ETF净流出居前，达39.49亿元 [8] - 资金流入前5板块分别为红利（净流入5.8亿元）、上证50指数（净流入4.0亿元）、创业板（净流入3.0亿元）、黄金（净流入2.5亿元）、恒生科技（净流入2.3亿元） [8] 板块表现与领涨ETF - 科创半导体板块领涨，油气资源ETF以3.49%涨幅居首，多只科创半导体ETF、半导体设备ETF及卫星ETF涨幅靠前 [4][6] - 稀有金属ETF表现强劲，嘉实、广发、工银瑞信、华富旗下稀有金属ETF单日涨幅均超2% [5][6] - 易方达基金旗下A500ETF当日成交56.37亿元位居首位，多只A500ETF及行业主题ETF成交额在30亿元以上 [4] 资金净流入/流出具体产品 - 资金净流入前列：上证50ETF净流入4.17亿元、中证500ETF净流入2.93亿元、港股央企红利ETF净流入2.65亿元 [9] - 资金净流出前列：证券ETF净流出6.54亿元、银行ETF净流出4.28亿元、创业板人工智能ETF净流出3.87亿元 [10] - 宽基ETF中A500ETF易方达净流出3.43亿元、科创50ETF净流出3.37亿元、沪深300ETF净流出2.75亿元 [10] 月度资金流向与热门板块 - 11月份恒生科技相关ETF获得资金青睐，合计净流入接近200亿元 [2][10] - 恒生互联网、港股通非银、创业板人工智能、机器人、券商等板块月度资金净流入也较多 [10] 头部基金公司动态 - 易方达基金ETF最新规模为8055.3亿元，2025年以来规模增加2048.8亿元 [12] - 华夏基金旗下上证50ETF和港股央企红利ETF单日净流入居前，分别达4.17亿元和2.65亿元 [12] - 易方达基金旗下多只产品持续净流入，恒生红利低波ETF最新规模达61亿元创成立以来新高 [12]

多模态模型

多模态模型

货拉拉CTO张浩：AI的胜负手，不在基础模型，而在「应用场」

搜狐财经· 2025-11-28 10:30

公司业务概况 - 公司为业务撮合平台，核心是连接货主与司机，业务遍及中国内地、东南亚、南美洲等全球400多个城市和地区 [7] - 平台月均有近2000万活跃用户和200万活跃司机，运营效率和用户体验是核心能力 [7] AI战略定位与路径选择 - 公司参考高盛2023年AI研报评估方法，通过岗位调研和任务拆解量化AI提效潜力，确定生成式AI将率先在高数据密度、人力密集型领域引发生产力革命 [7] - 初期投入资源研发货运行业垂类大模型，但最终调整方向，认识到基础大模型应由行业和大厂提供，而企业自身的AI应用平台建设更为重要 [8][9][10] - 公司花费一年多时间构建了三个核心AI平台：海豚平台（面向算法开发者）、悟空平台（支持非专业人士快速搭建智能体应用）和评测标注平台 [10][14][15] AI平台核心功能 - 悟空平台具备可视化流程编排、0代码智能构建能力，支持通过自然语言构建基本智能体，并建设企业级工具库 [10][13] - 海豚平台为算法工程师提供从数据训练、模型开发到上线维护的全生命周期一站式管理，旨在提升开发效率 [14][15] - 评测标注平台通过标注AB试验平台和拉拉智评等工具，重点提升模型PK和AB试验分流的完善度，确保上线结果可靠可重复 [15] AI具体应用场景与成效 - 在业务安全防控方面，通过大模型结合语音、图像等非结构化数据进行实时检测和干预，使危险品运输和违规载人的风险订单量下降30%，订单提醒率达到100% [16] - AI Coding在个体和团队中的使用率达到90%，研发流程渗透率达60%，但目前估算整体工作效率提升约为10% [17][18][19] - 产品体验创新包括“拍货选车”功能，通过AI点云分割计算货物体积并匹配车型，推荐过程仅需10秒钟 [20] - 利用大语言模型分析用户反馈，能精准捕捉如“开发票效率低”等以往易被忽略的信息 [20] - 构建AI产品知识专家系统，整合公司PRD文档、代码仓库等资料，解决历史知识垃圾和跨部门协作问题 [21] - 通过大语言模型优化短信内容，简化冗长表达，一年节省短信成本约12%，并提升风险合规预测能力 [22] AI数字人应用 - 开发AI+ASR+LDM+TTS三维串联的AI业务伙伴，通过热词运营和声学模型优化，语义识别准确率达94% [23][24] - 通过带口音的音色调整，使AI数字人的真人度达到92%，并利用大语言模型进行问题改写和场景路由，提升问题解决率和准确率 [24] 行业影响与未来展望 - 在当前以服务为主体的O2O行业（如电商、货运），AI的核心作用在于增收和降本，其提效能力被认为尚处于边缘，约在5%-10% [25] - 未来发展方向包括推进多模态模型方案，实现ASR、LLM、TTS的端到端单模型整合，并计划通过多个数字人协同提升整体企业流程效率 [25][26] - 长期期望是通过端到端大模型助手，对智能选车、智能填单以及内部运营、答疑等环节带来更大提效，进一步提升用户体验 [26]

企业智能体

多模态模型

企业智能体

多模态模型

粤开市场日报-20251118

粤开证券· 2025-11-18 07:42

核心观点 - 报告为2025年11月18日的A股市场复盘，指出主要指数多数收跌，市场呈现结构性分化，科技与传媒板块领涨，而传统周期板块大幅回调[1] 市场整体表现 - 沪指跌0.81%，收报3939.81点，深证成指跌0.92%，收报13080.49点，创业板指跌1.16%，收报3069.22点，科创50逆势上涨0.29%，收报1357.93点[1] - 市场个股普跌，1274只个股上涨，4103只个股下跌，67只个股收平[1] - 沪深两市成交额合计19261亿元，较上个交易日放量153亿元[1] 行业板块表现 - 申万一级行业中传媒、计算机、电子涨幅居前，分别上涨1.60%、0.93%、0.12%[1] - 煤炭、电力设备、钢铁、有色金属、基础化工等行业领跌，跌幅分别为3.17%、2.97%、2.85%、2.80%、2.67%[1] 概念板块表现 - 拼多多合作商、小红书平台、WEB3.0、Kimi、抖音豆包、多模态模型、网红经济、操作系统、虚拟人、智能体、ChatGPT、AIGC、医保支付改革、直播带货、中文语料库等概念板块涨幅居前[2] - 锂电正极、锂电负极、磷酸铁锂电池、两岸融合、锂电池、固态电池、氟化工、化学原料、精选储能、宁德时代产业链、铝产业、钴矿、煤炭开采、精选钒电池、高送转等概念板块跌幅居前[12]

拼多多合作商

小红书平台

多模态模型

拼多多合作商

小红书平台

多模态模型

人工智能系列谈丨AI时代的机遇与挑战：从科技创新到行业应用

新华社· 2025-11-18 06:34

文章核心观点 - 人工智能发展进入“下半场”，重心从技术突破转向产业落地和场景赋能 [2][5] - 2025年是“AI+”行动全面铺开的关键年，政策提供强劲支持 [2] - 企业拥抱AI需遵循识别、定义、执行、适配的四步方法论 [8][9] AI发展历程与现状 - 人工智能历经70余年发展，从1956年达特茅斯会议提出概念，经历专家系统、机器学习到深度学习的根本转变 [3] - 2017年Transformer架构的提出奠定了当代大模型的理论基础 [5] - 大模型发展存在两大关键限制：庞大的训练成本和上下文窗口对性能的影响 [5] AI下半场的核心趋势 - 第一大趋势：模型推理调用频率与能源消耗将快速超越训练阶段，能源需求重心转移 [6] - 第二大趋势：行业发展重心从训练侧转向推理侧，模型参数规模从千亿级拓展至万亿级 [6] - 第三大趋势：AI需求从对话交互升级为解决现实问题，智能体应用普及率目标到2027年超70% [7] - 第四大趋势：多模态模型快速发展，语音、图像、视频等数据是AI深入认知世界的关键 [7] 企业应用AI的方法论 - 第一步是识别：精准定位业务场景痛点，利用大模型在语言及泛翻译类任务上的原生能力快速落地 [8] - 第二步是定义：清晰界定AI落地的核心价值，建立可量化的衡量标准 [8] - 第三步是快速推进落地执行，将规划转化为实际成果 [8] - 第四步是适配新型工具，重构生产关系，推动AI数字人与人类员工高效协同 [9] AI与人类的比较 - 人脑具备持续学习能力，而大模型的学习与使用过程分离，参数权重固定后不会动态更新 [10] - 人脑能耗极低，仅需约20瓦电力，训练GPT-4的电力消耗高达20-25兆瓦，是人脑能耗的100万倍 [11] - 关于AI是否具备共情能力、自主意识及创造力等命题仍需持续探索 [12]

大语言模型

多模态模型

慢思考模式

大语言模型

多模态模型

慢思考模式

IDC：2025上半年中国视频云市场规模达52.3亿美元同比增长8.9%

智通财经网· 2025-11-18 05:52

市场总体表现 - 2025上半年中国视频云市场规模达到52.3亿美元，同比增长8.9%，止跌回升 [1] - 音视频AI实时互动与智能媒体生产等AI细分场景半年市场规模达四千万美元，同比实现大三位数增长 [1] - 视频云基础设施市场规模为41.8亿美元，解决方案市场规模为10.6亿美元 [6] 市场增长驱动力 - 头部短视频与直播电商平台客户降本空间已完全释放，视频云服务需求企稳回升 [1] - 视频云出海需求持续增长，短剧发行、带货电商、泛娱乐直播、游戏连麦、顶级赛事与活动直播成为核心驱动力 [5] - 新兴AI社交、娱乐应用等多点爆发，多模态模型视频生成快速渗透至互联网电商、游戏、音视频客户内容生产场景 [1] AI技术融合与创新 - 多模态大模型与实时音视频（RTC）服务融合，电话客服、在线教育等场景引入大模型作为交互对象，AI陪伴与社交应用崛起 [4] - AIGC视频融合线上视频工具改写媒体生产流程，实现字幕快速替换、智能口型匹配、换脸及360度实时回放等功能 [4] - 视频云产品服务作为连接消费者与大模型的核心支撑架构，其演进将提升音视频内容体验、交互方式与生产流程 [12] 细分市场构成 - 视频云解决方案市场中，视频直播、音视频通信云服务、视频点播、视频生产与管理规模分别达到5.4亿、1.3亿、1.5亿、0.8亿美元 [6] 行业竞争格局 - 视频直播云服务市场前五名厂商（腾讯云、阿里云、华为云、火山引擎、金山云）合计市场份额为67.3%，环比提升 [6] - 音视频通信云服务市场前五名厂商（声网、腾讯云、即构科技、火山引擎、阿里云）合计市场份额为80.9%，环比持平 [8] - 视频点播云服务（不含基础带宽）市场前五名厂商（阿里云、腾讯云、火山引擎、金山云、华为云）合计市场份额为68.4%，环比提升 [10] 未来发展趋势 - 在不同场景中探索使用AI大模型或多模态模型将成为整个视频云行业的长期主题 [12] - 视频云服务商在边缘节点资源、网络连接与调度体系、配套SDK等领域建立的壁垒和差异化经验，将成为未来AI+音视频场景中的核心影响因素 [12]

多模态模型

Cloud Computing

音视频通信云服务

视频直播云服务

多模态模型

Cloud Computing

音视频通信云服务

视频直播云服务

中国曾经也有一家“OpenAI”

虎嗅APP· 2025-11-16 09:08

智源研究院的战略定位与模式 - 智源研究院是一家非营利性研究机构，拒绝成立商业化子公司，坚持其非营利的纯粹性[5][14][16] - 该机构通过“成果孵化”模式支持内部人才创业，并提供学术与资源支持，已孵化出智谱AI和月之暗面等公司，二者估值均达约300亿元人民币[5][13] - 智源形成了“科研—孵化—成果转化”的闭环体系，通过早期孵化和后期股权退出获得造血能力，以维持研究的长期独立性[15] 研究方向从“悟道”到“悟界”的转变 - 智源的研究重点已从大语言模型（“悟道”系列）转向多模态模型（“悟界”系列），因大语言模型技术路径已收敛，而多模态路线尚未确定[5][6] - 2024年10月发布了EMU3.5世界模型，该模型具备Scaling范式的潜力，但尚未达到真正的“Aha Moment”，因此版本号为3.5而非4[7][8][25] - EMU3.5的参数量约为三百多亿，相当于语言模型GPT-3.5之前的水平，接近多模态领域的“ChatGPT时刻”[25] 多模态模型的技术路径与核心理念 - 多模态模型EMU3.5模拟人类智能构建过程，主张智能应通过视觉、听觉等多模态感知长期学习而来，而非从文本开始[21][24] - 模型使用海量视频数据训练，在视觉、语言、时间、空间等多维度联合学习，实验显示随着数据量增加，多模态理解能力显著提升[23][24] - 当前EMU3.5仅使用不到全网1%的视频数据，参数量远未达上限，若算力和资源增加十倍，有望训练出下一代模型[25][26] Scaling范式的进展与挑战 - EMU3.5已展现出明确的Scaling趋势，即数据量、参数量与性能之间存在正相关，但尚未形式化为可定量关系的Scaling Law[27][28][29] - 从EMU3到EMU3.5的研发周期约一年，期间重点解决了自回归架构误差累积、视觉token表达方式等核心技术问题[31] - 多模态模型的Scaling范式已被验证可行，但后续更大规模的数据和算力投入更适合企业或资本推动[26] 人才组织与文化吸引力 - 高人才密度组织的共性是使命愿景驱动和价值观一致，早期OpenAI和智源均靠此凝聚顶尖研究者[11][12] - 智源能吸引放弃大厂高薪的研究员，因其提供长期科研价值的工作环境，筛掉只追求物质回报的人，留下技术信仰者[12][13] - 机构鼓励科研人员自由流动、创业或去企业，只要延续其技术路线，这种开放性被视为保持机构生命力的关键[18]

Artificial Intelligence

多模态模型

Artificial Intelligence

EMU3.5世界模型

Artificial Intelligence

多模态模型

Artificial Intelligence

EMU3.5世界模型

ETF总规模增至5.74万亿元年内新发产品突破300只

证券日报· 2025-11-09 16:16

ETF市场整体表现 - ETF总份额达3.16万亿份，较去年年底增加5085.59亿份，涨幅19.17% [1] - ETF总规模达5.74万亿元，较去年年底增加20039.19亿元，涨幅53.7% [1] - 年内新发产品300余只，ETF总量达1354只 [1] 单只产品与重点类别表现 - 年内规模增长超过100亿元的ETF有69只 [1] - 富国港股通互联网ETF年内规模增加626.54亿元，工银瑞信基金港股通科技30ETF年内规模增加近300亿元 [1] - 华夏恒生科技指数ETF、华泰柏瑞恒生科技ETF等10余只产品年内新增规模均超过100亿元 [1] 规模增长驱动因素 - 科技类等资产吸引力提升以及新发产品贡献度较明显 [2] - 年内新发ETF发行份额近2500亿份，为总规模增长提供明显助力 [2] 新发产品结构 - 新发产品中股票型基金有277只，发行份额超过1500亿份 [2] - 债券型基金有32只，发行份额超900亿份 [2] - 年内新发ETF多以权益类产品为主，反映出投资者看好权益类资产表现 [2] 科技行业前景与投资逻辑 - 科技产业仍将处于中国经济发展的重要位置，为大模型、软件应用等细分赛道提供长期发展动能 [2] - 网络安全、量子计算等其他细分产业方向，也有望迎来政策利好 [2] - 半导体板块变化围绕两个方向：存储周期向上受模型推理需求变化推动；多模态模型和应用显著发展 [2] - 未来需重点聚焦半导体产业细分领域变化，例如模型本身的变化和推理任务的多样化、供应链各个环节的节奏协调与资源分配 [2] 其他主题与市场动态 - 高端制造和周期行业景气度上行，叠加政策支持产业升级，驱动资金流向机器人等主题基金 [2] - 投资者通过行业ETF捕捉结构性机会 [2] - 基金公司产品结构优化提升市场认可度，资金主动增配意愿明显 [2]

多模态模型

多模态模型

智源研究院王仲远：世界模型的关键是真正预测下一个状态

经济观察网· 2025-11-01 10:51

世界模型成为AI新焦点 - 2025年“世界模型”成为AI领域最受关注的词汇之一其核心是让AI理解世界运作规律实现从识别生成到想象预测的跨越 [2] - 随着大模型红利减弱行业正寻找新增长点世界模型被视为重要方向 [2] 智源研究院Emu3.5模型技术突破 - 智源研究院发布悟界·Emu3.5多模态世界大模型采用自回归架构统一了图像文本与视频的生成和理解能够预测下一个状态 [2] - 模型基于超过10万亿token的多模态数据训练视频数据累计时长达790年参数规模为340亿 [3] - 通过“离散扩散自适应”推理方法图像生成速度提升近20倍同时保持高质量输出 [3] - 模型在三个维度实现突破理解高层级人类意图并生成多步骤行动路径动态模拟物理世界提供泛化交互能力 [3] 世界模型的核心价值与应用 - 世界模型核心是对因果与物理规律的理解而非简单的视频生成 [3] - Emu3.5不限定用途既可支撑具身智能也能生成多模态训练数据展示了中国科研团队的原创路线 [4] - 未来AI的发展方向是理解世界本身并在其中行动 [4] 行业巨头布局世界模型 - DeepMind推出可生成交互式3D世界的Genie 3 OpenAI强化Sora的物理一致性 [2] - 英伟达华为百度等公司正从机器人与自动驾驶场景切入让AI从看懂迈向参与 [2]

多模态模型

Artificial Intelligence

多模态模型

Artificial Intelligence

“100个国产Sora2已经在路上”

投中网· 2025-11-01 07:03

行业融资动态 - LiblibAI完成1.3亿美元B轮融资，为2025年至今国内AI应用领域最大规模单笔融资，由红杉中国、CMC资本及某战略投资方联合领投[3] - 爱诗科技完成1亿元人民币B+轮融资，由复星锐正、同创伟业、顺禧基金等共同投资，距离上一轮6000万美元B轮融资仅隔40天，两轮累计融资超5.2亿元[3] - 爱诗科技旗下产品PixVerse与拍我AI用户规模突破一亿，年度经常性收入超过4000万美元[3] - 生数科技宣布完成数亿元人民币规模的A轮融资，由博华资本领投，百度战投等老股东持续跟投[10] 技术突破与产品进展 - OpenAI发布Sora2视频生成模型，实现物理模拟精确度、画面逼真度、生成可控性的质的飞跃，支持语音、音效与人物口型精准同步[4][7] - Sora2首次实现通用视频与音频生成系统，能生成高真实感视觉内容并合成环境声、语音与音效[7] - 同步推出社交应用SoraApp，支持用户一键生成视频、Remix他人作品、上传人像Cameo客串，首周iOS下载量达62.7万次，高于ChatGPT首周的60.6万次[4][7][8] - Sand.ai上线音画同步视频模型GAGA-1，生成视频自带声音、音效和情绪，质感与电视剧片段相似[8] - 爱诗科技产品MAU超过1600万，商业化不到一年收入增长超过10倍[9] - 生数科技平台累计生成视频数量超过3亿条，商业化8个月ARR突破2000万美元[10] 市场竞争格局 - 中国AI视频领域出现多家竞争者，包括生数科技、Minimax、快手的可灵、字节的Seed等[10] - 字节跳动被视为中国AI视频创业者的主要竞争对手，爱诗科技和Liblib两家头部公司创始人均出自字节[10] - 谷歌推出Veo3.1与Veo3.1Fast正面迎战OpenAI，百度宣布视频生成模型百度蒸汽机升级支持AI长视频实时交互生成[8] 行业趋势与认知 - Sora2被定义为视频领域的"GPT-3.5时刻"，展示模型能讲故事的能力，语言模型的智能正向多模态模型扩散[6][7][13] - 模型能力被视为核心竞争优势，应用公司摸索的有效功能可能只是帮助模型公司明确优化方向[13] - AI视频从工具向社区演进，可能出现新的社区物种，内容供给侧爆发和UGC文化变化带来机会[16][17] - 企业需将业务理解内化进模型，模型本身成为价值交付者，对团队科研、产品与商业化能力要求极高[14]

多模态模型

多模态模型