Workflow
多模态模型
icon
搜索文档
商汤发布NEO架构 重新定义多模态模型效能边界
证券日报· 2025-12-02 06:13
文章核心观点 - 商汤集团正式发布并开源了全新的原生多模态模型架构NEO 该架构从底层设计打破了传统模块化范式的限制 通过深层次融合实现了性能 效率和通用性的整体突破 标志着人工智能多模态技术迈入“原生架构”新时代 [2] - NEO架构旨在解决当前主流多模态模型“拼凑”式设计的痛点 其设计“专为多模态而生” 实现了核心架构层面的多模态深层融合 重新定义了模型的效能边界 [2] - 商汤致力于通过开源协作与场景落地双轮驱动 将NEO打造为下一代可扩展 可复用的AI基础设施 以推动原生多模态技术从实验室走向广泛的产业化应用 并加速构建下一代产业级技术标准 [3] 行业技术背景与现状 - 当前业内主流的多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式 本质上仍以语言为中心 图像与语言的融合仅停留在数据层面 [2] - 这种基于大语言模型(LLM)的扩展方式 虽然实现了图像输入的兼容 但“拼凑”式的设计学习效率低下 且限制了模型在复杂多模态场景(如图像细节捕捉或复杂空间结构理解)下的处理能力 [2] 公司技术发展路径与成果 - 早在2024年下半年 商汤便在国内率先突破多模态原生融合训练技术 并以单一模型在SuperCLUE语言评测和OpenCompass多模态评测中夺冠 [3] - 基于上述核心技术 商汤打造了日日新SenseNova 6.0 实现了多模态推理能力领先 [3] - 2025年7月 公司发布日日新SenseNova 6.5 通过实现编码器层面的早期融合 把多模态模型性价比提升3倍 并在国内率先推出商用级别的图文交错推理 [3] - 此次发布的NEO架构彻底摒弃了传统模块化结构 是从零设计的原生架构 为日日新SenseNova多模态模型奠定了新一代架构的基石 [2][3] 开源与产业化战略 - 商汤已正式开源基于NEO架构的2B与9B两种规格模型 以推动开源社区在原生多模态架构上的创新与应用 [3] - 公司计划通过开源协作与场景落地双轮驱动 加速构建下一代产业级原生多模态技术标准 [3]
超700亿!加仓
中国基金报· 2025-12-01 05:43
股票ETF市场整体概况 - 截至11月28日,全市场1268只股票ETF总规模达4.55万亿元 [4] - 11月28日股票ETF成交额合计1421.21亿元,较前一交易日1777.47亿元缩量超350亿元 [4] - 11月份股票ETF整体大幅净流入超700亿元,但11月28日单日出现净流出44亿元 [2][7][10] 单日市场表现与资金流向 - 11月28日A股市场低开高走,三大指数集体收涨,沪深两市成交量缩至1.59万亿元 [2] - 当日股票ETF市场总份额减少35.43亿份,净流出资金接近44亿元,仅12只股票ETF净流入超1亿元 [7][8] - 从全市场ETF看,11月28日债券ETF与策略风格ETF净流入居前,分别达6.59亿元与4.25亿元;行业主题ETF净流出居前,达39.49亿元 [8] - 资金流入前5板块分别为红利(净流入5.8亿元)、上证50指数(净流入4.0亿元)、创业板(净流入3.0亿元)、黄金(净流入2.5亿元)、恒生科技(净流入2.3亿元) [8] 板块表现与领涨ETF - 科创半导体板块领涨,油气资源ETF以3.49%涨幅居首,多只科创半导体ETF、半导体设备ETF及卫星ETF涨幅靠前 [4][6] - 稀有金属ETF表现强劲,嘉实、广发、工银瑞信、华富旗下稀有金属ETF单日涨幅均超2% [5][6] - 易方达基金旗下A500ETF当日成交56.37亿元位居首位,多只A500ETF及行业主题ETF成交额在30亿元以上 [4] 资金净流入/流出具体产品 - 资金净流入前列:上证50ETF净流入4.17亿元、中证500ETF净流入2.93亿元、港股央企红利ETF净流入2.65亿元 [9] - 资金净流出前列:证券ETF净流出6.54亿元、银行ETF净流出4.28亿元、创业板人工智能ETF净流出3.87亿元 [10] - 宽基ETF中A500ETF易方达净流出3.43亿元、科创50ETF净流出3.37亿元、沪深300ETF净流出2.75亿元 [10] 月度资金流向与热门板块 - 11月份恒生科技相关ETF获得资金青睐,合计净流入接近200亿元 [2][10] - 恒生互联网、港股通非银、创业板人工智能、机器人、券商等板块月度资金净流入也较多 [10] 头部基金公司动态 - 易方达基金ETF最新规模为8055.3亿元,2025年以来规模增加2048.8亿元 [12] - 华夏基金旗下上证50ETF和港股央企红利ETF单日净流入居前,分别达4.17亿元和2.65亿元 [12] - 易方达基金旗下多只产品持续净流入,恒生红利低波ETF最新规模达61亿元创成立以来新高 [12]
货拉拉CTO张浩:AI的胜负手,不在基础模型,而在「应用场」
搜狐财经· 2025-11-28 10:30
公司业务概况 - 公司为业务撮合平台,核心是连接货主与司机,业务遍及中国内地、东南亚、南美洲等全球400多个城市和地区 [7] - 平台月均有近2000万活跃用户和200万活跃司机,运营效率和用户体验是核心能力 [7] AI战略定位与路径选择 - 公司参考高盛2023年AI研报评估方法,通过岗位调研和任务拆解量化AI提效潜力,确定生成式AI将率先在高数据密度、人力密集型领域引发生产力革命 [7] - 初期投入资源研发货运行业垂类大模型,但最终调整方向,认识到基础大模型应由行业和大厂提供,而企业自身的AI应用平台建设更为重要 [8][9][10] - 公司花费一年多时间构建了三个核心AI平台:海豚平台(面向算法开发者)、悟空平台(支持非专业人士快速搭建智能体应用)和评测标注平台 [10][14][15] AI平台核心功能 - 悟空平台具备可视化流程编排、0代码智能构建能力,支持通过自然语言构建基本智能体,并建设企业级工具库 [10][13] - 海豚平台为算法工程师提供从数据训练、模型开发到上线维护的全生命周期一站式管理,旨在提升开发效率 [14][15] - 评测标注平台通过标注AB试验平台和拉拉智评等工具,重点提升模型PK和AB试验分流的完善度,确保上线结果可靠可重复 [15] AI具体应用场景与成效 - 在业务安全防控方面,通过大模型结合语音、图像等非结构化数据进行实时检测和干预,使危险品运输和违规载人的风险订单量下降30%,订单提醒率达到100% [16] - AI Coding在个体和团队中的使用率达到90%,研发流程渗透率达60%,但目前估算整体工作效率提升约为10% [17][18][19] - 产品体验创新包括“拍货选车”功能,通过AI点云分割计算货物体积并匹配车型,推荐过程仅需10秒钟 [20] - 利用大语言模型分析用户反馈,能精准捕捉如“开发票效率低”等以往易被忽略的信息 [20] - 构建AI产品知识专家系统,整合公司PRD文档、代码仓库等资料,解决历史知识垃圾和跨部门协作问题 [21] - 通过大语言模型优化短信内容,简化冗长表达,一年节省短信成本约12%,并提升风险合规预测能力 [22] AI数字人应用 - 开发AI+ASR+LDM+TTS三维串联的AI业务伙伴,通过热词运营和声学模型优化,语义识别准确率达94% [23][24] - 通过带口音的音色调整,使AI数字人的真人度达到92%,并利用大语言模型进行问题改写和场景路由,提升问题解决率和准确率 [24] 行业影响与未来展望 - 在当前以服务为主体的O2O行业(如电商、货运),AI的核心作用在于增收和降本,其提效能力被认为尚处于边缘,约在5%-10% [25] - 未来发展方向包括推进多模态模型方案,实现ASR、LLM、TTS的端到端单模型整合,并计划通过多个数字人协同提升整体企业流程效率 [25][26] - 长期期望是通过端到端大模型助手,对智能选车、智能填单以及内部运营、答疑等环节带来更大提效,进一步提升用户体验 [26]
粤开市场日报-20251118
粤开证券· 2025-11-18 07:42
核心观点 - 报告为2025年11月18日的A股市场复盘,指出主要指数多数收跌,市场呈现结构性分化,科技与传媒板块领涨,而传统周期板块大幅回调[1] 市场整体表现 - 沪指跌0.81%,收报3939.81点,深证成指跌0.92%,收报13080.49点,创业板指跌1.16%,收报3069.22点,科创50逆势上涨0.29%,收报1357.93点[1] - 市场个股普跌,1274只个股上涨,4103只个股下跌,67只个股收平[1] - 沪深两市成交额合计19261亿元,较上个交易日放量153亿元[1] 行业板块表现 - 申万一级行业中传媒、计算机、电子涨幅居前,分别上涨1.60%、0.93%、0.12%[1] - 煤炭、电力设备、钢铁、有色金属、基础化工等行业领跌,跌幅分别为3.17%、2.97%、2.85%、2.80%、2.67%[1] 概念板块表现 - 拼多多合作商、小红书平台、WEB3.0、Kimi、抖音豆包、多模态模型、网红经济、操作系统、虚拟人、智能体、ChatGPT、AIGC、医保支付改革、直播带货、中文语料库等概念板块涨幅居前[2] - 锂电正极、锂电负极、磷酸铁锂电池、两岸融合、锂电池、固态电池、氟化工、化学原料、精选储能、宁德时代产业链、铝产业、钴矿、煤炭开采、精选钒电池、高送转等概念板块跌幅居前[12]
人工智能系列谈丨AI时代的机遇与挑战:从科技创新到行业应用
新华社· 2025-11-18 06:34
文章核心观点 - 人工智能发展进入“下半场”,重心从技术突破转向产业落地和场景赋能 [2][5] - 2025年是“AI+”行动全面铺开的关键年,政策提供强劲支持 [2] - 企业拥抱AI需遵循识别、定义、执行、适配的四步方法论 [8][9] AI发展历程与现状 - 人工智能历经70余年发展,从1956年达特茅斯会议提出概念,经历专家系统、机器学习到深度学习的根本转变 [3] - 2017年Transformer架构的提出奠定了当代大模型的理论基础 [5] - 大模型发展存在两大关键限制:庞大的训练成本和上下文窗口对性能的影响 [5] AI下半场的核心趋势 - 第一大趋势:模型推理调用频率与能源消耗将快速超越训练阶段,能源需求重心转移 [6] - 第二大趋势:行业发展重心从训练侧转向推理侧,模型参数规模从千亿级拓展至万亿级 [6] - 第三大趋势:AI需求从对话交互升级为解决现实问题,智能体应用普及率目标到2027年超70% [7] - 第四大趋势:多模态模型快速发展,语音、图像、视频等数据是AI深入认知世界的关键 [7] 企业应用AI的方法论 - 第一步是识别:精准定位业务场景痛点,利用大模型在语言及泛翻译类任务上的原生能力快速落地 [8] - 第二步是定义:清晰界定AI落地的核心价值,建立可量化的衡量标准 [8] - 第三步是快速推进落地执行,将规划转化为实际成果 [8] - 第四步是适配新型工具,重构生产关系,推动AI数字人与人类员工高效协同 [9] AI与人类的比较 - 人脑具备持续学习能力,而大模型的学习与使用过程分离,参数权重固定后不会动态更新 [10] - 人脑能耗极低,仅需约20瓦电力,训练GPT-4的电力消耗高达20-25兆瓦,是人脑能耗的100万倍 [11] - 关于AI是否具备共情能力、自主意识及创造力等命题仍需持续探索 [12]
IDC:2025上半年中国视频云市场规模达52.3亿美元 同比增长8.9%
智通财经网· 2025-11-18 05:52
市场总体表现 - 2025上半年中国视频云市场规模达到52.3亿美元,同比增长8.9%,止跌回升 [1] - 音视频AI实时互动与智能媒体生产等AI细分场景半年市场规模达四千万美元,同比实现大三位数增长 [1] - 视频云基础设施市场规模为41.8亿美元,解决方案市场规模为10.6亿美元 [6] 市场增长驱动力 - 头部短视频与直播电商平台客户降本空间已完全释放,视频云服务需求企稳回升 [1] - 视频云出海需求持续增长,短剧发行、带货电商、泛娱乐直播、游戏连麦、顶级赛事与活动直播成为核心驱动力 [5] - 新兴AI社交、娱乐应用等多点爆发,多模态模型视频生成快速渗透至互联网电商、游戏、音视频客户内容生产场景 [1] AI技术融合与创新 - 多模态大模型与实时音视频(RTC)服务融合,电话客服、在线教育等场景引入大模型作为交互对象,AI陪伴与社交应用崛起 [4] - AIGC视频融合线上视频工具改写媒体生产流程,实现字幕快速替换、智能口型匹配、换脸及360度实时回放等功能 [4] - 视频云产品服务作为连接消费者与大模型的核心支撑架构,其演进将提升音视频内容体验、交互方式与生产流程 [12] 细分市场构成 - 视频云解决方案市场中,视频直播、音视频通信云服务、视频点播、视频生产与管理规模分别达到5.4亿、1.3亿、1.5亿、0.8亿美元 [6] 行业竞争格局 - 视频直播云服务市场前五名厂商(腾讯云、阿里云、华为云、火山引擎、金山云)合计市场份额为67.3%,环比提升 [6] - 音视频通信云服务市场前五名厂商(声网、腾讯云、即构科技、火山引擎、阿里云)合计市场份额为80.9%,环比持平 [8] - 视频点播云服务(不含基础带宽)市场前五名厂商(阿里云、腾讯云、火山引擎、金山云、华为云)合计市场份额为68.4%,环比提升 [10] 未来发展趋势 - 在不同场景中探索使用AI大模型或多模态模型将成为整个视频云行业的长期主题 [12] - 视频云服务商在边缘节点资源、网络连接与调度体系、配套SDK等领域建立的壁垒和差异化经验,将成为未来AI+音视频场景中的核心影响因素 [12]
中国曾经也有一家“OpenAI”
虎嗅APP· 2025-11-16 09:08
智源研究院的战略定位与模式 - 智源研究院是一家非营利性研究机构,拒绝成立商业化子公司,坚持其非营利的纯粹性[5][14][16] - 该机构通过“成果孵化”模式支持内部人才创业,并提供学术与资源支持,已孵化出智谱AI和月之暗面等公司,二者估值均达约300亿元人民币[5][13] - 智源形成了“科研—孵化—成果转化”的闭环体系,通过早期孵化和后期股权退出获得造血能力,以维持研究的长期独立性[15] 研究方向从“悟道”到“悟界”的转变 - 智源的研究重点已从大语言模型(“悟道”系列)转向多模态模型(“悟界”系列),因大语言模型技术路径已收敛,而多模态路线尚未确定[5][6] - 2024年10月发布了EMU3.5世界模型,该模型具备Scaling范式的潜力,但尚未达到真正的“Aha Moment”,因此版本号为3.5而非4[7][8][25] - EMU3.5的参数量约为三百多亿,相当于语言模型GPT-3.5之前的水平,接近多模态领域的“ChatGPT时刻”[25] 多模态模型的技术路径与核心理念 - 多模态模型EMU3.5模拟人类智能构建过程,主张智能应通过视觉、听觉等多模态感知长期学习而来,而非从文本开始[21][24] - 模型使用海量视频数据训练,在视觉、语言、时间、空间等多维度联合学习,实验显示随着数据量增加,多模态理解能力显著提升[23][24] - 当前EMU3.5仅使用不到全网1%的视频数据,参数量远未达上限,若算力和资源增加十倍,有望训练出下一代模型[25][26] Scaling范式的进展与挑战 - EMU3.5已展现出明确的Scaling趋势,即数据量、参数量与性能之间存在正相关,但尚未形式化为可定量关系的Scaling Law[27][28][29] - 从EMU3到EMU3.5的研发周期约一年,期间重点解决了自回归架构误差累积、视觉token表达方式等核心技术问题[31] - 多模态模型的Scaling范式已被验证可行,但后续更大规模的数据和算力投入更适合企业或资本推动[26] 人才组织与文化吸引力 - 高人才密度组织的共性是使命愿景驱动和价值观一致,早期OpenAI和智源均靠此凝聚顶尖研究者[11][12] - 智源能吸引放弃大厂高薪的研究员,因其提供长期科研价值的工作环境,筛掉只追求物质回报的人,留下技术信仰者[12][13] - 机构鼓励科研人员自由流动、创业或去企业,只要延续其技术路线,这种开放性被视为保持机构生命力的关键[18]
ETF总规模增至5.74万亿元 年内新发产品突破300只
证券日报· 2025-11-09 16:16
ETF市场整体表现 - ETF总份额达3.16万亿份,较去年年底增加5085.59亿份,涨幅19.17% [1] - ETF总规模达5.74万亿元,较去年年底增加20039.19亿元,涨幅53.7% [1] - 年内新发产品300余只,ETF总量达1354只 [1] 单只产品与重点类别表现 - 年内规模增长超过100亿元的ETF有69只 [1] - 富国港股通互联网ETF年内规模增加626.54亿元,工银瑞信基金港股通科技30ETF年内规模增加近300亿元 [1] - 华夏恒生科技指数ETF、华泰柏瑞恒生科技ETF等10余只产品年内新增规模均超过100亿元 [1] 规模增长驱动因素 - 科技类等资产吸引力提升以及新发产品贡献度较明显 [2] - 年内新发ETF发行份额近2500亿份,为总规模增长提供明显助力 [2] 新发产品结构 - 新发产品中股票型基金有277只,发行份额超过1500亿份 [2] - 债券型基金有32只,发行份额超900亿份 [2] - 年内新发ETF多以权益类产品为主,反映出投资者看好权益类资产表现 [2] 科技行业前景与投资逻辑 - 科技产业仍将处于中国经济发展的重要位置,为大模型、软件应用等细分赛道提供长期发展动能 [2] - 网络安全、量子计算等其他细分产业方向,也有望迎来政策利好 [2] - 半导体板块变化围绕两个方向:存储周期向上受模型推理需求变化推动;多模态模型和应用显著发展 [2] - 未来需重点聚焦半导体产业细分领域变化,例如模型本身的变化和推理任务的多样化、供应链各个环节的节奏协调与资源分配 [2] 其他主题与市场动态 - 高端制造和周期行业景气度上行,叠加政策支持产业升级,驱动资金流向机器人等主题基金 [2] - 投资者通过行业ETF捕捉结构性机会 [2] - 基金公司产品结构优化提升市场认可度,资金主动增配意愿明显 [2]
智源研究院王仲远:世界模型的关键是真正预测下一个状态
经济观察网· 2025-11-01 10:51
世界模型成为AI新焦点 - 2025年“世界模型”成为AI领域最受关注的词汇之一 其核心是让AI理解世界运作规律 实现从识别生成到想象预测的跨越 [2] - 随着大模型红利减弱 行业正寻找新增长点 世界模型被视为重要方向 [2] 智源研究院Emu3.5模型技术突破 - 智源研究院发布悟界·Emu3.5多模态世界大模型 采用自回归架构统一了图像 文本与视频的生成和理解 能够预测下一个状态 [2] - 模型基于超过10万亿token的多模态数据训练 视频数据累计时长达790年 参数规模为340亿 [3] - 通过“离散扩散自适应”推理方法 图像生成速度提升近20倍 同时保持高质量输出 [3] - 模型在三个维度实现突破 理解高层级人类意图并生成多步骤行动路径 动态模拟物理世界 提供泛化交互能力 [3] 世界模型的核心价值与应用 - 世界模型核心是对因果与物理规律的理解 而非简单的视频生成 [3] - Emu3.5不限定用途 既可支撑具身智能 也能生成多模态训练数据 展示了中国科研团队的原创路线 [4] - 未来AI的发展方向是理解世界本身并在其中行动 [4] 行业巨头布局世界模型 - DeepMind推出可生成交互式3D世界的Genie 3 OpenAI强化Sora的物理一致性 [2] - 英伟达 华为 百度等公司正从机器人与自动驾驶场景切入 让AI从看懂迈向参与 [2]
“100个国产Sora2已经在路上”
投中网· 2025-11-01 07:03
行业融资动态 - LiblibAI完成1.3亿美元B轮融资,为2025年至今国内AI应用领域最大规模单笔融资,由红杉中国、CMC资本及某战略投资方联合领投[3] - 爱诗科技完成1亿元人民币B+轮融资,由复星锐正、同创伟业、顺禧基金等共同投资,距离上一轮6000万美元B轮融资仅隔40天,两轮累计融资超5.2亿元[3] - 爱诗科技旗下产品PixVerse与拍我AI用户规模突破一亿,年度经常性收入超过4000万美元[3] - 生数科技宣布完成数亿元人民币规模的A轮融资,由博华资本领投,百度战投等老股东持续跟投[10] 技术突破与产品进展 - OpenAI发布Sora2视频生成模型,实现物理模拟精确度、画面逼真度、生成可控性的质的飞跃,支持语音、音效与人物口型精准同步[4][7] - Sora2首次实现通用视频与音频生成系统,能生成高真实感视觉内容并合成环境声、语音与音效[7] - 同步推出社交应用SoraApp,支持用户一键生成视频、Remix他人作品、上传人像Cameo客串,首周iOS下载量达62.7万次,高于ChatGPT首周的60.6万次[4][7][8] - Sand.ai上线音画同步视频模型GAGA-1,生成视频自带声音、音效和情绪,质感与电视剧片段相似[8] - 爱诗科技产品MAU超过1600万,商业化不到一年收入增长超过10倍[9] - 生数科技平台累计生成视频数量超过3亿条,商业化8个月ARR突破2000万美元[10] 市场竞争格局 - 中国AI视频领域出现多家竞争者,包括生数科技、Minimax、快手的可灵、字节的Seed等[10] - 字节跳动被视为中国AI视频创业者的主要竞争对手,爱诗科技和Liblib两家头部公司创始人均出自字节[10] - 谷歌推出Veo3.1与Veo3.1Fast正面迎战OpenAI,百度宣布视频生成模型百度蒸汽机升级支持AI长视频实时交互生成[8] 行业趋势与认知 - Sora2被定义为视频领域的"GPT-3.5时刻",展示模型能讲故事的能力,语言模型的智能正向多模态模型扩散[6][7][13] - 模型能力被视为核心竞争优势,应用公司摸索的有效功能可能只是帮助模型公司明确优化方向[13] - AI视频从工具向社区演进,可能出现新的社区物种,内容供给侧爆发和UGC文化变化带来机会[16][17] - 企业需将业务理解内化进模型,模型本身成为价值交付者,对团队科研、产品与商业化能力要求极高[14]