多模态AI

搜索文档
张祥雨发现的多模态AI内耗难题,北大找到了解法
36氪· 2025-09-19 10:52
今年6月,阶跃星辰首席科学家张祥雨在访谈中谈及了他在近两年模型训练中遇到的最大困境——多模态AI的内部,一直有一场"内战"。 具体是,在大一统多模态模型训练中,视觉的"理解"与"生成"能力可以共存,却很少协作,甚至时常内耗 。在联合训练时,一方能力的提升甚至还会导 致另一方性能的下降 。 这和我们的认知完全相反。对于一个人类来讲,他对画面的理解越深入,作画也就可能更精妙。但在多模态模型中,理解和生成,二者之间没有形成有效 的"信息增益"和"相互促进"。 张祥雨对此作出的解释是,图像生成太复杂了,得有极其复杂的空间规划、物理常识和语义推理。而Transformer模型虽然强大,但它在一次前向传播中 能执行的逻辑推理步骤是有限的。你让它根据"画一个宇航员在月球骑方形轮子的自行车"这个指令,一次性生成符合所有物理、几何、语义约束的图像太 难了。 而在训练过程中,因为这种单次推理,导致梯度信号太粗糙,训练出来的理解模型根本没法给生成模型有效指导,而反向亦然,生成模块的失败,也无法 有效地帮助理解模块进步。 因此张祥雨给出的解决方法是多模态模型应该像语言推理一样,引入"思维链"(Chain-of-Thought)。让模 ...
不想被AI浪潮抛下?先识破这些致命误判
36氪· 2025-09-19 01:42
AI发展节奏与市场预期 - 市场和企业对AI短期价值存在过高期待 实际发展节奏更慢更复杂 盈利路径不清晰[1] - AI对生产力影响有限 堪萨斯城联邦储备银行研究显示其影响远低于以往技术驱动的变革[3] - 未来十年仅5%工作任务可由AI完成并盈利 对美国GDP贡献仅增加1% 与预期巨大变革相去甚远[4] 技术扩散历史规律 - 通用目的技术如电力互联网需数十年才显着影响经济 电力改造工厂设计耗时40年 互联网从1970年代存在到2000年才改写商业模式[3] - AI转型成本包括业务中断员工再培训系统整合算力 对多数组织而言成本高于收益[4] - 技术扩散受系统性障碍制约 包括陈旧系统监管障碍规避风险文化AI人才短缺采购瓶颈[5] 企业应用与实施挑战 - 企业部署AI需克服计划谬误乐观偏见近因偏见三大认知偏差 导致低估转型时间高估技术采用速度[5] - AI价值来自有目标有计划融合 而非全面迅猛颠覆 盲目押注短期成果导致资本浪费自动化项目失败人才动荡[4] - 真正优势来自克制 优先整合资源而非博人眼球 追求长期价值而非短期曝光[7] 行业竞争与商业模式 - AI公司被误判为高增长轻资产软件公司 实际资本密集成本高昂依赖基础设施 科技股交易溢价达20%至40%[7] - OpenAI 2024年营收37亿美元亏损50亿美元 估值3000亿美元相当于Facebook上市两倍谷歌上市八倍[8] - 开源模型如LLaMA Mistral DeepSeek-V3快速抢占市场份额 Meta的LLaMA 3通过社交平台覆盖超十亿用户且免费[9] 基础设施与成本结构 - Meta Alphabet亚马逊微软2024年计划合计投入3000亿美元 AI相关资本支出两年内增长40%至60%[8] - 微软2024年投入800亿美元 到2028年算力需求相当于一个国家用电需求[8] - 市场预估需1250亿美元年营收填补基础设施扩张缺口[8] 价值创造与护城河 - 真正价值不在于开发而在于应用AI 模型难以构成护城河 开源协作和政府科研推动持续同质化[11] - 通过定制化AI架构解决特定行业复杂问题创造最持久价值 如HarveyAI律师Glean办公助理Factory软件工程师Abridge医疗记录员[11] - 企业应聚焦精准应用现有模型而非自建模型 需投入应用开发系统集成数据基建工作流重构变革管理[12] 市场格局与分发优势 - 行业巨头掌握企业预算IT集成系统分发渠道 微软谷歌Salesforce只需"够用"的AI嵌入现有技术栈[14] - 微软通过将Teams整合到Office 365赢得企业市场 证明控制工作流者胜出[13] - 初创公司推动创新但缺乏分发能力 企业选择集成解决方案而非最优技术[13] 技术演进方向 - 生成式AI局限於对话模型 缺乏情境感知复杂推理实时整合多动态信息能力[15] - 多模态AI和复合型AI系统是未来方向 能处理多种输入模拟人类认知过程 如自动驾驶融合激光雷达毫米波雷达GPS实时传感器[15] - 企业应构建支持多模态集成系统的基础设施 包括数据架构灵活工作流AI治理机制[16] 投资与战略重点 - 许多公司向模型投入数十亿美元 忽视系统整合基础设施建设和真正商业价值发掘[17] - AI普及性将逐渐削弱独占性 影响力不在于谁拥有而在于如何使用[17] - 真正赢家将AI嵌入创造持久经济优势环节 如加速商业决策周期提升决策质量重新构思产品[9]
外滩大会直击|首发突破1W预定量,无界方舟发布「奇多多 AI 学伴机」
搜狐网· 2025-09-15 07:42
产品发布与市场表现 - 公司于2025年9月上海外滩大会发布国内首款搭载类OpenAI GPT-4o实时多模态大模型的AI学伴机器人"奇多多",推动AI教育硬件从玩具化转向功能化 [1] - 产品在京东平台首发预售量超10000台,后续将登陆天猫、抖音等平台,并与火山引擎、阿里云等企业合作 [1][19][20] 技术核心与创新 - 产品基于自研实时多模态模型EVA 1.0开发,该模型在多项国际基准测试中比肩GPT-4o,采用共享基座Transformer与时空联动MoE架构,实现高效多模态信息处理 [12][13] - 实现350毫秒超低延迟交互(人类对话抢话阈值为200毫秒),内置48类细粒度情绪引擎,支持动态调整表情与语音语调 [13][14] - 通过AutoFusion 4D全自动数据合成管线,每月产出超10万小时高精度情感多模态数据,成本仅为人工的1/50 [14] 产品功能特点 - 多模态交互能力:支持视觉识别(如识别棒棒糖并解释其历史)、听觉推理及跨模态逻辑推断,例如结合图像细节回答儿童提问 [3][12][13] - 苏格拉底式对话引导:通过追问激发好奇心,例如从"月亮形状"问题延伸至天文知识探索,替代机械答案输出 [7] - 情绪共情功能:识别儿童情绪并给出建议,如通过绘画缓解思念情绪或鼓励重复尝试克服挫折 [8] - 无屏阅读技术:AI识别绘本、课本等纸质材料,支持英语指读、翻译与发音指导,结合插图提问深化思维训练 [9][10] 团队背景与战略布局 - 开发团队无界方舟核心成员来自阿里、蚂蚁、字节、华为等企业,CEO曾晓东博士曾主导支付宝盒、无人超市等硬件项目 [15] - 公司计划于Q4推出EVA OS开放平台,为开发者提供多模态模型接入方案,适配具身智能机器人、智能眼镜、车载等硬件 [15] - 通过"产品+开放平台+自研模型"模式构建技术壁垒,避免硬件同质化竞争,强调长期产业价值 [16] 行业影响与定位 - 产品定位0-10岁儿童早教市场,通过个性化内容推荐(如根据偏好推送科普或英语练习)实现从标准化灌输到定制化陪伴的转型 [18][19] - 在外滩大会金融科技场景中展示AI与生活场景的深度融合,被教育专家评价为"早教变革的开端" [19][20]
LLaSO 横空出世:逻辑智能推出全球首个完全开源语音大模型框架,定义 LSLM 研究新基准
机器之心· 2025-09-14 05:16
大型语音语言模型(LSLM)行业现状 - 大型语音语言模型(LSLM)的发展零散且步调缓慢,长期被碎片化架构、不透明训练数据和缺失的评估标准所困扰,导致研究难以公平比较,技术可复现性和社区进步受阻 [2] - 与视觉语言模型(LVLM)领域已形成CLIP编码器+LLaVA范式的成熟生态相比,LSLM研究面临四大核心挑战:架构路径分化严重、训练数据严重私有化、任务覆盖局限性明显、交互模态单一化 [7][8][9] - 主流LSLM如Qwen-Audio、Kimi-Audio等均依赖私有数据训练,数据规模、质量、构成等关键信息不透明,使得性能归因模糊且研究门槛高 [8][12] LLaSO框架的核心贡献 - 北京深度逻辑智能科技有限公司推出LLaSO,作为首个完全开放、端到端的语音语言模型研究框架,旨在为社区提供统一、透明且可复现的基础设施 [3][5] - LLaSO框架包含三大核心开源组件:LLaSO-Align(1200万语音-文本对齐样本)、LLaSO-Instruct(1350万多任务指令样本)、LLaSO-Eval(标准化评估基准) [14][15][16][17] - 该框架系统性支持三种交互配置:文本指令+音频输入、音频指令+文本输入、纯音频指令与输入,覆盖语言学、语义学、副语言学三大类共20项任务 [16] LLaSO-Base模型的技术实现与性能 - 基于LLaSO数据训练38亿参数的参考模型LLaSO-Base,采用经典三阶段架构:语音编码器(Whisper-large-v3)、模态投影器(MLP)、语言模型backbone(Llama-3.2-3B-Instruct) [20][21][25] - 在LLaSO-Eval基准测试中,LLaSO-Base取得0.72的最高归一化得分,显著优于Kimi-Audio(0.65)和Qwen2-Audio(0.57) [34] - 在自动语音识别(ASR)任务中,LLaSO-Base的词错误率(WER)和字错误率(CER)分别低至0.08和0.03,展现压倒性优势 [37] - 在副语言学任务中,LLaSO-Base在说话人性别识别(SGC)和口音分类(AC)任务上准确率名列前茅,在音素识别(PER 0.03)和语音命令识别(WER 0.04)上以数量级优势领先 [40][41][42] 行业影响与未来方向 - LLaSO框架通过完整开放的训练数据和代码实现,为LSLM研究提供可复现性保障、公平比较基础,降低研究门槛并加速技术积累 [54][56] - 相比私有数据方案,开源框架可为工业应用节省数千万数据构建成本,降低技术选型风险,并支持领域定制化 adaptation [56] - 当前局限性包括模型规模(38亿参数)与GPT-4级模型存在性能差距、多语言支持主要针对英文和中文、实时性能和长音频处理效率有待优化 [56] - 未来发展方向包括探索更大规模模型的性能上限、通过模型压缩和量化降低部署门槛、集成视觉信息实现多模态理解、针对医疗教育等垂直领域优化 [56]
AI产业跟踪:谷歌发布新图像模型Gemini2.5FlashImage,关注多模态AI应用落地进展
长江证券· 2025-09-05 08:44
行业投资评级 - 看好丨维持 [7] 核心观点 - 供需共振叠加政策落地强化国内Agent投资核心逻辑 预计Q4国内模型与应用侧迎来核心拐点 强烈看好国内AI应用货币化开启、规模化、商业化提速 垂直场景Agent落地周期有望提前 [2][8] - 谷歌Gemini 2.5 Flash Image模型的高性能与低成本优势有望加速多模态AI应用落地 引领交互范式革命 [5][8] 事件描述 - 2025年8月26日谷歌发布图像生成与编辑模型Gemini 2.5 Flash Image Preview 代号"Nano-Banana" 支持32k上下文 [2][5] - 文本输入/输出定价分别为0.3美元/2.5美元 图像输入/输出定价分别为0.3美元/30美元 [2][5] 技术能力 - 在LMArena基准测试中表现优异 角色一致性、创意、图表、事物/环境方面优势明显 风格化稍逊于GPT-4o [8] - 具备五大核心功能:文生图、图文生图、多图生图、迭代细化、高保真文本渲染 [8] - 实现交错生成(Interleaved Generation)机制 能在统一上下文中分阶段按指令生成图片 保证系列作品一致性与差异性 [8] - 突破文字渲染能力 可作为反映全局性能的关键代理指标 [8] - 支持像素级精准编辑(Pixel perfect editing) 用户可通过调整prompt快速重新运行直至满意 [8] 应用价值 - 创作方式从生产力工具延伸向创意工具 实现从效率工具到创意伙伴的转变 [8] - 具备出色的角色一致性、自然语言和空间理解能力 支持多参考元素迁移组合及任意风格迁移复制 [8] - 生成单张图像成本约0.039美元 低于GPT-Image-1的0.19美元 [8] - 高质量低成本生成、多轮对话编辑、生成速度提升三者合一引领交互范式革命 从"编写精确指令"转向"进行自然对话"的共创协作模式 [8] 投资建议 - 关注AI Agent相关厂商、中国推理算力产业链、云服务厂商、IDC(重点关注与阿里巴巴等大厂合作的IDC) [8] - 预计Q4国内模型与应用侧迎来核心拐点 垂直场景Agent落地周期提前 [2][8]
狮腾控股(2562.HK)大涨近12%,推出Geene M2多模态AI平台
格隆汇APP· 2025-09-04 03:28
公司股价表现 - 狮腾控股(2562.HK)盘初大涨近12% 报17.9港元 [1] 产品动态 - 公司宣布推出多模型大型语言模型(LLM)平台Geene M2 [1] - Geene M2整合Geene R1、Geene TurboGT、OpenAI的ChatGPT、阿里巴巴的Qwen、字节跳动的SkyLark及其他大型语言模型 [1]
狮腾控股推出Geene M2多模态AI平台
证券时报网· 2025-09-04 00:19
公司动态 - 狮腾控股9月4日在港交所公告推出多模型大型语言模型平台Geene M2 [1] - Geene M2整合了Geene R1、Geene TurboGT、OpenAI的ChatGPT、阿里巴巴的Qwen及字节跳动的SkyLark等大型语言模型 [1] 产品发布 - 新平台Geene M2采用多模型整合架构 涵盖自研模型与第三方主流模型 [1] - 整合模型包括Geene系列自研产品及外部企业ChatGPT、Qwen、SkyLark等核心语言模型 [1]
谷歌nano-banana模型一致性强出圈,看好多模态场景应用提速
东方证券· 2025-09-02 01:47
行业投资评级 - 传媒行业评级为"看好"(维持)[4] 核心观点 - 谷歌最新nano-banana模型具有SOTA级图像理解与编辑能力 在人物和产品一致性上接近100% 显著提升电商和广告素材生产效率 释放更多营销预算[1] - 高一致性图像生成作为AI视频创作前置步骤 对解决视频一致性痛点有助益 推动多模态下游场景应用深化[1] - 技术突破与成本优化将加速产业趋势 带动用户增长、付费渗透和商业化提升 尤其关注多模态AI应用出海公司[2] - 年底至明年重视Meta逻辑演绎 模型能力带来的CTR提升有望推动收入增长及估值重塑[2] 投资标的 - 建议关注:快手-W(01024 买入)、美图公司(01357 未评级)、万兴科技(300624 未评级)、MiniMax(未上市)[2] - 建议跟进大厂落地测试:阿里巴巴-W(09988 买入)、腾讯控股(00700 买入)、快手-W(01024 买入)[2] 模型技术优势 - nano-banana模型位居LMArena文生图和图像编辑双榜单首位 具备三项核心能力:人物/产品一致性接近100% 元素替代能还原真实物理规律 支持数十张图片自然融合[7] - 适用于电商A/B测试批量化生产 节省商家测试成本 释放素材投放预算[7] 产业链影响 - 图像一致性对AI视频工作流有关键作用 文生图阶段的高一致性输出将提升视频生成整体效率 带动泛用户使用和行业渗透率加速[7]
三态股份涨0.85%,成交额1.14亿元,近3日主力净流入-4144.15万
新浪财经· 2025-09-01 08:00
股价表现与交易数据 - 9月1日股价上涨0.85% 成交额1.14亿元 换手率5.53% 总市值74.55亿元 [1] - 主力资金连续3日净流出 当日净流出281.66万元 行业排名第8/18 所属行业主力净流出1.19亿元 [4] - 近20日主力累计净流出1.51亿元 近5日净流出6083.83万元 近10日净流出4939.37万元 [5] 业务构成与经营表现 - 主营业务为出口跨境电商零售和第三方出口跨境电商物流 海外营收占比达99.98% [2][3] - 2025年上半年营业收入8.27亿元 同比增长3.27% 归母净利润2325.52万元 同比下滑48.75% [8] - 收入构成:兴趣爱好类28.88% 国际专线24.71% 家居生活23.64% 工具配件10.62% 潮流时尚8.66% [7] 技术创新与AI应用 - 自主研发知识产权风险检测工具"睿观·ERiC" 基于AI大数据模型提供风险监测解决方案 [2] - A+智能图片生成项目采用Stable Diffusion技术 通过文本输入生成高质量定制化图像 [2] - 多模态模型融合大型语言模型LLM和图像CV算法 为跨境电商提供产品风险检测服务 [3] 股东结构与机构持仓 - 股东户数3.12万户 较上期减少5.71% 人均流通股7023股 较上期增加6.06% [8] - 香港中央结算有限公司为第一大流通股东 持股332.85万股 较上期增持229.59万股 [9] - 中证1000ETF产品集体增持 南方中证1000ETF持股221.77万股 华夏中证1000ETF持股128.76万股 [9] 市场定位与行业属性 - 所属申万行业为商贸零售-互联网电商-跨境电商 概念板块涵盖小盘股/知识产权/AIGC等 [8] - 公司成立于2008年1月 于2023年9月28日上市 A股上市后累计派现1.10亿元 [7][9] - 技术面显示筹码平均交易成本9.73元 当前股价靠近压力位9.48元 [6]
三态股份跌0.10%,成交额2.35亿元,今日主力净流入-2986.00万
新浪财经· 2025-08-28 08:13
公司业务与战略 - 主营业务为出口跨境电商零售和第三方出口跨境电商物流 核心产品包括出口跨境电商零售业务和出口跨境电商物流业务[2] - 研发AIGC项目如A+智能图片生成项目 通过Stable Diffusion技术生成高质量图片 利用mask机制控制像素点生成概率 提升运营效率并节约制作成本[2] - 软件业务采用大型语言模型LLM和图像CV算法训练多模态模型"睿观·ERiC" 为跨境电商企业提供产品风险检测服务[2] 财务表现 - 2025年第一季度营业收入4.03亿元 同比增长3.48% 归母净利润1400.44万元 同比减少53.47%[9] - A股上市后累计派现1.10亿元[10] - 海外营收占比达99.98% 受益于人民币贬值[3] 股权与股东结构 - 股东户数3.12万户 较上期减少5.71% 人均流通股7023股 较上期增加6.06%[9] - 十大流通股东包括南方中证1000ETF持股176.65万股(较上期减少16.34万股) 香港中央结算有限公司持股103.26万股(新进) 华夏中证1000ETF持股98.23万股(新进)[10] 市场交易数据 - 8月28日成交额2.35亿元 换手率11.35% 总市值75.10亿元[1] - 主力净流出2986万元 占成交额0.13% 行业排名12/18 连续2日被主力资金减仓[5] - 主力持仓占比6.77% 筹码分布非常分散 无控盘现象[6] 行业属性与地域特征 - 所属申万行业为商贸零售-互联网电商-跨境电商 概念板块包括小盘、AIGC概念、知识产权、智慧物流、电子商务等[8] - 注册地位于深圳市南山区 属于粤港澳大湾区企业[4] - 主营业务收入构成:兴趣爱好28.88% 国际专线24.71% 家居生活23.64% 工具配件10.62% 潮流时尚8.66% 数码科技2.99% 国际邮政0.33% 商业快递0.16% 其他收入0.02%[8]