多模态AI
搜索文档
LLaSO 横空出世:逻辑智能推出全球首个完全开源语音大模型框架,定义 LSLM 研究新基准
机器之心· 2025-09-14 05:16
大型语音语言模型(LSLM)行业现状 - 大型语音语言模型(LSLM)的发展零散且步调缓慢,长期被碎片化架构、不透明训练数据和缺失的评估标准所困扰,导致研究难以公平比较,技术可复现性和社区进步受阻 [2] - 与视觉语言模型(LVLM)领域已形成CLIP编码器+LLaVA范式的成熟生态相比,LSLM研究面临四大核心挑战:架构路径分化严重、训练数据严重私有化、任务覆盖局限性明显、交互模态单一化 [7][8][9] - 主流LSLM如Qwen-Audio、Kimi-Audio等均依赖私有数据训练,数据规模、质量、构成等关键信息不透明,使得性能归因模糊且研究门槛高 [8][12] LLaSO框架的核心贡献 - 北京深度逻辑智能科技有限公司推出LLaSO,作为首个完全开放、端到端的语音语言模型研究框架,旨在为社区提供统一、透明且可复现的基础设施 [3][5] - LLaSO框架包含三大核心开源组件:LLaSO-Align(1200万语音-文本对齐样本)、LLaSO-Instruct(1350万多任务指令样本)、LLaSO-Eval(标准化评估基准) [14][15][16][17] - 该框架系统性支持三种交互配置:文本指令+音频输入、音频指令+文本输入、纯音频指令与输入,覆盖语言学、语义学、副语言学三大类共20项任务 [16] LLaSO-Base模型的技术实现与性能 - 基于LLaSO数据训练38亿参数的参考模型LLaSO-Base,采用经典三阶段架构:语音编码器(Whisper-large-v3)、模态投影器(MLP)、语言模型backbone(Llama-3.2-3B-Instruct) [20][21][25] - 在LLaSO-Eval基准测试中,LLaSO-Base取得0.72的最高归一化得分,显著优于Kimi-Audio(0.65)和Qwen2-Audio(0.57) [34] - 在自动语音识别(ASR)任务中,LLaSO-Base的词错误率(WER)和字错误率(CER)分别低至0.08和0.03,展现压倒性优势 [37] - 在副语言学任务中,LLaSO-Base在说话人性别识别(SGC)和口音分类(AC)任务上准确率名列前茅,在音素识别(PER 0.03)和语音命令识别(WER 0.04)上以数量级优势领先 [40][41][42] 行业影响与未来方向 - LLaSO框架通过完整开放的训练数据和代码实现,为LSLM研究提供可复现性保障、公平比较基础,降低研究门槛并加速技术积累 [54][56] - 相比私有数据方案,开源框架可为工业应用节省数千万数据构建成本,降低技术选型风险,并支持领域定制化 adaptation [56] - 当前局限性包括模型规模(38亿参数)与GPT-4级模型存在性能差距、多语言支持主要针对英文和中文、实时性能和长音频处理效率有待优化 [56] - 未来发展方向包括探索更大规模模型的性能上限、通过模型压缩和量化降低部署门槛、集成视觉信息实现多模态理解、针对医疗教育等垂直领域优化 [56]
AI产业跟踪:谷歌发布新图像模型Gemini2.5FlashImage,关注多模态AI应用落地进展
长江证券· 2025-09-05 08:44
行业投资评级 - 看好丨维持 [7] 核心观点 - 供需共振叠加政策落地强化国内Agent投资核心逻辑 预计Q4国内模型与应用侧迎来核心拐点 强烈看好国内AI应用货币化开启、规模化、商业化提速 垂直场景Agent落地周期有望提前 [2][8] - 谷歌Gemini 2.5 Flash Image模型的高性能与低成本优势有望加速多模态AI应用落地 引领交互范式革命 [5][8] 事件描述 - 2025年8月26日谷歌发布图像生成与编辑模型Gemini 2.5 Flash Image Preview 代号"Nano-Banana" 支持32k上下文 [2][5] - 文本输入/输出定价分别为0.3美元/2.5美元 图像输入/输出定价分别为0.3美元/30美元 [2][5] 技术能力 - 在LMArena基准测试中表现优异 角色一致性、创意、图表、事物/环境方面优势明显 风格化稍逊于GPT-4o [8] - 具备五大核心功能:文生图、图文生图、多图生图、迭代细化、高保真文本渲染 [8] - 实现交错生成(Interleaved Generation)机制 能在统一上下文中分阶段按指令生成图片 保证系列作品一致性与差异性 [8] - 突破文字渲染能力 可作为反映全局性能的关键代理指标 [8] - 支持像素级精准编辑(Pixel perfect editing) 用户可通过调整prompt快速重新运行直至满意 [8] 应用价值 - 创作方式从生产力工具延伸向创意工具 实现从效率工具到创意伙伴的转变 [8] - 具备出色的角色一致性、自然语言和空间理解能力 支持多参考元素迁移组合及任意风格迁移复制 [8] - 生成单张图像成本约0.039美元 低于GPT-Image-1的0.19美元 [8] - 高质量低成本生成、多轮对话编辑、生成速度提升三者合一引领交互范式革命 从"编写精确指令"转向"进行自然对话"的共创协作模式 [8] 投资建议 - 关注AI Agent相关厂商、中国推理算力产业链、云服务厂商、IDC(重点关注与阿里巴巴等大厂合作的IDC) [8] - 预计Q4国内模型与应用侧迎来核心拐点 垂直场景Agent落地周期提前 [2][8]
狮腾控股(2562.HK)大涨近12%,推出Geene M2多模态AI平台
格隆汇APP· 2025-09-04 03:28
公司股价表现 - 狮腾控股(2562.HK)盘初大涨近12% 报17.9港元 [1] 产品动态 - 公司宣布推出多模型大型语言模型(LLM)平台Geene M2 [1] - Geene M2整合Geene R1、Geene TurboGT、OpenAI的ChatGPT、阿里巴巴的Qwen、字节跳动的SkyLark及其他大型语言模型 [1]
狮腾控股推出Geene M2多模态AI平台
证券时报网· 2025-09-04 00:19
公司动态 - 狮腾控股9月4日在港交所公告推出多模型大型语言模型平台Geene M2 [1] - Geene M2整合了Geene R1、Geene TurboGT、OpenAI的ChatGPT、阿里巴巴的Qwen及字节跳动的SkyLark等大型语言模型 [1] 产品发布 - 新平台Geene M2采用多模型整合架构 涵盖自研模型与第三方主流模型 [1] - 整合模型包括Geene系列自研产品及外部企业ChatGPT、Qwen、SkyLark等核心语言模型 [1]
谷歌nano-banana模型一致性强出圈,看好多模态场景应用提速
东方证券· 2025-09-02 01:47
行业投资评级 - 传媒行业评级为"看好"(维持)[4] 核心观点 - 谷歌最新nano-banana模型具有SOTA级图像理解与编辑能力 在人物和产品一致性上接近100% 显著提升电商和广告素材生产效率 释放更多营销预算[1] - 高一致性图像生成作为AI视频创作前置步骤 对解决视频一致性痛点有助益 推动多模态下游场景应用深化[1] - 技术突破与成本优化将加速产业趋势 带动用户增长、付费渗透和商业化提升 尤其关注多模态AI应用出海公司[2] - 年底至明年重视Meta逻辑演绎 模型能力带来的CTR提升有望推动收入增长及估值重塑[2] 投资标的 - 建议关注:快手-W(01024 买入)、美图公司(01357 未评级)、万兴科技(300624 未评级)、MiniMax(未上市)[2] - 建议跟进大厂落地测试:阿里巴巴-W(09988 买入)、腾讯控股(00700 买入)、快手-W(01024 买入)[2] 模型技术优势 - nano-banana模型位居LMArena文生图和图像编辑双榜单首位 具备三项核心能力:人物/产品一致性接近100% 元素替代能还原真实物理规律 支持数十张图片自然融合[7] - 适用于电商A/B测试批量化生产 节省商家测试成本 释放素材投放预算[7] 产业链影响 - 图像一致性对AI视频工作流有关键作用 文生图阶段的高一致性输出将提升视频生成整体效率 带动泛用户使用和行业渗透率加速[7]
三态股份涨0.85%,成交额1.14亿元,近3日主力净流入-4144.15万
新浪财经· 2025-09-01 08:00
股价表现与交易数据 - 9月1日股价上涨0.85% 成交额1.14亿元 换手率5.53% 总市值74.55亿元 [1] - 主力资金连续3日净流出 当日净流出281.66万元 行业排名第8/18 所属行业主力净流出1.19亿元 [4] - 近20日主力累计净流出1.51亿元 近5日净流出6083.83万元 近10日净流出4939.37万元 [5] 业务构成与经营表现 - 主营业务为出口跨境电商零售和第三方出口跨境电商物流 海外营收占比达99.98% [2][3] - 2025年上半年营业收入8.27亿元 同比增长3.27% 归母净利润2325.52万元 同比下滑48.75% [8] - 收入构成:兴趣爱好类28.88% 国际专线24.71% 家居生活23.64% 工具配件10.62% 潮流时尚8.66% [7] 技术创新与AI应用 - 自主研发知识产权风险检测工具"睿观·ERiC" 基于AI大数据模型提供风险监测解决方案 [2] - A+智能图片生成项目采用Stable Diffusion技术 通过文本输入生成高质量定制化图像 [2] - 多模态模型融合大型语言模型LLM和图像CV算法 为跨境电商提供产品风险检测服务 [3] 股东结构与机构持仓 - 股东户数3.12万户 较上期减少5.71% 人均流通股7023股 较上期增加6.06% [8] - 香港中央结算有限公司为第一大流通股东 持股332.85万股 较上期增持229.59万股 [9] - 中证1000ETF产品集体增持 南方中证1000ETF持股221.77万股 华夏中证1000ETF持股128.76万股 [9] 市场定位与行业属性 - 所属申万行业为商贸零售-互联网电商-跨境电商 概念板块涵盖小盘股/知识产权/AIGC等 [8] - 公司成立于2008年1月 于2023年9月28日上市 A股上市后累计派现1.10亿元 [7][9] - 技术面显示筹码平均交易成本9.73元 当前股价靠近压力位9.48元 [6]
三态股份跌0.10%,成交额2.35亿元,今日主力净流入-2986.00万
新浪财经· 2025-08-28 08:13
公司业务与战略 - 主营业务为出口跨境电商零售和第三方出口跨境电商物流 核心产品包括出口跨境电商零售业务和出口跨境电商物流业务[2] - 研发AIGC项目如A+智能图片生成项目 通过Stable Diffusion技术生成高质量图片 利用mask机制控制像素点生成概率 提升运营效率并节约制作成本[2] - 软件业务采用大型语言模型LLM和图像CV算法训练多模态模型"睿观·ERiC" 为跨境电商企业提供产品风险检测服务[2] 财务表现 - 2025年第一季度营业收入4.03亿元 同比增长3.48% 归母净利润1400.44万元 同比减少53.47%[9] - A股上市后累计派现1.10亿元[10] - 海外营收占比达99.98% 受益于人民币贬值[3] 股权与股东结构 - 股东户数3.12万户 较上期减少5.71% 人均流通股7023股 较上期增加6.06%[9] - 十大流通股东包括南方中证1000ETF持股176.65万股(较上期减少16.34万股) 香港中央结算有限公司持股103.26万股(新进) 华夏中证1000ETF持股98.23万股(新进)[10] 市场交易数据 - 8月28日成交额2.35亿元 换手率11.35% 总市值75.10亿元[1] - 主力净流出2986万元 占成交额0.13% 行业排名12/18 连续2日被主力资金减仓[5] - 主力持仓占比6.77% 筹码分布非常分散 无控盘现象[6] 行业属性与地域特征 - 所属申万行业为商贸零售-互联网电商-跨境电商 概念板块包括小盘、AIGC概念、知识产权、智慧物流、电子商务等[8] - 注册地位于深圳市南山区 属于粤港澳大湾区企业[4] - 主营业务收入构成:兴趣爱好28.88% 国际专线24.71% 家居生活23.64% 工具配件10.62% 潮流时尚8.66% 数码科技2.99% 国际邮政0.33% 商业快递0.16% 其他收入0.02%[8]
InternVL 3.5来了!上海AI Lab最新开源:硬刚 GPT-5 还把效率玩明白
自动驾驶之心· 2025-08-27 23:33
模型发布与性能 - 上海AI Lab推出开源多模态模型InternVL 3.5系列,在通用性、推理能力和推理效率方面显著提升 [2] - 通过级联强化学习(Cascade RL)框架实现更优性能,离线RL阶段确保稳定收敛,在线RL阶段进行精细对齐 [2] - 提出视觉分辨率路由器(ViR)动态调整视觉标记分辨率,结合解耦视觉-语言部署(DvD)方法优化效率 [2] - 在多个基准测试中表现领先,显著缩小与GPT-5等顶级商业模型的性能差距 [2] 模型架构与参数规模 - 模型架构包括动态高分辨率文本分词器、InternViT视觉编码器和视觉-语言连接器 [5] - 采用两阶段训练范式:大规模预训练阶段和多阶段后训练阶段 [5] - 提供多种参数规模版本,从1.1B到241B,包括密集模型和MoE模型 [3] - 最大模型InternVL3.5-241B-A28B总参数量达240.7B,其中视觉参数5.5B,语言参数235.1B [3] 训练方法与数据 - 预训练阶段使用1.16亿个样本,对应约2500亿个标记,纯文本与多模态数据比例约为1:2.5 [7] - 后训练采用三阶段策略:监督微调(SFT)、级联强化学习(Cascade RL)和视觉一致性学习(ViCO) [9] - SFT阶段使用高质量对话数据,包含来自InternVL3的指令遵循数据和"思考"模式下的多模态推理数据 [9] - 测试时扩展(TTS)方法包括深度思考(逐步推理)和并行思考(Best-of-N策略) [11] 多模态推理与数学能力 - 在MMMU基准测试中,InternVL3.5-241B-A28B达到82.7分,显著超越前代产品 [15] - MathVista基准测试中,InternVL3.5-241B-A28B获得63.9分,较InternVL3-1B的18.8分有大幅提升 [15] - 在MathVerse视觉only测试中,InternVL3.5-241B-A28B达到68.5分,相比InternVL3-1B的18.7分进步显著 [15] - 使用并行思考技术后,多个模型的数学推理能力进一步提升 [15] OCR与文档理解 - 在AI2D测试中,InternVL3.5-241B-A28B达到87.3分(无mask)和95.0分(有mask) [17] - DocVQA测试中,InternVL3.5-241B-A28B获得94.9分,优于GPT-4o的92.8分 [17] - OCRBench测试中,InternVL3.5-241B-A28B达到907分,表现优异 [17] - 在TextVQA测试中取得84.5分,超越GPT-4o的77.4分 [17] 多模态理解与幻觉评测 - MMBench V1.1英文测试中,InternVL3.5-241B-A28B获得87.4分 [21] - MMVet测试中达到81.2分,优于GPT-4o的69.1分 [21] - HallusionBench测试中获得77.9分,表现突出 [21] - 综合多模态理解能力在多个基准测试中领先 [21] 具身智能与GUI代理 - 在VSI-Bench测试中,InternVL3.5-241B-A28B达到69.5分,显著优于GPT-4o的34.0分 [29] - GUI代理任务中,ScreenSpot-v2测试获得92.9分,OSWorld-G测试达到53.2分 [27] - WindowsAgentArena测试中取得18.0分,WebArena-Lite-v2测试获得11.7分 [27] - 在具身智能体任务中表现优异,多个测试分数领先 [29] 多语言与视频理解 - 多语言MMBench测试中,英文达到87.6分,中文86.4分,表现均衡 [24] - 视频理解任务中,Video-MME测试达到72.9分(无字幕)和76.0分(有字幕) [25] - MVBench测试获得76.5分,MLVU测试达到78.2分 [25] - 在多语言和多模态视频理解方面表现全面 [24][25]
今日十大热股:华胜天成算力概念持续火热,合力泰5天4板电子纸概念爆发,歌尔股份领衔消费电子行情
金融界· 2025-08-27 03:15
市场整体表现 - 沪指跌0.39%,深成指涨0.26%,创业板指跌0.75%,两市成交额2.71万亿元,较前一日缩量约4600亿元 [1] - 全市场超2800只个股上涨,涨停个股达92只,主要集中在计算机、机械设备等行业 [1] - 消费电子、游戏、猪肉板块领涨,芯片、稀土永磁等板块回调 [1] 人气热股及热度特征 - 利欧股份热度排名第一,属液冷服务器和多模态AI概念,首板涨停 [2] - 华胜天成热度排名第二,属东数西算和信创概念,持续上榜 [2] - 领益智造热度排名第三,属同花顺果指数和智能音箱概念,2天2板 [2] - 拓维信息热度排名第四,属华为盘古和华为昇腾概念,首板涨停 [2] - 寒武纪-U热度排名第五,属中国AI 50和汽车芯片概念,热度值7.5 [2] - 歌尔股份热度排名第六,属同花顺果指数和无线耳机概念,首板涨停 [2] - 奋达科技热度排名第七,属减速器和智能音箱概念,首板涨停 [2] - 合力泰热度排名第八,属电子纸和无线充电概念,5天4板 [2] - 北方稀土热度排名第九,属稀土永磁和小金属概念,热度值6.25 [2] - 中电鑫龙热度排名第十,属东数西算和数据中心概念,首板涨停 [2] 个股核心驱动因素 - 利欧股份上半年预计净利润3.5-4.5亿元,同比扭亏,受益于持有理想汽车股票的公允价值变动及出售收益 [3] - 华胜天成作为华为昇腾生态核心合作伙伴,深度参与天津、济南等国家级人工智能计算中心建设,中报预告净利润同比大增148%-172% [3] - 领益智造通过收购江苏科达进入新能源汽车零部件赛道,加速人形机器人核心部件研发与量产,与智元机器人等企业建立深度合作关系 [3] - 拓维信息作为华为生态核心战略伙伴,深度参与鸿蒙、昇腾AI及鲲鹏等关键领域,中报归母净利润同比暴增超2200% [3] - 寒武纪-U作为国内AI芯片领军企业,二季度环比增长近100%,定增39.85亿元获上交所审核通过 [4] - 歌尔股份受益于全球智能眼镜出货量上半年同比激增110%,其中AI眼镜增长250%,收购Micro-LED厂商Plessey强化产业链布局,完成10亿元增持并启动回购计划 [4] - 奋达科技越南生产基地于7月实现大批量投产,缓解关税政策对订单交付的影响,在AI硬件领域推出下棋机器人、桌面陪伴机器人等新产品,研发投入同比大增35.9% [4] - 合力泰通过司法重整化解91.15亿元债务,资产负债率从193.91%骤降至27.52%,电子纸业务收入占比提升至67.69%,越南及德国基地投产加速智慧零售市场布局 [5]
多模态AI概念股集体走强,科大讯飞涨超5%
格隆汇· 2025-08-27 03:15
市场表现 - A股市场多模态AI概念股集体走强,开普云20CM涨停,中科创达涨超16%,岩山科技、润建股份10CM涨停,熵基科技涨超9%,科大讯飞涨超5% [1] - 开普云涨幅20.00%,总市值76.77亿,年初至今涨幅155.76% [2] - 中科创达涨幅16.48%,总市值368亿,年初至今涨幅34.36% [2] - 岩山科技涨幅10.08%,总市值415亿,年初至今涨幅84.38% [2] - 润建股份涨幅10.00%,总市值160亿,年初至今涨幅68.31% [2] - 熵基科技涨幅9.30%,总市值79.69亿,年初至今涨幅53.58% [2] - 科大讯飞涨幅5.65%,总市值1271亿,年初至今涨幅14.05% [2] 政策驱动 - 国务院印发《关于深入实施"人工智能+"行动的意见》,提出加快实施6大重点行动,包括"人工智能+"科学技术、产业发展、消费提质、民生福祉、治理能力、全球合作 [1] - 到2027年,人工智能与6大重点领域广泛深度融合,新一代智能终端、智能体等应用普及率超70%,智能经济核心产业规模快速增长 [1] - 到2030年,人工智能全面赋能高质量发展,新一代智能终端、智能体等应用普及率超90%,智能经济成为我国经济发展的重要增长极 [1]