Workflow
多模态大模型
icon
搜索文档
为什么浮亏似海深,浮盈一口闷?
格隆汇· 2025-06-09 01:34
上周道指见证历史,首次突破4万点,周涨1.24%。纳斯达克指数周涨2.1%再创新高,标普500周涨1.5%再创新高。科技股多数走高,微软涨1.5%,苹果涨 3.7%,英伟达涨2.9%均连涨4周。大摩看好AI服务器成吸金利器,戴尔周涨12.6%,超微电脑周涨11.2%。你不觉得奇怪么?作为美股的对冲盘,港股居然也 是不跌反升。说明这一轮推动港股上涨的避险资金更多是来自其他新兴市场。恒生科技周涨3.79%,比美股好,连恒生指数都涨了3.11%,也比美股好。说 明什么?学霸从95分提高到98分要付出不懈努力,学渣从25分提高到30分没那么难,多蒙对两道选择题就有了。 从桥水和高瓴的持仓变动看,未见美资大幅加仓中国资产的动作。高瓴旗下HHLR一季度第一重仓股仍为拼多多,建仓AMD,同时减仓百度、阿里巴巴, 贝壳和京东。桥水一季度加仓谷歌、英伟达、苹果、Meta、亚马逊,减仓拼多多。 就算缺乏美资的祝福,港股还是涨起来了,而且恒生指数的涨幅还不小,这应该和预期取消红利税有关。对于一些长期资金,他们的耐心能跨越股价的周期 波动,股息率才是关键参数。同样一只股票,来港股买就能有折让,获得更多的股息率,不香吗?上周,香港交易 ...
聚焦多模态:ChatGPT时刻未到,2025大模型“变慢”了吗
北京商报· 2025-06-08 13:27
多模态大模型技术发展 - 智源研究院发布原生多模态世界模型Emu3 实现文本、图像、视频任意组合理解与生成 通过单一模型捕捉世界规律[1] - Emu3采用原生多模态训练路径 在模型初始阶段即纳入文字、图像、声音等模态数据 区别于先强语言后多模态的传统路径[3] - 当前多模态模型技术路线未收敛 视频生成能力处于GPT-2到GPT-3过渡阶段 与产业预期存在显著差距[1][5] 视频生成技术现状 - 视频生成领域存在叙事性、稳定性、可控性三大挑战 目前无法满足影视级专业内容制作需求[6] - Sora展现高质量视频生成潜力 但DiT训练方案存在可扩展性问题 类似2018年BERT模型的技术瓶颈[5] - 行业专家认为视频生成技术仍处早期 相当于语言模型的GPT-2阶段 尚未迎来"ChatGPT时刻"[5][6] 商业化应用进展 - 多模态模型商业化面临两大挑战:技术能力与市场需求未完全统一 成本收益比尚未达到临界点[7] - 智象未来商业模式持续迭代 从PaaS模型服务(2023)到SaaS工具(2024) 再到直接交付结果(2025)[8] - 全球多模态AI市场规模2024年达24亿美元 预计2025年将快速增长至1280亿美元 年复合增长率62.3%[8] 行业竞争格局 - 2024年大模型行业关键词为价格战 2025年转向应用多元化 表面发展"变慢"实为技术沉淀期[1] - 传统CV模型应用成熟 多模态模型需在视觉理解能力和泛化能力提升后 才能替代现有解决方案[7] - 企业技术路线差异明显 智源采用原生多模态训练 其他厂商多采用语言优先的渐进式路径[3]
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
量子位· 2025-06-07 05:02
多模态大模型视觉推理能力评测 - 核心观点:多模态大模型在细粒度视觉理解与空间推理任务中存在明显瓶颈,特别是处理高分辨率交通图时表现不佳[2][6] - 西湖大学等团队推出首个高分辨率交通图评测基准ReasonMap,聚焦结构化空间信息理解[3][5] ReasonMap基准设计特点 - 高分辨率挑战:测试图像平均分辨率达5839×5449,远超现有视觉任务标准[10] - 难度感知设计:为图像设置难度标签并均衡分布问答对[11] - 多维度评估体系:除准确性外还评估路径合理性、换乘策略等[12] - 半自动化标注流程:支持题目难度调控和多样化问题模板,覆盖单线直达、多线换乘等场景[13] 模型性能表现 - 闭源模型显著领先:GPT-o3在短/长问题中加权准确率达63.02%/59.11%,远超开源模型Qwen2.5-VL-72B的26.65%/24.22%[17] - 城市差异明显:北京、杭州地铁图难度最高,测试样本分别达40/39个[9] - 强化学习模型优势:经过RL训练的闭源模型在路径规划正确性上比通用模型高15-20个百分点[15][17] 技术突破方向 - 视觉编码能力:高分辨率图像处理仍是技术瓶颈,开源模型平均准确率不足30%[6][17] - 跨线路推理:模型普遍存在视觉混淆和站点遗漏问题,尤其在多线换乘场景[6][18] - 真实场景适配:当前模型与人类思维模式存在差距,需优化空间关系理解[12][19] 行业影响 - 评测标准革新:ReasonMap成为判断模型视觉-空间推理能力的核心基准工具[19] - 技术路线分化:闭源体系通过强化学习后训练建立显著优势,开源生态需突破计算效率瓶颈[15][17] - 应用场景拓展:该研究为自动驾驶、机器人导航等需要复杂空间推理的领域提供评估框架[5][13]
预见 2025:《2025 年中国多模态大模型行业全景图谱》(附市场现状、竞争格局和发展趋势等)
搜狐财经· 2025-06-06 14:09
产业概况 - 多模态指集成和处理两种或以上不同类型信息或数据的技术,涉及文本、图像、视频、音频和传感器数据,旨在提升任务性能、用户体验和数据分析结果 [1] - 多模态大型语言模型(MLLMs)结合大型语言模型(LLMs)的自然语言处理能力与其他模态数据的理解与生成能力,提供更丰富的交互体验 [1] 产业链剖析 - 产业链分为基础层(硬件和基础软件)、模型层(CLIP、BLIP等模型)和应用层(生产制造、生活娱乐、公共服务等领域) [3] - 上游硬件参与者包括英特尔、英伟达,基础软件参与者有华为、腾讯等;中游模型层参与者包括OpenAI、Meta、阿里、百度等;下游应用层参与者包括用友网络、京东、阿里巴巴等 [3] 行业发展历程 - 中国多模态大模型行业依托政府支持、企业投入和学术力量,从基础研究到产业应用全面发展,未来有望从“追赶”到“引领”全球技术发展 [3] 行业政策背景 - 政策支持包括资金支持、简化流程、建立共享资源数据库等,旨在提升自主研发能力和科技成果转化效率 [4] - 具体政策包括《新一代人工智能示范应用场景的通知》(2022年8月)、《虚拟现实与行业应用融合发展行动计划》(2022年10月)等,涵盖算力资源调度、伦理规范、标准体系建设等 [4] 行业发展现状 - 国内大模型企业需完成《互联网信息服务深度合成管理规定》或《生成式人工智能服务管理暂行办法》备案 [6][7] - 截至2025年4月,国内已有327个生成式AI大模型通过备案,227个完成登记 [8] - 早期商业模式为SaaS和PaaS模式,现主流为MaaS模式(模型即服务),通过API提供服务 [9] - 收费模式以token计价和订阅模式为主,价格差异较大 [10] - 2023年人工智能核心产业规模达5000亿元,大模型市场规模132.3亿元,同比增长110%;2024年大模型市场规模预计205亿元,多模态占比22%,市场规模45.1亿元 [11][14] 行业竞争格局 - 全国327个大模型通过备案,北京、上海、广东分别通过105、66、39个,京沪粤浙苏占比近80% [14] - 百度处于领先地位,算力能级与排名呈正相关,第一梯队算力能级为第四梯队两倍 [16] 产业发展前景 - 多模态大模型将成为未来发展重点,技术渗透率持续提高,预计2030年市场规模达969亿元,复合增速超65% [18][19]
上海AI实验室造出首个「通才」机器人大脑:看懂世界+空间推理+精准操控全拿下
量子位· 2025-06-05 05:00
核心观点 - 上海人工智能实验室联合多家单位提出全新通用具身智能大脑框架VeBrain,集成视觉感知、空间推理和机器人控制能力,实现多模态大模型对物理实体的直接操控[1] - VeBrain在视觉感知、空间推理和机器人控制能力上同时取得最先进性能,相比现有框架平均提升31.5%[4][17] - 模型通过统一语言建模范式、机器人适配器模块和高质量数据集VeBrain-600k实现三大能力协同[2][9][10] 技术架构创新 - 将机器人控制重构为关键点检测和技能识别两个通用MLLM子任务,实现统一输入输出空间[5][6][7] - 机器人适配器模块由点追踪器、运动控制器、策略执行器和动态接管组成,实现文本到动作的闭环控制[9][13] - 提出多模态链式思维标注方法,提升模型组合推理能力[2][10] 数据集构建 - 构建VeBrain-600k数据集,包含60万条指令数据,覆盖多模态理解(20万条)、空间推理(31.2万条)和机器人控制(8.8万条)三类任务[10][14] - 数据采用GPT-4o与Gemini自动生成推理过程并经专家复核,提升任务复杂度[10] 性能表现 多模态能力 - 在13个多模态benchmark上平均得分77.1,超越GPT-4o(76.5)和Qwen2.5-VL(76.9)[19] - 在MMVet(+5.6%)、DocVQA(94.4分)等任务表现突出[19] 空间推理能力 - 在ScanQA(CIDEr 101.5)和ScanRefer(Acc@0.25 66.4%)刷新纪录,超越专业模型GPT4Scene-HDM[20][21] - VSI基准测试平均得分86.4,比Qwen2.5-VL高出44.3%[22] 机器人控制 - 在复杂寻找任务成功率80%,相比现有MLLM提升70%[16] - 四足机器人长程任务成功率提升50%,机械臂任务表现显著优于π0模型[24]
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
量子位· 2025-06-04 05:21
核心观点 - 国产开源模型Video-XL-2在长视频理解领域取得突破性进展,支持单张显卡处理万帧视频输入,编码2048帧视频仅需12秒 [1][9][24] - Video-XL-2在效果、长度、速度三方面全面超越上一代Video-XL,达到开源轻量级模型的SOTA水平 [3][9][15] - 模型采用四阶段渐进式训练和双粒度KV解码等创新技术,显著提升计算效率和显存利用率 [8][11][13] 技术架构 - 核心组件包括视觉编码器SigLIP-SO400M、动态Token合成模块DTS和大语言模型Qwen2.5-Instruct,实现跨模态对齐与语义推理 [4][6] - 视觉编码器逐帧处理视频,DTS模块融合时序特征,最终通过MLP映射至文本嵌入空间 [6] 性能突破 - 评测表现:在MLVU(74.9)、VideoMME(66.8)、LVBench(48.6)、Charades-STA(73.0)等基准超越720亿参数大模型 [17][18] - 处理长度:单张80GB显卡支持万帧视频输入,24GB显卡支持千帧处理 [19][23] - 运算效率:2048帧视频预填充仅12秒,时间与帧数呈线性增长关系 [24][26] 应用场景 - 适用于影视内容分析、监控异常检测(如肢体冲突识别)、剧情问答等复杂视频理解任务 [28][30][32] - 示例显示模型可准确回答细节问题(如"红色电话"识别)和宏观事件判断(如"顾客与店员冲突") [30][32] 资源开放 - 模型权重、技术报告及代码已在Hugging Face和GitHub平台开源 [33]
本周日不见不散!CVPR 2025北京论文分享会最后报名了
机器之心· 2025-06-03 08:57
AI视频生成技术 - 谷歌发布新一代AI视频生成模型Veo 3 首次实现音画同步 被评价为不亚于OpenAI Sora的跨时代产品 标志着AI视频进入"有声时代" [1] - 视频生成领域从无声进化到有声 多模态领域向理解与生成大一统方向演进 [2] CVPR 2025论文分享会 - 会议将于6月8日在北京举办 聚焦多模态和视频生成等热门主题 邀请顶级专家和论文作者交流 [2] - CVPR 2025共收到13008份论文投稿 接收2878篇 整体接收率22.1% [2] - 设置Keynote、论文分享、圆桌对话、Poster交流等环节 全日程和嘉宾信息已公布 [2][4][10][12][14] 论文分享环节 - 腾讯混元高级算法研究员周子翔分享《Multi-modal driven human animations》[4] - 阿里巴巴高德地图算法专家熊峰分享《HumanRig: Learning Automatic Rigging for Humanoid Character》[4] - 北京大学博士生张霖分享《OmniManip: Towards General Robotic Manipulation》[4] - 中科院张泽锋分享《Debiasing Multimodal Large Language Models》[4] - 国防科技大学唐熠杰分享《OnlineAnySeg: Online Zero-Shot 3D Segmentation》[4] Keynote演讲 - 中科院计算所高林研究员分享基于混合表达与生成模型的可视媒体合成与编辑方法 涵盖高斯泼溅技术进展和视频生成模型应用 [10][12] - 北航黄雷副教授从表征和学习视角探讨多模态大模型的统一建模 介绍课题组在统一建模方面的研究进展 [14] 圆桌讨论 - 主题为"迈向理解与生成统一的多模态大模型" 邀请北航黄雷、BIGAI黄思远、Sand.AI张拯三位专家参与 [16][20][22][24] 合作伙伴计划 - 腾讯青云计划聚焦AI大模型等十大技术领域 提供高薪和核心业务机会 [27] - 京东TGT计划面向青年技术人才 聚焦多模态大模型与应用等前沿课题 提供三导师培养机制 [28]
2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】
前瞻网· 2025-06-03 05:12
多模态大模型核心技术-表征 - 表征学习是多模态任务的基础,涉及处理异质数据结合、不同噪声等级处理及模态缺失问题 [1] - Transformer出现前,CV领域主要使用CNN,NLP领域主要使用LSTM,多模态工作多采用异质网络单独提取特征后联合训练 [1] - Transformer统一多模态任务成为可能,2019年后基于Transformer的多模态预训练模型大量涌现 [1] 多模态大模型核心技术-翻译 - 跨模态翻译旨在将源模态映射到目标模态,如图像生成描述或文本生成图像 [2] - 基于语法模板的方法通过预设模板插入检测结果完成翻译,如图像描述中的who/what/whom/place插槽 [2] - 编码-解码器结构将源模态编码为隐特征后解码生成目标模态,如图像描述中CNN+RNN组合 [2] - 连续性生成针对时间严格对齐的流数据任务,如文本合成语音采用CNN并行预测+CTC loss [3] 多模态大模型核心技术-对齐 - 对齐用于发现不同模态子元素间关联性,如visual grounding任务 [7] - 显式对齐通过动态时间扭曲(DTW)、CCA等方法衡量相似性,深度学习方法逐渐流行 [7] - 隐式对齐通过注意力机制等解决潜在表示问题,降低对编码器的要求 [8] - 当前多模态对齐处于初期阶段,侧重人类指令对齐但忽略高层次价值整合 [8] 多模态大模型核心技术-融合 - 融合通过结合多模态数据增强性能,应用领域包括语音识别、情感识别和医学图像分析 [11] - 早期融合在特征层面合并模态,晚期融合在决策层面结合结果,混合融合综合两者优势 [11] - 神经网络成为主流融合方式,但图形模型和多核学习在数据有限或需可解释性时仍适用 [12] 多模态大模型核心技术-协同 - 协同学习利用一种模态数据训练另一种模态模型,分为并行、非并行和混合三类 [14] - 并行学习要求模态数据直接关联(如音视频同源),非并行学习通过类别重叠实现 [14][15] - 混合协同通过共享模态连接数据,已在视觉分类、动作识别和语义相似度估计中应用 [15]
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
机器之心· 2025-06-03 04:06
技术突破 - 新一代超长视频理解模型Video-XL-2在效果、计算开销和运行效率等方面全面优化,显著提升多模态大模型对长视频内容的理解能力 [2] - Video-XL-2采用SigLIP-SO400M作为视觉编码器,结合动态Token合成模块(DTS)和大语言模型(LLM),实现视频帧的高维特征编码和时序关系建模 [3] - 模型采用四阶段渐进式训练策略,逐步构建长视频理解能力,最终在大规模高质量指令数据上微调,提升复杂视觉指令的响应准确性 [4] 性能优势 - Video-XL-2在MLVU、Video-MME、LVBench等主流评测基准上达到同参数规模开源模型的领先水平,部分性能接近720亿参数大模型 [6][11] - 模型支持单显卡处理万帧级视频,编码2048帧仅需12秒,预填充时间与输入帧数呈线性增长,效率显著优于初代Video-XL和VideoChat-Flash [6][17][19] - 在时序定位任务中表现优异,Charades-STA数据集上取得73分,验证多模态视频理解的广泛适用性 [12] 架构创新 - 引入分段式预装填策略(Chunk-based Prefilling),将超长视频分块处理,降低计算成本与显存开销 [8] - 设计双粒度KV解码机制(Bi-granularity KV Decoding),选择性加载关键片段的完整KVs和次要片段的稀疏KVs,大幅提升解码效率 [8] 应用场景 - 影视内容分析:支持电影情节问答、影视作品内容总结等任务,例如准确识别视频中物体的颜色和人物行为 [20][22] - 异常行为监测:可检测监控视频中的异常事件,如顾客与员工的肢体冲突 [23] - 游戏直播分析:具备处理超长直播内容并生成总结的能力 [23]
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
前瞻网· 2025-06-01 05:09
多模态大模型技术发展 - 行业聚焦视觉等重点模态领域突破,探索"Any-to-Any"大模型技术路径,如Google Gemini和Codi-2处于早期阶段,需实现跨模态知识学习与信息对齐 [1] - 当前主要工作集中在Transformer架构向图像、视频、3D等模态扩展,完善单模态感知/生成模型后再推进跨模态融合 [1] 图像模型进展 - 2023年前已建立CLIP、Stable Diffusion、GAN等基础模型,衍生Midjourney、DALL·E等成熟文生图应用 [2] - 近年重点探索ViT、DiT等视觉Transformer架构,推动GLIP、SAM、GPT-V等LLM与视觉模型融合成果 [2] 视频模型技术 - 基于图像生成模型(如扩散模型)叠加时间维度对齐,形成VideoLDM、W.A.L.T.等文生视频方案 [5] - Sora采用Diffusion Transformer架构实现突破性视频生成,首次展现"智能涌现"特征 [5] - 主流技术路径为文生图模型+时序对齐,辅以插帧超分、噪声对齐、LLM增强描述等方法提升质量 [5] 3D模型开发现状 - 技术路线延伸自2D图像生成(GAN/Diffusion/VAE等),产生3D GAN、MeshDiffusion、Instant3D等早期成果 [8][9] - 数据表征以NeRF(神经辐射场)为核心技术,支持网格、点云、体素等多种形式 [9] - 数据集稀缺,ShapeNet含5.1万3D CAD模型,Objaverse-xl达1000万对象规模 [9] 音频模型创新 - Transformer架构推动Whisper large-v3、VALL-E等项目突破,增强多语种/自然声/零样本学习能力 [11] - Omni模型通过neural audio codec编码,结合扩散模型实现音频合成技术迭代 [11]