多模态大模型

搜索文档
字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA
机器之心· 2025-05-14 04:36
多模态大模型Seed1.5-VL发布 - 火山引擎发布5款AI模型和产品,包括豆包・视频生成模型Seedance 1.0 lite、升级后的豆包1.5・视觉深度思考模型(Seed1.5-VL)、新版豆包・音乐模型等 [1] - Seed1.5-VL具备更强的通用多模态理解和推理能力,新增视频理解、多模态智能体能力 [3] - 模型仅需一张图和提示词就能精准识别多种元素并分类给出坐标 [4] - 在60个公开评测基准中,有38个取得SOTA表现,性能与Gemini2.5 Pro相当 [6] 模型性能表现 - 推理输入价格仅为每千tokens 0.003元,输出价格为每千tokens 0.009元 [7] - 在视觉定位测试中,10秒内精准识别货架商品并完成价格计算 [14] - 能准确识别5只"生气"的小猫并给出坐标 [17] - 10秒内解决公务员图形推理题目,展示强大视觉推理能力 [20] 技术架构创新 - 由视觉编码模块SeedViT(532M参数)、MLP适配器和基于MoE架构的Seed1.5-LLM(20B激活参数)组成 [27] - 训练分为三个阶段:初期对齐视觉语言表征、中期强化知识积累、后期加入视频等新领域数据 [29] - 采用监督微调与强化学习组合策略,整合RLHF/RLVR等先进技术 [30] - 采用多模态并行框架和局部贪心负载均衡算法优化计算效率 [31] 应用场景 - 可用于构建AI视觉助手、巡检系统、交互Agent或智能摄像头 [7] - 多模态智能体能力可识别并点击"点赞"按钮,模拟用户行为 [22] - 正在重塑与视觉世界交互的方式,拓宽通用视觉系统应用路径 [31]
线下仅200名额!CVPR 2025北京论文分享会报名开启
机器之心· 2025-05-13 09:30
此外,视频生成、多模态大模型、3D 领域同样以惊人的技术迭代速度刷新着我们的认知。 热点技术怎么追?前沿研究该看哪些?不妨来参加论文分享会。 以火热的「文生图」赛道为例,自回归与扩散模型的融合与优化正在引领视觉模型架构的创新。理论突破与产业落地的结合,正在推动这一领域进入新阶 段。 2025 尚未过半,人工智能领域的新进展已经令人应接不暇。 在计算机视觉领域,生成式 AI、多模态基础模型及实际应用落地等方向都取得了显著进展。这个领域正从单一任务模型转向通用化、多模态的基础架构,同 时加速向移动端和产业场景渗透。 全球性的顶级学术会议,从来都是领域内的「风向标」。CVPR 全称为计算机视觉与模式识别会议,是计算机视觉领域中最重要的国际会议之一。今年的 CVPR 2025 共收到 13008 份论文投稿,最终接收 2878 篇论文,整体接收率为 22.1%。 为了服务中国 AI 社区,近年来机器之心持续举办了多场 NeurIPS、CVPR、ACL 论文分享会,受到了海内外 AI 社区的极大关注,众多高校、企业都积极 参与。 2025 年 6 月 7 日,机器之心计划在北京举办「CVPR 2025 论文分享会」,广 ...
文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”
量子位· 2025-05-13 04:45
技术突破 - 港中文MMLab团队发布首个基于强化学习的推理增强文生图模型T2I-R1 实现"先推理后生成"的双层级CoT框架 [2][8][27] - 提出Semantic-level CoT负责图像全局结构规划 Token-level CoT专注底层视觉细节生成 解决跨模态对齐与细粒度生成难题 [10][12][16] - 创新BiCoT-GRPO强化学习方法 在单一RL步骤中协同优化语义规划与像素生成 相比分阶段训练效率更高且计算成本更低 [8][21][23] 性能表现 - T2I-R1在T2I-CompBench和WISE基准测试中分别比基线模型提升13%和19%性能 在多个子任务超越FLUX.1等先进模型 [33] - 具体指标显示:颜色绑定能力达0.8130 形状绑定0.5852 纹理绑定0.7243 空间关系0.3378 综合复杂任务处理能力0.3993 [34] - 模型通过语义推理准确理解用户意图 例如将"阿姆斯特丹所在国家栽培的花"正确推理为郁金香并生成对应图像 [15][29][31] 行业意义 - 该技术突破证明CoT推理在图像生成领域的有效性 为多模态生成任务提供新范式 可拓展至视频生成与3D内容合成 [36] - 采用多视觉专家模型集成作为奖励机制 既保障多维度质量评估 又防止模型过拟合单一奖励标准 [25][32] - 首次实现无需额外模型的端到端推理生成架构 显著降低部署复杂度 为通用智能体发展提供技术路径 [9][18][36]
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
机器之心· 2025-05-12 09:06
核心观点 - 蚂蚁和人大研究团队提出视觉语言大模型ViLAMP 通过混合精度策略实现对超长视频的高效处理 在单张A100 GPU上可处理10,000帧视频 并在多个视频理解基准上全面超越现有方案[1][2][9] 技术原理 - 视频信息在时空维度均呈现稀疏性与冗余性 90%注意力仅分布在不到5%的视频帧上 50%的patch承载80%的模型注意力[7][19] - 提出差分蒸馏原则 识别并保留高查询相关性且低信息冗余的重要视频信息[8] - 采用双层混合精度架构:差分关键帧选择(DKS)实现关键帧高效识别 差分特征合并(DFM)将非关键帧压缩为单个信息量最大化的token[12][13][14] 性能表现 - 以7B参数量达到或超越部分70B量级模型表现 在Video-MME长视频子集上比现有最优模型提升4.8%[17] - 在VideoNIAH任务中处理10K帧视频保持58.15%准确率 超越VideoChat-Flash基线模型12.82%[18] - 内存消耗相比LLaMA-VID基线降低约50% 在8,192帧情况下计算量减少80%以上[20] 效率突破 - 可在单张A100 GPU上连续处理10,000帧视频 按每秒1帧计算约3小时内容[2] - DKS在长视频场景下表现明显优势 DFM相比特征融合方案在所有数据集上展现3个百分点以上性能优势[20] 应用前景 - 突破长视频处理计算瓶颈 为在线教育 视频监控 直播分析等实际应用场景带来新的可能[2][22] - 相关论文已被ICML 2025接收 提供新的研究思路和实用价值[2][22]
2025年中国多模态大模型行业生产生活应用现状 多模态大模型助力生产生活走向高品质【组图】
前瞻网· 2025-05-12 08:11
转自:前瞻产业研究院 智能营销、教学辅助、3D建模以及智能驾驶等应用场景是生产生活中的重要领域,也是目前多模态大 模型可以切入并且精准赋能的领域。根据赛迪四川研究数据显示,2024年智能营销占中国人工智能多模 态大模型20强企业模型场景的9.5%,教学辅助、3D建模和智能驾驶均占4.8%左右。 行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 本文核心数据:应用场景比重; 多模态大模型生成生活相关场景 多模态大模型助力智能营销优化策略 智能营销行业利用人工智能、大数据、机器学习和多模态技术,通过自动化、个性化的方式优化广告投 放、客户关系管理和内容营销。智能营销不仅帮助品牌实现更高效的客户触达,还能够动态调整营销策 略,提升用户体验,推动品牌增长。 智能营销是应用人工智能技术,对数字营销的全链路进行智能化升级的新型营销方式。智 ...
云从科技“从容多模态大模型”全球领先,与华为昇腾合作推动解决方案落地
快讯· 2025-05-12 05:48
技术突破 - 云从科技自主研发的"从容多模态大模型"在Open Compass评测中以65.5分位列全球前三,超越谷歌Gemini1.5Pro等模型 [1] - 该模型在跨模态跟踪、3D人脸识别等细分领域10次刷新世界纪录 [1] 商业应用 - 公司与华为昇腾联合推出智用一体机解决方案 [1] - 解决方案已在天津港智慧物流调度、国网山东能源管理等多个标杆项目中落地 [1] - 技术应用助力企业运营效率提升超20% [1]
冯诺依曼研究院成立深港科技合作再添AI范式
21世纪经济报道· 2025-05-09 09:45
研究院成立与定位 - 香港科技大学成立冯诺依曼研究院,整合具身智能、生成式AI及先进超级运算等技术,推动跨学科协作 [1] - 研究院由计算机视觉与AI领域知名专家贾佳亚领衔,他是思谋集团创始人 [1] - 研究院定位为大湾区首个"全链条实战型"AI研究院,聚焦五大前沿领域:具身智能、多模态大模型、可信人工智能、虚实融合空间、医疗AI应用 [2] - 研究院突破传统高校纯学术模式,通过专业实验室、校企联合攻关等机制,实现从论文到产品的快速跨越 [2] 战略目标与产学研合作 - 香港特区政府推行"AI+"策略,目标是将AI融入各行各业 [1] - 研究院将成为开拓AI应用场景与推动研究成果商业化的平台 [1] - 思谋集团与科大成立研究院,实践了与港投公司签订的战略合作协议,包括产学研合作和人才培育 [1] - 研究院期望通过探索AI创新与应用,孵化更多独角兽,构建更完善的AI生态圈 [1] 研究方向与技术重点 - 研究院聚焦五大AI关键领域:新一代多模态AI系统、增强AI逻辑推理能力、机器人智能技术、AI驱动的3D理解与生成、大模型改革医疗保健服务 [2] - 思谋科技深度融合"AI大脑+全栈机器人"技术,已成为AI独角兽企业 [2] - 思谋科技服务近300家全球大型制造业企业 [2] 人才培养计划 - 研究院启动"AI探索者:人工智能学校教育计划",构建覆盖全港的青少年科创培养体系 [3] - 计划将培训超100名博士生,为香港储备AI新生代力量 [3] - 通过科普讲座、开放实验室、特色课程等举措培养人才 [3] 深港协同与产业落地 - 香港发挥国际资本、高校科研和全球人才优势,深圳依托制造业集群和供应链体系 [4] - 思谋科技构建"创新策源+产业落地"的双向赋能体系,总部在香港,研发中心和工厂在深圳 [5] - 深港协同实现"上午算法调试,下午部署测试,当晚样品生产"的高效机制 [5] - 思谋工业智能体已在特斯拉、比亚迪等300家工厂实现24小时无间断作业,操作精度达0.01mm级 [4]
KuaiMod来了!快手用大模型重构短视频生态格局
机器之心· 2025-05-09 04:19
机器之心发布 机器之心编辑部 在短视频成为亿万用户日常生活标配的当下,它不仅是一种娱乐方式,更是人们获取信息、表达观点、构建社交的主要媒介。 随着内容量的井喷式增长, 平台面临着前所未有的挑战:一方面,需要更高效地识别和管理内容;另一方面,必须精准地将优质内容推送给真正感兴趣的用户。 大模型技术,尤其是多模态大模型,正迅速成为人工智能领域的新引擎,具备强大的图文音视频理解能力。但在短视频生态这一复杂、高速演化的场景中, 如何将这些技术真正落地,仍是一道难解的行业命题。 作为国内领先的短视频社区,快手对利用多模态大模型重塑短视频生态做出了尝试,提出了基于多模态大模型的短视频平台生态优化和综合用户体验 改善方案,并在实际部署中取得了显著的成效。这一创新举措不仅为短视频平台的健康发展提供了新的思路,也为行业树立了标杆。 基于多模态大模型的短视频生态优化方案 低质内容广泛存在于各个媒体平台,识别和过滤这些内容是改善用户体验和平台生态的重要环节。但传统视频质量判别方案高度依赖静态规则和标注人员判 别,造成了高昂的判断成本,且难以适应用户反感内容的动态性,现有的自动化质量判别方案主要通过关键词匹配和大语言模型的提示工程( ...
(经济观察)业界人士热议:文旅行业将率先拥抱人工智能
中国新闻网· 2025-05-08 15:09
中新社上海5月8日电 (记者郑莹莹)上海徐汇区"AI+文旅生态成长计划"8日在模速空间内启动。参与活动 的业界人士认为,对于拥抱人工智能技术,文旅行业更具包容度。 "工业等领域的应用场景需要非常高的准确率,但文旅场景对于这类新科技的包容度是比较高的。比 如,机器人表演有时还会摔跤,对此大家其实是能包容的。"上海魂伴科技有限责任公司(简称:魂伴科 技)合伙人金成思说。他认为,文旅场景有望率先实现人工智能应用落地。 魂伴科技在2025年4月举办的2025上海龙华庙会上展示人形机器人应用。 中新社记者郑莹莹摄 魂伴科技在今年4月举办的2025上海龙华庙会上"秀"了一把机器人,吸引了沪上众多市民游客围观。这 对金成思触动很大:"当时机器人的表演其实并没有往日视频里酷炫,但市民游客仍觉得比在网络视频 里看到的更好、更真实,现场有些老年市民看到现实版人形机器人后,还期待它未来能帮忙养老。" 这让他思考,也许更重要的是让更多市民有机会了解、接触机器人。"我们要让机器人产品从实验室里 走到广场上,了解市民的需求,哪怕让机器人出洋相。如此,我们才能知道我们差的是什么。" 上海稀宇科技有限公司的公共事务副总裁严奕骏也看好文旅领域 ...
国泰海通|电子:从“能动”到“灵动”,机器人智能化步入新篇章
国泰海通证券研究· 2025-05-08 13:18
投资建议。 人形机器人高速发展,具身智能是驱动商业化落地的核心因素。机器人智能水平以及实时控制 性能提升将驱动感知性能、算力、通信效率等需求增长,端侧传感、驱控及通信芯片将充分受益。具身智 能落地打开人形机器人成长空间,未来应用前景广阔,带动整机厂商业绩上行。 报告导读: 具身智能是人形机器人商业化落地核心,多模态、强化学习加速智能进化,感 知传感迭代革新, EtherCAT 赋能高速通信,端侧算力持续升级。 本文摘自:2025年5月8日发布的 从"能动"到"灵动",机器人智能化步入新篇章 舒 迪 ,资格证书编号: S0880521070002 更多国泰海通研究和服务 亦可联系对口销售获取 重要提醒 本订阅号所载内容仅面向国泰海通证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证 券期货投资者适当性管理办法》的要求,若您并非国泰海通证券研究服务签约客户,为保证服务质量、 控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。我们对由此给您造成的 不便表示诚挚歉意,非常感谢您的理解与配合!如有任何疑问,敬请按照文末联系方式与我们联系。 法律声明 市 场空间超万亿,实现具身智能是商业化落 ...