多模态大模型
搜索文档
商汤科技与寒武纪实现多模态大模型Day 0成功适配 激发AI前沿应用创新活力
智通财经网· 2025-12-16 11:25
智通财经APP获悉,12月15日,"国产芯片+国产模型"的技术协同发展迎来重要里程碑。在商汤科技 (00020)发布行业首个多剧集生成智能体Seko2.0的同时,寒武纪(688256.SH)也宣布完成对商汤自研日日 新Seko系列的适配,本次成功适配日期为"Day 0"。而寒武纪曾官方宣布在"Day 0"成功适配的仅有商汤 科技的"日日新"和DeepSeek,而Seko系列模型是行业内少数完成国产芯片适配的多模态模型系列。 双方共同推动国产AI应用生态发展,打磨更高效、更易用的阶梯式产品体系 此次与寒武纪在多模态生成模型的适配,是国产大模型与国产算力底座协同创新的重要实践,让更多开 发者和企业能够以更低成本享受到顶尖的多模态AI能力。 为高效释放国产算力潜能,商汤科技在其LightX2V框架中设计了强兼容的国产化适配插件模式,可快 速完成各类国产硬件的适配。同时,Seko系列模型与LightX2V框架在设计之初便引入了低比特量化、 压缩通信、稀疏注意力等硬件友好创新机制,已实现将推理性能提升3倍以上的显著效果。 适配完成后,双方的合作将进入更深化的优化阶段。未来,商汤科技与寒武纪将围绕多个方向展开联合 攻关。 ...
商汤科技(00020)与寒武纪(688256.SH)实现多模态大模型Day 0成功适配 激发AI前沿应用创新活力
智通财经网· 2025-12-16 11:22
为高效释放国产算力潜能,商汤科技在其LightX2V框架中设计了强兼容的国产化适配插件模式,可快 速完成各类国产硬件的适配。同时,Seko系列模型与LightX2V框架在设计之初便引入了低比特量化、 压缩通信、稀疏注意力等硬件友好创新机制,已实现将推理性能提升3倍以上的显著效果。 寒武纪Day0成功适配商汤"日日新",即在新模型发布的当天寒武纪的芯片硬件就已完成对商汤日日新 多模态大模型的适配与支持,这是衡量国产芯片对国产AI厂商生态建设能力和技术啦应速度的关键指 标。 寒武纪国产AI芯片对商汤Seko系列模型的适配,体现了国内AI厂商之间齐心协力、合作紧密。此次寒 武纪芯片与商汤多模态模型的快速适配,意味着国产AI生态圈已从语言模型全面延伸至更复杂、更具 挑战性的多模态生成领域。商汤的日日新Seko系列模型,包括SekoIDX、SekoTalk等图像与视频生成模 型,构成了Seko2.0智能体的核心技术底座。 双方共同推动国产AI应用生态发展,打磨更高效、更易用的阶梯式产品体系 此次与寒武纪在多模态生成模型的适配,是国产大模型与国产算力底座协同创新的重要实践,让更多开 发者和企业能够以更低成本享受到顶尖的多 ...
商汤全面出击,冲在“AI 国产化”第一线
远川研究所· 2025-12-15 13:08
文章核心观点 - 中国AI产业正展现出从底层算力到上层模型实现全国产自主可控的能力与决心,市场对此反应积极[2] - 实现系统性AI国产化需要模型、算力、应用等全栈技术的自主创新与协同,而不仅是单点突破[3][11] - 商汤科技作为AI Native公司,通过前瞻性布局和系统性实践,正引领从国产算力适配、原生多模态架构创新到应用落地的全链条AI国产化进程[5][11][19] 国产AI算力突破与生态构建 - 摩尔线程作为“国产GPU第一股”上市,首日股价暴涨超400%,五天后市值飙升至约4500亿元,较发行市值增长超7倍,市场看好中国科技自主创新[2] - 商汤科技自2020年起前瞻性投入AI大装置,并积极推动其模型与寒武纪、摩尔线程、沐曦、华为、璧仞等几乎所有国产芯片进行全面适配,打造自主可控护城河[5][6][9] - 商汤与寒武纪联合发布深度优化方案,其日日新Seko系列多模态生成模型已完成对寒武纪芯片的适配,未来国产芯片将能支持实时视频生成[6][8] - 商汤与摩尔线程合作,使国产GPU首次在千亿参数级大模型训练与推理任务中接受工业级标准考验[9] - 商汤完成与华为昇腾910C 384超节点的全面适配,解决了大模型训练中的算力协同与通信效率问题[10] - 商汤联合十余家国产芯片生态伙伴发布“商汤大装置算力Mall”,为客户提供经过验证的高性能国产芯片,降低使用门槛和成本[10] 多模态模型架构与技术创新 - 商汤发布并开源自主研发的多模态模型架构NEO,作为其日日新大模型的新架构基石,旨在突破以语言为中心的传统多模态架构限制[16] - NEO架构仅需业界同等性能模型1/10的数据量(3.9亿图像文本样本),就能开发出顶尖视觉感知能力,在多项公开权威评测中斩获高分[17] - 商汤通过多阶段早期融合等技术,将多模态模型性价比提升3倍[16] - 商汤在空间智能模型SenseNova-SI上表现优异,超过了GPT-5、Gemini-3 Pro及专用模型Cambrian-S[17] - 商汤开源的实时视频生成推理框架LightX2V,累计下载超350万次,设计了强兼容的国产化适配插件模式,可快速完成各类国产硬件适配[17][18] 应用落地与成本效率突破 - 传统AI短剧生成1分钟高质量视频需1小时八卡英伟达最新GPU计算,成本高难以大规模落地,传统开源模型每小时仅生成20秒视频[18][19] - 商汤开发的实时语音驱动数字人技术SekoTalk,生成同等质量视频,一小时计算可生成1280秒,经优化后使用消费级5090显卡一小时生成时长可达4500秒,效率大幅提升[19] - 商汤的Seko、小浣熊等产品将全面支持国产化,国产硬件与AI模型的深度融合将为信创、数据安全及本地化部署提供自主可控的关键解法[19] AI国产化的系统化路径 - AI国产化需从算力到模型、再到应用的全国产化,是兼具技术实践与前瞻洞察的系统性工程[11] - 商汤“AI国产化”战略的关键在于模型底层架构创新与产品落地,进行了从底层算力适配、中间模型算法创新到上层应用部署的系统性全面布局[13][19] - 商汤作为少数既有心又有力的AI上市企业,正通过推动原始底层创新并联合行业生态力量,引领AI国产化进程[11][19]
基于Qwen3-VL的自动驾驶场景实测......
自动驾驶之心· 2025-12-12 07:35
文章核心观点 - 阿里通义最新的Qwen3-VL多模态大模型在自动驾驶场景的实测中表现卓越,展现出强大的通用视觉语言基础能力,能够在未经专门自动驾驶指令微调的情况下,对复杂交通场景做出合理、连贯且带有安全意识的判断,这为通用视觉语言模型在垂直领域落地提供了更多可能性 [2][82] 场景理解和空间推理 - 模型能够准确描述图片中的场景,包括天气状况、道路类型以及是否存在行人或车辆等基础感知任务 [7][8][9][10][14][16][17] - 模型具备深度的空间推理能力,能够判断距离自车最近的车辆、前方车辆的移动状态、旁边车辆的变道意图、前方车辆的数量与位置、自车所在车道以及车道线数量 [20][21][24] - 模型能够识别交通信号灯及其颜色 [25] 行为决策和因果推理 - 模型能够基于当前情况,为自车提供加速、减速或保持速度的行为决策建议 [28] - 模型能够识别图像中最大的潜在危险 [29] - 模型能够准确识别并解释多个交通标志(如黄色弯道警告标志、绿色ETC指示标志、F200里程牌),并说明相应的应对措施,强调安全驾驶原则 [30][31][32][33] - 模型能够判断在特定场景下是否应该变道并解释原因 [35] - 模型能够根据交通参与者的动态状态、距离和潜在风险,对其危险程度进行从高到低的排序 [37][39][40][41][42] - 模型能够解释旁边车辆“闪灯”的现象,指出其实际是夜间正常开启的大灯,并分析了可能的误解来源 [43][44][45][46] - 模型能够针对安全超车提供详细指导,但在实测的特定夜间场景中,基于对向来车、能见度低、道路条件等因素,强烈不建议尝试超车 [47][48][49] 时序理解与动态变化 - 模型能够分析多帧图像序列,判断前方车辆的相对速度是在增加还是减少,并结合交通场景(如出现拥堵排队)进行逻辑推断 [51][52][53][54][55][56] - 模型能够解释交通流从畅通到拥堵的演变过程,阐述其典型阶段,并分析最初可能引发拥堵的局部扰动事件(如前方车辆突发减速、道路瓶颈、外部干扰) [57][58][59][60] - 基于对拥堵场景的分析,模型明确指出在车辆紧密排队、道路条件禁止的情况下,超车极不安全,并列举了核心风险点 [61][62][63][64][65][66] - 在动态场景中,模型能判断哪个交通参与者的行为最危险 [69] - 模型能够模拟复杂突发事件的演变过程,例如旁边停靠车辆突然爆胎后,在隧道场景中可能引发的一系列连锁反应 [71][72][73][74][75] 测试亮点与总结 - Qwen3-VL展现了精准的场景理解、深度的空间推理、动态行为预测、突出的安全意识以及多帧时序理解等多项能力 [81] - 该模型的表现显示出,未来基于通用大模型的自动驾驶系统可能通过“常识推理+多模态理解”的方式,实现更高效、泛化和可信的驾驶决策,减少对海量场景数据反复打磨的依赖 [82]
车企集体跨界智能终端AI入口争夺战中开启生态破局
中国证券报· 2025-12-11 20:17
行业核心观点 - 国内头部新能源车企正集体跨界智能穿戴与数码产品赛道,以破局汽车行业同质化竞争,并在AI时代抢占用户入口、开辟第二增长曲线 [1] - 新能源车企跨界智能设备赛道,已从“不务正业”的尝试,转变为应对行业同质化、抢占AI入口的战略必然,其本质是以低毛利硬件撬动高黏性服务收入,推动企业从交通工具制造商向智能生活服务商转型 [4][5] 车企跨界战略与逻辑 - 车企跨界智能穿戴与数码产品的核心逻辑在于,以智能设备为纽带,将座舱智能延伸至用户生活全链路,其中眼镜因“靠近眼睛、耳朵和嘴巴,且无需改变用户习惯”,被视为最自然的人机交互入口 [1] - 车企发展智能设备存在技术互通、优势互补、资源共享、降低成本等多重优势,最终会转化为用户端的体验壁垒,促进消费者对品牌车辆的复购与推荐 [2] - 车企研发智能终端的逻辑与豆包手机相似,旨在通过终端收集的导航数据、语音交互习惯、生活场景偏好等数据,反哺企业多模态大模型,优化数据丰富度和功能体验感 [4] 主要车企布局与产品 - **理想汽车**:于2025年12月3日发布AI眼镜Livis,重36克,续航18.8小时,支持与车机深度互联,可实现300毫秒唤醒、800毫秒端到端响应,语音助手可直接完成车控操作,首销当日订单突破1.2万台,其中80%来自理想汽车车主复购 [1][2][3] - **小鹏汽车**:在2024年11月发布AI人形机器人Iron,已进入广州工厂参与小鹏P7+车型的生产实训,其核心技术与自动驾驶系统共享视觉神经网络和AI算法,研发投入超20亿元 [2][3] - **蔚来**:早在2022年便推出了NIO Air AR Glasses,通过车载适配器与车机系统连接,支持语音交互与手机操控,探索“车载娱乐+AR”的场景融合 [2] - **特斯拉**:凭借“汽车+机器人”的规模化布局,其Optimus机器人第二代迭代后已具备实用功能,未来将拓展至家庭场景,规模效应使其在成本控制上占据先天优势 [3] 市场反馈与行业趋势 - 2025年上半年全球智能眼镜出货量达406.5万台,同比增长64.2%,其中车企相关产品贡献了15%的增量 [3] - 汽车竞争正从单一车型向“车+N个智能终端”的生态较量演化 [3] - 据艾瑞咨询调研,72%的中国智能设备用户愿意为跨终端服务支付溢价,而这一比例在欧美市场仅为45%,为国内车企的跨界创新提供了支持 [4] 面临的挑战与商业模式 - 国内新势力车企布局智能穿戴与数码产品面临盈利周期较长、规模效应不足的挑战,例如小鹏机器人Iron仅靠工厂场景应用或需5年至8年才能回本,理想AI眼镜Livis的研发与合作投入也需要长期现金流支撑 [3] - 传统硬件销售模式难以为继,需寻求商业模式突破,借鉴“跳出硬件卖生态”的思路,通过生态联动和服务变现实现差异化 [3][5]
南大联合LibLib.ai、中科院自动化所,共同提出布局推理与精准编辑「海报设计大模型」PosterCopilot
机器之心· 2025-12-10 08:13
来自南京大学 PRLab 的魏佳哲、李垦,在准聘助理教授司晨阳的指导下,提出专业级海报设计与编辑大模型 PosterCopilot 。本研究联合了 LibLib.ai 、 中国科学院自动化研究所等多家顶尖机构,共同完成了首个解耦布局推理与多轮可控编辑的图形设计框架研发。PosterCopilot 能够实现专业设计级的版式 生成、语义一致的多轮编辑,并具备高度可控的创作能力。 此外,受华为-南京大学鲲鹏昇腾科教创新孵化中心支持,该模型已完成对国产昇腾算力平台的适配与部署,进一步推动了国产 AI 设计技术的发展与落地。 行业痛点: 从生成式失控到多模态「盲推」 平面设计是视觉传达的基石,但要实现真正的自动化专业设计,目前仍面临巨大挑战。尽管以 Stable Diffusion 为代表的文生图(T2I)模型在图像合成上 表现强劲,但在实际的工业设计流中,它们因无法处理分层结构,往往导致用户素材失真且无法进行精细化控制。 论文标题: Poster Copilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Des ...
智谱上线并开源GLM-4.6V系列多模态大模型 构建原生多模态工具调用能力
证券日报网· 2025-12-09 10:46
本报讯 (记者梁傲男)12月8日,北京智谱华章科技股份有限公司(以下简称"智谱")正式上线并开源 GLM-4.6V系列多模态大模型,包括面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)和面 向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)。 智谱方面表示:"智谱多模态开源周开启,我们将持续开源更多前沿模型。拥抱多模态交互新范式,从 GLM-4.6V开始。" 传统工具调用大多基于纯文本,在面对图像、视频、复杂文档等多模态内容时,需要多次中间转换,带 来信息损失和工程复杂度。 据了解,GLM-4.6V从设计之初就围绕"图像即参数,结果即上下文",构建了原生多模态工具调用能 力:图像、截图、文档页面等可以直接作为工具参数,无需先转为文字描述再解析,减少链路损耗。对 于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果,模型能够再次进行视觉理解,将 其纳入后续推理链路。 模型原生支持基于视觉输入的工具调用,完整打通从感知到理解到执行的闭环。这使得GLM-4.6V能够 应对图文混排输出、商品识别与好价推荐以及辅助型Agent场景等更复杂的视觉任务。 据介绍,GLM-4.6 ...
全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案
机器之心· 2025-12-09 03:17
多模态大模型视觉编码的技术挑战与现状 - 当前主流视觉编码范式难以兼顾性能与效率:基于切片的编码方法牺牲全局上下文感知能力,而全局原生分辨率编码则带来巨大计算负担 [2] - 现有视觉压缩策略与特征提取过程相对独立,缺乏一个能兼顾细粒度建模与计算效率的统一架构 [2] LLaVA-UHD v3 的发布与核心目标 - 清华大学、中科院研究团队发布 LLaVA-UHD v3,旨在解决高清原生分辨率下保持全局理解能力并实现快速推理的核心问题 [3] - 模型提出了全新的渐进式视觉压缩框架,旨在显著减少视觉 Token 数量,从根本上提升原生高分辨率视觉编码的效率 [4] 渐进式视觉压缩框架详解 - 框架核心由精细化 Patch 嵌入与窗口化 Token 压缩两个组件构成 [4] - 精细化 Patch 嵌入通过将图像划分为更小尺寸的 patch,并转换预训练模型权重,实现更丰富的视觉语义提取建模 [11] - 窗口化 Token 压缩在 ViT 中间层聚合相邻 token,通过可学习的池化权重渐进压缩 token 数量,保留关键语义信息 [13] - 该“先细粒度建模 + 再渐进压缩”的设计,在兼顾全局语义与局部细节的同时大幅降低计算量 [15] 全图编码与切片编码的对比分析 - 实验对比显示,全局原生分辨率编码在空间感知/定位任务上相比切片编码平均提升约 11.0% [6] - 在通用视觉-语言理解任务中,全局原生分辨率编码在语义理解表现上略优于切片编码,平均提升约 2.1% [7] - 研究发现切片编码机制破坏了图像的空间连续性,导致系统性方向与结构偏差,削弱了空间理解的可靠性 [7] - 结论表明,尽管切片编码效率有优势,但从语义、空间及几何一致性角度,全局原生分辨率编码更适合需要空间感知与高分辨率理解的任务 [7] LLaVA-UHD v3 的效率与性能验证 - 效率方面,ViT-UHD 编码器相比 MoonViT 实现 2.4× 加速,相比 Qwen2.5-ViT 快 1.9× [16] - 整合到完整 MLLM 后,LLaVA-UHD v3 的 TTFT 相较 Qwen2-VL 降低 49%(约快 1.9×),比以高效著称的切片编码模型 MiniCPM-V2.6 仍快约 10% [16] - 性能方面,模型仅使用约 2000 万对图文数据训练,远低于 Qwen2-VL(约 7 亿)和 MiniCPM-V-2.6(约 4.6 亿)的训练规模 [17] - 模型实现了 64× 的视觉 Token 压缩率,远超对手(Qwen2-VL 约为 4×,MiniCPM-V2.6 为 16×)[17] - 在需要细粒度视觉信息的任务上,如 HallusionBench、CV-Bench 以及 OCR&Chart,模型取得了与 SOTA 模型相当甚至更优的表现 [17] 模型综合性能基准对比 - 在通用与知识基准测试中,LLaVA-UHD-v3 在多个指标上展现出竞争力,例如在 MME 上得分为 2183.6,在 MMB 上为 81.3,在 MathVista 上为 64.2 [18] - 在视觉推理与 OCR & Chart 基准测试中,模型在 HallusionBench 上得分为 52.2,在 RealworldQA 上为 70.3,在 DocVQA 上为 92.8,表现优异 [19] 技术局限与未来展望 - 实验表明,缺失预对齐阶段的 ViT-UHD 性能不佳,当前 MLLM 标准训练流程难以完全挖掘视觉编码器的潜力 [20] - 随着 Token 数量增大,Transformer 的二次复杂度仍会带来成本瓶颈 [20] - 未来需探索更适合多模态任务的视觉编码预训练策略,并引入线性复杂度算子以替代传统注意力机制,实现可扩展的高效多模态建模 [20]
智谱上线并开源 GLM-4.6V 系列多模态大模型
北京商报· 2025-12-08 12:34
北京商报讯(记者 魏蔚)12月8日,智谱正式上线并开源 GLM-4.6V 系列多模态大模型,包括面向云端 与高性能集群场景的基础版GLM-4.6V(106B-A12B)和面向本地部署与低延迟应用的轻量版GLM- 4.6V-Flash(9B)。 据介绍,GLM-4.6V 将训练时上下文窗口提升到 128k tokens,在视觉理解精度上达到同参数规模 SOTA,首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从"视觉感 知"到"可执行行动(Action)"的链路,为真实业务场景中的多模态 Agent (智能体)提供统一的技术底 座。该系列模型较GLM-4.5V 降价 50%,API (应用程序编程接口)调用价格为输入 1 元/百万 tokens, 输出 3 元/百万 tokensm,其中GLM-4.6V-Flash 免费供用户使用。GLM-4.6V 融入 GLM Coding Plan,针 对用户 8 类场景定向开发了专用 MCP(大模型上下文协议) 工具。 ...
死磕技术的自动驾驶黄埔军校,又更新了这些技术进展......
自动驾驶之心· 2025-12-07 02:05
文章核心观点 - 文章旨在推广“自动驾驶之心知识星球”社区,该社区定位为国内首个自动驾驶全栈技术交流平台,汇集学术界与工业界资源,为从业者及学习者提供全面的技术内容、学习路线、行业资讯及求职内推服务 [8][25] - 社区核心价值在于降低行业入门壁垒,通过体系化的知识梳理和专家互动,帮助成员应对技术快速迭代和行业竞争,目标是打造一个近万人的技术分享与交流聚集地 [8][26] 社区概况与规模 - 社区已运营超过三年,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [8] - 目前社区成员已超过4000人,成员来自近300家机构与自动驾驶公司,目标在未来2年内做到近万人的规模 [8][104] - 社区成员背景多元,包括上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、小米汽车等头部公司 [25] 内容体系与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,内容全面覆盖从基础到前沿的各个领域 [11][14] - 技术方向具体包括:自动驾驶感知(如BEV感知、3D目标检测)、规划控制、端到端自动驾驶、VLA(视觉-语言-动作模型)、世界模型、多传感器融合、自动驾驶仿真、3DGS(3D Gaussian Splatting)、NeRF、扩散模型、Occupancy Network、视觉语言模型(VLM)、在线高精地图等 [11][16][25][34][45][47][49][51][53][56][58][60][64][65] - 提供了近60个自动驾驶相关数据集的汇总,包括通用CV数据集、感知数据集、轨迹预测数据集,并详细梳理了自动驾驶VLM的预训练、微调及思维链数据集 [43] - 汇总了近40个开源项目,涵盖3D目标检测、BEV感知、世界模型、自动驾驶大模型等多个领域,助力快速上手实践 [41] 学习资源与课程 - 社区提供原创的系列视频教程,涵盖感知融合、多传感器标定、SLAM与高精地图、决策规划与轨迹预测、自动驾驶数据工程、2D/3D目标跟踪、自动驾驶仿真、端到端自动驾驶及大模型技术等八大方向 [17] - 为入门者准备了全栈方向的学习课程,包括数学基础、计算机视觉、深度学习、编程等资料,以及经典书籍和课程课件汇总,适合0基础学习者 [16][19] - 设有“自动驾驶100问”系列专题,内容涉及TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试、BEV感知、相机标定、3D&4D毫米波雷达等工程实践问题 [16] 行业交流与活动 - 社区不定期邀请一线学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播,内容可反复观看 [12][92] - 直播分享主题前沿,例如:完全开源性能SOTA的端到端VLA模型“Impromptu VLA”、基于快慢神经符号系统的道路拓扑推理、让自动驾驶用自然语言交流的V2X研究、通用3D检测基础模型“DetAny3D”、基于扩散模型的规划算法“Diffusion Planner”等 [93] - 社区内部建立了与多家自动驾驶公司的岗位内推机制,可第一时间将成员简历推送给心仪公司 [17] - 日常交流问题涵盖技术学习、职业发展、行业趋势等,例如:端到端自动驾驶如何入门、多传感器融合就业前景、业内公司跳槽选择、博士研究方向等 [11][15][30] 社区特色与附加价值 - 社区致力于解答成员的各类实用问题,并提供快速解答,方便应用到实际项目中 [11] - 汇总了国内外自动驾驶与机器人领域的高校实验室和公司信息,为成员升学、求职提供参考 [35][37] - 打造了一个交流+技术分享的聚集地,旨在让初学者快速入门,让进阶者提升技能,并结交行业人脉 [8][26]