多模态大模型

搜索文档
东吴证券:距离真正的具身智能大模型有多远?
智通财经网· 2025-08-09 14:20
人形机器人智能化发展 - 人形机器人产业化落地的关键在于摆脱传统工业机器人"控制刚、泛化弱"的局限,需依托大模型支撑的多模态理解与泛化能力以适应复杂任务与动态环境 [2] - 当前多模态大模型为人形机器人提供初级大脑,开启从0到1的智能进化,但整体智能化仍处于L2初级阶段 [2] - 高智能大模型是贯通通用人形机器人路径的核心变量,面临建模方法、数据规模与训练范式等多重挑战 [2] 机器人大模型技术进展 - 架构端从SayCan语言规划模型发展到RT-1、PaLM-E、RT2等多模态融合模型,形成"看图识意、理解任务、生成动作"的完整链条 [3] - 2024年π0动作专家模型输出频率达50Hz,2025年Helix快慢脑并行架构控制频率突破200Hz,显著提升操作流畅性与响应速度 [3] - 数据端形成互联网、仿真、真机动作三类数据协同支撑的体系,真机数据依赖高精度动捕设备,光学动捕成为具身模型训练核心数据来源 [3] 未来大模型发展方向 - 模态扩展将从视觉、语言、动作三模态向触觉、温度等感知通道延伸 [1][4] - Cosmos等架构通过状态预测构建"世界模型",实现感知—建模—决策闭环,提升环境建模与推理能力 [1][4] - 数据端仿真与真实数据融合训练成为主流,高标准可扩展训练场成为通用机器人训练体系关键支撑 [1][4] 投资标的建议 - 模型端关注银河通用、星动纪元、智元机器人等一级公司 [5] - 数据采集领域关注青瞳视觉、凌云光(688400)、奥比中光(688322) [5] - 数据训练场领域关注天奇股份(002009) [5]
机器人大模型深度报告:我们距离真正的具身智能大模型还有多远?
新浪财经· 2025-08-09 10:32
人形机器人产业化关键 - 人形机器人产业化需突破传统工业机器人"控制刚、泛化弱"局限,增强对不确定性的理解与适应能力 [1] - 工业机器人依赖确定性控制逻辑,缺乏感知与决策能力,导致成本高、通用性差 [1] - 人形机器人以"通用智能体"为目标,需依托大模型实现多模态理解与泛化能力,适应复杂任务 [1] - 当前多模态大模型为人形机器人提供初级智能,但整体仍处于L2初级阶段 [1] 机器人大模型进展 - 架构端:从SayCan语言规划模型到RT-1端到端动作输出,再到PaLM-E、RT-2多模态融合,形成"感知-任务理解-动作生成"完整链条 [2] - π0模型动作输出频率达50Hz,Helix架构控制频率突破200Hz,提升操作流畅性 [2] - 数据端形成互联网、仿真、真机动作三类数据协同体系,真机数据依赖高精度动捕设备 [2] - 训练范式从"低质预训练+高质调优"转向结构优化,光学动捕或成具身模型核心数据来源 [2] 大模型未来发展方向 - 模态扩展:从视觉、语言、动作向触觉、温度等感知通道延伸 [3] - 推理机制:Cosmos等架构通过状态预测赋予机器人"想象力",构建"世界模型"提升环境推理能力 [3] - 数据构成:仿真与真实数据融合训练成为主流,高标准训练场为通用机器人关键支撑 [3] 投资标的 - 模型端关注银河通用、星动纪元、智元机器人(一级公司) [4] - 数据采集领域关注青瞳视觉(一级)、凌云光(688400)、奥比中光(688322) [4] - 数据训练场领域关注天奇股份(002009) [4]
中国“机器人之城”大盘点:深广沪领跑,北京、苏州紧随其后
21世纪经济报道· 2025-08-08 15:21
机器人产业整体发展现状 - 中国连续12年保持全球最大工业机器人市场,工业机器人产量从2015年的3.3万套增长至2024年的55.6万套,服务机器人产量达1051.9万套 [6] - 截至2024年底全国智能机器人企业数量达45.17万家,较2020年增长206.73%,较2023年增长19.39%,东部地区占比66.06% [6] - 全球机器人市场规模预计2029年突破4000亿美元(约2.88万亿元人民币),中国市场将占近半份额 [11] 区域竞争格局 - 全国22城机器人企业超万家,深圳(65291家)、广州(53288家)、上海(45801家)领跑,北京(38068家)、苏州(37234家)紧随其后 [1][7] - 珠三角形成完整产业链,2024年广东工业机器人产量超24万台占全国44%,深圳优必选、广州瑞松智能等头部企业聚集 [7][8] - 长三角5城进入前20强,上海智元机器人、苏州智造企业梯度分布(杭州21947家、南京18169家、合肥13742家) [8] - 京津冀依托政策与高校资源,北京松延动力等新兴企业崛起,天津2018年布局现拥13584家企业 [8][9] 技术发展趋势 - AI驱动产业革命,机器视觉+深度学习实现毫米级精密组装,推动生产线柔性化智能化转型 [12] - 具身智能、多模态大模型、人形机器人量产将重构技术范式,北京上海已建立国家级创新中心 [12][13] - 深圳重点攻关具身智能机器人核心零部件/AI芯片/仿生灵巧手技术,武汉聚焦危化/制造/民生三类场景示范 [12][13] 政策支持方向 - 16城出台专项政策,深圳2025年发布具身智能三年行动计划,武汉对场景应用主体实行双边奖补(最高100万元) [12][13] - 浙江/安徽/湖北等省建立省级创新中心,推动区域技术共享与联合攻关 [13] - 差异化竞争策略:广州可挖掘汽车制造场景优势,深圳需强化港澳联动科研攻克核心技术 [13][14]
腾讯研究院AI速递 20250808
腾讯研究院· 2025-08-07 16:01
GPT-5系列模型 - OpenAI提前披露GPT-5四个版本:标准版gpt-5、轻量版gpt-5-mini、低延迟版gpt-5-nano和多模态复杂对话版gpt-5-chat [1] - 模型将分层开放:免费用户用基础版,Plus用户用更强推理版,Pro用户独享"研究级智能"的GPT-5 Pro [1] - 实测显示SimpleBench推理测试准确率达90%,需特定提示激活复杂思考,编程和视觉表现有提升但未达惊艳水平 [1] MiniMax语音模型 - 新一代Speech 2.5模型支持40种语言真人级生成,实现跨语种音色保留和口音复刻 [2] - 相比5月版本在多语种自然表达、音色复刻和语种覆盖三方面突破 [2] - 已被Vapi、Pipecat等海外平台及高途教育、喜马拉雅、网易等国内头部平台接入 [2] 小红书多模态模型 - 开源首个多模态大模型dots.vlm1,基于12亿参数NaViT视觉编码器和DeepSeek V3构建 [3] - 视觉理解能力接近Gemini 2.5 Pro和Seed-VL1.5 Thinking,能解数独、破解高考数学题等 [3] - 两个月内连续开源dots.llm1、dots.ocr、dots.vlm1三款模型,反映技术自研力度加大 [3] 面壁小钢多模态模型 - MiniCPM-V 4.0仅用4B参数在OpenCompass等榜单取得SOTA成绩,支持手机端稳定运行 [4] - 显存占用仅3.33GB,256并发下吞吐量达13856 tokens/s,远超Qwen2.5-VL和Gemma 3 [4] - 开源推理部署工具MiniCPM-V CookBook便于开发者简易部署 [4] 通义千问新模型 - 发布Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507两款小尺寸模型,支持256K上下文 [5][6] - Qwen3-4B-Thinking在AIME25测评得81.3分,Agent能力超越Qwen3-30B-Thinking [6] - Qwen3-4B-Instruct全面超越GPT-4.1-nano,性能接近Qwen3-30B-A3B [6] 大模型对抗赛 - OpenAI的o3以4比0完胜o4-mini,展现100%准确率 [7] - Grok 4与Gemini 2.5 Pro常规赛2比2平,加赛逼和对手晋级 [7] - 决赛由Grok 4对阵o3,国际象棋冠军Magnus Carlsen等将解说 [7] Gemini教育功能 - 推出"引导式学习"模式,通过问题分解、视觉辅助和互动测验构建知识 [8] - 为美日等国大学生提供一年免费AI Pro计划(价值200美元) [8] - 承诺三年内向美国教育投入10亿美元 [8] 具身智能技术 - Skild AI推出端到端视觉感知控制方案,实现机器人稳定爬楼梯和复杂障碍通过 [9] - 采用纯视觉输入方法,通过单一神经网络实现"本能级"动作控制 [9] - 优势在于连贯运动切换和环境适应能力,可实时调整动作应对地形 [9] 理想汽车智驾 - 推出国内首个量产VLA模型,在视觉和行为间加入语言环节使决策更拟人 [10][11] - 系统每天通过"世界模型仿真系统"行驶30万公里迭代,4B模型实现10Hz帧率 [11] - 预计辅助驾驶明年达1000MPI里程碑 [11] AI应用平台趋势 - a16z认为AI应用平台将走向专业化而非赢者通吃,形成互补共存 [12] - 市场分化为原型制作、个人软件和生产级应用三类,70%用户仅活跃于单一平台 [12] - 未来三至五年每类别将出现2-3家主导企业 [12]
600亿AI巨头,一年内融资近53亿港元
搜狐财经· 2025-08-07 11:29
融资情况 - 7月底完成25亿港元融资,发行16.67亿股B类股份,每股1.5港元,占已发行股份4.31% [1][3] - 近一年累计融资近53亿港元,包括去年12月27.87亿港元融资 [1][7] - 融资资金分配:30%用于核心AI业务发展,30%用于生成式AI研发,20%用于垂直领域探索,20%用于营运资金 [7] - 发行后总股份增至386.74亿股,较2021年末增加53.92亿股 [7][8] - 主要认购方为无极资本管理有限公司,该公司近期还参与曹操出行、蓝思科技IPO及中国儒意投资 [6] 财务状况 - 2024年末现金及等价物、定期存款合计118.59亿元,较2021年末215.2亿元减少96.61亿元 [8] - 2022-2024年营收分别为38.09亿元、34.06亿元、37.72亿元,2024年同比增长10.75% [9] - 同期净利润亏损分别为60.45亿元、64.4亿元、42.78亿元,2024年亏损收窄 [9] - 研发费用2022-2024年分别为40.14亿元、34.66亿元、41.32亿元,2024年同比增长19.2% [12] - 销售开支和行政开支2024年分别为6.55亿元和14.64亿元,同比减少20%和3.1% [13] 业务表现 - 生成式AI收入2023-2024年分别为11.84亿元和24.04亿元,同比增长103.1%,占比从34.8%提升至63.7% [9][11] - 视觉AI收入2023-2024年分别为18.38亿元和11.12亿元,同比下降39.5%,占比从53.9%降至29.5% [11] - 智能汽车收入2023-2024年分别为3.84亿元和2.56亿元,同比下降33.2%,占比从11.3%降至6.8% [12] - 绝影智能汽车平台2024年新增交付167万辆,同比增长29.2%,累计交付超360万辆 [12] 技术发展 - 2024年发布日日新5.0及5.5版本,是国内首个支持音视频流式交互的大模型 [10] - 预计2025年Q2发布6.0版本,将提升多模态理解、推理和交互能力 [10] - 大装置为内部研发提供支撑,并推动商业化服务布局 [9] 组织架构 - 2024年董事会新增两名执行董事:王征(CFO)和杨帆(联合创始人) [1][20] - 原联合创始人徐冰卸任董事职务,转任AI芯片业务负责人 [1][20] - 2024年员工总数从5098人缩减至3756人,累计减少1342人 [17] - 雇员福利开支从2022年40.12亿元降至2024年33.51亿元 [17] 市场表现 - 股价从上市高点9.7港元跌至1.64港元(截至8月7日),跌幅约83% [13] - 总市值634.3亿港元,TTM市盈率为亏损状态 [13]
小红书开源多模态大模型dots.vlm1:解锁图文理解与数学解题新能力
搜狐财经· 2025-08-07 10:31
模型开源与性能表现 - 小红书开源多模态大模型dots.vlm1 基于DeepSeek V3架构并配备自研12亿参数视觉编码器NaViT [1] - 模型在MMMU测试中得分80.11 接近Gemini 2.5 Pro的84.22和Seed-VL1.5 thinking的79.89 [5] - 在MathVision测试中达69.64分 超越Qwen2.5VL-72B的39.4分 接近Gemini 2.5 Pro的72.34分 [5] - OCR推理能力达66.23分 显著优于Qwen2.5VL-72B的38.02分 接近Seed-VL1.5的63.42分 [5] - 文本推理能力与DeepSeek-R1-0528相当 但在GPQA测试中72.78分低于Qwen3-235B-A22B-think-2507的81.1分 [4][5] 技术架构与训练 - 模型包含三大组件:12亿参数NaViT视觉编码器 轻量级MLP适配器 DeepSeek V3 MoE大语言模型 [5] - 训练分三阶段:视觉编码器预训练使用图文对和纯图像数据 VLM预训练使用大规模多模态数据集 VLM后训练通过有监督微调增强泛化能力 [5] 应用场景与能力 - 能解析复杂英文图表并计算数据 理解景区价目表规划购票方案 [6] - 可解读几何题图形颜色信息 对emoji等视觉信息进行推理 [6] - 具备文物画作背景识别能力 能分析产品配料表差异和表情包含义 [1] 开源战略与后续计划 - 模型已上传Hugging Face平台免费开放使用 [6] - 公司自6月6日起陆续开源OCR专用模型 视觉模型及奖励模型等研究成果 [6] - 后续将扩大跨模态互译数据规模 改进视觉编码器结构 探索新神经网络架构 [6] - 计划采用强化学习方法缩小文本与多模态提示的推理能力差距 [6]
千里科技(601777.SH):与阶跃星辰在智能座舱领域形成战略协同
格隆汇APP· 2025-08-07 08:13
公司动态 - 千里科技与阶跃星辰在智能座舱领域达成战略合作,共同开发下一代智能座舱产品 [1] - 合作将基于阶跃星辰的多模态大模型和端到端语音大模型等AI技术能力 [1] - 合作产品包括大模型原生操作系统-Agent OS及AI智能助手 [1] - 合作目标是打造业内领先的Natural UI自然交互产品 [1] 技术发展 - 下一代智能座舱产品将整合多模态大模型和端到端语音大模型等AI技术 [1] - 大模型原生操作系统-Agent OS是合作的核心技术产品之一 [1] - AI智能助手将作为合作的重要技术成果 [1]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-07 02:38
具身智能技术交流群成立 - 交流群聚焦VLA、VLN、遥操作、Diffusion Policy、强化学习、VLA+RL、sim2real、多模态大模型、仿真、运动控制、目标导航、建图定位、导航等技术方向 [1] - 社群通过微信小助理AIDriver005邀请加入 [2] - 入群需备注机构/学校+姓名+研究方向以加速审核 [3]
商汤CFO王征亲述:“Re-CoFound”200多天后,“1+X”交出怎样的答卷?
第一财经· 2025-08-06 12:53
公司战略调整 - 公司完成"1+X"战略重组246天后,内部发生显著变化,包括财务造血能力激活、创业精神重生和年轻力量崛起[3][5] - "1+X"架构将业务分为核心业务"1"和生态业务"X","1"聚焦AI云、基础模型和CV应用,"X"包括医疗、零售等长周期高潜力业务[11][12] - 近期提出"Re-CoFound"(二次联合创业)概念,旨在全公司上下重新激发创业精神,90后、95后开始担任产品线负责人[6][14][15] 组织架构与管理 - 新组建五人执行委员会(EC)作为高效决策机构,成员包括徐立、王晓刚、林达华、杨帆和王征[6][7] - "X"业务设立独立法人主体,拥有自主激励系统和CEO,目前已孵化6家生态企业[9][14] - 王征作为CFO同时负责战略投资、香港公司和创新业务集群(EIBG),职责远超传统CFO范畴[9] 业务发展 - "X"生态企业累计融资超20亿元,集团持有生态企业股权价值约100亿元[17][18] - 已披露融资的生态企业包括AI芯片公司商汤曦望、AI医疗公司商汤善萃和AI零售公司商汤善惠[18] - 计算机视觉(CV)业务进入收获期,香港地区增长明显,海外客户增加,有望成为首批专注AI盈利的业务[22] 技术优势 - 大装置总算力规模超23000 Petaflops,同比增长92%,覆盖国内重点区域[23] - 计算机视觉积累为多模态大模型提供优势,最新发布的日日新6.5大模型实现三倍性价比提升[24][27] - 突破图文交错思维链技术,强化多模态推理能力,认为多模态是通向AGI的必经之路[25] 运营成效 - "X"业务CEO开始主动关注财务状况,精细化管理现金流,部分提出搬迁至低成本办公室[3][15][16] - 架构调整后母公司现金流立即改善,"X"业务设立第二天母公司现金流基本转正[17] - 内部形成创业文化,年轻人才快速成长,90后、95后开始扛起产品线大旗[5][15]
“AI”之眼,一场视觉智能的进化 | 2025 ITValue Summit前瞻WAIC现场版:AI落地指南系列
钛媒体APP· 2025-08-06 11:39
行业趋势与市场观察 - WAIC 2025展会人气显著提升 参与者背景更加多元化 大公司AI单点应用深度令人印象深刻 AI应用与产业结合更加紧密 [1] - 头部科技企业如阿里巴巴和蚂蚁集团突破单纯AI模型展示 深度融合云计算与大数据技术 国家电网展示AI与核心业务深度融合范例 消费级AI硬件展区呈现大模型技术生活化应用路径 [7] 技术演进与产品发展 - 格灵深瞳从2019年开始布局视觉大模型基座 推出Glint-MVT视觉基础模型 产品具备持续成长性 从通用工具升级为个性化智能体Agent [8][12] - 多模态技术成为明确趋势 视觉是多模态AI的核心感知入口 需与语言等模态融合 公司团队更加年轻化 保持开放心态拥抱各种技术 [12][28] 商业模式与收费挑战 - AI行业收费标准非常离散 面临三重困境:定价标准缺失 商业模式模糊 双向预期偏差 本质是产业成熟度问题 需经历服务定价帕累托优化过程 [2][23] - 收费模式从按许可证付费演变为按效果和性能付费 服务价值缺乏行业基准 客户对效果认知不统一 供应商服务成熟度待验证 [2][23] 应用场景与行业深耕 - 公司聚焦四大优势领域:金融 泛安防 政务 体育 金融客户对AI技术热忱 提出更深层跨领域融合需求 [14][15] - 在视频分析处理和理解领域深度布局 计划下半年发布Glint-MVT视觉基础模型新版本 在垂直细分工具和模型精炼上具有自身特点 [20][21] 客户合作与实施挑战 - 针对不同客户采用差异化策略:对前瞻型客户采用共创研发模式 对入门级客户提供直效型标准化产品 分阶段实现从可用到好用的体验演进 [19] - 实施过程中面临硬件适配(如GPU适配) 数据采集与持续优化 认知偏差 服务模式错位等挑战 需要与客户共同解决问题和成长 [16][25] 技术战略与生态合作 - 公司坚持技术自主权 深入研发Glint-MVT视觉基础模型和多模态大模型 同时保持与生态合作互助互利的开放态度 [3][20] - 决策框架基于三要素评估:资金规模 人才储备 时间成本 在视频领域深度布局 其他方面依靠生态合作 [21] 人才与认知挑战 - AI落地最缺对目标的耐心 最怕一鼓作气再而衰 关键痛点集中在人才瓶颈和目标管理两大维度 [27][23] - 缺乏兼具决策能力与落地经验的复合型人才 需要业务专家与AI专家的双重属性融合 需要培育AI原生思维 [23][32]