多模态模型

搜索文档
中信建投 TMT周观点
2025-08-24 14:47
纪要涉及的行业和公司 - **行业**:AI、电影、国防军工、PCB、覆铜板 - **公司**:微软、Salesforce、Adobe、Applovin、多邻国、Snowflake、Elasticsearch、MongoDB、Unity、谷歌、苹果、字节跳动、快手、英伟达、亚马逊、猫眼娱乐、上海电影、阿里影业、生益电子、沪电股份、生益科技 纪要提到的核心观点和论据 AI 应用端公司 - **微软**:2025 财年 AI 应用收入预计接近 120 亿美元,Copilot 业务预计收入 20 亿美元,GitHub 贡献约 6 亿美元,均超预期[1][2] - **Salesforce**:Einstein Automate 营收超 1 亿美元,略低于预期,Data Cloud 营收 10 亿美元,同比增长 120%;以 80 亿美元收购云数据库公司增强数据基础能力,预计 2026 年产生影响[1][2][3] - **Adobe**:4 月 Figma 使用量达 220 亿次,纯 AI 业务占比低但增速显著,预计 2025 年 Q4 翻倍[3] - **Applovin**:财报表现良好,但成本上升红利期接近尾声,三方成交广告地位稳固但增长空间受限[3] - **多邻国**:最新季度 Maxim 渗透率达 7%,用户约 70 万,总体渗透率预计达 15%,Maxim 净收入占比可达 15%-20%[3] AI 基础设施公司 - **Snowflake**:营收同比增长 26%,利润同比增长 25%,上调全年预期;RPO 同比增长 34%,新增高价值客户 606 家;推出 Near Intelligence、OpenFlow 和 Cortex 新型 AI Circle 功能巩固领先地位[1][4] 其他公司动态 - **Unity**:处于困境反转阶段,广告业务受季节性因素有压力;7 月将推出 6.2 版本 AI 引擎,整合 Moses 和 Censusf 功能[7] - **谷歌**:多模态模型日均 TOKEN 消耗量约 16 万亿,VU3 正式版加速多模态商业化进程,VU3 定位服务专业创作者,面向美国 Ultra 订阅用户开放,月定价 249.99 美元[2][8][9] - **苹果**:WWDC 2025 大会预计展示新技术与产品更新,内部测试更强大的大模型,或支持端侧设备运行[1][11][12] - **字节跳动**:将在动力大会宣布豆包大模型家族升级,端侧 AI 产品有望加速落地[1][12] - **快手**:可灵 AI 年化收入运营率(ARR)在 2025 年 3 月突破 1 亿美元,连续两月突破 1 亿人民币营收,为 B 端用户提供服务并为超 1 万家企业客户提供 API 服务[10] 算力需求与应对 - **需求增加原因**:大厂与基础业务深度融合、大型 agent 涌现、多模态任务消耗大量算力[2][13] - **TOKEN 消耗与影响**:谷歌日均约 16 万亿,国内大厂年底预计达 40 - 60 万亿,今年 Q4 国内可能算力不足,国产算力产业链发展斜率更陡峭[2][14] - **海外应对措施**:72 机柜增量集中在铜线、电源、散热、PCB 升级,关注英伟达和亚马逊芯片配套;产业链库存下降,上游备库 1.3 倍,上游材料价格上涨[15][16] 电影行业 - **暑期档**:预期较低,但《姜元弄》《长安荔枝》等优质影片可能带动票房回暖[2][22] - **全年票房**:预计 2025 年可达 500 亿左右,关注底部标的猫眼娱乐[2][23] 其他行业 - **GW 星座卫星互联网项目**:第四批卫星 6 月 6 日成功发射,发射频率逐步加快,今年国防军工领域需求有望回暖[27] - **PCB 板块**:4 - 5 月高阶数通 PCB 订单能见度高,高端产能偏紧;产业链下行风险减弱,供需偏紧格局难缓解,关注 ASIC 产业链和高多层领域企业[28][29] - **覆铜板行业**:常规产品提价,汽车需求旺盛,6 月后涨价节奏趋缓;高速产品供不应求,关注高速覆铜板供应商[30] 其他重要但可能被忽略的内容 - **数据云和数据层面布局**:Snowflake、Elasticsearch 和 MongoDB 等公司持续投资,巨头收购趋势加强,数据咨询和数据标签订单加速增长[1][6] - **英伟达散热环节**:散热是技术路线升级关键,现有散热技术达极限,散热系统在 IMV 中价值占比高,中国厂商在冷板元器件及部件领域有发展空间[18][19][21] - **上海电影**:8 月 2 日定档《狼山小妖怪》,参投的 AI 玩具公司 6 月中旬发布首款玩具并发售,与卡牌和手办公司合作推出衍生品[24] - **阿里影业**:关注 IP 开发和线下演出市场,暑期或国庆档有望上映《东极岛》,今年有望业绩修复[25][26]
马斯克旗下xAI联合创始人伊戈尔·巴布什金离职,将投身AI安全风投领域
搜狐财经· 2025-08-14 05:40
公司动态 - 巴布什金作为xAI工程团队核心人物 主导技术架构搭建与超级计算集群建设 助力公司在两年内进入全球AI模型开发第一梯队 [1] - xAI已启动全球人才招募计划 重点补充AI安全与多模态模型领域专家 [1] - 马斯克公开感谢巴布什金对公司技术基础的贡献 承认其对公司成就的关键作用 [1] 行业动向 - 巴布什金将创立风险投资公司Babuschkin Ventures 专注投资AI安全研究及具有"推动人类进步 解锁宇宙奥秘"愿景的初创企业 [1]
是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
机器之心· 2025-08-12 03:10
模型能力 - GLM-4.5V在「图寻」游戏全球积分赛中击败了99.99%的人类玩家,展现出超强视觉推理能力[9] - 模型能通过建筑风格、植被类型、道路标识等环境信息进行精准定位,甚至给出精确经纬度[20][21] - 在视觉错觉测试中,模型快速识别出穿蓝色上衣和白色裤子的人与穿紫色衣服的人[16] - 模型能准确读取模糊光线下的时钟时间,克服了AI系统读取时钟准确率仅38.7%的行业难题[38][41] - 对相似场景如慕田峪与八达岭长城,模型能根据墙体完整度和游客数量等细节精准区分[44][47] 技术架构 - GLM-4.5V采用106B总参数、12B激活参数的架构,支持64K多模态长上下文[127] - 视觉编码器采用AIMv2-Huge,通过三维卷积提升视频处理效率[127] - 引入二维旋转位置编码和双三次插值机制,增强高分辨率图像适应性[127] - 语言解码器采用3D-RoPE位置编码,提升多模态空间理解能力[127] - 训练采用三阶段策略:预训练、监督微调和强化学习,在41个公开视觉多模态榜单达到开源SOTA水平[128][129] 应用场景 - 在安防监控领域,模型能处理含视觉错觉和遮挡的图片,具备高准确率识别能力[19] - 前端开发中,模型可根据截图或视频复刻网页布局,实现可交互功能[87][91][93] - 教育领域能总结10分钟英文演讲视频,准确提取人物、地点和事件等关键信息[61][65] - 本地文档处理方面,模型能解读论文图表并理解数据逻辑关系[101][103] - 在景区寻人等场景,模型可精准识别特定特征的人员或宠物[112][113] 行业影响 - 模型开源策略推动行业从性能竞赛转向实用价值创造,提升开发者定制灵活性[132] - 在GUI Agent领域展现核心能力,如准确定位电商商品和PPT操作按钮[121][123] - 视觉推理能力覆盖复杂图表、多图长文本等实际任务,拓展多模态应用边界[10] - 相比闭源模型,开源方案提供更高透明度,促进AI技术在各行业落地[132] - 模型实战表现优于benchmark成绩,反映行业向真实场景效果评估的转变趋势[131]
刚刚,智谱开源了他们的最强多模态模型,GLM-4.5V。
数字生命卡兹克· 2025-08-11 14:20
模型发布与性能 - 智谱开源了当前最先进的多模态模型GLM-4.5V,采用GLM-4.1V-Thinking技术路线重新训练GLM-4.5-Air实现视觉多模态能力 [2] - 模型规模达106B总参数和12B激活参数,在开源多模态模型中属于较大规模 [3] - 在42个评测基准中取得41个SOTA(State-of-the-art)成绩,表现卓越 [4] - 模型支持"thinking"模式,在通用VQA、STEM、长文档、OCR与图表、视觉定位、空间识别与推理、GUI代理、编码、视频理解等多个领域表现优异 [5] 技术能力与测试 - 在视觉推理任务中表现突出,如游标卡尺读数和小猫摸球问题,能快速给出正确答案 [11][14][17][20] - 具备地理位置识别能力,能准确区分横店明清宫苑与故宫,展示出超越简单模式匹配的视觉推理能力 [25][27][31] - 支持原生视频理解功能,能分析《泰坦尼克号》混剪视频并准确识别关键画面及其时间点 [51][54][61][64][65] - 具备视觉定位功能,能根据指令在图片中精准标记目标,如识别人物或物体 [68][69][71][74][76] - 拥有网页复刻能力,可根据网页截图生成结构相似的网页代码 [79][80][81] 模型可用性与定价 - 模型已在GitHub和Hugging Face平台开源 [7][8] - 由于106B参数规模较大,消费级设备难以部署,建议使用智谱的z.ai平台 [8][9] - API定价具有竞争力,输入2元/M tokens,输出6元/M tokens [84] 行业影响与定位 - 智谱连续开源GLM-4.5和GLM-4.5V两款高性能模型,展示技术实力 [1][87] - 与海外闭源模型形成对比,体现开放精神和对AI民主化的追求 [90][93][94][96] - 在多模态开源模型领域树立新标杆,推动行业技术进步 [86][92]
对话邝子平:AI是最大的范式转变,造就下一代经典案例
搜狐财经· 2025-08-07 09:16
股权投资行业现状 - 股权投资行业正经历深度调整后的范式重构窗口期 受全球地缘政治波动 国内经济转型升级和科技创新浪潮多重因素影响[1] - 国资LP在新设基金中出资占比飙升至75%以上 部分机构为满足招商诉求弱化回报追求[1] 机构投资策略 - 启明创投2023年投资总额约4亿美元 2024年至今已投出3亿美元 投资节奏相对进取[4] - 坚持早期投资策略 专注科技和医疗赛道 典型案例包括小米(第一笔500万美元投资回报达866倍) 文远知行 优必选 石头科技和云知声[1][8][10] - 采用"快半步"投资哲学 在热门赛道向下沉细分领域掘金 重点关注具身智能和多模态模型等潜力领域[2][12][13] 募资生态变化 - 纯美元基金数量大幅减少 目前中国市场活跃的纯美元基金不超过10家[5] - 人民币基金生态日益成熟 成为投资市场主力 但美元基金在某些高天花板领域仍不可替代[5] - 2024年启动新一期美元基金和人民币基金募资工作[4] 投资绩效表现 - 2024年上半年实现4个IPO项目 包括美国上市的元保 香港上市的云知声 A股科创板上市的海博思创和影石创新[3] - 2023年5月至2024年5月期间 在创新药领域投资5-6亿美元 看好中国创新药服务全球管线的潜力[8] 国资LP合作策略 - 坚持"为LP赚钱是永恒必要条件"的理念 将投资回报置于首位[1][6] - 通过区域选择 基金规模调控和基金管理人努力实现政策性诉求与商业回报的动态平衡[1][7] - 选择经济或创新繁荣地区的国资LP合作 确保返投要求相对于基金规模可控[7] 机构能力建设 - 注重团队建设 强调学习能力和对前瞻科技的判断能力[8] - 保持国际视野 紧密跟踪全球科技潮流 定期召开策略会制定投资计划[10] - 建立广泛的朋友圈网络 包括同行交流 已投企业沟通和行业意见领袖互动[10] AI领域投资机遇 - 认为AI将引发巨大科技范式转变 有望造就下一代平台型生态科技公司[13] - 在ChatGPT推出前就已布局大模型领域 具身智能和人形机器人也是重点投资方向[10] - 看好AI应用落地机会 认为行业热度对估值既有负面影响也有正面影响[12] 机构与企业关系 - 坚持"帮忙不添乱"原则 根据企业实际需求提供针对性帮助[14] - 不推崇"无脑化"的标准化赋能服务 强调实际重于形式的支持方式[14][16] - 累计投资近600家企业 其中多家已成功上市[14]
AI大潮下的具身和人形,中国在跟跑还是并跑?
观察者网· 2025-08-03 05:35
具身智能与人形机器人发展现状 - 具身智能被视为通往AGI的必经之路 特斯拉Optimus和波士顿动力Atlas的进展引发全球关注 [1] - 中国在具身智能领域已从"跟跑"转向与美国"并跑"甚至寻求"弯道超车" [1] - 行业讨论焦点集中在电机供应链 强化学习算法 落地场景与资本路径 [1] 美的集团机器人战略布局 - 2016年起通过收购库卡等企业布局To B业务 形成四大板块:楼宇科技 工业技术 机器人与自动化 新兴AI业务 [3][4] - 人形机器人业务2023年启动规划 2024年加速发展 依托电机 减速机等核心零部件技术积累 [4] - 库卡机器人主要服务汽车制造(60%) 3C(20%) 船舶/航空(15%)等工业领域 [4] 格灵深瞳技术路线 - 中国首家科创板AI上市公司 深耕计算机视觉12年 覆盖金融安防 智慧体育等场景 [5] - 推出视觉基础大模型MVT 1.5版本 实现图像到视觉token的转换 [5][32] - 探索视频模型技术 提升机器人对动态场景的理解能力 [36] 人形机器人技术演进 - 关节数量从传统200+缩减至现代40个(全身30个) 强化学习使复杂控制成为可能 [8][9] - 技术路线从液压传动(波士顿动力)转向电动传动(中国供应链优势) [12] - 控制方式从rule-base转向learning-base 提升任务泛化能力 [11][12] 形态路线争议 - 双足形态:适合动态复杂场景(工厂阶梯 火星移民) 具备动力学平衡优势 [16][18] - 轮式形态:平坦场景效率更高(家庭 标准工厂) 安全性更优 [13][15] - 混合形态:智元推出可折叠轮足机器人 尝试平衡效率与适应性 [20] 灵巧手发展路径 - 五指灵巧手:符合人机交互直觉 数据采集便利 但成本高达数万元 [22][25] - 两指夹爪:满足70%基础任务 成本优势明显 成为当前主流方案 [25][26] - 美的认为通用人形机器人必须配备五指手 工业场景则倾向专用末端 [22][23] 技术概念解析 - 具身智能:实现感知-决策-执行的完整闭环 需与物理世界持续交互 [30][33] - World Model:物理世界的数字重建 面临数据采集成本高难题 [40] - 强化学习:具身智能必备组件 但reward函数设计仍是关键挑战 [42][46] 中美产业对比 - 中国优势:机电产业链成熟(占全球人形机器人专利40%) 人才储备充足 政策支持力度大 [63][64] - 美国优势:AI基础研究领先 人力成本推动场景落地更快 [63][66] - 硬件创新中国占优(蔚小理等) 软件创新美国领先 全球市场成为共同目标 [66] 商业化落地展望 - 工业场景优先:上汽计划引入500台人形机器人 分阶段实现自动化 [9][60] - 家庭场景需突破:安全标准 隐私保护 个性化交互等核心问题 [61] - 数据采集瓶颈:需建立类似特斯拉FSD的规模化数据获取机制 [57]
商汤科技林达华:具身智能需数字空间与物理空间连接
21世纪经济报道· 2025-07-29 11:25
多模态AI发展趋势 - 大型语言模型正从单一模态向多模态融合演进 这是通向通用人工智能的必经之路[1] - 原生多模态架构如Gemini模型实现图像视频信息在预训练过程中的深度融合 形成更深层次跨模态建模能力[4] - 多模态模型在纯语言任务上表现已超越单一语言模型 国内厂商预计2025年下半年全面普及多模态架构[1][5] 技术突破方向 - 需将多模态融合从理解层面延伸至思考层面 结合逻辑思维与形象思维实现真正智能[4] - 推理能力需从单领域(如奥赛、编程)泛化至广泛生产生活场景 达到人类自由推理水平[7] - 空间感知能力是当前多模态模型明显短板 国际顶尖模型无法解决儿童可轻易完成的积木拼接等空间问题[7] 具身智能发展现状 - 具身智能被视为通用人工智能终极形态 商汤科技在2025世界人工智能大会正式发布"悟能"具身智能平台[2] - 数据获取存在物理瓶颈 机器人真机操作数据量远低于互联网数字数据 需借助互联网视频等多模态数据构建基座模型[8] - 空间感知能力缺失可能成为具身智能落地的关键障碍[2][7] Agent技术应用 - Agent作为大模型能力落地的关键技术载体 2025年被视为"元年"并迎来爆发[6] - 通用Agent在复杂实际场景中仍存在较大差距 需结合具体场景和行业知识进行迭代开发[6] - 实际落地中可靠性和成功率至关重要 若无法有效解决问题则无法体现价值[6]
21对话|商汤科技林达华:具身智能需数字空间与物理空间连接
21世纪经济报道· 2025-07-28 08:10
AI技术演进趋势 - 大型语言模型(LLM)已从单一语言模型迈向多模态融合阶段,这是通向通用人工智能(AGI)的必经之路[2] - 2025年下半年或将迎来多模态模型的全面普及,国内厂商正加速布局[2] - 原生多模态架构如Gemini模型已实现图像、视频信息在预训练过程的深度融合,形成更深层次跨模态建模能力[6] 多模态技术发展 - 未来多模态需从理解层面延伸到思考层面,实现逻辑思维与形象思维的结合[6] - 经过融合训练的多模态模型在纯语言任务上表现可超越单一语言模型,商汤日日新6.0已取消单独语言模型[6] - 语言模型是通向AGI的切入点,但最终需具备多模态能力才能完成对世界的完整理解和建模[4][5] 具身智能发展 - 具身智能被视为AGI终极形态,商汤已发布"悟能"具身智能平台正式入局[3] - 当前多模态模型空间感知能力不足,成为具身智能落地的关键障碍[8][10] - 具身智能数据获取存在物理瓶颈,需借助互联网多模态数据构建基座模型弥补真机数据不足[10] Agent技术应用 - 2025年被视为Agent技术"元年",其发展与大模型能力提升密切相关[7] - 通用Agent在复杂场景中仍存在差距,需围绕具体场景迭代并结合行业知识[7] - Agent的可靠性和成功率是价值落地的核心指标,无效Agent会增加用户负担[7] AGI实现路径 - AGI需突破推理能力从狭窄领域向广泛生活生产场景的泛化[8] - 当前技术需解决多模态模型空间理解能力不足的问题,该能力对具身智能至关重要[8] - 智能需走出数字空间实现与物理世界的连接,这是AGI的关键特征[10]
21对话|联汇科技CEO赵天成:具身智能演进方向的“非常答”
搜狐财经· 2025-07-28 04:37
行业趋势 - 2025世界人工智能大会(WAIC)异常火爆 一票难求 反映出行业热度持续攀升 [1] - 行业周期变化明显:2023年大模型最热门 2024年机器人最热门 2025年进入技术融合后AI落地应用百花齐放的阶段 [1] - 具身智能成为2025年最大热点之一 技术正从实验室走向物理世界实际应用 [1] 公司技术 - 联汇科技是全国最早研发多模态模型的企业 2022年获得工信部大模型检测001号证书 [1] - 多模态模型已从2021年第一代迭代至第五代 迭代速度约为一年一迭代 [2] - 发布全球首个"万物具身"智能体平台OmAgent 面向物理世界 可控制无人机、机器人等硬件载体 [1] - OmAgent具备两大核心能力:基于纯视觉的空间感知能力 以及基于任务的决策能力 [1] - 当前多模态模型技术特点:实时性要求高 低幻觉高准确率 能做深度视觉思考 [2] 技术发展路径 - 具身智能不限于人形 任何有智能的硬件载体都属具身智能 [2] - 不同载体发展阶段不同:人形机器人可能处于L1-L2 四足狗可能进入L3 摄像头/无人机可能达L3-L4 [2] - 具身智能将分载体成熟度、分阶段、分批次落地 [2] 公司战略布局 - 将国际总部落户上海张江 看重其智能终端与具身机器人产业聚集优势 [2] - 选择张江原因:能对接更多供应链企业 且物流/码头/工业制造等领域提供丰富应用场景 [2] - 多模态模型最佳应用场景是赋能智能终端 使硬件具备自主意识和任务完成能力 [1]
启明创投于WAIC 2025再发AI十大展望:围绕基础模型、AI应用、具身智能等
IPO早知道· 2025-07-28 03:47
启明创投AI投资布局 - 公司是中国AI领域最早投资且布局最丰富的投资机构 累计投资100余个AI项目 覆盖AI产业全链条 [2] - 连续第三年主办世界人工智能大会"创业与投资论坛" 主题聚焦AI技术与应用共振周期 [2] 基础模型发展 - 未来12-24个月 200万Token上下文窗口将成为顶级AI模型标配 更精细的上下文工程成为核心驱动力 [4] 多模态模型突破 - 通用视频模型有望在12-24个月内出现 实现视频模态下的生成 推理与任务理解 推动内容生成与交互革新 [6] AI Agent演进 - Agent形态将从"工具辅助"转向"任务承接" 首批"AI员工"将参与企业核心流程 具备协同作业和OKR承担能力 [8] - 多模态Agent将融合视觉 语音等输入 在医疗 金融 法律行业实现复杂推理与任务执行突破 [9] AI基础设施创新 - AI芯片领域将出现更多国产GPU批量交付 3D DRAM堆叠与通算融合的新一代云端芯片崭露头角 [11] - Token消耗量将提高1-2个数量级 集群推理优化与软硬协同成为降低Token成本核心技术 [12] AI应用趋势 - AI交互范式转移加速 用户对手机依赖减弱将催生AI原生超级应用 [14] - 垂直场景AI应用潜力大 初创公司以"Go Narrow and Deep"策略与大厂差异化竞争 [15] - AI BPO模式将实现商业化突破 从"交付工具"转向"交付结果" 在金融 客服等行业快速扩张 [15] 具身智能发展 - 具身智能机器人将在拣选 搬运等场景规模化部署 积累第一视角数据构建"模型-本体-场景数据"闭环飞轮 [17]