多模态模型 - 财报，业绩电话会，研报，新闻 - Reportify

多模态模型

搜索文档

MiniMax正暗戳戳憋大招

虎嗅· 2025-06-01 22:09

核心观点 - MiniMax即将发布代号为M+的文本推理模型，该模型的技术细节严格保密，但将附带技术报告 [2] - 公司采取折中策略：国内C端应用不接入DeepSeek，海外AI应用接入DeepSeek [3] - 推理模型的成败将影响外界对公司是否保持行业竞争力的判断 [5][18] - 2025年上半年行业格局从"AI六小虎"演变为"基模五强"，MiniMax未列入新格局常客名单 [5] 战略与产品动态 - 2025年三大关键动作：收购AI视频公司鹿影科技（估值近1亿人民币）、品牌拆分（海螺AI更名为MiniMax）、上线类Manus产品MiniMax Agent [6] - 品牌重构将文本模型与多模态能力分离，组织架构仍保持四大模型团队（文本/视频/图像/语音） [10][11] - 模型迭代优先级：视频>语音>文本>图像，视频模型video-01后迭代速度最快 [23] - 推出MiniMax Agent智能体模式，通过双入口（Chat/Agent）拉动海外应用月活 [24] 技术进展 - 2025年1月开源4560B参数模型MiniMax-01，性能追平GPT-4o并超越DeepSeek-V3 [7] - 推理模型研发早于DeepSeek R1发布，但后者影响其优先级调整 [17] - 当前商业化最成功的是语音模型，合作案例包括高途（声音克隆）、Hedra（数字角色）、Stripe（与OpenAI/Anthropic并列） [14][15] 商业模式 - 采用纯API收费模式，销售团队仅10人（占公司400人规模的3%），无定制化交付团队 [13] - 多模态模型整体变现能力超越大语言模型，语音与视频模型商业贡献难分高下 [26][28] - 国内合作高途/阅文/极狐汽车，国际签约Stripe等，但大部分商业合作未公开 [14][27] 资本与估值 - 2024年3月A轮融资6亿美元，投后估值25亿美元 [16] - 当前实际估值已超25亿美元，获多家机构未公开轮次投资，被某知名VC列为"保密明星项目" [16] 竞争环境 - DeepSeek R1发布后行业分化为接入派（多数）与自研派（字节/智谱），MiniMax选择中间路线 [2][3] - 联创魏伟离职引发外界对公司战略猜测，公司随后加速品牌拆分与产品调整 [8][9] - 基模五强（阿里/字节/DeepSeek/阶跃星辰/智谱AI）格局下，公司需证明技术实力以维持地位 [5][18]

多模态模型

Artificial Intelligence

MiniMax推理模型（M+）

多模态模型

Artificial Intelligence

MiniMax推理模型（M+）

OpenAI未公开的o3「用图思考」技术，被小红书、西安交大尝试实现了

机器之心· 2025-05-31 06:30

多模态推理模型技术突破 - OpenAI推出的o3推理模型首次实现将图像直接融入推理过程，具备"用图思考"能力，在V* Bench基准测试中准确率达95.7%[1] - o3模型可自动聚焦图像关键区域（如物理试卷公式区、建筑图纸承重结构），结合知识库进行深度推理[1] - 小红书团队联合西安交通大学开发DeepEyes模型，通过端到端强化学习实现类似o3的"图像思考"能力，并开源技术细节[1] 多模态推理方法对比 - 传统"先看后想"方法存在局限：推理阶段无法回看图像补充细节，易导致理解偏差[4] - 更有效的"边看边想"方法允许动态调用图像信息，实现视觉与语言交替交互，提升多模态理解能力[4] - DeepEyes展示完整的三步推理流程：全局视觉分析→智能工具调用→细节推理识别，无需依赖外部OCR工具[7][8][9][10] DeepEyes模型架构与训练 - 引入"自驱动视觉聚焦"机制：根据文本推理需求动态裁剪关键图像区域进行深入分析[14] - 采用端到端强化学习策略，不依赖监督微调(SFT)，通过outcome-based奖励函数激发原生能力[18][19] - 训练过程经历懵懂期（随机尝试）、探索期（频繁调用工具）、成熟期（精准预判关键区域）三阶段[21] 性能表现与优势 - 在V* Bench取得90.1准确率，HR-Bench超越现有工作流方法，7B版本视觉搜索表现优于Qwen-VL 32B[23] - 五大独特优势：训练更简洁（仅需问答对）、更强泛化能力、端到端联合优化、深度多模态融合、原生工具调用能力[26][27][28] - 数学推理能力显著提升，展示多模态模型跨任务潜力[24] 行业影响 - 开创多模态推理新范式：无需复杂工作流或大规模监督数据，通过强化学习实现视觉-文本深度融合[29] - 技术突破使"图像思考"不再是OpenAI专属，为开放世界多模态智能探索提供新路径[1][29] - 研究团队来自小红书和西安交通大学，成果已在实习期间完成并开源[31]

多模态模型

用图像思考

Artificial Intelligence

多模态模型

用图像思考

Artificial Intelligence

智能驾驶技术的当下与未来：头部玩家的探索与启示

国盛证券· 2025-05-24 13:25

报告行业投资评级未提及报告的核心观点 - 交通是现实世界AI最重要的应用场景之一，智能驾驶产业趋势明确，从及格到超越人类的拐点并不遥远 [196] - 建议关注港美股公司，包括智能车及积极转型的传统车企、Robotaxi运营厂商、智能驾驶软件+芯片方案供应商、核心的线控转向和线控制动供应商、激光雷达供应商 [196] 各部分总结软件侧从“模仿人类”到“超越人类” - 智驾普及需超越人类，因人性对自身和技术能力存在“双标”，只有远超出人类驾驶水平的智驾技术才能大规模普及 [6][10] - 强化学习带来超越人类的潜力，如AlphaGo通过监督学习+强化学习战胜柯洁 [12] - 狭义“端到端”是模仿学习思路，广义“端到端”既有“模仿学习”又有“强化学习” [15][20] - “超越人类”需要“强化学习”，世界模型被引入自动驾驶领域，其价值包括长尾数据生成、闭环仿真测试、对抗样本等 [24][27] - 业界头部玩家积极探索，如特斯拉打造“通用世界模型”，小鹏研发“小鹏世界基座模型”等 [35][42] - 自动驾驶技术超越人类智驾的时间表显示，价值拐点并不遥远，多家车企有明确的发展规划 [67] 从“聋哑司机”到“司机助理” - 语言模型、多模态模型被引入智能驾驶领域，如EMMA、DiLu、LINGO - 2、SENNA、DriveVLM等 [71][72][82] - 各模型有不同特点和优势，如SENNA是开环测试端到端智能驾驶全球第一名，DriveVLM能理解图像信息并作出驾驶决策 [88][93] - 除算法差异，各家差异还体现在云端算力、数据获取、数据基础设施和车端算力等方面 [135] 硬件侧感知层 - 纯视觉路线代表车企有特斯拉的双目感知和小鹏的鹰眼视觉，特斯拉HW4.0搭载超远距离双目摄像头，小鹏AI鹰眼视觉方案感知距离、识别速度和清晰度有提升 [144][148][149] - 激光雷达方案是主流车厂选择，随着智驾等级提升和成本下降，迎来大规模量产阶段，多家车企已应用 [157][163] 决策层 - VLA带来更高车端算力挑战，多家车企有先进芯片上车计划，如小鹏图灵芯片、理想Thor - U等 [168] - 软硬耦合基于成熟软件算法设计智能驾驶芯片硬件，性能提升明显，如地平线、特斯拉、小鹏等企业有相关实践 [172][175] 执行层 - 线控转向取消方向盘与车轮机械连接，具有提高安全性、驾驶舒适性和节省空间等优势，多家车企已搭载相关技术 [181][185][188] - 线控制动系统与传统液压制动系统相比，具有结构简单、反应灵敏、维护方便等优势 [191][195]

端到端自动驾驶

多模态模型

智能驾驶技术

端到端自动驾驶

多模态模型

智能驾驶技术

粤开市场日报-20250522

粤开证券· 2025-05-22 08:39

报告核心观点 - 2025年5月22日A股主要指数多数收跌，个股跌多涨少，沪深两市成交额缩量，申万一级行业除部分外全部下跌，部分概念板块涨幅居前 [1] 市场回顾 - 指数涨跌情况：沪指跌0.22%收报3380.19点，深证成指跌0.72%收报10219.62点，科创50跌0.48%收报990.71点，创业板指跌0.96%收报2045.57点；全市场4451只个股下跌，882只个股上涨，77只个股收平；沪深两市成交额合计11027亿元，较上个交易日缩量707.55亿元 [1] - 行业涨跌情况：申万一级行业除银行、传媒、家用电器外全部下跌，美容护理、社会服务、基础化工等行业领跌 [1] - 板块涨跌情况：涨幅居前概念板块为银行精选、智能音箱、多模态模型等 [1]

多模态模型

多模态模型

腾讯混元上新：多模态和智能体，两手都要抓 | 最前线

36氪· 2025-05-22 08:01

腾讯大模型战略升级 - 腾讯混元大模型迎来全面升级包括旗舰快思考模型混元TurboS和深度思考模型混元T1的新迭代版本 [1] - 基于TurboS基座推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice [1] - 同步上新混元图像2.0 混元3D v2.5及混元游戏视觉生成等一系列多模态模型 [1] 混元TurboS模型性能 - 混元TurboS在Chatbot Arena排名全球前八国内仅次于DeepSeek [2] - 代码和数学等理科能力进入全球前十 [2] - 采用大规模混合Mamba-MoE模型理科推理提升超10% 代码能力提升24% 竞赛数学成绩提升39% [2] 混元T1模型进展 - 深度思考模型混元T1持续快速迭代在元宝App上线后实现多项能力提升 [6] - 竞赛数学效果提升8% 常识问答提升8% 复杂任务的Agent能力提升13% [6] 多模态模型突破 - 混元视觉深度推理模型T1-Vision支持多图输入具备原生长思维链 [8] - 整体效果提升5.3% 理解速度提升50% [8] - 混元Voice语音模型响应速度提升超30% 降至1.6秒 [8] - 混元图像2.0在主观画面质量和美学层面被认为"AI味"最少 [8] 智能体平台战略 - 将大模型知识引擎升级为"腾讯云智能体开发平台" [12] - 整合RAG技术和全面Agent能力帮助企业激活私域知识和构建专属智能体 [13] - 大模型显著提升语义理解上下文建模内容切分等能力 [14] - 多模态模型发展使视觉+文本协同任务成为可能 [14] 开源与业务应用 - 混元3D模型在Hugging Face下载量超过160万 [16] - 计划推出多尺寸混合推理模型适配企业与端侧不同需求 [16] - 混元已深度融入微信 QQ 腾讯元宝腾讯会议腾讯文档等核心产品 [17]

腾讯控股(HK:00700)

多模态模型

Software and Internet

多模态模型

Software and Internet

联想集团ISG业务连续两季度盈利 Q4营收同比增长63%

格隆汇· 2025-05-22 05:37

公司业绩 - 公司2024/25财年全年营收达4985亿元人民币同比增长21.5% 创历史第二高位 [1] - 全年盈利同比增长36% 增速快于营收增长 [1] - 第四季度ISG业务营收299.6亿人民币同比增长63% 连续第二个季度实现盈利 [1] - 中国市场营收同比增长113% 海神液冷解决方案收入同比大增244% [1] 产品与技术 - 公司发布新一代ThinkSystem V4服务器和ThinkEdge SE100入门级AI推理服务器 [1] - 第六代Neptune海神液冷技术带来40%的能源效率提升 [1] - 存储产品组合迎来史上最大规模更新发布21款存储产品及全新数据存储解决方案 [1] ISG业务表现 - ISG全年营收1048亿人民币同比增长63% 盈利能力大幅改善 [2] - 云基础设施(CSP)业务收入同比增长92% [2] - 企业基础设施(E/SMB)收入增速达20% 创历史新高 [2] - 海神液冷解决方案收入同比增长68% [2] - AI服务器业务实现高速增长拓展至高频交易、新能源及智慧医疗等行业 [2] - 存储业务营收同比增长24% [2] 行业前景 - IDC预计2025年全球基础设施市场将增长18% 达2650亿美元 [2] - AI服务器2025年市场规模预计达1472亿美元 2024-2027年复合年增长率18% [2] - 生成式AI和多模态模型加速落地将推动企业级AI基础设施投入持续释放 [2] 发展战略 - ISG将坚持"云基础设施+拓展企业基础设施"业务模式 [2] - 持续优化产品结构强化市场销售能力提升端到端运营韧性 [2] - 加码AI服务器、液冷方案和边缘计算布局打造混合式智能基础设施平台 [2]

混合式智能基础设施平台

多模态模型

Servers and Data Storage

海神液冷解决方案

混合式智能基础设施平台

多模态模型

Servers and Data Storage

海神液冷解决方案

能空翻≠能干活！我们离通用机器人还有多远？ | 万有引力

AI科技大本营· 2025-05-22 02:47

具身智能技术发展现状 - 具身智能成为AI领域热点方向，重点关注人形机器人载体上的感知、运动、决策能力[2] - 2025年可能成为具身智能"元年"，行业竞争集中在多模态和具身智能领域[5] - AI发展分为四个阶段：感知AI→生成式AI→自主智能体AI→物理AI，目前处于第三阶段向第四阶段过渡期[5] - 具身智能研究从传统精密控制向更智能化、通用化方向迈进，大模型能力提升推动这一转变[7] 技术演进路径 - 计算机视觉研究者正转向具身智能领域，因大模型压缩传统CV研究空间[8] - 自动驾驶技术是通向具身智能的重要桥梁，两者在感知、规划、控制模块高度相似[17] - 具身智能可分为"思维智能"与"行动智能"，前者包括认知能力，后者关注环境互动[20] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型[25][28] 行业应用前景 - 家庭看护和家务服务是最基础、最现实的需求方向[48] - 检修类场景（如电力、汽车维修）是具身智能最具潜力的应用领域[49] - 工业制造场景中，人形机器人可能比传统自动化更具性价比优势[49] - 生产线机器人最容易落地，高危或高互动性工作最具挑战性[52] 关键技术挑战 - 数据瓶颈是最大痛点，真实数据采集速度跟不上模型训练需求[55] - 计算资源限制明显，高自由度系统控制困难且成本高昂[39] - 模型架构面临从分层决策到端到端再回归分层的演变[67] - 仿真环境精度不足，难以替代真实世界数据采集[60] 未来发展趋势 - 从性能优化转向适应性设计，强化环境适应与新任务应对能力[63] - 从确定性控制转向概率性思维，应对现实世界不确定性[64] - 从分析还原走向整体涌现，展现更强智能与动态逻辑性[64] - 从工具属性转向伙伴属性，实现更自然的协作交互[64] 商业化路径 - 开发者应聚焦专用型机器人而非追求通用能力[42] - 垂直场景配套大客户是具身智能落地的务实选择[44] - 工业领域因其可扩展性成为优先发展方向[45] - 技术从实验室到真实世界仍存在两个数量级的精度差距[46]

通用机器人

多模态模型

通用机器人

多模态模型

能空翻≠能干活，我们离通用机器人还有多远？

36氪· 2025-05-22 02:28

具身智能发展现状 - 具身智能成为AI领域热点方向，人形机器人作为载体受到重点关注 [1] - 2025年可能成为具身智能"元年"，行业竞争集中在多模态和具身智能领域 [3] - 英伟达提出AI发展四阶段论：感知AI→生成式AI→自主智能体AI→物理AI [3] - 具身智能发展仍处于早期爬坡阶段，离通用机器人还有较大距离 [31][32][33] 技术演进路径 - 大模型带动具身智能研究从精密控制向智能化、通用化方向迈进 [4] - 计算机视觉研究人员转向具身智能领域，因大模型提升了对物理世界的理解能力 [5] - 自动驾驶技术积累为具身智能提供重要基础，两者在感知、规划、控制模块高度相似 [15][16] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型 [21][22] 商业化落地挑战 - 硬件成本和开发门槛居高不下是制约普及的关键因素 [10] - 垂直场景优先落地，工业、检修、家庭陪护是最具潜力的三大应用方向 [41][42][44] - 实验室精度与工业需求存在两个数量级差距，需持续提升系统精度 [40] - 早期商业化需配套大客户提供真实反馈和场景打磨 [39] 关键技术瓶颈 - 数据瓶颈是最大痛点，真实数据采集速度跟不上模型训练需求 [47][48] - 计算资源限制和模型架构挑战制约系统性能提升 [46] - 仿真环境难以完全还原真实世界物理特性，影响数据质量 [52] - 需突破自监督探索、生成式合成数据、少样本学习等数据解决方案 [53] 未来发展趋势 - 从性能优化转向适应性设计，强化环境适应能力 [55] - 从确定性控制转向概率性思维，应对现实世界不确定性 [55] - 从工具属性转向伙伴属性，实现更自然的交互协作 [55] - 模仿学习与强化学习融合、多智能体协作将成为重要突破方向 [59][60]

通用机器人

多模态模型

通用机器人

多模态模型

一文读懂Google I/O 2025 开发者大会：开启 “模型即平台” 的 AI 生态新时代

华尔街见闻· 2025-05-21 10:38

谷歌AI战略升级 - 公司全面拥抱AI智能体技术，将Gemini模型深度整合至搜索、Gemini助手等核心业务，推出全新AI模式搜索[1][2][27] - 强调Gemini 2.5 Pro为当前最强通用AI模型，在LLM Arena测评中所有类别排名第一，App月活用户超4亿[19][20][23][24] - 智能体模式（Agent Mode）支持多任务管理（如同时处理10个任务），实验版将向Gemini订阅用户开放[29][30] Gemini模型技术突破 - Gemini 2.5 Pro与Flash双模型协同：Pro侧重高性能，Flash速度更快、成本降低22%，支持"思考预算"机制[3][39] - 多模态能力升级：支持原生音频输出（2种声音）、实时翻译（Google Meet已上线英西互译）、草图转3D动画编码[34][38][41] - 实时语音助手Gemini Live支持45种语言，具备环境音分离、多任务处理（如找房订票）及跨App操作能力[32][35] 开发者工具与平台创新 - AI Studio新增URL Context功能（支持20个链接提取）、原生语音模型及增强函数调用，加速语音助手/游戏开发[6][7][8] - 实验项目Stitch实现文本提示生成App UI设计并一键导出至Figma/IDE，Canvas功能可将文档转为互动网页[4][5][33] - 编码智能体Jules开放公测，支持异步函数调用；Gemini Diffusion文本生成速度提升5倍，处于实验阶段[40][41] 搜索与用户体验革新 - AI模式搜索支持数百字复杂查询，结构化答案整合地图/评论/视频，美国用户已可体验"深度搜索"功能[47][48][49] - AI概览（AI Overviews）月活15亿用户，推动部分查询量增长10%，未来将逐步融入核心搜索[47][50] - Android XR生态推出智能眼镜（物体识别/语音控制）与Moohan头显（沉浸式地图），联合Gentle Monster等厂商[58][59][60] 内容创作与多模态技术 - Imagine 4图像模型细节提升10倍，支持中英复杂字体；Veo 3视频模型实现角色一致性/口型同步/镜头控制[52][53] - Flow平台联合电影人开发，支持AI生成剧本/镜头/配乐；Lyria音频模型可创作专业音乐并与视频协同[54][56][57] - Google Beam视频通信平台采用6摄像头阵列+AI渲染，实现毫米级头部追踪与60fps 3D画面[37] 商业化与订阅服务 - 推出Google AI Ultra订阅套餐（249.99美元/月），包含Gemini高级模型、30TB存储及YouTube Premium等权益[62][63][64] - 惠普将商业化Google Beam设备，Gemini 2.5 Flash模型6月面世，Deep Think模型限测试人员开放[37][39]

多模态模型

Music AI Sandbox

Android XR智能眼镜

多模态模型

Music AI Sandbox

Android XR智能眼镜

一文读懂Google I/O 2025 开发者大会：“降低门槛、加速创造”，谷歌开启 “模型即平台” 的 AI 生态新时代

硬AI· 2025-05-21 03:29

Google I/O 2025核心发布 - Gemini 2 5 Pro被定位为公司最强大的通用AI模型在LLM Arena所有类别排行榜名列前茅[22][24] - Gemini系列模型每月处理token数量从9 7万亿激增至480万亿增长近50倍每月活跃用户超4亿[24] - 公司推出Gemini 2 5 Flash轻量版模型效率提升22% 支持"思考预算"机制控制输出质量与响应速度[6][39][40] 跨平台AI引擎整合 - Android平台深度整合Gemini Nano 提供summarize等轻量功能同时推出Androidify应用生成机器人形象[17][19] - 新UI系统Material 3 Expressive增强界面趣味性 Android 16引入live updates等性能优化工具[20] - 智能眼镜Moohan支持沉浸式地图和交互式Gemini AI 合作伙伴包括Gentle Monster和Warby Parker[63][64][65] AI开发工具升级 - AI Studio新增原生语音模型支持24种语言增强函数调用与搜索推理功能[9][11] - Stitch实验项目实现文本提示自动生成App UI设计可导出至Figma或IDE继续开发[7][8] - Cloud Run支持一键部署应用到线上集成至VS Code等IDE[16] 多模态与创作突破 - Imagine 4图像模型细节捕捉能力提升支持中英文复杂字体识别生成速度快10倍[56] - Veo 3视频模型实现角色一致性控制可自动合成环境音与对白口型同步[56][57] - Lyria音频模型结合Music AI Sandbox可生成专业音乐 Flow平台支持AI视频全流程制作[61] 搜索与智能体革新 - 搜索新增AI模式标签页支持数百字复杂查询采用Deep Research模型提供结构化答案[46][47][51] - 智能体模式可同时管理10个任务实验版将向Gemini订阅用户开放[27][29][30] - AI概览功能月活达15亿推动部分查询量增长10%[46] 订阅与商业化 - Google AI Ultra套餐月费249 99美元包含Gemini模型最高使用权限及30TB存储空间[69][70][71] - Google Beam视频通信平台采用六摄像头阵列实现毫米级精度3D渲染将与惠普合作商业化[37]

多模态模型

多模态模型