多模态模型
搜索文档
MiniMax正暗戳戳憋大招
虎嗅· 2025-06-01 22:09
核心观点 - MiniMax即将发布代号为M+的文本推理模型,该模型的技术细节严格保密,但将附带技术报告 [2] - 公司采取折中策略:国内C端应用不接入DeepSeek,海外AI应用接入DeepSeek [3] - 推理模型的成败将影响外界对公司是否保持行业竞争力的判断 [5][18] - 2025年上半年行业格局从"AI六小虎"演变为"基模五强",MiniMax未列入新格局常客名单 [5] 战略与产品动态 - 2025年三大关键动作:收购AI视频公司鹿影科技(估值近1亿人民币)、品牌拆分(海螺AI更名为MiniMax)、上线类Manus产品MiniMax Agent [6] - 品牌重构将文本模型与多模态能力分离,组织架构仍保持四大模型团队(文本/视频/图像/语音) [10][11] - 模型迭代优先级:视频>语音>文本>图像,视频模型video-01后迭代速度最快 [23] - 推出MiniMax Agent智能体模式,通过双入口(Chat/Agent)拉动海外应用月活 [24] 技术进展 - 2025年1月开源4560B参数模型MiniMax-01,性能追平GPT-4o并超越DeepSeek-V3 [7] - 推理模型研发早于DeepSeek R1发布,但后者影响其优先级调整 [17] - 当前商业化最成功的是语音模型,合作案例包括高途(声音克隆)、Hedra(数字角色)、Stripe(与OpenAI/Anthropic并列) [14][15] 商业模式 - 采用纯API收费模式,销售团队仅10人(占公司400人规模的3%),无定制化交付团队 [13] - 多模态模型整体变现能力超越大语言模型,语音与视频模型商业贡献难分高下 [26][28] - 国内合作高途/阅文/极狐汽车,国际签约Stripe等,但大部分商业合作未公开 [14][27] 资本与估值 - 2024年3月A轮融资6亿美元,投后估值25亿美元 [16] - 当前实际估值已超25亿美元,获多家机构未公开轮次投资,被某知名VC列为"保密明星项目" [16] 竞争环境 - DeepSeek R1发布后行业分化为接入派(多数)与自研派(字节/智谱),MiniMax选择中间路线 [2][3] - 联创魏伟离职引发外界对公司战略猜测,公司随后加速品牌拆分与产品调整 [8][9] - 基模五强(阿里/字节/DeepSeek/阶跃星辰/智谱AI)格局下,公司需证明技术实力以维持地位 [5][18]
OpenAI未公开的o3「用图思考」技术,被小红书、西安交大尝试实现了
机器之心· 2025-05-31 06:30
多模态推理模型技术突破 - OpenAI推出的o3推理模型首次实现将图像直接融入推理过程,具备"用图思考"能力,在V* Bench基准测试中准确率达95.7%[1] - o3模型可自动聚焦图像关键区域(如物理试卷公式区、建筑图纸承重结构),结合知识库进行深度推理[1] - 小红书团队联合西安交通大学开发DeepEyes模型,通过端到端强化学习实现类似o3的"图像思考"能力,并开源技术细节[1] 多模态推理方法对比 - 传统"先看后想"方法存在局限:推理阶段无法回看图像补充细节,易导致理解偏差[4] - 更有效的"边看边想"方法允许动态调用图像信息,实现视觉与语言交替交互,提升多模态理解能力[4] - DeepEyes展示完整的三步推理流程:全局视觉分析→智能工具调用→细节推理识别,无需依赖外部OCR工具[7][8][9][10] DeepEyes模型架构与训练 - 引入"自驱动视觉聚焦"机制:根据文本推理需求动态裁剪关键图像区域进行深入分析[14] - 采用端到端强化学习策略,不依赖监督微调(SFT),通过outcome-based奖励函数激发原生能力[18][19] - 训练过程经历懵懂期(随机尝试)、探索期(频繁调用工具)、成熟期(精准预判关键区域)三阶段[21] 性能表现与优势 - 在V* Bench取得90.1准确率,HR-Bench超越现有工作流方法,7B版本视觉搜索表现优于Qwen-VL 32B[23] - 五大独特优势:训练更简洁(仅需问答对)、更强泛化能力、端到端联合优化、深度多模态融合、原生工具调用能力[26][27][28] - 数学推理能力显著提升,展示多模态模型跨任务潜力[24] 行业影响 - 开创多模态推理新范式:无需复杂工作流或大规模监督数据,通过强化学习实现视觉-文本深度融合[29] - 技术突破使"图像思考"不再是OpenAI专属,为开放世界多模态智能探索提供新路径[1][29] - 研究团队来自小红书和西安交通大学,成果已在实习期间完成并开源[31]
智能驾驶技术的当下与未来:头部玩家的探索与启示
国盛证券· 2025-05-24 13:25
报告行业投资评级 未提及 报告的核心观点 - 交通是现实世界AI最重要的应用场景之一,智能驾驶产业趋势明确,从及格到超越人类的拐点并不遥远 [196] - 建议关注港美股公司,包括智能车及积极转型的传统车企、Robotaxi运营厂商、智能驾驶软件+芯片方案供应商、核心的线控转向和线控制动供应商、激光雷达供应商 [196] 各部分总结 软件侧 从“模仿人类”到“超越人类” - 智驾普及需超越人类,因人性对自身和技术能力存在“双标”,只有远超出人类驾驶水平的智驾技术才能大规模普及 [6][10] - 强化学习带来超越人类的潜力,如AlphaGo通过监督学习+强化学习战胜柯洁 [12] - 狭义“端到端”是模仿学习思路,广义“端到端”既有“模仿学习”又有“强化学习” [15][20] - “超越人类”需要“强化学习”,世界模型被引入自动驾驶领域,其价值包括长尾数据生成、闭环仿真测试、对抗样本等 [24][27] - 业界头部玩家积极探索,如特斯拉打造“通用世界模型”,小鹏研发“小鹏世界基座模型”等 [35][42] - 自动驾驶技术超越人类智驾的时间表显示,价值拐点并不遥远,多家车企有明确的发展规划 [67] 从“聋哑司机”到“司机助理” - 语言模型、多模态模型被引入智能驾驶领域,如EMMA、DiLu、LINGO - 2、SENNA、DriveVLM等 [71][72][82] - 各模型有不同特点和优势,如SENNA是开环测试端到端智能驾驶全球第一名,DriveVLM能理解图像信息并作出驾驶决策 [88][93] - 除算法差异,各家差异还体现在云端算力、数据获取、数据基础设施和车端算力等方面 [135] 硬件侧 感知层 - 纯视觉路线代表车企有特斯拉的双目感知和小鹏的鹰眼视觉,特斯拉HW4.0搭载超远距离双目摄像头,小鹏AI鹰眼视觉方案感知距离、识别速度和清晰度有提升 [144][148][149] - 激光雷达方案是主流车厂选择,随着智驾等级提升和成本下降,迎来大规模量产阶段,多家车企已应用 [157][163] 决策层 - VLA带来更高车端算力挑战,多家车企有先进芯片上车计划,如小鹏图灵芯片、理想Thor - U等 [168] - 软硬耦合基于成熟软件算法设计智能驾驶芯片硬件,性能提升明显,如地平线、特斯拉、小鹏等企业有相关实践 [172][175] 执行层 - 线控转向取消方向盘与车轮机械连接,具有提高安全性、驾驶舒适性和节省空间等优势,多家车企已搭载相关技术 [181][185][188] - 线控制动系统与传统液压制动系统相比,具有结构简单、反应灵敏、维护方便等优势 [191][195]
粤开市场日报-20250522
粤开证券· 2025-05-22 08:39
报告核心观点 - 2025年5月22日A股主要指数多数收跌,个股跌多涨少,沪深两市成交额缩量,申万一级行业除部分外全部下跌,部分概念板块涨幅居前 [1] 市场回顾 - 指数涨跌情况:沪指跌0.22%收报3380.19点,深证成指跌0.72%收报10219.62点,科创50跌0.48%收报990.71点,创业板指跌0.96%收报2045.57点;全市场4451只个股下跌,882只个股上涨,77只个股收平;沪深两市成交额合计11027亿元,较上个交易日缩量707.55亿元 [1] - 行业涨跌情况:申万一级行业除银行、传媒、家用电器外全部下跌,美容护理、社会服务、基础化工等行业领跌 [1] - 板块涨跌情况:涨幅居前概念板块为银行精选、智能音箱、多模态模型等 [1]
腾讯混元上新:多模态和智能体,两手都要抓 | 最前线
36氪· 2025-05-22 08:01
腾讯大模型战略升级 - 腾讯混元大模型迎来全面升级 包括旗舰快思考模型混元TurboS和深度思考模型混元T1的新迭代版本 [1] - 基于TurboS基座推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice [1] - 同步上新混元图像2.0 混元3D v2.5及混元游戏视觉生成等一系列多模态模型 [1] 混元TurboS模型性能 - 混元TurboS在Chatbot Arena排名全球前八 国内仅次于DeepSeek [2] - 代码和数学等理科能力进入全球前十 [2] - 采用大规模混合Mamba-MoE模型 理科推理提升超10% 代码能力提升24% 竞赛数学成绩提升39% [2] 混元T1模型进展 - 深度思考模型混元T1持续快速迭代 在元宝App上线后实现多项能力提升 [6] - 竞赛数学效果提升8% 常识问答提升8% 复杂任务的Agent能力提升13% [6] 多模态模型突破 - 混元视觉深度推理模型T1-Vision支持多图输入 具备原生长思维链 [8] - 整体效果提升5.3% 理解速度提升50% [8] - 混元Voice语音模型响应速度提升超30% 降至1.6秒 [8] - 混元图像2.0在主观画面质量和美学层面被认为"AI味"最少 [8] 智能体平台战略 - 将大模型知识引擎升级为"腾讯云智能体开发平台" [12] - 整合RAG技术和全面Agent能力 帮助企业激活私域知识和构建专属智能体 [13] - 大模型显著提升语义理解 上下文建模 内容切分等能力 [14] - 多模态模型发展使视觉+文本协同任务成为可能 [14] 开源与业务应用 - 混元3D模型在Hugging Face下载量超过160万 [16] - 计划推出多尺寸混合推理模型 适配企业与端侧不同需求 [16] - 混元已深度融入微信 QQ 腾讯元宝 腾讯会议 腾讯文档等核心产品 [17]
联想集团ISG业务连续两季度盈利 Q4营收同比增长63%
格隆汇· 2025-05-22 05:37
公司业绩 - 公司2024/25财年全年营收达4985亿元人民币 同比增长21.5% 创历史第二高位 [1] - 全年盈利同比增长36% 增速快于营收增长 [1] - 第四季度ISG业务营收299.6亿人民币 同比增长63% 连续第二个季度实现盈利 [1] - 中国市场营收同比增长113% 海神液冷解决方案收入同比大增244% [1] 产品与技术 - 公司发布新一代ThinkSystem V4服务器和ThinkEdge SE100入门级AI推理服务器 [1] - 第六代Neptune海神液冷技术带来40%的能源效率提升 [1] - 存储产品组合迎来史上最大规模更新 发布21款存储产品及全新数据存储解决方案 [1] ISG业务表现 - ISG全年营收1048亿人民币 同比增长63% 盈利能力大幅改善 [2] - 云基础设施(CSP)业务收入同比增长92% [2] - 企业基础设施(E/SMB)收入增速达20% 创历史新高 [2] - 海神液冷解决方案收入同比增长68% [2] - AI服务器业务实现高速增长 拓展至高频交易、新能源及智慧医疗等行业 [2] - 存储业务营收同比增长24% [2] 行业前景 - IDC预计2025年全球基础设施市场将增长18% 达2650亿美元 [2] - AI服务器2025年市场规模预计达1472亿美元 2024-2027年复合年增长率18% [2] - 生成式AI和多模态模型加速落地将推动企业级AI基础设施投入持续释放 [2] 发展战略 - ISG将坚持"云基础设施+拓展企业基础设施"业务模式 [2] - 持续优化产品结构 强化市场销售能力 提升端到端运营韧性 [2] - 加码AI服务器、液冷方案和边缘计算布局 打造混合式智能基础设施平台 [2]
能空翻≠能干活!我们离通用机器人还有多远? | 万有引力
AI科技大本营· 2025-05-22 02:47
具身智能技术发展现状 - 具身智能成为AI领域热点方向,重点关注人形机器人载体上的感知、运动、决策能力[2] - 2025年可能成为具身智能"元年",行业竞争集中在多模态和具身智能领域[5] - AI发展分为四个阶段:感知AI→生成式AI→自主智能体AI→物理AI,目前处于第三阶段向第四阶段过渡期[5] - 具身智能研究从传统精密控制向更智能化、通用化方向迈进,大模型能力提升推动这一转变[7] 技术演进路径 - 计算机视觉研究者正转向具身智能领域,因大模型压缩传统CV研究空间[8] - 自动驾驶技术是通向具身智能的重要桥梁,两者在感知、规划、控制模块高度相似[17] - 具身智能可分为"思维智能"与"行动智能",前者包括认知能力,后者关注环境互动[20] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型[25][28] 行业应用前景 - 家庭看护和家务服务是最基础、最现实的需求方向[48] - 检修类场景(如电力、汽车维修)是具身智能最具潜力的应用领域[49] - 工业制造场景中,人形机器人可能比传统自动化更具性价比优势[49] - 生产线机器人最容易落地,高危或高互动性工作最具挑战性[52] 关键技术挑战 - 数据瓶颈是最大痛点,真实数据采集速度跟不上模型训练需求[55] - 计算资源限制明显,高自由度系统控制困难且成本高昂[39] - 模型架构面临从分层决策到端到端再回归分层的演变[67] - 仿真环境精度不足,难以替代真实世界数据采集[60] 未来发展趋势 - 从性能优化转向适应性设计,强化环境适应与新任务应对能力[63] - 从确定性控制转向概率性思维,应对现实世界不确定性[64] - 从分析还原走向整体涌现,展现更强智能与动态逻辑性[64] - 从工具属性转向伙伴属性,实现更自然的协作交互[64] 商业化路径 - 开发者应聚焦专用型机器人而非追求通用能力[42] - 垂直场景配套大客户是具身智能落地的务实选择[44] - 工业领域因其可扩展性成为优先发展方向[45] - 技术从实验室到真实世界仍存在两个数量级的精度差距[46]
能空翻≠能干活,我们离通用机器人还有多远?
36氪· 2025-05-22 02:28
具身智能发展现状 - 具身智能成为AI领域热点方向,人形机器人作为载体受到重点关注 [1] - 2025年可能成为具身智能"元年",行业竞争集中在多模态和具身智能领域 [3] - 英伟达提出AI发展四阶段论:感知AI→生成式AI→自主智能体AI→物理AI [3] - 具身智能发展仍处于早期爬坡阶段,离通用机器人还有较大距离 [31][32][33] 技术演进路径 - 大模型带动具身智能研究从精密控制向智能化、通用化方向迈进 [4] - 计算机视觉研究人员转向具身智能领域,因大模型提升了对物理世界的理解能力 [5] - 自动驾驶技术积累为具身智能提供重要基础,两者在感知、规划、控制模块高度相似 [15][16] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型 [21][22] 商业化落地挑战 - 硬件成本和开发门槛居高不下是制约普及的关键因素 [10] - 垂直场景优先落地,工业、检修、家庭陪护是最具潜力的三大应用方向 [41][42][44] - 实验室精度与工业需求存在两个数量级差距,需持续提升系统精度 [40] - 早期商业化需配套大客户提供真实反馈和场景打磨 [39] 关键技术瓶颈 - 数据瓶颈是最大痛点,真实数据采集速度跟不上模型训练需求 [47][48] - 计算资源限制和模型架构挑战制约系统性能提升 [46] - 仿真环境难以完全还原真实世界物理特性,影响数据质量 [52] - 需突破自监督探索、生成式合成数据、少样本学习等数据解决方案 [53] 未来发展趋势 - 从性能优化转向适应性设计,强化环境适应能力 [55] - 从确定性控制转向概率性思维,应对现实世界不确定性 [55] - 从工具属性转向伙伴属性,实现更自然的交互协作 [55] - 模仿学习与强化学习融合、多智能体协作将成为重要突破方向 [59][60]
一文读懂Google I/O 2025 开发者大会:开启 “模型即平台” 的 AI 生态新时代
华尔街见闻· 2025-05-21 10:38
谷歌AI战略升级 - 公司全面拥抱AI智能体技术,将Gemini模型深度整合至搜索、Gemini助手等核心业务,推出全新AI模式搜索[1][2][27] - 强调Gemini 2.5 Pro为当前最强通用AI模型,在LLM Arena测评中所有类别排名第一,App月活用户超4亿[19][20][23][24] - 智能体模式(Agent Mode)支持多任务管理(如同时处理10个任务),实验版将向Gemini订阅用户开放[29][30] Gemini模型技术突破 - Gemini 2.5 Pro与Flash双模型协同:Pro侧重高性能,Flash速度更快、成本降低22%,支持"思考预算"机制[3][39] - 多模态能力升级:支持原生音频输出(2种声音)、实时翻译(Google Meet已上线英西互译)、草图转3D动画编码[34][38][41] - 实时语音助手Gemini Live支持45种语言,具备环境音分离、多任务处理(如找房订票)及跨App操作能力[32][35] 开发者工具与平台创新 - AI Studio新增URL Context功能(支持20个链接提取)、原生语音模型及增强函数调用,加速语音助手/游戏开发[6][7][8] - 实验项目Stitch实现文本提示生成App UI设计并一键导出至Figma/IDE,Canvas功能可将文档转为互动网页[4][5][33] - 编码智能体Jules开放公测,支持异步函数调用;Gemini Diffusion文本生成速度提升5倍,处于实验阶段[40][41] 搜索与用户体验革新 - AI模式搜索支持数百字复杂查询,结构化答案整合地图/评论/视频,美国用户已可体验"深度搜索"功能[47][48][49] - AI概览(AI Overviews)月活15亿用户,推动部分查询量增长10%,未来将逐步融入核心搜索[47][50] - Android XR生态推出智能眼镜(物体识别/语音控制)与Moohan头显(沉浸式地图),联合Gentle Monster等厂商[58][59][60] 内容创作与多模态技术 - Imagine 4图像模型细节提升10倍,支持中英复杂字体;Veo 3视频模型实现角色一致性/口型同步/镜头控制[52][53] - Flow平台联合电影人开发,支持AI生成剧本/镜头/配乐;Lyria音频模型可创作专业音乐并与视频协同[54][56][57] - Google Beam视频通信平台采用6摄像头阵列+AI渲染,实现毫米级头部追踪与60fps 3D画面[37] 商业化与订阅服务 - 推出Google AI Ultra订阅套餐(249.99美元/月),包含Gemini高级模型、30TB存储及YouTube Premium等权益[62][63][64] - 惠普将商业化Google Beam设备,Gemini 2.5 Flash模型6月面世,Deep Think模型限测试人员开放[37][39]
一文读懂Google I/O 2025 开发者大会:“降低门槛、加速创造”,谷歌开启 “模型即平台” 的 AI 生态新时代
硬AI· 2025-05-21 03:29
Google I/O 2025核心发布 - Gemini 2 5 Pro被定位为公司最强大的通用AI模型 在LLM Arena所有类别排行榜名列前茅[22][24] - Gemini系列模型每月处理token数量从9 7万亿激增至480万亿 增长近50倍 每月活跃用户超4亿[24] - 公司推出Gemini 2 5 Flash轻量版模型 效率提升22% 支持"思考预算"机制控制输出质量与响应速度[6][39][40] 跨平台AI引擎整合 - Android平台深度整合Gemini Nano 提供summarize等轻量功能 同时推出Androidify应用生成机器人形象[17][19] - 新UI系统Material 3 Expressive增强界面趣味性 Android 16引入live updates等性能优化工具[20] - 智能眼镜Moohan支持沉浸式地图和交互式Gemini AI 合作伙伴包括Gentle Monster和Warby Parker[63][64][65] AI开发工具升级 - AI Studio新增原生语音模型支持24种语言 增强函数调用与搜索推理功能[9][11] - Stitch实验项目实现文本提示自动生成App UI设计 可导出至Figma或IDE继续开发[7][8] - Cloud Run支持一键部署应用到线上 集成至VS Code等IDE[16] 多模态与创作突破 - Imagine 4图像模型细节捕捉能力提升 支持中英文复杂字体识别 生成速度快10倍[56] - Veo 3视频模型实现角色一致性控制 可自动合成环境音与对白 口型同步[56][57] - Lyria音频模型结合Music AI Sandbox可生成专业音乐 Flow平台支持AI视频全流程制作[61] 搜索与智能体革新 - 搜索新增AI模式标签页 支持数百字复杂查询 采用Deep Research模型提供结构化答案[46][47][51] - 智能体模式可同时管理10个任务 实验版将向Gemini订阅用户开放[27][29][30] - AI概览功能月活达15亿 推动部分查询量增长10%[46] 订阅与商业化 - Google AI Ultra套餐月费249 99美元 包含Gemini模型最高使用权限及30TB存储空间[69][70][71] - Google Beam视频通信平台采用六摄像头阵列实现毫米级精度3D渲染 将与惠普合作商业化[37]