Workflow
多模态模型
icon
搜索文档
当前时点如何看光模块需求
2025-06-02 15:44
纪要涉及的行业和公司 - **行业**:光通信行业、云计算行业、AI 行业 - **公司**:微软、Meta、谷歌、亚马逊、宏盛、旭创、天孚通信、新易盛、世嘉光子、博创科技、德科立、源杰科技、Oracle、AIT、AXIT、苹果 纪要提到的核心观点和论据 - **光模块板块需求强劲且呈长期增长趋势**:国内和海外 AI 算力供应链一季报成绩良好,北美四大云服务商一季报超预期,市场对北美一季报反馈积极,2025 年北美云服务商资本支出预期上调,反映市场信心增强[1][2][4] - **2026 年光通信行业需求可能超预期**:2026 年需求指引时间点提前,过去每年指引时间点都提前,通常发生在需求强劲时[8] - **市场对 2026 年增长预期悲观但可能反转**:从股价和市盈率定价看,市场认为 26 年云商增速大幅下降,甚至可能负增长,但近期可能因多领域交叉验证而反转[9][13] - **云商资本开支有周期性规律且影响光通信行业**:云商资本开支呈现三年双位数增长加一年低增速/负增速规律,过去十年北美四家云商资本开支复合年均增长率为 26%,过去五年为 27%,历史上三次低增速分别在 2015、2019 和 2023 年,该规律与光通信行业发展节奏和投资力度紧密相关[10][11] - **新兴技术驱动光通信行业发展**:AI、元宇宙等新兴技术影响光通信行业发展方向和投资力度,如 16 - 18 年云计算爆发、21 - 22 年底元宇宙拉动投资、24 年 AI 带动行业高增速[12] - **AI 模型训练和推理有新趋势**:AI 模型训练方面多模态模型发展值得期待,推理方面 Agent AI 将带来大量 token 消耗,导致推理算力需求爆发式增长[14][15] - **不同云服务商需求有差异**:谷歌和微软未来主要需求与 1.6T 相关,预计 2026 年 1.6T 需求至少翻倍;Meta 和 AWS 的 800G 需求持续提升,可能在 2026 年下半年或更晚上升至 1.6T[16][17] - **二线厂商增长迅速**:Oracle 和 AIT 增长快,目前一年 400G/800G 采购量约为头部云商的三分之一或四分之一,2026 年预计显著增长甚至翻倍[18][19] - **苹果有望推动算力需求膨胀**:苹果在 AI 领域表现积极,有望成为第七大云服务提供商,推动整体算力需求膨胀[20] - **投资策略应优先考虑龙头企业**:行业贝塔系数反转,龙头企业估值低于平均水平,推荐宏盛、旭创和天孚通信,新易盛估值更低也值得关注,光模块机构持仓大幅下降,是较好配置时点[21] 其他重要但可能被忽略的内容 - **云服务商调整费用支持资本开支**:Meta 下调费用展望控制成本投入资本开支,谷歌降本增效提升营业利润率,为增加 CAPEX 创造条件[6] - **部分公司一季报超预期**:世嘉光子、博创科技和新易盛一季报超预期,毛利率持续提升,反映供不应求状况[22] - **部分公司订单良好值得关注**:德科立和源杰科技订单情况良好,虽业绩未显著释放,但最终会出业绩,建议重点关注[23] - **投资决策需平衡宏观与微观分析**:综合考虑宏观与微观维度,避免忽略微观变化对 EPS 的影响,准确描绘定价模型[25]
恺英网络20250531
2025-06-02 15:44
纪要涉及的行业和公司 - 行业:游戏行业 - 公司:恺英网络、腾讯、网易、米哈游、世纪华通 纪要提到的核心观点和论据 游戏行业 - 观点:建议投资者超配游戏板块 - 论据:2025 年腾讯、网易和米哈游三家大厂产品线表现不强,预计 A 股游戏板块二季度到三季度市场占有率上升;核心游戏公司估值在 15 - 18 倍,板块处于上行通道;暑期游戏和 AI 应用数据预计表现良好,多模态模型可能成为催化剂[2][4] 恺英网络 - 观点:维持重点推荐评级,与世纪华通并列首推 - 论据:当前估值 17 倍,有机会通过 IP 平台和 AI 布局抢占优势,跳出传统游戏产品周期局限[3][10] - 观点:传奇游戏市场表现优异 - 论据:在传奇游戏市场市占率超 50%;通过搭建用户平台和打造传奇生态延长玩家生命周期、降低投流成本;“传奇盒子”收入从 2022 年 2 亿增长到 2024 年 9 亿,日活用户从 2024 年初 40 万增长到年底 45 万,有望达 50 万[2][5] - 观点:新产品上线节奏加快 - 论据:2024 年第四季度至今,多款产品有上线计划,如“三国天下归心”“大富翁”“拳皇”等,部分产品已上线或即将定档[2][6] - 观点:海外业务有望延续高增长 - 论据:已在香港和韩国设立办公室,收购复古情怀 IP,搭建海外发行平台;2025 年有望延续 2024 年 220%的高增长态势,重点关注东南亚市场 RO 仙境传说等 IP 产品[2][7] - 观点:AI 领域布局广泛 - 论据:计划发布 AI 陪伴、社交应用“IF”,女性向产品研发进展顺利;暑期将发布 AI 游戏引擎 2.0 版本;探索 AI 辅助创作的双边用户平台商业逻辑;布局 AI 玩具,与大鹏眼镜合作探索 AI 眼镜生态[2][8][9] 其他重要但是可能被忽略的内容 - 5 月 21 日“天使之战”在欧美地区上线,5 月 23 日“爆炸骑兵”在东南亚上线,6 月 11 日“星苍之野望”将在日本地区定档,6 月“开心小矿工”可能上线[6] - 恺英网络计划拓展其他国际地区业务布局,并可能推出 AI 生成游戏[7]
MiniMax正暗戳戳憋大招
虎嗅· 2025-06-01 22:09
核心观点 - MiniMax即将发布代号为M+的文本推理模型,该模型的技术细节严格保密,但将附带技术报告 [2] - 公司采取折中策略:国内C端应用不接入DeepSeek,海外AI应用接入DeepSeek [3] - 推理模型的成败将影响外界对公司是否保持行业竞争力的判断 [5][18] - 2025年上半年行业格局从"AI六小虎"演变为"基模五强",MiniMax未列入新格局常客名单 [5] 战略与产品动态 - 2025年三大关键动作:收购AI视频公司鹿影科技(估值近1亿人民币)、品牌拆分(海螺AI更名为MiniMax)、上线类Manus产品MiniMax Agent [6] - 品牌重构将文本模型与多模态能力分离,组织架构仍保持四大模型团队(文本/视频/图像/语音) [10][11] - 模型迭代优先级:视频>语音>文本>图像,视频模型video-01后迭代速度最快 [23] - 推出MiniMax Agent智能体模式,通过双入口(Chat/Agent)拉动海外应用月活 [24] 技术进展 - 2025年1月开源4560B参数模型MiniMax-01,性能追平GPT-4o并超越DeepSeek-V3 [7] - 推理模型研发早于DeepSeek R1发布,但后者影响其优先级调整 [17] - 当前商业化最成功的是语音模型,合作案例包括高途(声音克隆)、Hedra(数字角色)、Stripe(与OpenAI/Anthropic并列) [14][15] 商业模式 - 采用纯API收费模式,销售团队仅10人(占公司400人规模的3%),无定制化交付团队 [13] - 多模态模型整体变现能力超越大语言模型,语音与视频模型商业贡献难分高下 [26][28] - 国内合作高途/阅文/极狐汽车,国际签约Stripe等,但大部分商业合作未公开 [14][27] 资本与估值 - 2024年3月A轮融资6亿美元,投后估值25亿美元 [16] - 当前实际估值已超25亿美元,获多家机构未公开轮次投资,被某知名VC列为"保密明星项目" [16] 竞争环境 - DeepSeek R1发布后行业分化为接入派(多数)与自研派(字节/智谱),MiniMax选择中间路线 [2][3] - 联创魏伟离职引发外界对公司战略猜测,公司随后加速品牌拆分与产品调整 [8][9] - 基模五强(阿里/字节/DeepSeek/阶跃星辰/智谱AI)格局下,公司需证明技术实力以维持地位 [5][18]
OpenAI未公开的o3「用图思考」技术,被小红书、西安交大尝试实现了
机器之心· 2025-05-31 06:30
多模态推理模型技术突破 - OpenAI推出的o3推理模型首次实现将图像直接融入推理过程,具备"用图思考"能力,在V* Bench基准测试中准确率达95.7%[1] - o3模型可自动聚焦图像关键区域(如物理试卷公式区、建筑图纸承重结构),结合知识库进行深度推理[1] - 小红书团队联合西安交通大学开发DeepEyes模型,通过端到端强化学习实现类似o3的"图像思考"能力,并开源技术细节[1] 多模态推理方法对比 - 传统"先看后想"方法存在局限:推理阶段无法回看图像补充细节,易导致理解偏差[4] - 更有效的"边看边想"方法允许动态调用图像信息,实现视觉与语言交替交互,提升多模态理解能力[4] - DeepEyes展示完整的三步推理流程:全局视觉分析→智能工具调用→细节推理识别,无需依赖外部OCR工具[7][8][9][10] DeepEyes模型架构与训练 - 引入"自驱动视觉聚焦"机制:根据文本推理需求动态裁剪关键图像区域进行深入分析[14] - 采用端到端强化学习策略,不依赖监督微调(SFT),通过outcome-based奖励函数激发原生能力[18][19] - 训练过程经历懵懂期(随机尝试)、探索期(频繁调用工具)、成熟期(精准预判关键区域)三阶段[21] 性能表现与优势 - 在V* Bench取得90.1准确率,HR-Bench超越现有工作流方法,7B版本视觉搜索表现优于Qwen-VL 32B[23] - 五大独特优势:训练更简洁(仅需问答对)、更强泛化能力、端到端联合优化、深度多模态融合、原生工具调用能力[26][27][28] - 数学推理能力显著提升,展示多模态模型跨任务潜力[24] 行业影响 - 开创多模态推理新范式:无需复杂工作流或大规模监督数据,通过强化学习实现视觉-文本深度融合[29] - 技术突破使"图像思考"不再是OpenAI专属,为开放世界多模态智能探索提供新路径[1][29] - 研究团队来自小红书和西安交通大学,成果已在实习期间完成并开源[31]
智能驾驶技术的当下与未来:头部玩家的探索与启示
国盛证券· 2025-05-24 13:25
报告行业投资评级 未提及 报告的核心观点 - 交通是现实世界AI最重要的应用场景之一,智能驾驶产业趋势明确,从及格到超越人类的拐点并不遥远 [196] - 建议关注港美股公司,包括智能车及积极转型的传统车企、Robotaxi运营厂商、智能驾驶软件+芯片方案供应商、核心的线控转向和线控制动供应商、激光雷达供应商 [196] 各部分总结 软件侧 从“模仿人类”到“超越人类” - 智驾普及需超越人类,因人性对自身和技术能力存在“双标”,只有远超出人类驾驶水平的智驾技术才能大规模普及 [6][10] - 强化学习带来超越人类的潜力,如AlphaGo通过监督学习+强化学习战胜柯洁 [12] - 狭义“端到端”是模仿学习思路,广义“端到端”既有“模仿学习”又有“强化学习” [15][20] - “超越人类”需要“强化学习”,世界模型被引入自动驾驶领域,其价值包括长尾数据生成、闭环仿真测试、对抗样本等 [24][27] - 业界头部玩家积极探索,如特斯拉打造“通用世界模型”,小鹏研发“小鹏世界基座模型”等 [35][42] - 自动驾驶技术超越人类智驾的时间表显示,价值拐点并不遥远,多家车企有明确的发展规划 [67] 从“聋哑司机”到“司机助理” - 语言模型、多模态模型被引入智能驾驶领域,如EMMA、DiLu、LINGO - 2、SENNA、DriveVLM等 [71][72][82] - 各模型有不同特点和优势,如SENNA是开环测试端到端智能驾驶全球第一名,DriveVLM能理解图像信息并作出驾驶决策 [88][93] - 除算法差异,各家差异还体现在云端算力、数据获取、数据基础设施和车端算力等方面 [135] 硬件侧 感知层 - 纯视觉路线代表车企有特斯拉的双目感知和小鹏的鹰眼视觉,特斯拉HW4.0搭载超远距离双目摄像头,小鹏AI鹰眼视觉方案感知距离、识别速度和清晰度有提升 [144][148][149] - 激光雷达方案是主流车厂选择,随着智驾等级提升和成本下降,迎来大规模量产阶段,多家车企已应用 [157][163] 决策层 - VLA带来更高车端算力挑战,多家车企有先进芯片上车计划,如小鹏图灵芯片、理想Thor - U等 [168] - 软硬耦合基于成熟软件算法设计智能驾驶芯片硬件,性能提升明显,如地平线、特斯拉、小鹏等企业有相关实践 [172][175] 执行层 - 线控转向取消方向盘与车轮机械连接,具有提高安全性、驾驶舒适性和节省空间等优势,多家车企已搭载相关技术 [181][185][188] - 线控制动系统与传统液压制动系统相比,具有结构简单、反应灵敏、维护方便等优势 [191][195]
粤开市场日报-20250522
粤开证券· 2025-05-22 08:39
报告核心观点 - 2025年5月22日A股主要指数多数收跌,个股跌多涨少,沪深两市成交额缩量,申万一级行业除部分外全部下跌,部分概念板块涨幅居前 [1] 市场回顾 - 指数涨跌情况:沪指跌0.22%收报3380.19点,深证成指跌0.72%收报10219.62点,科创50跌0.48%收报990.71点,创业板指跌0.96%收报2045.57点;全市场4451只个股下跌,882只个股上涨,77只个股收平;沪深两市成交额合计11027亿元,较上个交易日缩量707.55亿元 [1] - 行业涨跌情况:申万一级行业除银行、传媒、家用电器外全部下跌,美容护理、社会服务、基础化工等行业领跌 [1] - 板块涨跌情况:涨幅居前概念板块为银行精选、智能音箱、多模态模型等 [1]
腾讯混元上新:多模态和智能体,两手都要抓 | 最前线
36氪· 2025-05-22 08:01
腾讯大模型战略升级 - 腾讯混元大模型迎来全面升级 包括旗舰快思考模型混元TurboS和深度思考模型混元T1的新迭代版本 [1] - 基于TurboS基座推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice [1] - 同步上新混元图像2.0 混元3D v2.5及混元游戏视觉生成等一系列多模态模型 [1] 混元TurboS模型性能 - 混元TurboS在Chatbot Arena排名全球前八 国内仅次于DeepSeek [2] - 代码和数学等理科能力进入全球前十 [2] - 采用大规模混合Mamba-MoE模型 理科推理提升超10% 代码能力提升24% 竞赛数学成绩提升39% [2] 混元T1模型进展 - 深度思考模型混元T1持续快速迭代 在元宝App上线后实现多项能力提升 [6] - 竞赛数学效果提升8% 常识问答提升8% 复杂任务的Agent能力提升13% [6] 多模态模型突破 - 混元视觉深度推理模型T1-Vision支持多图输入 具备原生长思维链 [8] - 整体效果提升5.3% 理解速度提升50% [8] - 混元Voice语音模型响应速度提升超30% 降至1.6秒 [8] - 混元图像2.0在主观画面质量和美学层面被认为"AI味"最少 [8] 智能体平台战略 - 将大模型知识引擎升级为"腾讯云智能体开发平台" [12] - 整合RAG技术和全面Agent能力 帮助企业激活私域知识和构建专属智能体 [13] - 大模型显著提升语义理解 上下文建模 内容切分等能力 [14] - 多模态模型发展使视觉+文本协同任务成为可能 [14] 开源与业务应用 - 混元3D模型在Hugging Face下载量超过160万 [16] - 计划推出多尺寸混合推理模型 适配企业与端侧不同需求 [16] - 混元已深度融入微信 QQ 腾讯元宝 腾讯会议 腾讯文档等核心产品 [17]
联想集团ISG业务连续两季度盈利 Q4营收同比增长63%
格隆汇· 2025-05-22 05:37
公司业绩 - 公司2024/25财年全年营收达4985亿元人民币 同比增长21.5% 创历史第二高位 [1] - 全年盈利同比增长36% 增速快于营收增长 [1] - 第四季度ISG业务营收299.6亿人民币 同比增长63% 连续第二个季度实现盈利 [1] - 中国市场营收同比增长113% 海神液冷解决方案收入同比大增244% [1] 产品与技术 - 公司发布新一代ThinkSystem V4服务器和ThinkEdge SE100入门级AI推理服务器 [1] - 第六代Neptune海神液冷技术带来40%的能源效率提升 [1] - 存储产品组合迎来史上最大规模更新 发布21款存储产品及全新数据存储解决方案 [1] ISG业务表现 - ISG全年营收1048亿人民币 同比增长63% 盈利能力大幅改善 [2] - 云基础设施(CSP)业务收入同比增长92% [2] - 企业基础设施(E/SMB)收入增速达20% 创历史新高 [2] - 海神液冷解决方案收入同比增长68% [2] - AI服务器业务实现高速增长 拓展至高频交易、新能源及智慧医疗等行业 [2] - 存储业务营收同比增长24% [2] 行业前景 - IDC预计2025年全球基础设施市场将增长18% 达2650亿美元 [2] - AI服务器2025年市场规模预计达1472亿美元 2024-2027年复合年增长率18% [2] - 生成式AI和多模态模型加速落地将推动企业级AI基础设施投入持续释放 [2] 发展战略 - ISG将坚持"云基础设施+拓展企业基础设施"业务模式 [2] - 持续优化产品结构 强化市场销售能力 提升端到端运营韧性 [2] - 加码AI服务器、液冷方案和边缘计算布局 打造混合式智能基础设施平台 [2]
能空翻≠能干活!我们离通用机器人还有多远? | 万有引力
AI科技大本营· 2025-05-22 02:47
具身智能技术发展现状 - 具身智能成为AI领域热点方向,重点关注人形机器人载体上的感知、运动、决策能力[2] - 2025年可能成为具身智能"元年",行业竞争集中在多模态和具身智能领域[5] - AI发展分为四个阶段:感知AI→生成式AI→自主智能体AI→物理AI,目前处于第三阶段向第四阶段过渡期[5] - 具身智能研究从传统精密控制向更智能化、通用化方向迈进,大模型能力提升推动这一转变[7] 技术演进路径 - 计算机视觉研究者正转向具身智能领域,因大模型压缩传统CV研究空间[8] - 自动驾驶技术是通向具身智能的重要桥梁,两者在感知、规划、控制模块高度相似[17] - 具身智能可分为"思维智能"与"行动智能",前者包括认知能力,后者关注环境互动[20] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型[25][28] 行业应用前景 - 家庭看护和家务服务是最基础、最现实的需求方向[48] - 检修类场景(如电力、汽车维修)是具身智能最具潜力的应用领域[49] - 工业制造场景中,人形机器人可能比传统自动化更具性价比优势[49] - 生产线机器人最容易落地,高危或高互动性工作最具挑战性[52] 关键技术挑战 - 数据瓶颈是最大痛点,真实数据采集速度跟不上模型训练需求[55] - 计算资源限制明显,高自由度系统控制困难且成本高昂[39] - 模型架构面临从分层决策到端到端再回归分层的演变[67] - 仿真环境精度不足,难以替代真实世界数据采集[60] 未来发展趋势 - 从性能优化转向适应性设计,强化环境适应与新任务应对能力[63] - 从确定性控制转向概率性思维,应对现实世界不确定性[64] - 从分析还原走向整体涌现,展现更强智能与动态逻辑性[64] - 从工具属性转向伙伴属性,实现更自然的协作交互[64] 商业化路径 - 开发者应聚焦专用型机器人而非追求通用能力[42] - 垂直场景配套大客户是具身智能落地的务实选择[44] - 工业领域因其可扩展性成为优先发展方向[45] - 技术从实验室到真实世界仍存在两个数量级的精度差距[46]
能空翻≠能干活,我们离通用机器人还有多远?
36氪· 2025-05-22 02:28
具身智能发展现状 - 具身智能成为AI领域热点方向,人形机器人作为载体受到重点关注 [1] - 2025年可能成为具身智能"元年",行业竞争集中在多模态和具身智能领域 [3] - 英伟达提出AI发展四阶段论:感知AI→生成式AI→自主智能体AI→物理AI [3] - 具身智能发展仍处于早期爬坡阶段,离通用机器人还有较大距离 [31][32][33] 技术演进路径 - 大模型带动具身智能研究从精密控制向智能化、通用化方向迈进 [4] - 计算机视觉研究人员转向具身智能领域,因大模型提升了对物理世界的理解能力 [5] - 自动驾驶技术积累为具身智能提供重要基础,两者在感知、规划、控制模块高度相似 [15][16] - 具身智能系统需要具备世界模型和自我模型两大核心内部模型 [21][22] 商业化落地挑战 - 硬件成本和开发门槛居高不下是制约普及的关键因素 [10] - 垂直场景优先落地,工业、检修、家庭陪护是最具潜力的三大应用方向 [41][42][44] - 实验室精度与工业需求存在两个数量级差距,需持续提升系统精度 [40] - 早期商业化需配套大客户提供真实反馈和场景打磨 [39] 关键技术瓶颈 - 数据瓶颈是最大痛点,真实数据采集速度跟不上模型训练需求 [47][48] - 计算资源限制和模型架构挑战制约系统性能提升 [46] - 仿真环境难以完全还原真实世界物理特性,影响数据质量 [52] - 需突破自监督探索、生成式合成数据、少样本学习等数据解决方案 [53] 未来发展趋势 - 从性能优化转向适应性设计,强化环境适应能力 [55] - 从确定性控制转向概率性思维,应对现实世界不确定性 [55] - 从工具属性转向伙伴属性,实现更自然的交互协作 [55] - 模仿学习与强化学习融合、多智能体协作将成为重要突破方向 [59][60]