多模态推理 - 财报，业绩电话会，研报，新闻

多模态推理

搜索文档

看图猜位置不输o3！字节发布Seed1.5-VL多模态推理模型，在60个主流基准测试中拿下38项第一

量子位· 2025-05-14 06:07

模型性能表现 - 在60个主流基准测试中拿下38项第一，包括19项视频基准测试中的14项和7项GUI智能体任务中的3项 [1][32] - 在复杂谜题推理、OCR、图表理解、3D空间理解等方面表现出色 [3] - 在GUI界面操作和游戏场景中显著优于OpenAI的CUA和Claude 3.7等模型 [10][34] - 在内部测试中尤其在视觉推理、文档理解、3D空间理解等方面表现出色 [36] 模型架构 - 由532M视觉编码器+200亿活跃参数组成 [1][12] - 核心组件包括SeedViT(图像视频编码)、MLP适配器(视觉特征投射)和大语言模型(多模态输入推理) [13] - 支持多种分辨率图像输入并通过原生分辨率变换保留细节 [14] - 视频处理采用动态帧分辨率采样策略 [14] - 引入时间戳标记增强时间信息感知能力 [15] 训练方法 - 使用3万亿个多样化高质量多模态标注数据 [18] - 预训练分为三个阶段：MLP适配器对齐、视觉定位OCR能力掌握、视频理解和复杂推理任务适应 [19] - 后训练采用监督微调和强化学习技术，包括高质量指令数据微调和PPO算法训练 [24][25] - 开发混合并行化、工作负载平衡等优化技术提高训练吞吐量并降低成本 [30][35] 实测表现 - 能准确识别图像中物体数量，如区分黑猫和影子 [4] - 能处理长度惊人、中英混杂的消费小票并转换为表格 [8] - 在"看图找地理位置"测试中表现接近行业领先水平，误差在160-440公里 [39][40][41] 行业影响 - 该轻量级模型以较小参数量达到行业顶尖水平 [1] - 在多项任务上超越OpenAI、Claude等主流模型 [32][34][36] - 技术报告和模型已公开，可在Hugging Face在线体验 [2][42]

昆仑万维：一季度营收大幅增长46% AI算力芯片取得突破性进展

证券时报网· 2025-04-29 02:00

财务表现 - 2025年一季度公司实现营业收入17.6亿元，同比增长46% [1] - 研发费用4.3亿元，同比增长23% [1] - AI音乐年化流水收入ARR达1200万美金（月流水100万美金），短剧平台Dramawave年化流水ARR达1.2亿美金（月流水1000万美金） [1] - 海外业务收入16.7亿元，同比增长56%，占营收比重提升至94% [1] - Opera收入同比增长41% [4] AI技术突破 - 多模态推理模型Skywork R1V达到开源SOTA水平 [2] - 视频生成领域SkyReels-V1模型与SkyReels-A1算法位居全球领先，后者实现技术突破性SOTA [2] - AI音乐领域Mureka V6与全球首款融合CoT技术的Mureka O1形成组合优势，Mureka O1登顶行业SOTA [2] AI算力芯片进展 - 控股AI算力芯片企业北京艾捷科芯，完成"算力基础设施—大模型算法—AI应用"全产业链布局 [3] - 攻克多项核心技术难关，整体研发进度过半，向量产迈进 [3] - 艾捷科芯员工数量接近200名，覆盖芯片设计、算法研发、系统集成等专业领域 [3] AI产品规划 - 计划2025年5月中旬在海外发布全球首款生产力场景通用Agent平台Skywork.ai [3] - Skywork.ai包含五大专家级AI Agent，覆盖专业文档、数据表格、演示文稿、播客及网页内容优化 [3] - 支持跨模态内容创作，可高效生成MV、宣传片、有声读物、互动绘本等多媒体内容 [3] 业务战略 - 全球化战略成效显著，国际化布局持续深化 [1] - 未来将持续推进AI算力芯片研发及AI应用矩阵落地 [4]

AI动态跟踪系列（六）：OpenAIo3、豆包新品首发，关注原生Agent与多模态推理

平安证券· 2025-04-17 13:10

报告行业投资评级 - 强于大市（维持） [1] 报告的核心观点 - 近期新模型解题思路在思维链CoT基础上更重视模型原生Agent能力和多模态推理能力，全球大模型领域竞争激烈，看好AI主题投资机会 [3][34] - 当前Agent在企业端落地进度靠前，AI应用关注OA/ERP/编程/办公等领域，Agent拉动推理端及整体算力需求，看好国产AI算力产业链 [3][34] 根据相关目录分别进行总结 OpenAI o3、o4 - mini新增图像深度思考与Agent能力，Codex CLI智能体开源推动AI编程生态开放 - 4月17日OpenAI发布o3和o4 - mini，是其迄今最智能模型，核心突破在于图像深度思考和Agent能力 [3][4] - o3是强大推理模型，在多方面推动前沿发展，在多个基准设新SOTA，困难现实任务重大错误比o1少20% [5] - o4 - mini针对快速、经济高效推理优化，在数学、编码和视觉任务表现好，非STEM任务及数据科学领域优于o3 - mini [5] - 图像推理方面，o3和o4 - mini首次在思维链中用图像思考，实现高级推理与多工具无缝结合，o3提供多模态代理体验 [9] - Agent方面，o3和o4 - mini可访问ChatGPT工具及自定义工具，能推理解决问题并快速生成答案 [10] - o3和o4 - mini性价比高于前身，预计实际使用更智能、便宜 [12] - OpenAI发布轻量级编程智能体Codex CLI，支持零配置启动，运行安全，可让用户从命令行体验多模态推理 [15] 豆包1.5·深度思考模型对标全球推理模型第一梯队，视觉理解模型实现更强视觉定位能力 - 4月17日火山引擎发布豆包1.5·深度思考模型等新品，推理模型性能达或接近全球第一梯队，增加视觉理解能力，APP可“边想边搜” [3][17] - 多模态方面，豆包·文生图模型3.0在权威榜单排全球第一梯队，新版本豆包·视觉理解模型视觉定位和视频理解能力提升 [17][28] - 企业级服务方面，发布OS Agent、GUI Agent大模型（豆包1.5·UI - TARS）和AI云原生·ServingKit推理套件 [17] - 截至2025年3月底，豆包大模型日均tokens调用量超12.7万亿，是2024年12月的3倍、发布时的106倍，2024年火山引擎公有云大模型调用量市场份额46.4%居中国第一 [18] - 豆包1.5·深度思考模型采用MoE架构，总参数200B，激活参数20B，有高并发承载能力和20毫秒极低延迟 [21] - 豆包APP基于该模型定向训练实现“边想边搜”，如推荐露营装备经3轮搜索给出细致推荐 [24] - 该模型具备视觉理解能力，可用于国外餐厅点餐、分析航拍地貌、企业项目管理等 [27] - OS Agent解决方案可让企业和开发者构建轻量级应用，复杂应用可调用豆包1.5·UI - TARS模型，该模型已上线火山方舟平台 [32] - ServingKit推理套件可助企业快速部署模型、优化推理、运维可观测，能提高KV cache命中率和TPS吞吐量，降低GPU消耗 [33] 投资建议 - AI应用方面，AI + 企服建议关注泛微网络、致远互联等；AI + 办公推荐金山办公、福昕软件等，建议关注合合信息 [3][34] - AI算力方面，推荐海光信息、龙芯中科等，建议关注寒武纪、景嘉微等 [3][34]

Artificial Intelligence

Agent能力

多模态推理

Artificial Intelligence

OpenAI o3

OpenAI o4-mini

Artificial Intelligence

Agent能力

多模态推理

Artificial Intelligence

OpenAI o3

OpenAI o4-mini