多模态智能体 - 财报，业绩电话会，研报，新闻 - Reportify

多模态智能体

搜索文档

AI市场将扩容10倍？多模态Agent需求逐步爆发

21世纪经济报道· 2025-12-19 07:16

回顾豆包大模型近两年的AI征程，可以看到一条从技术验证、到平台构建、再到生态扩张的清晰轨迹。自2023年大模型热潮席卷全球以来，中国科技巨头纷纷入局。在众多玩家中，字节跳动旗下的豆包大模型及其背后的技术平台火山引擎，走出了一条独特路径——不是简单地堆参数、刷榜单，而是以"模型即服务"（MaaS）为基座，向企业级应用和终端设备双向渗透，构建覆盖"云-管-端"的全栈AI能力体系。截至2025年12月，豆包大模型日均Tokens使用量已突破50万亿，位居中国第一、全球第三；超过100家企业在其平台上累计调用量超一万亿Tokens。这一数据背后，是一场持续两年、从技术演进到商业落地的系统性布局。谭待：AI市场将扩容10倍在2025年冬季的FORCE原动力大会上，火山引擎总裁谭待正式提出"以模型为中心的AI云原生架构"，并发布豆包大模型1.8、视频生成模型Seedance1.5Pro，以及AgentKit、HiAgent"1+N+X"体系等一系列支撑智能体（Agent）规模化落地的基础设施。其技术叙事已从"拥有一个强大的模型"，升级为"提供一整套让任何企业都能高效、经济地部署和管理自己AI智能 ...

多模态智能体

AI云原生架构

豆包大模型

视频生成模型Seedance1.5Pro

多模态智能体

AI云原生架构

豆包大模型

视频生成模型Seedance1.5Pro

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”

量子位· 2025-12-09 07:37

豆包手机市场热度与产品定位 - 首批3万台备货被一抢而空，二手市场价格翻番，显示产品市场热度极高 [1] - 产品被用户评价为“全球第一款真正的AI手机”，其核心在于将手机操作变为操作系统级的原生能力 [69][76] - 产品形态为搭载在工程样机nubia M153上的“豆包手机助手技术预览版”，能跨应用自动化执行复杂任务 [3][4] 核心技术：UI-TARS模型演进 - 豆包手机助手的图形界面操作能力建立在字节自研的UI-TARS模型基础上，该模型闭源版本针对移动端进行了大量优化 [7][8] - UI-TARS模型发展历经多个版本：今年1月开源初代模型；3个月后推出强化学习驱动的UI-TARS-1.5；今年9月发布能力更强的UI-TARS-2，为豆包手机提供关键技术支撑 [11][23][32] - 模型旨在构建具备感知、动作、推理、记忆四大核心能力的系统级AI Agent [13] 技术细节与创新 - **初代UI-TARS四大创新**：1) 使用大规模GUI截图数据集和五大感知任务增强感知精度；2) 定义了涵盖点击、滚动、输入等跨平台（Web、Mobile、Desktop）的原子动作集；3) 融入600万高质量GUI教程和多种推理模式注入深度推理能力；4) 借助数百台虚拟机自动收集交互轨迹，通过多阶段过滤和直接偏好优化解决数据瓶颈 [16][18][20] - **UI-TARS-1.5的进步**：新增强化学习驱动的推理机制，在执行前进行思考，显著提升性能与推理扩展性 [25] - **UI-TARS-2的四大突破**：1) 设计可扩展的数据飞轮实现数据与模型协同进化；2) 设计在长时序设定中稳定优化的训练框架；3) 构建混合GUI中心环境，通过SDK接入文件系统、终端等，打破纯GUI操作局限；4) 开发统一的沙盒平台管理异构环境，支撑数百万次交互的大规模训练 [35][37][39][42] 模型性能表现 - **UI-TARS-1.5基准测试成绩**：在计算机使用基准OSworld（100步）得分42.5，优于OpenAI CUA的36.4；在Windows Agent Arena（50步）得分42.1；在手机使用基准Android World得分64.2 [27] - **UI-TARS-1.5 GUI定位任务**：在ScreenSpot-V2得分94.2，在ScreenSpotPro得分61.6，均刷新SOTA [28] - **UI-TARS-1.5游戏测试**：在14款游戏测试中，UI-TARS-1.5在11款游戏上得分达到100，全面优于OpenAI CUA和Claude 3.7 [31][32] - **UI-TARS-2游戏性能**：在15款游戏的平均标准化得分为59.77，更接近人类水平（100），显著高于OpenAI CUA的24.73和Claude Computer Use的21.61 [46] - **UI-TARS-2在LMGame基准**：与前沿模型竞争，例如在Super Mario Bros得分1783.2，高于GPT-4o的1028.3，接近GPT-4.1的1991.3 [47] - 该项目在GitHub已获得8.3k Star，成为最受欢迎的开源多模态智能体之一 [47][48] 产品工程设计与隐私安全 - **权限与安全**：豆包手机助手使用INJECT_EVENTS系统级权限，需用户主动授权；遇到支付、身份验证等敏感操作会暂停任务交由人工接管 [50][51][52] - **隐私保护设计**：视觉管道经过过滤，截屏只包含目标应用界面，基于Activity Hierarchy抓取，物理上无法监控视频通话等悬浮窗内容 [56] - **后台运行机制**：Agent在后台执行长链任务时，即使前台接电话或切换App也不会被挂起，推测在OS层做了并行运行的虚拟化设计，拥有独立的Virtual Display [57] - **双模式技术栈**：豆包手机助手分为标准模式和Pro模式两套完全不同的Pipeline，标准模式依赖浅层视觉响应极快，Pro模式则进行深度推理和工具使用 [58][59][61] 实际应用体验与行业影响 - **用户体验案例**：用户可用英语直接下达复杂指令（如找人代排队、呼叫无人车），助手能自主选择应用并完成操作，无需预先设置手机语言 [69][72][75] - **能力限制**：官方已主动限制部分能力，包括限制刷分、刷激励场景，部分游戏类场景，并暂时下线操作银行、互联网支付等金融类APP的能力 [68] - **行业评价**：被评价为定义了下一代AI原生手机，展现了手机从被动操作工具向能主动理解意图、独立完成任务伙伴转变的可能性 [76][85]

系统级GUI Agent

多模态智能体

系统级GUI Agent

多模态智能体

大湾区智能算力与大模型智能体论坛在深圳举办

中国新闻网· 2025-12-05 02:41

论坛概况与核心主题 - 论坛主题为“智能算力引领大模型创新，多模态智能体驱动产业赋能”，聚焦智能算力基础设施、大模型技术创新、多模态智能体应用等前沿议题 [1] - 论坛旨在搭建交流研讨与开放合作平台，探索人工智能赋能实体经济的创新路径，并期待汇聚真知灼见与产业投资应用 [3] 区域产业发展现状 - 深圳市光明区已集聚人工智能优质企业近百家，相关产业规模超过300亿人民币 [3] 关键基础设施与项目进展 - “鹏城云脑Ⅲ”大科学装置在光明科学城加速推进建设，其落成将助力科学创新与产业技术升级 [1] - 鹏城实验室正发起并推进“中国算力网”计划 [1] 发布的创新科技成果 - 鹏城实验室发布鹏城脑海2.1-开元全开源模型，开源内容包括模型权重、训练数据集及数据处理工具 [5] - 鹏城实验室与深圳市气象局联合发布人工智能预报员助手“阿福”智能体，基于超智数融合体系结构，已为第十五届全国运动会提供气象服务保障 [5] - 琶洲实验室(黄埔)发布国产万卡大模型推理引擎—FenixCOS [5] - 工商银行联创发布基于国产全生命周期大模型工具集的金融智能体等示范应用成果 [5] 合作签约与参与机构 - 鹏城实验室分别与深圳市气象局、琶洲实验室(黄埔)、国家超级计算无锡中心签署合作协议 [7] - 论坛汇聚了鹏城实验室、清华大学、香港大学、琶洲实验室(黄埔)、香港中文大学、上海人工智能实验室等机构的专家学者进行主旨演讲 [7] - 论坛由深圳市发展改革委员会、市科技创新局、市工业和信息化局、光明区人民政府指导，鹏城实验室、深圳河套学院联合主办 [7]

多模态智能体

鹏城脑海2.1 - 开元全开源模型

多模态智能体

鹏城脑海2.1 - 开元全开源模型

安凯微：前三季度研发费用占比超30% 发布多款芯片开启多模态智能体新未来

证券时报网· 2025-10-27 11:56

财务表现与研发投入 - 公司2025年前三季度实现营业收入3.51亿元，同比基本持平 [1] - 前三季度研发费用为1.05亿元，占当期营收的30.13%，较上年同期增长5.18% [1] 产品与技术发布 - 公司在2025安凯微电子开发者技术论坛发布多款芯片新品，包括AK39AV130、KM02G、AK2659、AK1090、AK5301等 [2] - 新发布芯片聚焦智能摄像头、AI眼镜、智能穿戴设备与便携能源等典型场景，兼顾低功耗设计、计算能力与视觉交互需求 [2] - 自年初以来，公司已累计推出8款芯片产品，覆盖从视觉感知到语音交互再到控制执行的全链路方案 [2] - 公司已成功流片的芯片可覆盖AI音频眼镜、AI拍摄眼镜和AI显示眼镜等功能形态，目前已进入大规模推广和客户产品开发调试阶段 [3] 应用方案与生态合作 - 公司系统展示了视频语音感知、太阳能智能摄像、AI眼镜等七类特色应用场景的系统方案 [2] - 多家合作伙伴联合发布基于安凯微芯片的AI眼镜、AI耳机、AOV摄像机及智能门锁新品 [2] - 20余家企业在展厅集中呈现以安凯微芯片为核心的智能产品与解决方案 [2] 战略布局与行业洞察 - 论坛主题为“从多媒体到多模态，从智能硬件到智能体”，汇聚产业链上下游核心合作伙伴探讨多模态感知、大模型应用与边缘智能技术 [4] - 公司基于长期战略规划，对视启未来进行增资，后者承接了IDEA研究院发布的通用视觉大模型DINO-X和核心研发团队 [5] - 行业资深人士认为多模态大模型已形成较多应用场景，但端侧落地的主要困难在于算力成本与功耗的平衡 [6] - 公司结合自研IP和SoC架构技术积累，已在某些芯片实现对成熟制程结构最优化的目标 [6]

安凯微(SH:688620)

多模态智能体

大模型应用

多模态智能体

大模型应用

Grok: xAI引领Agent加速落地：计算机行业深度研究报告

华创证券· 2025-09-23 03:41

报告行业投资评级 - 计算机行业评级为"推荐（维持）" [3] 报告核心观点 - Grok系列模型由xAI公司开发通过快速迭代实现多模态与智能体能力突破最新版本Grok-4在学术测试和多场景应用中建立技术壁垒 [6][8][29] - 海外大模型（OpenAI GPT-5、Google Gemini 2.5 Pro、Anthropic Claude 4）与国产模型（Kimi K2、DeepSeek-V3.1、阿里Qwen3）形成多极竞争格局国产模型以成本效率优势（如Kimi K2输入成本仅为GPT-4.1的1/3）实现性能追平 [6][8][73] - AI Agent商业化落地加速推动企业级服务与行业场景应用需求增长涵盖办公、编程、金融、教育、医疗等细分领域 [6][8][83] 模型技术迭代与性能 Grok系列演进 - Grok-1（2024年3月）：开源MoE架构 3140亿参数在HumanEval编码测试达63.2% MMLU任务达73% 优于ChatGPT-3.5 [13][14][15] - Grok-1.5V（2024年4月）：新增图像理解功能在Mathvista测试准确率52.8% TextVQA达78.1% [17][18] - Grok-2（2024年8月）：整合实时检索与图像生成在MATH测试追平GPT-4o DocVQA测试领先同期模型 [19][21] - Grok-3（2025年2月）：参数规模2.7万亿引入Think分步推理和DeepSearch联网检索在AIME、GPQA测试超越GPT-4o等旗舰模型 [20][24][25] - Grok-4（2025年7月）：上下文窗口256K tokens 计算资源投入较Grok-2增加100倍在HLE测试以44.4%准确率刷新纪录在AIME、SAT、GRE测试超越GPT-4o等模型 [29][30][35] 海外大模型进展 - OpenAI GPT-5：在SWE-bench Verified测试达74.9% Aider Polyglot测试达88% [59][61] - Anthropic Claude 4：在SWE-bench Verified测试中Claude Sonnet 4达80.2% Claude Opus 4达79.4% 超越GPT-4.1和Gemini 2.5 Pro [64][66] - Google Gemini 2.5 Pro：在LiveCodeBench测试达74.2% Aider Polyglot达82.2% 多模态与推理能力领先 [68][71] 国产模型突破 - Kimi K2：在SWE-bench Multilingual和Tau2测试接近Claude 4 输入成本仅为GPT-4.1的1/3 [73][77] - DeepSeek-V3.1：通过Post-Training优化增强Agent能力工具调用效率提升 [6][74][76] - 阿里Qwen3 Coder：编码基准测试媲美Claude Sonnet 4 中文语义任务保持优势 [79][80] 算力与生态布局 - xAI计划五年内实现5000万块H100等效算力规模支撑Grok系列迭代 [30][50][53] - 国产模型累计备案服务439款登记应用233款商业化进程加速 [6][73] 投资应用方向企业级服务 - 办公：金山办公、合合信息、福昕软件、三六零 [6][84] - 编程：卓易信息、普元信息 [6][84] - ERP：金蝶国际、用友网络 [6][84] - 多模态：万兴科技、美图公司、虹软科技、当虹科技 [6][84] 行业场景 - 金融：大智慧、同花顺、恒生电子、京北方、宇信科技 [6][84] - 教育：科大讯飞、视源股份、新开普、佳发教育 [6][84] - 医疗：阿里健康、卫宁健康、讯飞医疗科技 [6][84] - 工业：华大九天、中控技术、中望软件、索辰科技 [6][84] [6][8][83][84]

大语言模型

多模态智能体

Artificial Intelligence

大语言模型

多模态智能体

Artificial Intelligence

更懂国内APP的开源智能体！感知/定位/推理/中文能力全面提升，还能自己学会操作

量子位· 2025-08-31 04:25

多模态智能体UItron技术突破 - 开源多模态智能体UItron具备自动操作手机、电脑、浏览器的能力通过多模态学习和多步执行轨迹数据实现人类化交互如点击、滑动和输入 [1] - 在中文APP场景下表现优异适用于复杂多步任务显著提升中文场景交互效率 [3] - 由浙江大学和美团联合开发具备先进GUI内容感知、任务定位和推理规划能力弥补操作轨迹稀缺性和智能体交互基建可用性不足 [4] 数据工程与交互基建 - 构建系统性数据工程缓解操作轨迹缺乏问题包括感知数据、规划数据和蒸馏数据整合OCR、VQA、Caption等多任务数据提升页面理解能力 [8] - 搭建连接移动和PC设备的交互环境基建支持自动记录截图和坐标简化手动标注难度显著提高中文场景操作轨迹收集效率 [10] - 交互环境同时支持英文和中文国内App 为在线强化学习提供训练基础实现动作执行与界面更新的交替循环 [10] 训练方法与性能表现 - 采用三阶段训练策略包括感知任务SFT阶段、规划任务SFT阶段和课程强化学习RL阶段涵盖从离线步骤级到在线任务级的强化学习 [12][14] - 在开源榜单ScreenspotV2上取得92.0平均分优于现有方法体现强大GUI内容理解和任务定位能力 [16] - 在Android-Control和GUI-Odyssey离线规划榜单中实现92.9最高平均分显著超越其他工作展示卓越任务规划与执行能力 [18] - 在OSWorld评测中取得24.9分（15 Steps）为所有GUI Agent中性能最佳但弱于专注于compute-use场景的CUA方法 [19] - 针对国内月活前100的Apps构建中文本地化评测环境 UItron在中文场景下取得明显性能优势通过中文轨迹收集和交互基建提升智能体水平 [19] 行业影响与应用前景 - 在主流多模态智能体评测榜单中全面领先提供更强开源基础模型推动未来技术发展 [20] - 强调多模态智能体可用性和可信度研究聚焦中文App交互真实应用诉求提升人机交互效率与应用价值 [20]

多模态智能体

多模态智能体

早报李强：采取有力措施巩固房地产市场止跌回稳态势；A股市值历史首次突破100万亿元大关

搜狐财经· 2025-08-19 08:19

宏观政策 - 国务院会议强调巩固经济回升势头激发消费潜力并采取措施稳定房地产市场[2] - 商务部决定延长对欧盟进口乳制品反补贴调查期限至2026年2月21日[2] - 中方支持俄美接触改善关系以推动乌克兰危机政治解决进程[2] 资本市场表现 - A股总市值首次突破100万亿元年内新增14.5万亿元市值[3] - 券商开户数量普遍增长30%-50% 部分机构单日开户量创8月新高[3] - 美股三大指数基本平收纳指微涨0.03% 热门中概股多数上涨[6] 汽车产业动态 - 汽车经销商上半年仅30.3%完成销售目标 40.7%经销商完成率在70%-100%之间[3] - 巴兰仕新股申购发行价10.15元市盈率15.78倍总市值13.39亿元[1] - 上海至昆山低空航线正式通航支持20分钟跨省直达和夜间飞行[3] 科技与创新 - 中国信通院启动多模态智能体评估联合40余家单位推进技术标准[7] - 头部大模型迭代加速开源/低成本/多模态成为主要发展趋势[7] - 2025中国算力大会将在大同举行当前智能算力规模达748 EFLOPS[8] 消费与制造业 - 自行车行业价格普遍下调部分进口车型跌幅超50%[4] - 广电总局推出措施丰富电视内容优化电视剧审查和播出政策[4] - 深交所调研两融账户网络投票机制拟增设专用投票通道[4] 企业运营与战略 - 骄成超声上半年净利润同比大幅增长1005%[10] - 智飞生物上半年亏损5.97亿元同比由盈转亏[5] - 景嘉微拟投资2.2亿元增资控股诚恒微进军AI边端侧芯片领域[10] 新兴技术领域 - OpenAI考虑投资脑机接口公司Merge Labs 探索基因疗法改造脑细胞[9] - 全球脑机接口医疗应用潜在市场规模2030-2040年达400-1450亿美元[9] - 鸿蒙5终端突破1000万台已有超3万个鸿蒙应用和元服务在开发中[10]

多模态智能体

专用设备制造业

多模态智能体

专用设备制造业

关注黑色、农业上游价格波动

华泰期货· 2025-08-19 03:22

报告行业投资评级未提及报告的核心观点关注黑色、农业上游价格波动，生产行业关注人工智能技术要求，服务行业关注地产新政推行，需全面辩证把握经济形势，巩固房地产市场止跌回稳态势 [1] 各部分总结中观事件总览 - 生产行业关注人工智能技术要求，中国信通院联合四十余家单位编制《多模态智能体技术要求》 [1] - 服务行业关注地产新政推行，国务院要求巩固房地产市场止跌回稳态势，释放改善性需求 [1] 行业总览上游 - 黑色行业玻璃价格同比回落较多 [2] - 农业行业鸡蛋、棕榈油价格上行 [2] 中游 - 化工行业PX开工率上行 [3] 下游 - 地产行业一、二线城市商品房销售回落 [4] - 服务行业国内航班班次上升幅度缓和 [4] 重点行业价格指标跟踪 - 农业行业中，鸡蛋现货价6.7元/公斤，同比涨5.02%；棕榈油现货价9626.0元/吨，同比涨6.39% [47] - 有色金属行业中，铜现货价79310.0元/吨，同比涨0.19%；铝现货价20726.7元/吨，同比涨0.37% [47] - 黑色金属行业中，螺纹钢现货价3267.0元/吨，同比降2.55%；铁矿石现货价786.7元/吨，同比降0.45% [47] - 非金属行业中，玻璃现货价14.3元/平方米，同比降5.12%；天然橡胶现货价14891.7元/吨，同比涨0.51% [47] - 能源行业中，WTI原油现货价62.8美元/桶，同比降1.69%；Brent原油现货价65.9美元/桶，同比降1.11% [47] - 化工行业中，PTA现货价4720.3元/吨，同比降0.63%；聚乙烯现货价7448.3元/吨，同比涨0.09% [47] - 地产行业中，水泥价格指数全国值130.0，同比涨1.56%；建材综合指数116.0，同比降0.42% [47]

多模态智能体

多模态智能体技术要求

多模态智能体

多模态智能体技术要求

字节Seed开源长线记忆多模态Agent，像人一样能听会看

量子位· 2025-08-18 06:55

字节Seed发布M3-Agent多模态智能体框架 - 公司推出全新多模态智能体框架M3-Agent，具备实时视觉和听觉输入处理能力，并能构建和更新长期记忆[1][2] - 该框架通过强化学习训练，在多个基准测试中表现显著优于基线模型，包括Gemini-1.5-Pro和GPT-4o等商业模型[3][33] - 框架采用开源策略，同时发布了配套的长视频问答基准M3-Bench[2][16] M3-Agent技术架构 - 框架通过并行记忆过程和控制过程运作：记忆过程持续感知多模态输入并构建长期记忆，控制过程解释指令并执行任务[8][9] - 记忆系统生成两种类型记忆：事件记忆记录具体观察，语义记忆推导一般知识[11] - 记忆以实体为中心组织，通过图结构连接同一实体的多模态信息[12] - 采用强化学习实现多轮推理和迭代记忆检索，而非单轮RAG[13] M3-Bench基准特点 - 包含两个子集：M3-Bench-robot（100个机器人第一人称视频）和M3-Bench-web（920个网络视频）[26] - 设计了五种问题类型评估能力：多细节推理、多跳推理、跨模态推理、人类理解和一般知识提取[25][27] - 基准特点包括长时长真实世界视频和需要复杂推理的挑战性问题[32] 性能表现 - 在M3-Bench-robot上准确率比最强基线MA-LLM高6.3%，达到30.7%[33][34] - 在M3-Bench-web上比最强基线Gemini-GPT4o-Hybrid高7.7%，达到48.9%[33][34] - 在VideoMME-long上比最强基线高5.3%，达到61.8%[33][34] - 在人类理解任务上比MA-LLM高4.2%，在跨模态推理上高8.5%[35] 核心技术突破 - 证实以实体为中心的多模态记忆对长视频内容推理能力提升显著[4] - 验证检索推理优于单次RAG，应视为迭代推理循环而非一次性步骤[5] - 在保持角色一致性、人类理解和多模态信息整合方面展现卓越能力[36]

多模态智能体

长期记忆推理

多模态智能体

长期记忆推理

AI 编程冲击来袭，程序员怎么办？IDEA研究院张磊：底层系统能力才是护城河

AI前线· 2025-08-10 05:33

多模态智能体的发展现状与挑战 - 实现智能体"看懂、想透、做好"需整合视觉理解、语言推理与物理执行能力，是多模态领域的核心挑战 [5] - 视觉输入维度极高且涉及三维结构理解，需结合交互知识（如物体操作判断），当前技术距离理想目标仍有差距 [6] - 空间智能对机器人操作至关重要，但现有视觉-语言-行动模型（VLA）因缺乏物体精确定位，实际成功率远低于实用水平 [7][8] 技术落地的可行路径 - 从"半结构化"场景（如产线灵活操作）切入是务实选择，介于高重复性结构化与全开放环境之间 [11] - 工业场景中，危险操作或遥操作结合智能的闭环迭代可驱动技术进步，但家庭等开放环境落地需超5年时间 [10][11] - 视觉与三维表征方法尚未统一，斯坦福团队主张三维内部表示是建模关键，但技术鸿沟仍需逐步填补 [9] 工业界研究的平衡之道 - 研究价值评估需兼顾学术与应用双维度，避免仅追求论文发表而忽视实际问题解决 [12] - 产品开发与研究探索节奏差异显著，需给予研究人员探索空间，同时确保方向与产品关联 [14] - 目标检测等基础问题仍存挑战，突破后将带来广泛价值，需坚持本质问题研究而非跟风热点 [13] 人才培养与底层能力 - 系统级能力（如分布式计算、GPU架构优化）比模型调参经验更关键，FlashAttention案例显示基础优化可推动领域进步 [17][18] - 计算机科学基础学科训练优于过早专攻应用方向，扎实的体系结构理解能适应技术迭代 [20] - AI时代程序员需超越基础编码，通过协作提升编程深度，聚焦AI无法替代的贡献 [19][20] 行业会议与趋势聚焦 - AICon大会聚焦Agent、多模态等方向，探讨大模型降本增效案例，反映企业级AI应用趋势 [3][21]

多模态智能体

Artificial Intelligence

多模态智能体

Artificial Intelligence