Workflow
多模态智能体
icon
搜索文档
Grok: xAI引领Agent加速落地:计算机行业深度研究报告
华创证券· 2025-09-23 03:41
报告行业投资评级 - 计算机行业评级为"推荐(维持)" [3] 报告核心观点 - Grok系列模型由xAI公司开发 通过快速迭代实现多模态与智能体能力突破 最新版本Grok-4在学术测试和多场景应用中建立技术壁垒 [6][8][29] - 海外大模型(OpenAI GPT-5、Google Gemini 2.5 Pro、Anthropic Claude 4)与国产模型(Kimi K2、DeepSeek-V3.1、阿里Qwen3)形成多极竞争格局 国产模型以成本效率优势(如Kimi K2输入成本仅为GPT-4.1的1/3)实现性能追平 [6][8][73] - AI Agent商业化落地加速 推动企业级服务与行业场景应用需求增长 涵盖办公、编程、金融、教育、医疗等细分领域 [6][8][83] 模型技术迭代与性能 Grok系列演进 - Grok-1(2024年3月):开源MoE架构 3140亿参数 在HumanEval编码测试达63.2% MMLU任务达73% 优于ChatGPT-3.5 [13][14][15] - Grok-1.5V(2024年4月):新增图像理解功能 在Mathvista测试准确率52.8% TextVQA达78.1% [17][18] - Grok-2(2024年8月):整合实时检索与图像生成 在MATH测试追平GPT-4o DocVQA测试领先同期模型 [19][21] - Grok-3(2025年2月):参数规模2.7万亿 引入Think分步推理和DeepSearch联网检索 在AIME、GPQA测试超越GPT-4o等旗舰模型 [20][24][25] - Grok-4(2025年7月):上下文窗口256K tokens 计算资源投入较Grok-2增加100倍 在HLE测试以44.4%准确率刷新纪录 在AIME、SAT、GRE测试超越GPT-4o等模型 [29][30][35] 海外大模型进展 - OpenAI GPT-5:在SWE-bench Verified测试达74.9% Aider Polyglot测试达88% [59][61] - Anthropic Claude 4:在SWE-bench Verified测试中Claude Sonnet 4达80.2% Claude Opus 4达79.4% 超越GPT-4.1和Gemini 2.5 Pro [64][66] - Google Gemini 2.5 Pro:在LiveCodeBench测试达74.2% Aider Polyglot达82.2% 多模态与推理能力领先 [68][71] 国产模型突破 - Kimi K2:在SWE-bench Multilingual和Tau2测试接近Claude 4 输入成本仅为GPT-4.1的1/3 [73][77] - DeepSeek-V3.1:通过Post-Training优化增强Agent能力 工具调用效率提升 [6][74][76] - 阿里Qwen3 Coder:编码基准测试媲美Claude Sonnet 4 中文语义任务保持优势 [79][80] 算力与生态布局 - xAI计划五年内实现5000万块H100等效算力规模 支撑Grok系列迭代 [30][50][53] - 国产模型累计备案服务439款 登记应用233款 商业化进程加速 [6][73] 投资应用方向 企业级服务 - 办公:金山办公、合合信息、福昕软件、三六零 [6][84] - 编程:卓易信息、普元信息 [6][84] - ERP:金蝶国际、用友网络 [6][84] - 多模态:万兴科技、美图公司、虹软科技、当虹科技 [6][84] 行业场景 - 金融:大智慧、同花顺、恒生电子、京北方、宇信科技 [6][84] - 教育:科大讯飞、视源股份、新开普、佳发教育 [6][84] - 医疗:阿里健康、卫宁健康、讯飞医疗科技 [6][84] - 工业:华大九天、中控技术、中望软件、索辰科技 [6][84] [6][8][83][84]
更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作
量子位· 2025-08-31 04:25
多模态智能体UItron技术突破 - 开源多模态智能体UItron具备自动操作手机、电脑、浏览器的能力 通过多模态学习和多步执行轨迹数据实现人类化交互如点击、滑动和输入 [1] - 在中文APP场景下表现优异 适用于复杂多步任务 显著提升中文场景交互效率 [3] - 由浙江大学和美团联合开发 具备先进GUI内容感知、任务定位和推理规划能力 弥补操作轨迹稀缺性和智能体交互基建可用性不足 [4] 数据工程与交互基建 - 构建系统性数据工程缓解操作轨迹缺乏问题 包括感知数据、规划数据和蒸馏数据 整合OCR、VQA、Caption等多任务数据提升页面理解能力 [8] - 搭建连接移动和PC设备的交互环境基建 支持自动记录截图和坐标 简化手动标注难度 显著提高中文场景操作轨迹收集效率 [10] - 交互环境同时支持英文和中文国内App 为在线强化学习提供训练基础 实现动作执行与界面更新的交替循环 [10] 训练方法与性能表现 - 采用三阶段训练策略 包括感知任务SFT阶段、规划任务SFT阶段和课程强化学习RL阶段 涵盖从离线步骤级到在线任务级的强化学习 [12][14] - 在开源榜单ScreenspotV2上取得92.0平均分 优于现有方法 体现强大GUI内容理解和任务定位能力 [16] - 在Android-Control和GUI-Odyssey离线规划榜单中实现92.9最高平均分 显著超越其他工作 展示卓越任务规划与执行能力 [18] - 在OSWorld评测中取得24.9分(15 Steps) 为所有GUI Agent中性能最佳 但弱于专注于compute-use场景的CUA方法 [19] - 针对国内月活前100的Apps构建中文本地化评测环境 UItron在中文场景下取得明显性能优势 通过中文轨迹收集和交互基建提升智能体水平 [19] 行业影响与应用前景 - 在主流多模态智能体评测榜单中全面领先 提供更强开源基础模型 推动未来技术发展 [20] - 强调多模态智能体可用性和可信度研究 聚焦中文App交互真实应用诉求 提升人机交互效率与应用价值 [20]
早报李强:采取有力措施巩固房地产市场止跌回稳态势;A股市值历史首次突破100万亿元大关
搜狐财经· 2025-08-19 08:19
宏观政策 - 国务院会议强调巩固经济回升势头 激发消费潜力并采取措施稳定房地产市场[2] - 商务部决定延长对欧盟进口乳制品反补贴调查期限至2026年2月21日[2] - 中方支持俄美接触改善关系以推动乌克兰危机政治解决进程[2] 资本市场表现 - A股总市值首次突破100万亿元 年内新增14.5万亿元市值[3] - 券商开户数量普遍增长30%-50% 部分机构单日开户量创8月新高[3] - 美股三大指数基本平收 纳指微涨0.03% 热门中概股多数上涨[6] 汽车产业动态 - 汽车经销商上半年仅30.3%完成销售目标 40.7%经销商完成率在70%-100%之间[3] - 巴兰仕新股申购发行价10.15元 市盈率15.78倍 总市值13.39亿元[1] - 上海至昆山低空航线正式通航 支持20分钟跨省直达和夜间飞行[3] 科技与创新 - 中国信通院启动多模态智能体评估 联合40余家单位推进技术标准[7] - 头部大模型迭代加速 开源/低成本/多模态成为主要发展趋势[7] - 2025中国算力大会将在大同举行 当前智能算力规模达748 EFLOPS[8] 消费与制造业 - 自行车行业价格普遍下调 部分进口车型跌幅超50%[4] - 广电总局推出措施丰富电视内容 优化电视剧审查和播出政策[4] - 深交所调研两融账户网络投票机制 拟增设专用投票通道[4] 企业运营与战略 - 骄成超声上半年净利润同比大幅增长1005%[10] - 智飞生物上半年亏损5.97亿元 同比由盈转亏[5] - 景嘉微拟投资2.2亿元增资控股诚恒微 进军AI边端侧芯片领域[10] 新兴技术领域 - OpenAI考虑投资脑机接口公司Merge Labs 探索基因疗法改造脑细胞[9] - 全球脑机接口医疗应用潜在市场规模2030-2040年达400-1450亿美元[9] - 鸿蒙5终端突破1000万台 已有超3万个鸿蒙应用和元服务在开发中[10]
关注黑色、农业上游价格波动
华泰期货· 2025-08-19 03:22
报告行业投资评级 未提及 报告的核心观点 关注黑色、农业上游价格波动,生产行业关注人工智能技术要求,服务行业关注地产新政推行,需全面辩证把握经济形势,巩固房地产市场止跌回稳态势 [1] 各部分总结 中观事件总览 - 生产行业关注人工智能技术要求,中国信通院联合四十余家单位编制《多模态智能体技术要求》 [1] - 服务行业关注地产新政推行,国务院要求巩固房地产市场止跌回稳态势,释放改善性需求 [1] 行业总览 上游 - 黑色行业玻璃价格同比回落较多 [2] - 农业行业鸡蛋、棕榈油价格上行 [2] 中游 - 化工行业PX开工率上行 [3] 下游 - 地产行业一、二线城市商品房销售回落 [4] - 服务行业国内航班班次上升幅度缓和 [4] 重点行业价格指标跟踪 - 农业行业中,鸡蛋现货价6.7元/公斤,同比涨5.02%;棕榈油现货价9626.0元/吨,同比涨6.39% [47] - 有色金属行业中,铜现货价79310.0元/吨,同比涨0.19%;铝现货价20726.7元/吨,同比涨0.37% [47] - 黑色金属行业中,螺纹钢现货价3267.0元/吨,同比降2.55%;铁矿石现货价786.7元/吨,同比降0.45% [47] - 非金属行业中,玻璃现货价14.3元/平方米,同比降5.12%;天然橡胶现货价14891.7元/吨,同比涨0.51% [47] - 能源行业中,WTI原油现货价62.8美元/桶,同比降1.69%;Brent原油现货价65.9美元/桶,同比降1.11% [47] - 化工行业中,PTA现货价4720.3元/吨,同比降0.63%;聚乙烯现货价7448.3元/吨,同比涨0.09% [47] - 地产行业中,水泥价格指数全国值130.0,同比涨1.56%;建材综合指数116.0,同比降0.42% [47]
字节Seed开源长线记忆多模态Agent,像人一样能听会看
量子位· 2025-08-18 06:55
字节Seed发布M3-Agent多模态智能体框架 - 公司推出全新多模态智能体框架M3-Agent,具备实时视觉和听觉输入处理能力,并能构建和更新长期记忆[1][2] - 该框架通过强化学习训练,在多个基准测试中表现显著优于基线模型,包括Gemini-1.5-Pro和GPT-4o等商业模型[3][33] - 框架采用开源策略,同时发布了配套的长视频问答基准M3-Bench[2][16] M3-Agent技术架构 - 框架通过并行记忆过程和控制过程运作:记忆过程持续感知多模态输入并构建长期记忆,控制过程解释指令并执行任务[8][9] - 记忆系统生成两种类型记忆:事件记忆记录具体观察,语义记忆推导一般知识[11] - 记忆以实体为中心组织,通过图结构连接同一实体的多模态信息[12] - 采用强化学习实现多轮推理和迭代记忆检索,而非单轮RAG[13] M3-Bench基准特点 - 包含两个子集:M3-Bench-robot(100个机器人第一人称视频)和M3-Bench-web(920个网络视频)[26] - 设计了五种问题类型评估能力:多细节推理、多跳推理、跨模态推理、人类理解和一般知识提取[25][27] - 基准特点包括长时长真实世界视频和需要复杂推理的挑战性问题[32] 性能表现 - 在M3-Bench-robot上准确率比最强基线MA-LLM高6.3%,达到30.7%[33][34] - 在M3-Bench-web上比最强基线Gemini-GPT4o-Hybrid高7.7%,达到48.9%[33][34] - 在VideoMME-long上比最强基线高5.3%,达到61.8%[33][34] - 在人类理解任务上比MA-LLM高4.2%,在跨模态推理上高8.5%[35] 核心技术突破 - 证实以实体为中心的多模态记忆对长视频内容推理能力提升显著[4] - 验证检索推理优于单次RAG,应视为迭代推理循环而非一次性步骤[5] - 在保持角色一致性、人类理解和多模态信息整合方面展现卓越能力[36]
AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河
AI前线· 2025-08-10 05:33
多模态智能体的发展现状与挑战 - 实现智能体"看懂、想透、做好"需整合视觉理解、语言推理与物理执行能力,是多模态领域的核心挑战 [5] - 视觉输入维度极高且涉及三维结构理解,需结合交互知识(如物体操作判断),当前技术距离理想目标仍有差距 [6] - 空间智能对机器人操作至关重要,但现有视觉-语言-行动模型(VLA)因缺乏物体精确定位,实际成功率远低于实用水平 [7][8] 技术落地的可行路径 - 从"半结构化"场景(如产线灵活操作)切入是务实选择,介于高重复性结构化与全开放环境之间 [11] - 工业场景中,危险操作或遥操作结合智能的闭环迭代可驱动技术进步,但家庭等开放环境落地需超5年时间 [10][11] - 视觉与三维表征方法尚未统一,斯坦福团队主张三维内部表示是建模关键,但技术鸿沟仍需逐步填补 [9] 工业界研究的平衡之道 - 研究价值评估需兼顾学术与应用双维度,避免仅追求论文发表而忽视实际问题解决 [12] - 产品开发与研究探索节奏差异显著,需给予研究人员探索空间,同时确保方向与产品关联 [14] - 目标检测等基础问题仍存挑战,突破后将带来广泛价值,需坚持本质问题研究而非跟风热点 [13] 人才培养与底层能力 - 系统级能力(如分布式计算、GPU架构优化)比模型调参经验更关键,FlashAttention案例显示基础优化可推动领域进步 [17][18] - 计算机科学基础学科训练优于过早专攻应用方向,扎实的体系结构理解能适应技术迭代 [20] - AI时代程序员需超越基础编码,通过协作提升编程深度,聚焦AI无法替代的贡献 [19][20] 行业会议与趋势聚焦 - AICon大会聚焦Agent、多模态等方向,探讨大模型降本增效案例,反映企业级AI应用趋势 [3][21]
智象未来亮相 WAIC:多模态智能体,重塑创作的未来版图
财富在线· 2025-07-29 03:28
公司战略与商业化路径 - 公司以"解决真实创作痛点"为导向,探索"技术筑基、场景破局、价值闭环"的商业化路径 [1] - 构建"MaaS-SaaS-RaaS"递进商业化体系:MaaS为根基打造百亿级多模态基础模型,SaaS为桥梁开发垂直场景产品,RaaS为终局直接交付可落地成果 [1][2][3] - 多模态生成平台已服务于影视制作、产品营销、文旅互娱等领域,实现技术研发到商业价值的闭环 [3] 技术突破与核心优势 - 多模态基础模型历经三次迭代:2023年8月1.0版本(扩散模型DiT),2024年6月2.0版本(扩散自回归模型DiT+AR),2024年12月3.0版本(MoE多场景学习) [4] - 技术优势体现为语义一致性(IP故事活化保持风格统一)、精准可控性(支持个性化定制)、影视级画质(4K分辨率、长时序稳定输出) [4] - 视频生成领域突破时空一致性难题,通过扩散自回归模型(DiT+AR)使生成内容更贴近真实物理世界规律 [9] 产品与市场表现 - HiDream系列开源模型累计下载量超60万次,被Diffusers库、ComfyUI、Recraft等主流工具集成 [6] - HiDream-I1开源后24小时内登顶Artificial Analysis榜单,成为首个问鼎榜首的中国自研模型,Hugging Face实时排名全球第一 [6] - HiDream E1.1跻身Artificial Analysis图像编辑智能体榜单第一梯队,性能超越Flux.1 Kontext等主流模型 [7] 产品形态与功能 - 以智能体为核心构建工具链,vivago agent聚焦短视频二创,支持多模态输入、智能拆解、交互式生成 [11] - 即将发布长视频编辑智能体HiClip,通过多模态语义理解实现高光片段提取、跨平台适配剪辑 [11][12] - 创作工具箱形成"生成-编辑-优化"闭环,包含AI口播、视频模板、运动笔刷、虚拟换衣、图像超分等功能 [9] 生态合作与行业影响 - 携手跨境、互联网、影视、新媒体、文旅等多领域伙伴,构建"技术-场景-生态"共赢格局 [13] - 视频生成产品支持4K高清画质、全局/局部可控及剧本多镜头生成,被评价为"重新定义AIGC美学标准" [6] - 开源交互式编辑模型HiDream-E1通过自然语言指令完成图像生成及编辑,降低创作门槛 [6]
机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025
量子位· 2025-07-22 04:35
HEP框架核心创新 - 首创"坐标系转移接口",通过层级策略学习框架解决机器人智能操作领域的数据稀缺和泛化难题 [4] - 采用分层策略结构,高层负责全局目标设定,低层在本地坐标下自主优化动作 [7] - 创新型体素编码器实现三维视觉信息高效表达,兼顾细节还原与计算速度 [2][5] 技术实现原理 - 高层策略通过预测"关键姿态"(目标3D平移)进行全局规划 [11] - 低层策略在以关键姿态为锚点的局部坐标系中生成细粒度运动轨迹 [11] - 坐标系转移接口将高层的泛化能力和抗干扰性传递到底层 [9][16] 性能表现 - 在RLBench的30个模拟任务和3个真实世界操作任务中验证有效性 [10] - 仅用30条演示数据就学会多步协作的"洗锅"任务,明显优于非分层方法 [14] - 在Pick&Place任务上实现1-shot泛化学习,数据效率显著提升 [15] - 环境变化和干扰测试下成功率较传统方法提升高达60% [17] 应用前景 - 坐标系转移接口为引入VLM或Cross-embodiment等多模态高层策略提供天然接口 [19] - 实现了高层泛化性和鲁棒性的无损传递,为多模态智能体集成与泛化部署开辟新路径 [19] - 论文已被ICML2025收录,显示学术认可度 [3]
演讲生成黑科技,PresentAgent从文本到演讲视频
机器之心· 2025-07-18 08:18
核心观点 - PresentAgent是一个能将长篇文档转化为带解说的多模态演示视频的智能体,突破了现有静态幻灯片或文本摘要的局限,生成高度同步的视觉内容和语音解说,模拟人类风格演示[1][9] - 系统通过模块化流程实现文档到视频的转化,包括文档分段、幻灯片生成、语音解说合成及音视同步对齐[3][17] - 提出首个文档到演示视频生成任务,并构建包含30对文档-视频样本的高质量评测数据集Doc2Present Benchmark[12][21] - 开发统一评估框架PresentEval,通过视觉语言模型从内容忠实度、视觉清晰度和观众理解度三个维度评分[6][14] - 实验显示PresentAgent在多项指标上接近人类水平,部分模型如Claude-3.7-sonnet测验准确率达0.64,GPT-4o-Mini视频内容评分达4.8[22][25][26] 技术架构 - **文档处理阶段**:对输入文档进行语义分段和提纲生成,支持论文、网页、PDF等多种格式[17][19] - **幻灯片生成**:检索最佳模板,利用视觉语言模型生成布局感知的幻灯片,包含结构化内容如技术解释、系统架构等[17][29] - **语音合成**:通过大型语言模型生成上下文解说文稿,经TTS转换为音频,并与视觉内容精确同步[3][23] - **评估模块**:采用分段策略,结合客观测验(Qwen-VL-2.5-3B)和主观评分(Qwen-Omni-7B)[24] 实验结果 - **测验准确率**:Claude-3.7-sonnet以0.64超过人类基准(0.56),其他模型如Qwen-VL-Max和Gemini-2.5-pro均为0.52[22][25] - **视频质量**:人类参考视频平均分4.47,GPT-4o-Mini达4.67,Gemini-2.5-flash视觉单项满分5.0但理解性仅3.8[22][26][27] - **音频质量**:人类基准4.80,Claude-3.7-sonnet和Qwen-VL-Max分别达4.53和4.60[22][26] 应用场景 - 支持商业报告、产品手册、政策简报、教程类文档等多领域长文本的自动化视频转化[12][13] - 案例显示技术博客可被转化为包含并行化工作流、代理系统架构等专业主题的解说视频[29] 资源信息 - 论文及代码已公开,标题为《PresentAgent: Multimodal Agent for Presentation Video Generation》[8]
AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河
AI前线· 2025-07-13 04:12
多模态智能体的新时代 - 实现智能体"看懂、想透、做好"需整合视觉、语言推理与物理执行能力,是多模态过程的核心挑战 [2] - 视觉理解因输入维度高(如连续视频流)、三维结构建模复杂且需结合交互知识,成为技术突破难点 [3] - 生成模型依赖理解模型评估质量,理解与生成深度耦合,强化学习中的reward model本质是理解能力体现 [4] - 空间智能对机器人操作至关重要,当前VLA模型因缺乏物体精确定位,操作成功率远未达实用水平 [5] - 视觉领域三维表示方法未统一,斯坦福主张采用三维内部表示以提升模型预测能力 [7] 技术落地路径 - 制造业"AI+机器人"落地需平衡通用性与精准度,汽车生产线上下料等半结构化场景是可行突破口 [7] - 危险操作场景优先落地,通过遥操作结合智能逐步迭代,家庭等开放环境需5年以上技术积累 [8] - 从结构化到半结构化场景过渡(如产线灵活操作)是机器人技术渐进式商业化关键路径 [8] 工业界研究策略 - 工业界研究需构建"研究价值-应用价值"坐标系,右上角(双高价值)为理想目标,避免纯论文导向 [11] - 目标检测等基础问题仍有突破空间,需坚持解决实际难题而非追逐热点 [12] - 产品与研究节奏差异显著,研究人员需开放探索空间,管理者应协调两种模式避免强制同步 [13] - OpenAI案例显示技术成熟后需转向工程化集中攻关,但研究支撑仍是底层基础 [14] 人才能力建设 - 计算机基础能力(如分布式系统、GPU架构)比大模型调参经验更关键,系统级优化能带来2-3倍效率提升 [16][17] - 年轻从业者应专注底层能力(代码、并行计算),避免成为"调参侠",系统理解力是团队稀缺资源 [17][18] - 计算机专业仍具长期价值,AI冲击的是基础编码岗位,需通过AI协作提升编程深度与不可替代性 [19]