多智能体协同
搜索文档
港大开源ViMax火了,实现AI自编自导自演
机器之心· 2025-12-12 10:06
行业趋势与核心观点 - AI视频生成领域正经历从“片段生成”到“系统化制作”的根本性转变,这不仅是技术升级,更是创作方式的变革[3] - 香港大学黄超教授团队开源的ViMax框架,专注于Agentic Video Generation的前沿探索,在GitHub上获得超过1.4k星标[2] - ViMax框架实现了从创意构思到成片输出的完整自动化,将传统影视制作的每个环节都搬进了AI世界,使“一人剧组”成为可能[2] 核心技术挑战 - 长视频生成面临两大核心技术瓶颈:叙事规划的复杂度爆炸以及跨镜头视觉连贯性难题[4][7] - 叙事规划挑战在于需要统筹数百个镜头的逻辑,涉及角色发展、情节推进等多维度,超出了当前语言模型的单轮处理极限[5] - 视觉连贯性难题源于现有生成模型缺乏对前序内容的记忆能力,导致角色形象、场景风格在不同镜头间频繁“变脸”[6] ViMax系统架构与工作流程 - ViMax采用端到端多智能体协同架构,将长视频制作分解为五个相互协调的阶段[8] - 第一阶段为剧本创作,编剧智能体能将一句话想法、小说或剧本片段重新组织为标准化的影视剧本[9] - 第二阶段为分镜规划,分镜智能体运用专业电影理论,为每个场景设计精确的镜头语言,形成拍摄蓝图[10] - 第三阶段为视觉资产生成,制作智能体采用“先图后视频”的两步策略,确保视觉风格的精准控制[11] - 第四阶段为质量把控,质检智能体运用视觉语言模型评估多个版本,并自动调优参数重新生成未达标内容[12] - 第五阶段为统筹协调,导演智能体担任总指挥,监控全流程协调运转,维护风格统一[13] 递归规划与上下文管理 - ViMax采用三层递归规划体系来驯服叙事复杂性,将完整剧本分解为事件层、场景层和镜头层三个管理单元[14][15] - 事件层捕获核心叙事节点,构建故事骨架;场景层将事件具象化为可执行的戏剧单元;镜头层输出精确的执行指令[16] - 为应对上下文碎片化风险,系统集成检索增强生成(RAG)机制,确保每个局部规划决策都能“看见”更大的故事图景[17] - RAG机制通过建立全局知识库、动态上下文检索和上下文融合生成,避免了角色性格突变、情节逻辑矛盾等问题[26] 视觉一致性解决方案 - ViMax设计了基于图结构的视觉元素追踪机制,自动识别共享视觉元素并构建反映依赖关系的有向图[18][19] - 在生成执行阶段,系统对依赖图进行拓扑排序优化,实现独立镜头的并行生成和依赖镜头的条件引导生成[19] - 该图网络驱动方案在确保视觉连贯性的同时,通过智能并行化处理显著提升了整体生成效率[20] - 针对同一场景的多视角拍摄,系统引入过渡视频生成技术来维护空间几何的严格一致性,避免3D布局冲突[21] 多智能体专业化分工 - ViMax的核心智能体包括:导演智能体、编剧智能体、分镜智能体、视频生成智能体和质量控制智能体[23][27] - 系统采用VLM驱动的迭代质量优化机制,通过多候选并行生成和综合评估来确保输出专业级别成果[24] - 当所有候选版本均未达到预设质量阈值时,系统会基于VLM的详细反馈自动调优生成参数并重新执行[24][25] - 这种闭环质量控制机制为最终的完整视频奠定了坚实基础[25] 技术展望与未来方向 - ViMax标志着AI视频生成从“碎片化拼接”向“体系化创作”的重要跃迁,其核心价值在于将专业制作经验转化为系统化流程[29] - 未来提升方向包括:通过模型集成或蒸馏技术降低计算开销,提高响应速度[29] - 未来将支持交互编辑功能,允许用户在制作过程中介入调整,让创作更灵活[29] - 系统将扩展多元文化支持,以创作更有地域特色的内容,并整合音频制作环节以形成完整的影视制作流程[29]
医渡科技宫如璟:AI医疗须恪守“三不原则”
搜狐财经· 2025-11-19 09:56
公司核心理念 - AI医疗发展遵循三大原则:不替代医生、不脱离场景、不放弃普惠 [1] - 行业本质逻辑是提供贴合工作流的精准解决方案,而非“万能AI” [3] - 技术终极使命是实现普惠,让普通人享受可及、可负担的健康服务 [4] 技术基础与产品架构 - 公司“AI医疗大脑”YiduCore已累计处理分析超过60亿份医疗记录 [4] - 疾病知识图谱基本覆盖所有已知疾病 [4] - 构建超过1000个细分场景智能体,覆盖从智能病历生成到辅助诊疗决策的全流程 [4] - 采用“多智能体协同”架构,精准嵌入诊断、治疗、随访各环节 [4] 市场应用与业务实践 - 在肿瘤专科领域,AI诊疗助手通过TNM分期评估等功能提升临床效率与规范性 [4] - 参与5省13市惠民保项目,利用AI精算模型设计年保费低于100元的保险产品 [6] - 惠民保项目已累计服务参保用户超4000万人次 [6] - 通过医生数字分身技术将优质医疗资源下沉至更广阔人群 [7] 国际化与本土化战略 - 全球化路径强调“技术通用+本土适配”,与本地伙伴共创价值 [8] - 在文莱,BruHealth数字健康平台覆盖当地60%以上人口 [8] - 在新加坡,参与国家项目“MIC@Home”,为SingHealth集团旗下四家医院提供定制化应用Dr Buddy [8]
鼎捷数智刘波:以多智能体协同,应对企业AI应用“摩尔定律”
21世纪经济报道· 2025-11-18 10:31
公司活动与战略定位 - 公司作为数字化服务商为“雅典娜杯”两岸青年人才创新创业大赛决赛提供数智原生底座 [2] - 公司希望通过共创共享新模式精准链接企业数智发展痛点与创新解决方案 [2] - 公司以“智能+”战略为引领持续深化技术研发与生态构建 [5] 工业AI应用挑战与解决方案 - 通用大模型在工业领域存在“水土不服”问题难以理解特定工厂来自“经验中的隐性Know-how” [2] - 工业知识数字化核心在于情景化通过多模态碎片化抓取完成对非结构化数据的捕捉例如录屏收音抓取CNC操作日志配合传感器获取工具寿命和工件良率 [3] - 关键解决方案在于非结构化数据的抓取与工业知识图谱搭建通过智能数据套件统一封装数据并进行一致性唯一性检查构建专属“工艺知识图谱” [3] 多智能体技术平台与应用 - 公司今年一季度正式更新迭代Indepth AI智能体开发平台并发布首个制造业多智能体协议MACP旨在消除AI智能体间沟通壁垒 [4] - 多智能体协同平台工作流程示例主智能体调集销售计划成本费用等六类单智能体并行执行通过动态敏感性分析和查询知识库生成完整经营计划 [4] - 智能体协同调度实践需搭建多智能体协作平台作为调度中枢通过多智能体上下文协议灵活调度企业资源 [5] 行业趋势与前景 - 行业测算显示企业内部AI应用发展速度可能符合“摩尔定律”规律即每隔18个月AI相关应用数量翻一倍 [3] - AI大模型在各垂直产业中的商业化正逐渐加速但在工业应用场景中存在落地应用“最后一公里”难题 [2]
鼎捷数智刘波:以多智能体协同,破解企业决策难题
国际金融报· 2025-11-17 13:38
公司技术与产品 - 公司深耕数智领域43年,构建了云-边-端协同架构的雅典娜数智原生底座,核心为场景化智能算法研发 [1] - 公司凭借“AI+工业互联网”技术体系与制造场景深度融合,衍生出零部件云、财务云等一系列应用,旨在破解企业AI落地从点到面的难题 [1] - 公司展示了Indepth AI多智能体协同平台,该平台可通过主智能体调集销售计划、成本费用等六类单智能体并行执行,完成经营计划的沙盘推演与生成 [2] 行业趋势与公司战略 - 行业观点认为企业未来竞争力将相当程度取决于内部AI应用密度,其发展速度可能符合摩尔定律,即AI应用数量每隔18个月翻一倍 [3] - 公司通过举办创新创业大赛,为具备硬核技术的创新项目与产业生态搭建桥梁,以共创共享模式链接企业数智发展痛点与创新解决方案 [1][3] - 大赛分为创新组和创业组2个组别,设置先进制造、数字未来等4条赛道,共吸引两岸约300支队伍参赛,最终19支队伍进入决赛 [5]
不再急于商业化?教育智能体换道疾行
21世纪经济报道· 2025-11-12 10:57
教育大模型产品形态演变 - 对话类教育大模型原生APP热度下降,聊天框形式已从多家教育APP首页撤下[1][3] - 10月份国内月活前30名的大模型APP中仅有三款教育产品上榜,月活用户均不超过300万[3] - 头部通用大模型月活用户突破亿级,挤压了垂直教育产品的生存空间,免费服务使付费订阅模式面临困难[3] 行业转向多智能体协同 - 教育公司不再执着于开发独立原生APP,转向用大模型重构传统产品,赋能自主学习[5] - 教育大模型正从单智能体向多智能体协同演进,以提升学习互动的多样性和深度[5] - 多智能体搭载在共同基座模型上,共享思维链、知识图谱、数据库等资源[6] - 洋葱学园AI智能学伴系统设置预习、作业、复习、答疑等多智能体协同架构,华图教育推出约20个智能体覆盖具体学习场景[5][7] 商业化进程与用户使用情况 - 教育智能体商业化进程尚未有明显起色,有的产品单价较低或更新速度慢于销售[8] - 行业认为教育智能体还未到商业化的时候,当前更看重调用次数和质量[9][10] - 华图教育AI产品用户调用量几乎每月翻一番,洋葱学园AI自学大师模块月访问量达393万次,互动量突破1212万次[10] - 学员自主使用率提升,如课后自发使用AI批改使做题量增加一倍,产品初步通过市场验证[10] 研发投入与成本挑战 - 高质量教育智能体需要高昂的研发与算力投入,华图教育前三季度研发费用同比激增160.41%至1.45亿元[11] - 华图教育老师每年约300万个工时用于教研内容建设,相当于4-6亿元的人力成本投入[11] - 即便是学而思学习机等已完成商业闭环的教育硬件也未跨过盈亏平衡点,市占率达16.6%但盈利时间尚不确定[11] 未来竞争壁垒与发展路径 - 教育智能体的核心壁垒在于用户黏性与数据深度,深度数据比海量用户数据更具价值[12] - 具备最及时、全面、高质量数据集的公司将在AI产品上更具优势[13] - 华图教育AI推进将分两步走:先完成50个场景智能体的会员产品小闭环,再打造智能陪伴数字人大闭环[14]
OPPO与蚂蚁集团签署战略合作:10月底推出“支付宝碰一下发红包”功能
凤凰网· 2025-10-24 04:12
合作概述 - OPPO与蚂蚁集团于10月23日在杭州签署战略合作协议,将在AI智能体、服务生态、近场交互、医疗健康及保险等多个领域展开深度合作[1] - 此次合作被视为终端厂商与互联网服务平台在AI生态建设方面的一次重要实践[1] AI智能体合作 - 双方将共同推进多端智能体协同方案Agent Hub Access(AHA)的建设,该方案旨在实现OPPO系统级AI与支付宝Agents的高效协同[1] - 合作覆盖出行、政务、医疗、物流、外卖、生活缴费等智慧服务场景,用户未来可通过小布助手直接唤起乘车码等支付宝服务[1] 近场交互功能 - 合作计划于10月底推出国产手机中首次实现的“支付宝碰一下发红包”功能[1] 保险与医疗健康合作 - OPPO钱包将与蚂蚁保展开合作,覆盖车险、意外险等多类险种[1] - 双方将在医疗健康服务方面加强联动,共同推进AI健康应用AQ的普及与服务升级[1] 公司战略观点 - OPPO高级副总裁、首席产品官刘作虎表示,此次合作旨在探索垂直领域的多智能体协同,共同打造行业领先的AI技术解决方案[1]
CSAE汽车技术预见系列之《2025年汽车智能座舱技术趋势》报告发布
中国汽车报网· 2025-10-17 04:24
报告发布背景 - 中国汽车工程学会于2025年9月16日在2025国际汽车智能座舱大会期间正式发布《2025年汽车智能座舱技术趋势》报告 [1] - 报告系统梳理未来三年智能座舱领域的关键创新趋势与发展路径 [1] - 报告旨在凝聚行业共识并助力相关企业进行科学布局 [1] 硬件与算法创新 - 硬件与算法创新突破加速座舱大模型的端侧部署与应用 [3] - 端侧大模型架构优化、模型压缩与加速技术将提升沉浸式智能体验的流畅度与安全性 [3] - 2025年行业将聚焦于降低推理延迟与成本 推动大模型在车侧的规模化应用 [5] 多智能体协同 - 未来智能座舱将超越单一功能堆叠 通过多智能体协同提供沉浸式、一体化用车体验 [7] - 多智能体协同涉及任务分解与原子化调度 可构建更智能的系统并减少用户操作步骤 [9] - 2025年美国在路径规划等领域的探索将推动以多智能体协同为核心的复合应用发展 [9] 电子电气架构演进 - 电子电气架构正从分布式向域集中式转变 并进一步向中央计算平台演进 [10] - 架构转变旨在打破智能座舱与车辆其他域之间的数据壁垒 [10] - 未来1-3年技术实现将遵循特定融合路径 涉及车窗车灯调节以及信息融合等领域 [13] HUD技术升级 - HUD技术通过光学创新、算法进化以及与自动驾驶感知融合进行升级迭代 [14] - 技术升级旨在增加驾驶安全性与用户对智驾系统的信任度 [14] - 2025年HUD将实现对不同场景的差异化显示 并与ADAS实时融合 [14] 内饰功能进化 - 汽车内饰从提供单一舒适乘坐体验向多功能化及第三生活空间进化 [16] - 进化通过视觉、触觉、生物传感等多模态技术实现 [16] - 2025年部分车型拟采用生物基复合材料 未来1-3年将结合传感器自动调节等技术 [18] 模块化与生态联动 - 舱内硬件模块化、拓展接口标准化与软件生态联动重新定义座舱空间 [19] - 模块化设计旨在推动座舱从单一功能空间向可自定义的空间转变 [19] - 2025年长城等公司将探索屏幕布两侧的拓展配件 未来1-3年应用将更加多样 [22] 技术研究前瞻 - 智能座舱发展是汽车产业全面智能化升级的侧影 背后是整车技术系统性协同演进 [25] - 中国汽车工程学会自2021年起持续开展“CSAE汽车技术预见”系列研究 [25] - 系列最新成果《2026年度中国汽车十技术趋势》将于2025年10月24日发布 [26]
首家AIOS落地来自vivo:个人化智能复刻人类思维,手机还能这样用
机器之心· 2025-10-11 04:18
核心观点 - vivo在2025年开发者大会上展示了其全新的端侧AI能力,标志着AI手机从概念走向实用化[6] - 公司战略核心是坚定不移地走“更懂用户的个人化智能”之路,而非单纯的参数竞赛[8] - 通过推出蓝心3B端侧多模态推理大模型及端云协同的模型矩阵,旨在打破API成本高墙,解决AI规模化落地难题[8][9] - 基于对脑科学的研究,vivo模拟人类思维架构构建AI操作系统,通过感知、记忆、规划、执行四大引擎让AI具备理解、思考和行动的能力[18][20] - 公司通过开放端侧AI能力、模型矩阵和统一框架,携手开发者共建生态,愿景是在未来三到五年让超过3亿设备拥有强大的本地AI能力[23][24][31] 模型战略与技术突破 - 提出全新的One Model:蓝心3B端侧多模态推理大模型,作为战略核心[8] - 打造端云协同、端侧部署优先的大模型核心引擎,包含语言、语音、图像、3B端侧多模态推理大模型和个人专属模型五大模型[9] - 蓝心3B模型以30亿参数实现优化,以60%的参数量效果比肩行业最优的4B级纯语言模型,推理速度达200 Token/s[9] - 该模型在多模态权威榜单OpenCompass上实现越级挑战,性能超越一众先进的8B模型[11] - 支持语言及多模态任务深度思考,通过混合推理架构自动切换思考/非思考模式,使复杂推理不再是云端独有技能[13] - 端侧能力提升使多智能体协同工作成为可能,如能看懂屏幕并模拟操作的UI Agent[14] 系统整合与个人化体验 - 大模型能力已融入OS系统底层各个模块,使AI成为无处不在的系统级智能[15] - AI操作系统基于对人类思维架构的模拟,通过感知、记忆、规划、执行四大引擎协同工作[18] - 实时感知涵盖图像、文本、声音等多模态内容识别,记忆是对用户数据行为的存储理解,执行包括调用工具与服务,自主规划可主动思考拆解复杂任务[20] - 通过多智能体协同形成“群体智能”,驱动手机中多个应用分工协作,动态调度规划以完成复杂通用任务[20][21] - 蓝心小V已与多家合作伙伴合作,打造覆盖健康、教育、出行、情感、办公等场景的智能体[21] 开放生态与合作伙伴 - 公司开放强大的端侧AI能力、端云协同模型矩阵、统一开放的Agent框架及与OS深度整合的系统级能力[24] - 开发者构建的新能力最短仅需10分钟即可上架vivo智能体生态,通过平台与蓝心小V的A2A协议发布上线[26] - 展示了与蚂蚁集团旗下AI健康应用AQ的合作成果,AQ升级后在蓝心小V健康流量占比提升三倍[28][29] - AQ具备“医学思维”,通过多轮对话、拍皮肤、识报告等方式分析身体状况,连接全国超5000家医院、近百万医生、超300位名医AI分身[29] - 生态已接入50多家合作伙伴,提供100多种非常识别能力及200多项服务及智能体[25]
关于数字资产“高级持续性威胁(APT)”及“链上防火墙”多智能体协同的思考
钛媒体APP· 2025-10-11 03:27
数字资产安全威胁演变 - 以Lazarus集团为代表的黑客组织自2017年以来累计窃取加密货币总额超过60亿美元,其中2025年盗取金额已超过20亿美元,创下历史纪录[2] - 威胁主体已从犯罪团伙升级为由国家力量支持的专业黑客组织,其攻击活动具有明确战略目的,即为朝鲜核武器与弹道导弹研发计划提供资金[2] - 数字资产领域的高级持续性威胁具有三个严峻特征:攻击目标直接锁定可即时转移的巨额金融资产,攻击链条短平导致资产瞬间流失,攻击手法高度定制化以针对高净值个人和企业高管[3] 人工智能驱动的安全范式变革 - 数字资产世界的全球性及数据透明特性为人工智能提供了绝佳的训练场与应用场景,所有链上交易、地址关联及行为序列均为可分析的结构化数据[4] - 人工智能实现了从“规则驱动”到“行为驱动”的防御范式转移,能够通过学习行为模式发现高度伪装的攻击手法,有效应对社会工程学等威胁[4] - 人工智能具备从“被动响应”到“主动预测”的能力跨越,可通过分析链上数据为地址建立行为基线,在黑客发起异常转账时瞬间识别并告警[5] 多层级智能体防护体系 - 在个人层面,AI智能体能7x24小时监控钱包活动,实时分析合约风险并强制中断可疑操作,并在发现异常登录时自动触发多因子认证[7] - 在企业层面,AI系统可实时分析充提款模式,自动识别与黑客地址关联的可疑账户并进行冻结,同时驱动漏洞扫描工具对智能合约进行自动化审计[7] - 智能体技术可构建“AI追踪网”,利用图计算能力自动绘制黑客组织资金流向图,穿透混币器等伪装,并为全球协同打击提供精准情报[7] 链上防火墙核心能力 - 链上防火墙具备主动预测与实时监控能力,监控智能体可分析区块链内存池中的待处理交易,在攻击被确认前的关键窗口期识别恶意意图[9] - 阻断智能体能够基于深度学习模型对高风险交易自动触发毫秒级实时阻断机制,在资产转移完成前进行干预,特别适用于DeFi协议攻击等场景[10] - 该系统构建了一个可持续学习、自主进化的数字免疫系统,将安全防护升级为覆盖预测、防护、检测、响应的全生命周期安全体系[10]
大模型在小红书推荐的应用 2025
搜狐财经· 2025-10-04 11:34
AI Agent技术发展 - AI Agent经历符号Agent、反应Agent、基于强化学习的Agent、具有迁移学习和元学习的Agent、基于大型语言模型(LLM)的Agent五大发展阶段[6] - 基于LLM的Agent使用LLM作为大脑组件或控制器,通过多模态感知和工具利用等策略扩展感知和行动空间[6] - 基于LLM的Agent通过思维链(CoT)和问题分解技术展示与符号Agent相当的推理和规划能力,并能从反馈中学习获得环境交互能力[6] AI Agent技术框架 - AI Agent整体框架分为感知、定义、记忆、规划、行动五类模块,技术框架与智能语音助手存在相似性[10] - 感知模块从单一模态向多模态延伸,涉及文本、图像、视频、3D等多种模态[14] - 规划模块包括子目标分解、反思及提炼等核心功能,其能力来自于底层模型的推理能力[21] - 行动模块输出形式包括文本、工具使用、具身动作等,工具使用主要通过调用外部API实现[23] 多模态感知技术突破 - 端到端原生多模态模型逐步落地,2023年11月Google推出原生多模态模型Gemini,实现在文字、音频、图片、视频、PDF文件等多模态数据训练的突破[16] - 2024年5月OpenAI发布GPT-4o,跨文本、视觉和音频端到端训练,所有输入输出由同一神经网络处理[16] AI Agent与AGI发展路径 - 基于LLM的Agent是通向通用人工智能(AGI)的路径之一,据Google DeepMind分级,当前AGI处于L1阶段,典型代表为ChatGPT、Bard和Llama[25] - 通向AGI的具体路径包括模态丰富、具身智能、多Agent协同、系统优化等[25] - Agent具有语料库-互联网-感知-具身-社会五个层级,多数LLM建立在互联网层级,未来有望通过多Agent协同产生涌现的社会现象[27] Agent工作流优化 - 斯坦福大学测试显示,在HumanEval数据集中,GPT-3.5(Zero-shot)正确率为48.1%,GPT-4(Zero-shot)为67.0%,而与Agent workflow配合后GPT-3.5正确率达到95.1%[30] - Agent workflow包括反思、工具使用、规划、多智能体协作四种模式,通过对LLM应用流程优化提升任务准确性[30] AI在科学研究中的应用(AI4S) - AI4S在数学、物理学、生物医学、材料科学等领域取得成绩,如DeepMind开发机器学习框架帮助数学家发现新定理,AlphaFold将蛋白质结构预测误差缩小到原子尺度,计算时间从数年缩减到数分钟[35] - 材料基因组计划借助高通量计算、大数据、AI等技术,有效缩短材料研发周期、降低研发成本[35] AI赋能材料科学 - 传统材料研发周期长达10-20年,我国高端新材料自给率较低,关键材料依赖进口率达到84%[42] - AI技术能够加速材料研发所有子流程,通过构建行业大模型对齐各环节目标,优化生产流程[43][46] - 材料数据库是AI+材料科学的核心,国内外主要数据库包括Materials Project、AFLOW、OQMD等,中国建立全球首个材料基因工程通则标准[53][57] AI Agent在科研中的具体应用 - AI Agent for Science是AI4S的下一代核心技术,通过构建研发全流程智能体填补研发人员短板[51] - 智能科研平台实现数据、模型、实验效果端到端管理,提升全流程交付效果[62] - 材料领域主要发布模型包括GNOME(生成38万种热力学稳定晶体材料)、MatterGen(无机材料设计)、DARWIN 1.5(材料属性预测和发现)等[58] 2025年AI应用趋势 - 2025年AI应用方向包括端侧Agent、营销技术(Mar-tech)、企业方案决策、CRM、实时互动(RTE)[72] - 端侧Agent功能初步实现,如Anthropic的Claude 3.5 Sonnet显示出色Computer Use能力,智谱AutoGLM展示线上购物及点外卖等Phone Use能力[72] - 企业方案决策受益于AI工具支持,如Palantir的AIP平台推动2024年第三季度美国商业收入同比增长54%[72] AI Agent创投趋势 - 企业数字化转型推动AI Agent开发需求爆发,70%的CEO认为未来3年AI Agent将改变其经营模式[75] - 创投资金从头部通用型Agent向金融、医疗等垂直场景分散,初创企业通过解决细分需求构建壁垒[75] - 多智能体协同成为趋势,AI Agent从单一任务执行向多智能体协作演进[75] - Gartner将AI Agent列为2025年十大战略技术趋势之首,预计2025年成为其商业化元年,2030年市场规模超千亿美元[75]