Workflow
LLaVA
icon
搜索文档
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅APP· 2025-09-07 02:51
Agent AI核心框架 - 提出由环境与感知、认知、行动、学习、记忆五大模块构成的智能体认知闭环架构 这代表对未来通用人工智能发展路径的前瞻性思考[10][12][17] - 感知模块具备多模态信息接收能力和任务规划与技能观察功能 使智能体能主动从物理或虚拟世界获取信息[12] - 认知模块作为处理中枢 由大语言模型和视觉语言模型提供世界知识、逻辑推理和上下文理解能力[14] - 行动模块通过控制器生成物理世界交互指令或虚拟世界API调用[15] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等机制 实现持续自我进化[16] - 记忆模块采用持久化结构化系统存储知识、逻辑和推理结果 支持长期经验积累[17] 大模型驱动机制 - 大型基础模型特别是LLM和VLM的成熟是Agent AI框架的根本驱动力 为智能体提供零样本规划能力[20] - 大模型存在的"幻觉"问题可通过环境交互机制解决 环境反馈能迫使模型内部知识与外部现实对齐[21] - 基础模型存在社会偏见风险 需通过多元化数据训练和偏见检测机制确保包容性[22] - 个人数据隐私保护需建立明确法规框架 通过提示工程和人类监督层确保安全可控[22] 游戏领域应用 - 彻底改变传统NPC由固定脚本驱动的模式 实现基于记忆、目标和情感的动态行为调整[25] - 支持玩家用自然语言与游戏世界互动 为开放世界游戏带来前所未有的沉浸感和自由度[25] - 可作为创作者副驾驶 根据指令自动生成游戏关卡、道具和完整3D场景 大幅提升开发效率[25] 机器人领域应用 - 用户可用日常语言下达指令 机器人自主规划执行复杂物理操作 如GPT-4V可将人类演示视频转化为可执行任务序列[27] - 通过领域随机化技术在模拟训练中引入变化 增强对真实世界差异的鲁棒性[27] - 融合视觉、语言、触觉等多模态信息理解环境 实现更精准的物理交互[27] 医疗健康应用 - 作为医疗聊天机器人进行初步问诊和病史收集 基于医学知识库提供诊断建议 提升初级诊疗覆盖率[29] - 连接实时更新的医学数据库 在生成诊断时同步进行事实核查和来源引用 抑制模型幻觉[29] - 处理分流患者信息并监控慢性病患者生命体征 实现高效个性化健康管理[31] 发展挑战与方向 - 需解决视觉、语言、听觉、动作等多模态深度融合问题 而非浅层拼接[32] - 需训练能跨游戏、机器人和医疗等不同领域工作的通用智能体 而非定制化模型[32] - 建立科学评测体系至关重要 研究团队已提出CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准[32]
李飞飞的答案:大模型之后,Agent 向何处去?
创业邦· 2025-09-05 11:12
论文核心观点 - 李飞飞领衔的80页综述论文《Agent AI: Surveying the Horizons of Multimodal Interaction》为AI智能体领域建立统一框架 提出从感知到行动的认知闭环架构 并前瞻性预测行业技术演进路径 [5][6][9] - 论文定义Agent AI五大核心模块(环境感知、认知、行动、学习、记忆) 构成动态迭代的智能体体系 被视为实现AGI的系统性蓝图 [12][18] - 大模型(LLM/VLM)是驱动Agent的核心引擎 但需通过环境交互解决幻觉与偏见问题 需建立伦理安全机制 [5][20][21] - 应用潜力覆盖游戏、机器人和医疗三大领域 包括游戏NPC动态交互、机器人自主物理操作、医疗智能问诊与健康管理 [5][24][30] 技术架构 - 环境与感知模块:智能体主动从物理/虚拟世界获取多模态信息(视觉、听觉、文本) 并具备任务规划与技能观察能力 [13] - 认知模块:由LLM/VLM驱动 负责复杂推理、策略制定及上下文理解 是智能体的核心处理中枢 [14] - 行动模块:将决策转化为具体操作指令 包括机器人控制命令或API调用 通过控制器改变环境状态 [15] - 学习模块:支持预训练、零样本/少样本学习、强化学习及模仿学习 通过环境反馈实现持续优化 [16] - 记忆模块:存储知识、逻辑与推理结果 形成长期记忆体系 支持经验复用与举一反三 [17][18] 大模型驱动机制 - LLM/VLM提供零样本规划能力 例如将"热午餐"指令分解为具体子任务序列 显著降低规则编写成本 [20] - 环境交互是关键锚点:通过真实/模拟环境反馈校准模型输出 减少幻觉(如机器人操作错误)并对齐现实世界 [21] - 需解决数据偏见问题:通过多元化训练数据、偏见检测机制及道德指导方针确保包容性 [21] - 隐私与安全挑战:需建立数据使用监管框架 通过提示工程或人类监督层确保敏感领域(如医疗)安全可控 [22] 行业应用场景 - 游戏领域:变革传统NPC脚本模式 实现动态对话、行为调整及社会关系构建 支持自然语言交互与AI辅助内容生成 [25][26] - 机器人领域:实现自然语言指令解析(如"收拾桌子") 结合GPT-4V理解人类演示视频 并通过模拟训练与多模态融合提升物理操作鲁棒性 [28] - 医疗领域:智能问诊机器人提升初级诊疗效率 连接实时医学数据库进行事实核查 支持慢性病监控与个性化健康管理 [30][32] 行业发展与挑战 - 2025年被普遍视为Agent元年 谷歌、OpenAI和微软等巨头技术布局均遵循论文能力栈框架 [5][9] - 当前需突破多模态深度融合、跨领域通用化及标准化评测(如CuisineWorld、VideoAnalytica基准)等核心挑战 [33]
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅· 2025-09-05 00:34
论文核心观点 - 李飞飞领衔的14位专家团队发布80页Agent AI综述 提出统一的多模态智能体认知框架 为行业提供前瞻性发展蓝图 [1][2][3][5][6][61] 技术架构 - 建立感知-决策-行动加记忆与学习的五模块认知闭环架构 形成动态迭代的智能交互系统 [9][10][26] - 感知模块支持多模态信息输入 包含视觉听觉文本传感器数据 并具备任务规划与技能观察能力 [12][13][14] - 认知模块由大语言模型和视觉语言模型驱动 负责多步推理与策略制定 [16][17] - 行动模块生成物理世界或虚拟世界的操作指令 通过控制器改变环境状态 [18][19] - 学习模块支持预训练/零样本/强化学习/模仿学习等多种机制 通过环境反馈持续优化 [20][21][22] - 记忆模块实现持久化结构化存储 保留知识逻辑推理路径 支持经验复用 [23][24][25] 基础模型作用 - 大语言模型和视觉语言模型为智能体提供世界知识库与零样本规划能力 显著降低任务规则编写成本 [28][29][31] - 模型存在幻觉问题 Agent通过环境交互获得物理规律反馈 倒逼模型与现实世界对齐 [32][33][34][35] - 基础模型可能继承社会偏见 需通过多元化训练数据和偏见检测机制确保包容性 [36][37] - 在医疗等敏感领域需建立数据隐私保护框架 通过提示工程和人类监督层确保安全可控 [38][39] 应用场景 - 游戏领域可创建具备记忆情感的NPC 支持自然语言交互与动态行为调整 显著提升开放世界沉浸感 [41][42][43][44] - 作为AI副驾驶自动生成游戏关卡道具及3D场景 大幅提高开发效率 [45] - 机器人领域实现自然语言指令解析 自主规划复杂物理操作序列 [47][48] - 通过GPT-4V理解人类演示视频并转化为可执行任务 简化编程流程 [49] - 采用领域随机化技术增强模拟到现实的迁移能力 提升环境适应性 [50] - 融合视觉语言触觉等多模态信息实现精细环境交互 如根据"易碎"指令调整抓取力度 [51] - 医疗领域作为聊天机器人进行初步问诊病史收集 提升初级诊疗覆盖率 [54] - 连接实时医学数据库实现事实核查与来源引用 抑制模型幻觉保障诊断准确性 [55] - 处理分流患者信息并监控慢性病体征数据 实现高效个性化健康管理 [57] 发展挑战 - 需突破视觉语言听觉动作等多模态深度融合技术 而非简单拼接 [59] - 需开发跨游戏机器人医疗等不同领域的通用智能体 而非定制化模型 [60] - 建立科学评测体系如CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准 [61]
多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击
机器之心· 2025-07-21 08:43
多模态大模型的安全挑战与解决方案 - 视觉语言大模型(LVLMs)如GPT-4V、LLaVA等在图文问答和视觉推理任务中表现突出,但相比纯文本模型更易被“越狱”,攻击者可通过图像注入危险意图[2] - 现有防御方法如跨模态安全微调、系统提示词设计等存在训练成本高、泛化能力差和误判风险[3] HiddenDetect技术原理 - 研究发现LVLMs即使被越狱生成不当内容,其隐藏状态中仍保留拒绝信号,中间层比输出层更早感知风险[5] - 通过构造“拒绝语义向量”(RV)并计算各层隐藏状态与RV的余弦相似度,量化模型拒绝强度,形成拒绝强度向量F[9] - 实验显示F在不安全输入中呈现中间层峰值特征,且最后一层拒绝倾向高于倒数第二层[9] 多模态安全响应差异 - 文本和图像输入激活不同安全通路,文本拒绝响应更早更强,视觉模态会延迟并削弱拒绝信号[17][19] - 关键层定位方法通过拒绝差异向量(FDV)识别对安全最敏感的中间层,其FDV显著高于末层[20] 实验结果与性能 - 在LLaVA、Qwen-VL、CogVLM等模型测试中,HiddenDetect在文本攻击(如FigTxt)和跨模态攻击(如FigImg)检测上表现最优,AUC最高达0.997[24] - 相比Perplexity、GPT-4V等基线方法,HiddenDetect在XSTest边界样本上保持高鲁棒性,误判率更低[23][24] 技术应用与未来方向 - 方法无需训练,结构轻量,可直接部署于现有LVLMs,聚焦风险提示但暂不调控模型行为[28] - 未来将探索模态信息与安全性的关联,推动多模态模型向更可控方向发展[28]
2025年中国多模态大模型行业市场规模、产业链、竞争格局分析及行业发趋势研判:将更加多元和深入,应用前景越来越广阔[图]
产业信息网· 2025-05-29 01:47
多模态大模型行业定义及分类 - 多模态大模型是能够同时处理和理解多种模态数据(如文本、图像、音频、视频、3D模型等)的大规模人工智能模型,通过深度学习技术实现跨模态信息融合与推理 [2] - 与传统单一模态模型相比,多模态大模型更像全能翻译官,能够将不同模态信息融会贯通,更准确地处理复杂任务 [2] 多模态大模型行业发展历程 - 行业经历了任务导向阶段、视觉-语言预训练阶段和多模态大模型阶段 [4] - 多模态大模型阶段已实现更灵活的交互方式,强调跨模态理解与生成能力同步提升 [4] 多模态大模型行业发展现状 - 2024年中国多模态大模型市场规模为156.3亿元,较2023年增加65.4亿元,预计2025年达234.8亿元 [6] - 数字人领域应用份额最大(24%),其次是游戏与广告商拍(各13%),智能营销和社交媒体(各10%) [8] 多模态大模型行业产业链 - 上游包括AI芯片、GPU/FPGA/CPU/ASIC、服务器等硬件及基础软件 [10] - 中游为多模态大模型产品(如CLIP、BLIP、LLaMA等) [10] - 下游应用于工业、农业、金融科技等生产制造领域,教育、游戏、传媒等生活娱乐领域,基建、交通、医疗等公共服务领域 [10] - AI芯片市场规模从2019年116亿元增长至2024年1447亿元 [12] - 游戏领域2024年销售收入达3257.83亿元,用户规模6.74亿人 [14] 多模态大模型行业竞争格局 - 主流大模型包括中科院紫东太初、华为盘古、百度文心、腾讯混元、阿里通义、科大讯飞星火等 [16] - Kimi、DeepSeek等通过技术优化将训练成本控制在3000-6000万美元 [16] - 百度文心大模型4.5是首个原生多模态模型,具备多模态理解和高情商特点 [16] - 腾讯混元大模型采用动态路由机制,训练成本降低40% [16] - 阿里通义大模型在医疗、司法、文化传播等领域落地应用 [16] 多模态大模型行业发展趋势 - 多模态大模型正成为推动相关产业创新发展的重要力量,能提供更丰富和个性化的服务体验 [19] - 未来将实现更自然高效的人机协作,在金融分析、智能客服、教育辅导、内容创作等场景展现多任务处理能力 [19] - 技术发展将呈现更加多元和深入的趋势,模型将更智能、更人性化 [19]
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
量子位· 2025-05-03 04:05
多模态大语言模型Perception-R1的突破性进展 - 华中科技大学、北京邮电大学等高校联合推出Perception-R1(PR1),首次在COCO2017 val set上突破30AP,超越YOLOv3(27.9AP)和Faster-RCNN(35.6AP)等传统模型 [1][19] - 该框架专注于纯视觉任务(目标检测、计数)和视觉语言任务(OCR、grounding),通过基于规则的强化学习(RL)优化感知策略,显著提升模型对视觉信息的理解精度 [1][6][11] - 采用Group Relative Policy Optimization(GRPO)技术,通过多轮尝试、奖励建模和策略更新机制优化模型输出,例如在边界框任务中使用IoU作为奖励指标 [9][12] 技术实现与创新 - Perception-R1作为后训练框架,可增强现有MLLM(如Qwen2-VLInstruct-2B)的视觉能力,无需从头训练 [7] - 奖励函数设计包含三部分:视觉细节提取(如OCR任务使用编辑距离)、逻辑操作执行(如点检测计数)、输出格式验证(正确格式+1分,错误-1分) [11][13][17] - 针对多物体检测的匹配难题,采用二分图匹配和匈牙利算法计算最优奖励,确保预测与真实标注的准确对应 [14] 性能表现与行业影响 - 在Pixmo-Count视觉计数任务中达到78.1分(测试集75.6分),远超LLaVA-1.5(33.3分)和Qwen2-VL(60.2分) [19] - OCR任务(PageOCR)编辑距离仅3.5(英文)和9.0(中文),F1-score达98.2(英文)和94.4(中文),优于Nougat(25.5)和DocOw(25.8) [18] - 在MMBench等综合评测中,Perception-R1以71.8平均分展现全面优势,尤其在MMVet(48.9分)和AI2D(58.2分)等需复杂推理的任务中领先 [21] 未来发展方向 - 研究表明任务复杂度与RL效果正相关,为大规模扩展提供验证基础,例如模型参数量从2B扩展到3B时AP提升至31.9 [19][23] - 挑战了视觉任务依赖语言推理的传统假设,为下一代智能感知系统奠定技术路径,例如通过显式思维链(thinking)优化策略 [24][25] - 论文与代码已开源,旨在推动社区建立更强基线,加速多模态感知技术迭代 [2][26]
10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型
量子位· 2025-04-03 02:12
CalibQuant团队 投稿 量子位 | 公众号 QbitAI 在InternVL-2.5上实现 10倍吞吐量提升 ,模型性能几乎无损失。 最新1-bit多模态大模型KV cache量化方案 CalibQuant 来了。 通过结合后缩放和校准方法,可显著降低显存与计算成本, 无需改动原模 型即可直接使用 。 即插即用、无缝集成 多模态大语言模型在各种应用中展现出了卓越的性能。然而,它们在部署过程中的计算开销仍然是一个关键瓶颈。 虽然KV cache通过用显存换计算在一定程度上提高了推理效率,但随着KV cache的增大,显存占用不断增加,吞吐量受到了极大限制。 为了解决这一挑战,作者提出了CalibQuant,一种简单却高效的视觉KV cache量化策略,能够大幅降低显存和计算开销。具体来说, CalibQuant引入了一种极端的1比特量化方案, 采用了针对视觉KV cache内在模式设计的后缩放和校准技术,在保证高效性的同时,不牺牲 模型性能。 作者通过利用Triton进行runtime优化,在InternVL-2.5模型上实现了10倍的吞吐量提升。这一方法具有即插即用的特性,能够无缝集成到各 种现有的多 ...