Workflow
多模态大语言模型
icon
搜索文档
自驾搞科研别蛮干!用对套路弯道超车~
自动驾驶之心· 2025-07-11 01:14
课程核心价值 - 通过1v6精英小班模式快速掌握LLM/MLLM领域科研全流程,包括模型理论、代码实践、论文写作与投稿技巧 [1][5][10] - 提供经典与前沿Baseline资源,导师定制化分配研究idea,确保学员产出完整论文初稿 [6][7][20] - 系统性解决知识碎片化问题,帮助构建算法设计、创新思路及论文写作方法论体系 [10][22] 导师资质 - 毕业于知名计算机院校,具备计算机视觉、模型压缩、多模态大语言模型等领域的算法研究经验 [2] - 在CVPR/ICCV/EMNLP等顶会发表论文十余篇,担任CVPR/ICML/NeurIPS等会议审稿人,拥有多项发明专利 [3] 目标学员 - 自动驾驶领域硕博生(感知/预测/规划方向)、车企算法工程师、AI从业者 [11] - 需具备Python/PyTorch基础,熟悉深度学习框架,最好拥有4张4090显卡级别算力设备 [16][17] 课程设计 - 授课周期3.5-4个月,提供6个月答疑服务,采用腾讯会议直播+小鹅通回放形式 [19][21] - 产出对标SCI 1-4区或CCF A/B/C级别论文,定制化调整idea难度 [20][22] - 配套班主任督学服务,要求学员全勤参与、完成作业并保持学术诚信 [23] 技术门槛 - 最低硬件要求为2张4090显卡,建议掌握Linux开发调试及CUDA语法基础 [16][17] - 需通过1v1面试评估基础能力,课程深度根据学员水平动态调整 [14][16]
ICML 2025 | 给AI装上「智能升级插件」!阿里安全-清华大学D-MoLE让模型在持续学习中动态进化
机器之心· 2025-07-10 04:26
研究背景 - 多模态大语言模型(MLLMs)通过结合视觉、语音等模态编码器与文本生成模型,展现出处理多模态数据的强大能力,但在实际应用中面临灾难性遗忘问题[3] - 持续多模态指令微调(CMIT)成为核心挑战,目前研究刚起步,传统持续学习策略针对小规模单模态模型,在多模态场景下面临任务架构冲突和模态不均衡两大新挑战[4] - 任务架构冲突表现为不同任务对模型不同层次依赖程度差异明显,例如视觉任务中部分依赖视觉编码器浅层,另一些则依赖语言模型深层[4] - 模态不均衡表现为不同任务对图像、文本等模态依赖程度差别大,导致训练中各模态更新不平衡[7][8] 研究方法 - 提出D-MoLE框架,通过动态调整模型结构解决任务架构冲突和模态不平衡问题,包含动态分层专家分配器和基于梯度的跨模态持续课程两大核心组件[10][16] - 动态分层专家分配器通过零成本代理评估识别关键层并分配LoRA专家,实现按需适配新任务[23] - 基于梯度的跨模态持续课程通过评估各模态学习难度动态分配参数预算,解决模态不均衡问题[24] - 框架保留通用基础、按需适配新任务、情境化利用旧经验,实现高效适应新任务同时保留过往知识[21][23] 实验结果 - 在包含9个数据集的CMIT基准测试中,D-MoLE在AVG指标上比次优方法提升15.08%,在Last指标上提升20.14%,BWT指标从-21.31%改善至-1.49%[29] - 通用能力评估显示D-MoLE在MME-Sum(1754.6)、MMMU-Val(32.7)和POPE-Sum(88.1)上接近原始预训练模型水平,优于Seq-FT和O-LoRA[31] - 消融实验验证各组件有效性,移除跨模态课程或动态分层专家分配器均导致性能显著下降[34] - 训练效率与vanilla LoRA微调相当(12.40小时),远快于复杂持续学习方法如MOLA(23.03小时)[36] 业务应用 - 可提升阿里安全多模态审核大模型在交互内容安全场景下的持续适应能力,支持多平台差异化审核规则[38] - 模型能快速适配新平台或规则而不影响原有能力,仅需引入少量参数,降低运维成本并提升多任务环境灵活性[39]
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 07:30
多模态大语言模型技术突破 - 当前多模态推理模型存在两大核心问题:全局上下文理解不足(模型错误解读多模态证据)和捷径问题(忽视关键线索直接给出答案)[2][3][4] - 阿里巴巴通义实验室推出HumanOmniV2解决方案,强调模型需基于全局上下文理解进行推理,避免遗漏多模态线索[4] - 创新性采用强制上下文总结机制,要求模型在推理前先输出对多模态输入的概括,确保全面性[12] 技术架构优化 - 引入三维奖励机制:上下文奖励(评估上下文一致性)、格式奖励、准确性奖励协同作用[13][14] - 通过LLM评估逻辑奖励,激励模型融合反思/演绎/归纳等高级逻辑分析方法[15] - 改进GRPO训练策略:采用令牌级损失解决长序列不平衡、移除问题级归一化项消除优化偏差、动态KL散度提升探索能力[16][19][20] 数据集与基准创新 - 构建全模态推理训练数据集,涵盖图像/视频/音频理解任务,附带多模态输入总结和推理路径[23] - 推出IntentBench评估基准,包含633个视频和2,689个问题,专注测试复杂人类意图理解能力(对比Daily-Omni/WorldSense更侧重社会关系推理)[23] 性能表现 - HumanOmniV2在Daily-Omni达到58.47%、WorldSense 47.1%、IntentBench 69.33%准确率,超越现有开源模型[24] - 在视频-音频多模态任务中,7B版本以58.47%平均准确率显著领先VideoLLaMA2(35.17%)和Qwen2.5-Omni 7B(47.45%)[25] - 在文化/科技等细分领域评估中,7B模型以47.1%平均准确率超越GPT-4o(42.6%)和Claude 3.5 Sonnet(34.8%)[27] 开源与资源 - 完整开源代码/模型/数据,提供GitHub/arXiv/ModelScope/HuggingFace多平台访问入口[29]
快手团队发布8B Kwai Keye-VL!技术报告速递~
自动驾驶之心· 2025-07-07 12:17
{ "核心观点": { "模型定位": "快手团队推出8B参数规模的多模态基础模型Kwai Keye-VL,专注于提升短视频理解能力,同时保持通用视觉-语言处理能力[2]", "技术突破": "通过6000亿token的大规模视频数据集和创新的四阶段预训练+两阶段后训练策略实现性能突破[2][4]", "应用价值": "在公开视频基准测试和自建KC-MMBench短视频基准上达到SOTA水平,用户体验优于同规模模型[3]" }, "技术架构": { "数据构建": "数据集总量超6000亿token,侧重视频数据,采用过滤、重描和帧级标注等严格处理流程[4]", "预训练流程": { "阶段1": "基于Qwen3-8B初始化,冻结视觉/语言模型参数,优化投影MLP层实现跨模态对齐[12]", "阶段2": "解冻所有参数,端到端多任务训练覆盖图像描述、OCR、VQA等任务[13][14]", "阶段3": "精选高质量数据进行退火优化,解决广覆盖训练中的细节理解不足问题[15]", "模型融合": "采用同构-异构融合技术平均不同数据混合策略的模型权重,降低偏差[16]" }, "后训练策略": { "阶段1": "通过监督微调(SFT)和混合偏好优化(MPO)提升指令遵循等基础能力[5]", "阶段2": "五模式冷启动数据混合+强化学习(RL)激发高级推理能力[6]" } }, "性能表现": { "基准测试": { "通用能力": "在MMMUval(71.4)、AI2D(86.7)、MMStar(75.5)等通用基准领先[27]", "视频专项": "Video-MME(67.7)、LongVideoBench(62.8)、MMVU(66.1)体现视频理解优势[27]", "数学推理": "MathVistaMINI(80.7)、MathVersevision(59.8)显示跨模态推理能力[27]" }, "人类评估": { "视频子集": "整体评分3.33(5分制),在正确性(3.34)、相关性(4.83)等维度领先竞品[30]", "图像子集": "整体评分3.81,视觉识别(3.97)和基础描述(4.0)能力突出[30]" } }, "工程实现": { "并行策略": "混合数据并行(DP)与序列并行(SP),集成ZeRO优化器实现计算/通信重叠[23]", "负载均衡": "全局贪心策略按FLOPs分配样本,减少硬件空闲时间[24]", "容错机制": "样本级自动恢复检查点,精确恢复训练状态[25]", "推理优化": "适配vLLM框架支持视频输入,奖励模型随机调度降低RL时间开销[26]" }, "行业贡献": { "基准建设": "发布KC-MMBench短视频基准含6类任务1840个实例,填补领域空白[28]", "方法论输出": "提供从数据构建、训练策略到工程优化的全链路实践参考[3][4]" } }
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 05:23
多模态大语言模型(MLLMs)与强化学习(RL)的融合 - 多模态大语言模型在视频推理等任务中快速进化,强化学习作为关键引擎显著提升模型推理能力 [1] - DeepSeek-R1通过纯RL优化实现推理能力质的飞跃,VideoR1引入T-GRPO增强视频时空逻辑拆解能力,VideoChat-R1通过多任务联合微调提升视频理解与多步推理表现 [1] - 当前RL优化面临思维链推理在多模态任务中效率低下、稀疏二元奖励信号忽略部分正确答案两大挑战 [1] TW-GRPO框架的创新设计 - TW-GRPO框架由多所高校联合提出,通过聚焦思维和密集奖励粒度增强视觉推理,解决传统GRPO的推理质量与奖励粒度问题 [2][7] - 动态加权机制通过分析token信息熵优先处理高信息密度内容,规避冗余干扰,提升推理精度与效率 [4] - 多层次奖励机制将单选题QA拓展为多选任务,结合视频定位IoU软奖励机制,对部分正确答案给予梯度反馈,改善训练稳定性 [5][9] - 问答反转(QAI)技术通过否定问题与反转答案扩充多选训练数据,解决数据稀缺问题 [6][9] TW-GRPO的性能表现 - 在CLEVRER、NExT-GQA和MMVU基准测试中,TW-GRPO分别以50.4%、76.1%和65.8%准确率超越Video-R1达18.8%、1.8%和1.6% [15][16] - 通用视频理解任务中,TW-GRPO在MVBench和TempCompass基准分别保持63.3%和73.3%的领先准确率,较基线模型最高提升0.4% [16] - 训练动态显示TW-GRPO奖励标准差收敛更快,输出序列长度缩短17%-23%,验证其推理简洁性与稳定性 [17][18][20] 技术实现细节 - Token重要性加权采用KL散度量化分布差异,通过最小-最大归一化与超参数α控制权重缩放,实现位置敏感优化 [8] - 多选软奖励设计借鉴视频定位IoU机制,依据预测与真实答案重叠度赋予分数,显著降低奖励波动 [9][10] - 实验基于Qwen2.5-VL-7B模型,使用NVIDIA H800 GPU处理128×28×28分辨率视频帧,推理时提升至256×28×28 [12] 定性分析案例 - 在MMVU密度估计任务中,TW-GRPO精准提取视频关键数值并正确应用阿基米德原理,而T-GRPO因错误假设体积导致计算结果偏差 [19][21][22] - 对比显示TW-GRPO在因果推理、定量推理和动态视觉线索处理方面具有显著优势 [22][24]
刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
机器之心· 2025-06-13 15:45
CVPR 2025大会概况 - 本届CVPR共收到13008份论文投稿,同比增长13%,最终接收2872篇,接收率22.1% [3] - 大会现场参会学者超过9000人,来自70余个国家和地区 [7] - 图像与视频生成领域论文接收数量最多,基于多视角和单图像的3D领域接收率最高 [8] 最佳论文及荣誉提名 - 最佳论文VGGT由牛津大学和Meta AI联合提出,采用纯前馈Transformer架构实现通用3D视觉模型,推理速度达秒级 [14][17] - 荣誉提名论文MegaSaM来自Google DeepMind等机构,提出深度视觉SLAM框架,在动态场景中实现快速准确的相机姿态估计 [27][30] - 另一篇荣誉提名论文Navigation World Models由LeCun团队提出,采用条件扩散Transformer实现最先进视觉导航性能 [33] 3D视觉技术进展 - 3D Student Splatting and Scooping(SSS)改进了3D高斯泼溅技术,在质量和参数效率上优于现有方法 [37][40] - 论文实验数据显示,SSS方法在Mip-NeRF360数据集上PSNR达29.90,LPIPS为0.145,表现最优 [42] 视觉语言模型创新 - Molmo和PixMo论文提出开源视觉语言模型,72B参数模型在多项基准测试中超越Claude 3.5 Sonnet等商业模型 [46] - 该方法创新性地使用PixMo数据集,无需依赖专有VLM合成数据 [46] 学生论文亮点 - 最佳学生论文提出首个基于物理的多视角动态光传播神经逆渲染系统,实现强间接光条件下的3D重建 [55] - 荣誉提名学生论文创新性地利用扩散时间步构建视觉语言,统一多模态理解和生成 [63][66] 行业重要奖项 - 年轻研究者奖授予Hao Su和谢赛宁,两人论文被引量分别超过12万和7.5万 [68][72][74] - Longuet-Higgins奖授予Inception架构和全卷积网络两篇开创性论文,引用量分别达6.7万和4.9万 [76][79][80][83] - Thomas S. Huang纪念奖授予德克萨斯大学Kristen Grauman教授,表彰其在计算机视觉领域的贡献 [86]
科学家证实大模型能像人类一样“理解”事物
科技日报· 2025-06-10 22:45
人工智能理解能力研究 - 科研人员首次证实多模态大语言模型在训练过程中自主学会"理解"事物 且理解方式与人类高度相似 这一发现为探索AI"思考"机制开辟新路径 并为开发类人理解能力的AI系统奠定基础 [1] - 研究借鉴人脑认知原理设计实验 通过470万次判断数据分析 首次绘制出大模型的"概念地图" 揭示其内部表征方式 [2] - 从实验数据总结出66个代表AI理解事物的关键角度 这些角度可解释性强 且与人脑物体加工神经活动模式高度一致 [2] 多模态模型优势 - 能同时处理文字和图片的多模态模型 其决策方式比其他单一模态模型更接近人类思维模式 [2] - 研究发现人类判断依赖视觉特征(形状/颜色)和语义含义 而大模型更侧重文字标签和抽象概念 但仍发展出类人理解机制 [2] 研究突破意义 - 成果发表于《自然·机器智能》杂志 突破传统AI仅关注识别准确率的局限 首次系统揭示模型对物体含义的理解机制 [1][2] - 实验采用1854种常见物品概念 通过"找不同"游戏范式量化比较AI与人类认知差异 方法论具有创新性 [2]
中国科研团队研究发现:人工智能可以自发形成人类级认知
新京报· 2025-06-09 13:01
多模态大语言模型研究突破 - 中国科学院自动化研究所科研人员首次证实多模态大语言模型(MLLMs)能自发形成与人类高度相似的物体概念表征系统 [1] - 研究成果发表于《自然·机器智能》期刊 为构建类人认知结构AI系统提供理论框架 [1] - 研究结合行为实验与神经影像分析 涉及470万次行为判断数据 [2] 人类与AI概念表征对比 - 人类认知具备多维度概念表征能力 包括物理特征 功能 情感价值和文化意义 [1] - AI大模型内部存在类似人类的概念理解 但决策时更依赖语义标签和抽象概念而非视觉特征 [2] - 研究提取出66个"心智维度" 这些维度高度可解释且与大脑神经活动模式相关 [2] 研究方法创新 - 采用融合计算建模 行为实验与脑科学的创新范式 [2] - 首次构建AI大模型的"概念地图" 为心智维度赋予语义标签 [2] - 突破传统AI研究局限 从认知神经科学角度探讨模型对物体含义的"理解" [2]
人工智能可自发形成人类级认知?中国团队最新研究首次证实
环球网资讯· 2025-06-09 12:57
人工智能认知研究 - 中国科学家团队首次证实多模态大语言模型能自发形成与人类高度相似的物体概念表征系统,实现人工智能人类级认知[1] - 研究由中国科学院自动化所神经计算与脑机交互团队联合脑科学与智能技术卓越创新中心完成,成果发表于《自然·机器智能》[1] - 该研究为AI认知科学开辟新路径,并为构建类人认知结构的AI系统提供理论框架[1] 研究实验设计 - 采用认知心理学经典"三选一异类识别任务",测试大模型与人类对1854种日常概念组合的识别差异[3][4] - 通过分析470万次行为判断数据构建AI大模型的"概念地图",并提取出66个可解释的"心智维度"[4] - 研究发现这些维度与大脑类别选择区域(如处理面孔、场景等信息的区域)神经活动模式显著相关[4] 模型与人类认知对比 - 多模态大模型在行为选择模式上与人类一致性更高,但人类决策更依赖视觉特征+语义信息,而大模型倾向语义标签+抽象概念[4] - 研究证实大语言模型内部存在类似人类对现实世界的概念理解,其"心智维度"与人类认知殊途同归[4] - 传统AI研究聚焦识别准确率,而本研究揭示AI"识别"与人类"理解"的本质区别仍需深入探索[3]
研究显示多模态大模型可自发形成类人的物体概念表征
快讯· 2025-06-09 10:40
人工智能研究突破 - 中国科学院自动化研究所神经计算与脑机交互课题组与中国科学院脑科学与智能技术卓越创新中心联合团队首次证实多模态大语言模型(MLLMs)能够自发形成与人类高度相似的物体概念表征系统 [1] - 该研究为人工智能认知科学开辟了新路径 [1] - 研究成果为构建类人认知结构的人工智能系统提供了理论框架 [1] - 相关研究成果于北京时间6月9日发表在国际学术期刊《自然·机器智能》(Nature Machine Intelligence) [1]