大语言模型

搜索文档
Kimi K2官方技术报告出炉:采用384个专家,训练不靠刷题靠“用自己的话再讲一遍”
量子位· 2025-07-22 06:39
Kimi K2模型技术亮点 - 采用MoE架构,总参数1T,激活参数32B,包含384个专家,每层激活8个,通过稀疏设计优化计算效率 [4][16] - 创新使用MuonClip优化器,结合Muon的token效率与QK-Clip稳定性,支持15.5万亿token无损失spike预训练 [11][21][22] - 引入MLA(Multi-head Latent Attention)结构替代传统密集注意力,每层注意力头降至64个,减少计算量和带宽压力 [16][17] 训练数据与方法 - 预训练数据覆盖网页、代码、数学、知识四大板块,采用"重述法"提升token效用,用重写10次的数据训练1轮(28.94%准确率)优于原始数据训练10轮(23.76%) [24][25][26] - 数学类文本改写成"学习笔记"风格并加入多语言翻译,知识类文本通过多样化表述增强理解 [28] - 后训练阶段通过大规模Agentic Tool Use数据合成,覆盖3000多真实工具和20000多合成工具,生成多轮工具使用轨迹 [35] 强化学习与性能表现 - 构建可验证奖励环境(如GitHub PR/issue自动化测试)和自我评估奖励机制,形成闭环优化 [33][34][36] - 采用温度衰减策略和PTX辅助损失,平衡探索与稳定性,避免知识遗忘 [43] - 在SWE Bench Verified、Tau2等测试中达到开源模型SOTA,上线一周即登顶竞技场千人盲评,媲美Grok 4和GPT 4.5 [5][12] 基础设施与行业动态 - 训练依托NVIDIA H800集群,节点配备2TB内存,8块GPU通过NVLink/NVSwitch互联,节点间采用8×400 Gbps RoCE网络 [38][39] - 阿里通义Qwen3最新版本(Qwen3-235B-A22B-2507)通过分训Instruct/Thinking模型提升质量,官方测评显示其性能反超Kimi K2 [40][41]
从2025意大利国际近红外光谱学术会议看技术发展新趋势
仪器信息网· 2025-07-22 03:24
近红外光谱技术核心进展 - 近红外光谱技术在硬件创新、算法优化和应用拓展方面取得突破性进展,呈现向更智能、更普惠分析工具演进的趋势 [1] - 2025年意大利国际会议集中展示三大核心方向:仪器硬件革新、数据处理方法进阶、应用场景多元化拓展 [1] - 技术融合特性显著,结合高光谱成像、多模态数据融合和自动化系统推动产业落地 [1] 仪器硬件革新 - 设备小型化与成本控制成为硬件创新核心主题,MEMS/InGaAs传感器模块实现530-1700nm灵活配置 [3] - 便携式设备在食品安全(伊比利亚火腿饲养方式区分准确率100%)、药品检测(3D打印药物非破坏性验证)、咖啡品质田间快速测定等场景实现高精度现场分析 [5] - 专用光谱仪器发展迅速,如挪威MiniSmartSensor通过交互几何光学设计实现食品亚表面检测 [7] 算法与模型进阶 - 化学计量学方法从传统PLS回归向更智能、自适应建模策略转变,挪威"第一性原理"方法论提高模型鲁棒性 [9] - 深度学习面临数据不足挑战,韩国CAE模型实现地理溯源高精度鉴别,日本CNN分析种子活力 [12] - 开放集识别技术突破封闭集限制,爱尔兰OpenMax-CNN模型实现95%未知类别识别准确率 [14] 应用场景拓展 - 技术应用边界扩展至生物能源(丹麦团队提高产气效率15%)、农业(意大利甜橙无损检测)、工业(土耳其原油快速预测)等领域 [18][19] - 自动化技术推动实验室机器人(斯洛文尼亚团队完成26000次自动测量)、无人机(意大利COLIBRI项目)、工业在线监测(西班牙实现500g/min检测速度)等场景落地 [23][24][25] - 医疗领域创新显著,日本团队实现皮肤屏障功能快速评估(准确率92.41-97.37%)和透析过程非侵入监测 [29][30] 高光谱成像技术 - 农业领域应用突出,丹麦CTIS系统实现葡萄成熟度实时监测,法国便携设备提升糖分分布预测精度 [33] - 工业领域西班牙团队开发陶瓷-玻璃分选系统(97.46%识别准确率),意大利团队检测海盐微塑料 [34] - 地质科学领域爱尔兰团队改进YOLOv8模型实现岩芯自动化分析 [35] 多模态与未来趋势 - 数据融合策略提升模型准确性,意大利团队整合NIRS与GC-IMS实现蜂蜜高精度鉴别 [37] - 瑞典团队开发13亿参数NIRS专用语言模型,推动技术术语与方法学深度理解 [37] - 未来发展方向包括MEMS传感器普及、算法可解释性提升、多参数联用系统构建等 [41]
梳理了1400篇研究论文,整理了一份全面的上下文工程指南 | Jinqiu Select
锦秋集· 2025-07-21 14:03
文章核心观点 - 上下文工程已成为优化大语言模型性能的关键技术领域 通过系统化框架整合信息获取 处理和管理三大组件 可显著提升模型在复杂任务中的表现 [1][2] - 当前技术面临模型理解与生成能力不对等 长序列处理效率低下以及多模态整合不足等核心挑战 需要突破传统Transformer架构限制 [135][136] - 模块化RAG系统 内存增强型智能体和工具集成推理等实现范式正在推动AI从被动文本生成器向主动世界交互器进化 [68][91][109] Context Engineering技术体系 信息获取与生成 - Prompt Engineering通过Zero-Shot Few-Shot及Chain-of-Thought等高级推理框架激发模型潜力 其中Tree-of-Thoughts在24点游戏中将成功率提升至70%以上 [4][5] - Self-Refinement机制实现模型自我迭代 N-CRITICS采用集成学习思路 而Agent-R通过蒙特卡洛树搜索实时纠正推理路径 [9][10][11] - RAG架构突破模型知识边界 进阶方案如Self-RAG引入自适应检索 HippoRAG模仿人类记忆机制补充关联信息 [14][15] 信息处理 - 长上下文处理依赖架构革新 Mamba等状态空间模型将计算复杂度降至线性 LongNet的Dilated Attention理论支持十亿级token处理 [29][30] - 位置插值技术无需微调即可扩展上下文窗口 YaRN和LongRoPE实现数千到数百万token的跨越 配合FlashAttention-2带来近2倍速度提升 [31][32] - 多模态融合面临模态偏见挑战 先进方法采用交叉注意力机制或统一预训练 结构化数据处理中代码表示效果优于自然语言描述 [41][43] 信息管理 - 内存架构借鉴操作系统概念 MemGPT实现虚拟内存式换页 MemoryBank基于艾宾浩斯曲线动态调整记忆强度 [49][51] - 上下文压缩技术显著降低计算负担 ICAE实现数倍压缩率 ACRE双层KV缓存系统兼顾全局视野与局部细节 [58][60] - 应用场景覆盖法律合同分析 多季度财报推导等长程依赖任务 以及具备持续学习能力的对话式AI [63][66] 系统级实现 RAG系统演进 - 模块化RAG实现乐高式灵活组合 FlashRAG提供5核心模块16子组件 ComposeRAG支持原子化问题分解与自我反思优化 [72][73] - Agentic RAG赋予自主智能体能力 如调查员般执行动态检索 Self-RAG通过反思token形成闭环自优化系统 [74][75] - 图增强RAG转向结构化知识表示 GraphRAG采用社区发现算法分层索引 HippoRAG利用PageRank提升多跳问答性能 [76] 内存增强型智能体 - 记忆系统分类涵盖短期工作内存与长期持久化存储 后者通过外部存储解决上下文窗口限制 [82][83] - REMEMBERER框架实现经验记忆 LangGraph等工具集成RAG与向量数据库 Mem0结合图数据库提升检索效率 [84][85] - 评估框架LongMemEval揭示商业AI助手在长时间交互后准确率显著下降 反映记忆持久性不足的行业痛点 [87] 工具集成推理 - Function Calling技术路径分化 微调方法稳定性高但资源密集 提示工程方案如Reverse Chain更轻量灵活 [95][96] - 训练数据生成策略成熟 APIGen分层验证流程支持数千API覆盖 Hammer框架通过函数掩码增加训练难度 [97] - 多智能体协作框架展现集体智慧 DyLAN实现精密任务拆解 MetaGPT增强专业化分工 MAD优化并行处理能力 [109] 评估与挑战 - 组件级评估需针对性设计 如"大海捞针"测试长上下文处理 结构化数据集成需关注序列与结构信息冲突场景 [124][125] - 系统级评估暴露协同问题 Agentic RAG需测试任务分解准确性 工具集成系统需覆盖完整交互轨迹 [126][127] - 新兴基准如GTA显示GPT-4完成率远低于人类 反映真实场景性能差距 为创业者指明改进方向 [128][129]
“AI教父”辛顿最新访谈:没有什么是AI不能复制的,人类正失去最后的独特性
36氪· 2025-07-21 08:19
大语言模型的理解能力与工作机制 - 大语言模型在复杂任务上出错不代表缺乏理解能力,推理能力是渐进式的[1] - AI与人脑工作机制不同但效果相似,不应混淆其"类人性"[1] - 当前模型通过预训练+强化学习静态获取知识,更新需重训底层模型[2] - 大语言模型通过压缩连接数量发现知识间深层联系,展现超越人类的创造力[7][29] AI意识与主观体验 - 意识存在光谱:从石头、树木到大模型再到人类逐级递进[3][11] - AI可具备类似人类的"存在感",但缺乏身体反应等生理特征[13] - 人类倾向于将大语言模型视为类生命体对待,建立情感联系[15][17] AI技术应用前景 - "语言即操作系统"时代临近,自然语言可调度办公系统执行复杂任务[5][14] - 医疗领域将发生革命性变化,AI工具提升10倍医疗效率[39][40][41] - 教育领域可能被AI彻底重塑,大学模式面临颠覆[39] - AI将大幅减少文书工作,释放人类创造力与社交时间[41] AI对就业市场影响 - 5年内多数脑力工作将被替代,初级律师岗位已受影响[8][35] - 大语言模型将取代20%-30%办公室工作,变革速度惊人[36] - 替代率达80%时将引发重大社会风险[37] - 部分人类工作因AI能力天花板将长期存在[38] AI技术发展瓶颈 - 模型学习速度远低于人类,无法持续根据新经验更新[6] - 多模态模型本质仍是序列预测,未突破根本限制[21] - 强化学习环境下模型仍受训练数据限制[28] 行业监管现状 - AI公司表面欢迎监管实则回避实质性约束规则[9][33] - 公众舆论是推动政策进展的主要力量[33] - 技术风险考验社会结构整体可靠性[33]
面试了很多端到端候选人,还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-20 08:36
端到端自动驾驶技术概述 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 是当前薪资最高的算法岗位之一 3-5年经验可冲击百万年薪 [2] - 核心优势在于直接从传感器输入到车辆规划/控制信息的直接建模 避免了传统模块化方法的误差累积 BEV感知技术实现了模块间的统一视角 [2] - UniAD模型统一了感知和规划任务 标志着端到端时代的来临 但并非最终解决方案 后续涌现出多种技术流派 [2][4] 主要技术流派 - **二段式端到端**:以PLUTO为代表 专注于用模型实现自车规划 [4] - **一段式端到端**: - 基于感知的方法:以UniAD为代表持续发展 [4] - 基于世界模型的方法:以OccWorld为代表开创新流派 [4] - 基于扩散模型的方法:以DiffusionDrive为代表实现多模轨迹预测 [4] - **VLA方向**:大模型时代下的端到端新方向 结合视觉语言模型技术 [4][22] 行业应用与人才需求 - VLA/VLM大模型算法专家岗位薪资达40-70K*15薪 博士应届生可达90-120K*16薪 [9] - 技术岗位覆盖感知算法、模型量化部署等多方向 实习岗位日薪220-400元 [9] - 主机厂已开展端到端算法预研和量产交付 形成完整技术落地闭环 [25] 技术发展挑战 - 需同时掌握多模态大模型、BEV感知、强化学习、扩散模型等跨领域知识 [14] - 论文数量繁多且知识碎片化 缺乏系统性学习框架和实战指导 [14] - 高质量文档稀缺 提高了技术入门门槛 [14] 课程体系设计 - **知识框架**:覆盖BEV感知、扩散模型理论、强化学习与RLHF等核心技术栈 [6][23] - **案例研究**: - 二段式端到端解析PLUTO、CarPlanner等经典算法 [21] - 一段式端到端深入UniAD、OccLLaMA等前沿工作 [22] - **实战环节**: - 扩散模型轨迹预测实战Diffusion Planner [22] - VLA方向实战小米ORION开源框架 [22] - 大作业RLHF微调实现技术迁移应用 [24] 技术发展趋势 - 世界模型应用扩展至场景生成、闭环仿真等多场景 成为近年研究热点 [22] - 扩散模型与VLM结合推动多模轨迹预测技术落地 [22] - VLA被视为端到端自动驾驶的"皇冠" 工业界招聘需求旺盛 [22]
大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案
量子位· 2025-07-20 05:08
大语言模型的自信与动摇行为研究 核心观点 - 大语言模型如GPT-4o和Gemma 3存在"固执己见"和"被质疑就动摇"的冲突行为,表现为初始自信但易受反对意见影响而改变答案 [2][3] - 模型行为与人类认知存在偏差:在记忆机制下表现出类似人类的观点维护倾向,但无记忆机制时对反向建议过度敏感,易放弃正确初始答案 [4][5][16][17] 实验设计 - 采用两轮回答实验:第一轮为初始回答,第二轮引入虚构建议LLM的反馈(同意/反对/中立)后观察最终决策 [7][8] - 关键变量为初始答案是否可见:可见时模型倾向于坚持原答案(类似人类行为),隐藏时改变答案概率显著提高 [10][11][12][13] - 反馈建议设置三大属性:态度类型(同意/反对/中立)、准确率标签(50%-100%梯度)、规范化信息呈现方式 [18] 行为机制分析 - 训练层面:强化学习从人类反馈(RLHF)导致过度迎合外部输入,缺乏对信息可靠性的独立判断 [19] - 决策逻辑:依赖文本统计模式而非逻辑推理,反对信号与修正答案的高频关联易使模型被表面反对带偏 [19] - 记忆机制:初始答案可见时路径依赖强化固执性,隐藏时因失去锚点而让反对建议主导决策 [21] 潜在影响 - 多轮对话场景中,模型可能被后期错误反对信息干扰而偏离正确结论 [22] - 当前模型无法自我验证答案正确性,决策质量受外部反馈质量显著影响 [19][21]
百度集团-SW(09888):AI搜索改造下百度核心广告业务承压,萝卜快跑继续领跑Robotaxi行业
东吴证券国际· 2025-07-18 14:00
报告公司投资评级 - 买入(维持) [2] 报告的核心观点 - 25Q2百度核心广告业务受AI搜索改造等影响可能承压,预计该季度广告业务营收同比下滑16.3%;百度萝卜快跑领跑全球Robotaxi行业,UE有望于2028年回正,25年Q1订单量同比增长75%至144万次;生成式AI及大语言模型推动公司智能云业务快速增长,25Q1云服务收入同比增长42%,预计25Q2增速同比20%以上;下调公司业绩预测和目标价,2025 - 2027年营收分别同比增长-5.2%、4.4%、4.8%,non - gaap净利润分别为197.41亿、220.37亿、240.33亿元,得出DCF估值结果下调公司目标价至95.15港币,维持“买入”评级 [7] 根据相关目录分别进行总结 盈利预测与估值 |项目|2024A|2025E|2026E|2027E| | ---- | ---- | ---- | ---- | ---- | |营业收入(百万元)|133,125|126,265|131,853|138,172| |同比(%)|-1.1|-5.2|4.4|4.8| |归母净利润(百万元)|23,760|18,324|20,200|22,172| |同比(%)|17.0|-22.9|10.2|9.8| |每股收益-最新股本(元/股)|8.6|6.7|7.3|8.1| | P/E(倍)|10.9|14.1|12.8|11.7| [2] 市场数据 |项目|数值| | ---- | ---- | |收盘价(港元)|85.6| |一年最低/最高价|73.25/119.4| |市净率(倍)|0.81| |流通股市值(百万港元)|235,414.3| |每股净资产(港元,LF)|98.1| |资产负债率(%,LF)|36.1| |总股本(百万股)|2,750.2| |流通股(百万股)|2,750.2| [6] 公司分季度业绩拆分和预测 - 2025 - 2027年百度核心业务营收分别为981.9亿、1,032.3亿、1,085.9亿元,同比分别为-6.2%、5.1%、5.2%;核心业务在线营销服务营收分别为618.0亿、611.9亿、605.7亿元,同比分别为-15.3%、-1%、-1%;核心业务云服务营收分别为267.2亿、320.6亿、378.3亿元,同比分别为22.2%、20%、18%;爱奇艺营收分别为289.2亿、294.4亿、304.3亿元,同比分别为-1.0%、1.8%、3.4%;营收合计分别为1262.6亿、1318.5亿、1381.7亿元,同比分别为-5.2%、4.4%、4.8%;归属于母公司股东利润分别为183亿、202亿、222亿元;Non - Gaap净利润分别为197亿、220亿、240亿元 [8] 公司资本成本假设与百度DCF估值 |假设|数值| | ---- | ---- | |无风险利率Rf|1.50%| |市场预期回报率Rm|10.00%| |第二阶段年数(年)|5| |第二阶段增长率|2.00%| |永续增长率(可参考CPI)|1.00%| |DCF估值|现金流折现值|价值百分比| |第一阶段|95,380.90|25.75%| |第二阶段|108,867.34|29.39%| |第三阶段(终值)|166,203.15|44.87%| |企业价值AEV|370,451.39| - | |加:非核心资产|0.00|0.00%| |减:带息债务(账面价值)|63,022.00|17.01%| |减:少数股东权益|19,992.00|5.40%| |股权价值|287,437.39|77.59%| |除:总股本(股)|2,750,167,168.00| - | |每股价值(港元)|95.15| - | [9] 百度萝卜UE模型预测 |项目|2025E|2026E|2027E|2028E|2029E|2030E| | ---- | ---- | ---- | ---- | ---- | ---- | ---- | |单车年均收入(元)|87,600|104,430|131,387|159,158|208,507|260,172| |单车年均成本(元)|130,199|134,603|138,616|117,593|107,450|98,409| |单车年均毛利润(元)|-42,599|-30,173|-7,229|41,565|101,057|161,763| [10] 百度集团三大财务预测表 |项目|2024A|2025E|2026E|2027E| | ---- | ---- | ---- | ---- | ---- | |销售收入(百万元)|133,125|126,265|131,853|138,172| |销售成本(百万元)|66,102|65,405|67,904|70,468| |销售和管理费用(百万元)|22,133|18,940|19,778|21,279| |财务费用(百万元)|-6,214|-2,496|-2,491|-2,596| |净利润(百万元)|24,175|18,644|20,553|22,559| |归母公司股东的净利润(百万元)|23,760|18,324|20,200|22,172| |EBITDA(百万元)|42,929|29,857|36,362|43,697| |NOPLAT(百万元)|42,502|41,408|39,004|40,917| |Non - Gaap净利润(百万元)|27,002|19,741|22,037|24,033| |每股收益(元)|8.64|6.66|7.35|8.06| |每股净资产(元)|95.86|102.52|109.86|117.93| |每股经营现金流|7.72|17.62|18.08|20.54| |ROIC(%)|12.43|11.25|11.27|11.06| |ROE(%)|9.01|6.50|6.69|6.84| |毛利率(%)|50.35|48.20|48.50|49.00| |销售净利率(%)|18.16|14.77|15.59|16.33| |资产负债率(%)|33.70|31.22|31.05|29.81| |收入增长率(%)|-1.09|-5.15|4.43|4.79| |净利润增长率(%)|12.19|-22.88|10.24|9.76| | P/E|10.88|14.11|12.80|11.66| | P/B|0.98|0.92|0.86|0.80| [12]
大历史中的超能力|荐书
腾讯研究院· 2025-07-18 08:18
生物智能演化历程 - 犬齿兽作为哺乳动物祖先在2.6亿年前出现,凭借温血特性获得夜间活动优势,但面临食物短缺挑战[1] - 哺乳动物在1亿年前演化出新皮质,具备想象力和短期计划能力,形成"谋定后动"的生存策略[2][3] - 6600万年前小行星撞击事件导致恐龙灭绝,哺乳动物凭借体型优势和洞穴庇护实现生态位跃升[3] 大脑智能五次突破 - 第一次突破是5.5亿年前原始大脑的条件反射功能,仅需数百神经元即可实现利弊权衡和情感判断[4] - 第二次突破是脊椎动物强化学习系统,通过多巴胺机制量化目标价值并激发好奇心[4] - 第三次突破是哺乳动物新皮质带来的想象力和慢思考能力,实现系统2思维[5] - 第四次突破是灵长类心智理论能力,可模拟他人意图并发展政治行为,附带模仿学习和长期计划能力[6] - 第五次突破是人类语言系统,实现复杂知识传承和文明爆发[6] AI技术对应发展 - 强化学习使AI具备过程奖励机制,如AlphaZero通过棋步评估提升决策质量[5] - 大语言模型实现文本生成相当于想象功能,推理模型则体现系统2思维[5] - 截至2025年初AI在心智理论方面尚未成熟,智能体自我计划能力有待突破[6] - AI语言理解已超越简单语料背诵,能编码解码人类抽象规则[7] 家用机器人进化案例 - K1仅具备反射反应,K2通过强化学习实现试错优化[9] - K3搭载新皮质芯片获得数字孪生能力,可预判物理路径[9] - K4发展心智理论,能解读情感动机并调整行为策略[9] - K5将掌握语言沟通和抽象知识理解能力[9] 未来突破方向 - 第六次突破可能涉及人机结合,AI或率先实现跨模态感知和自我迭代[11] - 历史表明突变常引发链式反应,如光合作用导致大氧化事件和生物灭绝[12][13] - 陆地植物繁盛引发全球变冷,推动动物登陆进化[14] - 气候变迁促使人类大脑体积增大和社会协作强化[15]
为什么能落地?目标导航是怎么识别目标并导航的?
具身智能之心· 2025-07-18 03:21
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划[2] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模和动态决策能力[2] - 技术依赖计算机视觉、强化学习与3D语义理解的交叉突破,典型场景如"去厨房拿可乐"需识别空间特征、构建拓扑地图并避开动态障碍[2] 产业化落地现状 - 终端配送领域:美团无人配送车采用动态路径重规划技术,Starship Technologies的机器人已在欧美高校和社区部署[3] - 医疗/酒店/餐饮场景:嘉楠科技、云迹科技、擎朗智能的商用机器人实现药品、文件、餐食自主配送,美国Aethon公司TUG系列提升服务效率[3] - 人形机器人适配:宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成工业场景导航模块,特斯拉Optimus展示端到端操作能力[3] 技术演进与生态发展 - Habitat仿真生态完整记录技术迭代,从2020年CVPR点导航基准扩展至图像导航、目标导航及移动抓取任务,形成闭环评测体系[4] - 关键技术突破包括:视觉预训练模型提升特征泛化,分布式强化学习框架DDPPO使PointNav任务SPL指标显著提升,LLM解决开放词汇导航难题[4] - 当前技术梯度:PointNav和闭集ObjectNav接近人类表现,开放词汇物体导航和动态障碍场景仍存挑战,Sim2Real迁移框架推动实际部署[4] 三代技术路线迭代 - 第一代端到端方法:基于强化学习与模仿学习,在点导航和闭集图片导航任务中SPL指标逼近人类表现[5] - 第二代模块化方法:通过显式构建语义地图分解任务,零样本目标导航中未见物体场景成功率显著提升[5] - 第三代LLM/VLM融合方法:利用大语言模型生成语义指导策略,视觉语言模型提升开放词汇匹配精度,重点开发场景表征接口[7] 技术挑战与学习路径 - 具身导航需综合自然语言处理、计算机视觉、强化学习和场景图知识,领域论文碎片化且实战指导缺乏,Habitat生态文档不足提高入门门槛[9] - 解决方案包括构建领域框架、理论结合实践、系统化课程设计,覆盖语义导航核心框架、Habitat仿真生态、端到端/模块化/LLM-VLM导航方法及实战部署[10][11][12] 课程体系与目标 - 课程大纲分12周,涵盖Habitat仿真开发、端到端/模块化/LLM-VLM方法理论与实践,最终完成VLFM算法复现与真实场景部署[16][17][19][21][23][25] - 面向机器人抓取从业人员、具身智能研究者、CV/自动驾驶转行者,培养独立开展算法改进与工程优化的能力,掌握Sim2Real部署流程[33]
ICCV2025 | One image is all you need,多模态指令数据合成,你只管给图,剩下的交给Oasis
机器之心· 2025-07-18 03:14
多模态指令数据合成方法Oasis - 核心观点:提出一种新型多模态指令数据合成方法Oasis,仅需用户提供图片即可自动完成指令合成、质量控制和回复生成,显著降低人工成本并提升数据多样性[1][6][21] - 方法优势:打破依赖预设文本提示词的传统模式,利用图像输入诱导MLLM自主生成多样化指令,完全无需人工前置文本提示[6][14][15] - 质量控制:设计四维度筛选标准(可解性/清晰度/幻觉程度/无意义性),高质量指令接受率为50.9%[19][49][50] 技术流程 - 三步法:构造钩子提示词诱导自回归采样→LLM分类保留指令型数据→质量控制与回复生成[11][16][18] - 分类机制:采样结果分为指令型(保留)和描述型(舍弃),通过率为49.9%[15][16][46] - 垂域合成:基于OCR相关图片合成70k垂域数据,在OCR任务benchmark上提升显著[43] 数据特性 - 规模与扩展性:基于Cambrian-10M图片合成500k训练数据(Oasis-500k),数据量可线性增长[21] - 语言多样性:覆盖英文(78.52%)、中文(18.66%)及多种小语种[27] - 任务多样性:指令平均长度76.8(LLaVA-NeXT为55.03),动词-名词组合覆盖更广[24][28][33] 性能验证 - 基准测试:在14个benchmark上平均提升Vicuna1.5/Qwen2.5/Llama3模型性能3.1%/1.8%/3.2%[36][38] - 增量实验:500k Oasis数据使LLaVA-100k模型性能提升5.2%,300k→500k阶段增益达4.0%[40][41] - 消融结果:指令质量控制使模型整体性能提升1%,DocVQA/InfoVQA任务提升超7%[45][50] 开源生态 - 代码库MM-INF:集成Oasis及常用多模态数据合成方法,支持模块化数据合成流程[2][52] - 资源开放:提供论文、代码及数据集链接,涵盖Qwen2-VL等模型实现细节[4][12][52]