扩散模型
搜索文档
NeurIPS 2025奖项出炉,Qwen获最佳论文
具身智能之心· 2025-11-28 00:04
会议概况 - NeurIPS 2025会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] 最佳论文奖 - **论文1:Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)** - 研究核心为解决大语言模型生成内容同质化问题,提出了Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [7] - 提出了首个用于刻画语言模型面对开放式提示的综合分类体系,包含6个顶层类别和17个子类别 [7] - 基于该数据集的研究揭示了语言模型在开放式生成中存在显著的“人工蜂群思维”效应,包括模型内重复和模型间同质化 [8][14] - 该数据集包含31,250条人工标注,每个样本由25位独立标注者参与 [9] - **论文2:Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free** - 论文首次系统性分析了门控机制对大语言模型的有效性,证明其通过增强注意力机制的非线性和提供输入相关的稀疏性来提升性能 [13] - 研究显示,在SDPA之后进行门控取得了最佳效果,在15B MoE模型上提升了测试集PPL和MMLU性能 [17] - 门控机制实现了更低的最终训练损失,并大幅增强了训练稳定性,有效缓解了损失尖峰,允许使用更高学习率 [17] - 该技术已成功应用于Qwen3-Next模型,显著提升了模型性能与鲁棒性 [13][18] - **论文3:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities** - 论文证明将网络深度增加到1024层可显著提升自监督强化学习性能,在模拟任务上性能提升了2倍至50倍 [20] - 该方法在无监督的目标条件设定下进行,智能体从零开始探索,增加模型深度不仅提升了成功率,还改变了学到的行为 [20] - **论文4:Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training** - 研究揭示了扩散模型训练动力学中的隐式正则化机制,识别出模型开始生成高质量样本的时间点t_g和出现记忆化的时间点t_m [22] - 关键发现是t_m随训练集大小N线性增长,而t_g基本不变,随着数据集变大,会出现一个越来越宽的泛化训练时间窗口 [22] 最佳论文亚军 - **论文1:Reinforcement Learning with Verifiable Rewards is Insufficient for Novel Reasoning in LLMs** - 论文给出了关键否定性结论,挑战了“带可验证奖励的强化学习能够激发LLM全新推理能力”这一广泛接受的假设 [28] - **论文2:Optimal Mistake Bounds for Transductive Online Learning** - 该研究解决了传导式在线学习领域一个长达30年的公开难题,精确刻画了最优错误上界为Ω(√d),并给出了与之匹配的O(√d)上界 [32] - **论文3:Superposition Yields Robust Neural Scaling** - 论文论证表征叠加是支配神经网络缩放定律的主要机制,超越了现象性描述,为缩放定律提供了机制性解释 [35] 时间检验奖 - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》获奖 [2][38] - 该论文是计算机视觉领域里程碑工作,奠定了现代目标检测框架的核心范式,截至现在已被引用超过56,700次 [38][42] - 论文实现了第一个完全可学习的两阶段目标检测pipeline,取代了selective search和手工设计候选框的方法 [43] Sejnowski-Hinton奖 - 获奖论文为2016年发表的《Random synaptic feedback weights support error backpropagation for deep learning》 [45] - 该论文提出了著名的反馈对齐机制,证明多层网络可在无需对称反馈权重下有效学习,推动了生物可行学习规则的研究方向 [48]
NeurIPS 2025最佳论文开奖,何恺明、孙剑等十年经典之作夺奖
36氪· 2025-11-27 07:27
NeurIPS 2025奖项概览 - NeurIPS 2025共评选出4篇最佳论文和3篇亚军论文(Runners Up)[1][2] - 本届会议是首个双城会议,分别于12月2日-7日在圣地亚哥和11月30日-12月5日在墨西哥城举办[3] - 时间检验奖(Test of Time Paper Awards)授予了10年前发表的Faster R-CNN论文,该论文已被引用超过56,700次[49][50] 最佳论文一:大语言模型多样性评估 - 研究核心是评估大语言模型(LLM)在开放式生成任务中的输出多样性,并提出了“人工蜂群思维效应”(Artificial Hivemind effect)的概念,指出现有模型存在显著的输出同质化问题[5][6][10] - 为解决评估方法不足的问题,研究团队推出了大规模数据集Infinity-Chat,该数据集包含2.6万条真实世界开放式用户查询以及31,250条人类标注,每个示例均由25位标注者独立评判[6][12] - 研究首次提出了针对LM开放式提示的完整分类体系,包含6大顶层类别及其下17个子类别,发现最先进的LM、奖励模型与LM评判器较难校准人类评分[8][12] 最佳论文二:门控注意力机制 - 论文由阿里千问团队等机构合作完成,核心发现是在缩放点积注意力(SDPA)后引入头部特异性Sigmoid门控这一简单修改,可持续提升模型性能[14][15][17] - 该改进在3.5万亿词元数据集上训练的15B混合专家模型(30种变体)与1.7B稠密模型上得到验证,能增强训练稳定性、允许更大学习率,并改善缩放特性[15][17] - 门控机制的有效性归因于两个关键因素:在Softmax注意力的低秩映射中引入非线性变换,以及采用查询依赖的稀疏门控分数调控SDPA输出,该技术已应用于Qwen3-Next模型系列[18] 最佳论文三:自监督强化学习的深度缩放 - 研究聚焦于自监督强化学习(RL)的网络深度缩放,证明将网络深度提升至1024层可带来显著性能突破,而近年多数RL研究采用的浅层架构仅约2-5层[21][24] - 在无监督目标条件设定下,新方法在模拟运动与操控任务上将自监督对比强化学习算法的性能提升了2至50倍,显著超越其他目标条件基线模型[24][26] - 网络深度的增加不仅提升了任务成功率,更引发了智能体学习行为的质性转变,实现了可扩展性的质的飞跃[24][26] 最佳论文四:扩散模型的隐式正则化 - 研究旨在理解扩散模型避免训练数据记忆并实现泛化的内在机制,发现了两个关键时间尺度:早期阶段τgen(模型开始生成高质量样本)和后期阶段τmem(记忆现象显现)[28][29] - 关键规律是τmem随训练数据量n呈线性增长,而τgen保持恒定,形成了随n扩大的有效训练时间窗口,揭示了训练动态中存在的隐式动态正则化机制[29][31] - 结论通过基于标准U-Net架构在真实与合成数据集上的数值实验,以及采用高维极限可解析随机特征模型的理论分析得到验证[31] 亚军论文核心发现 - 论文一系统评估了强化学习(RLVR)对大语言模型推理力的真实增益,结果显示RLVR主要提升采样效率,在小k(如k=1)更易命中正确路径,但在大k时基座模型表现更好,当前RL训练并未诱发全新的推理模式[33][34][37] - 论文二解决了“无标签数据在在线学习中的力量”这一开放问题,对任意Littlestone维度为d的概念类,传导式在线学习的最小错误次数精确为Θ(√d),与标准在线学习的Θ(d)形成严格的二次差距[38][39][41] - 论文三提出“表征叠加”是神经缩放律(Neural Scaling)的关键机制,指出LLM用少量维度承载超量特征,由此产生向量几何重叠并决定损失的Scaling形态,该发现与Chinchilla Scaling Law一致[42][46][48] 时间检验奖获奖工作 - 获奖论文《Faster R-CNN》由任少卿、何恺明、Ross Gisshick和孙剑合著,对计算机视觉领域产生了深远影响,成为众多后续研究工作的基石[50] - 该论文在实现极高检测精度的同时,达到了接近实时的检测速度(每秒5帧),使基于神经网络的目标检测模型得以应用于现实世界的各种场景[50] - 这是首个用完全可学习的两阶段流程(包括区域建议网络RPN和检测网络)取代传统选择性搜索和人工设计候选框方法的工作[50]
NeurIPS 2025奖项出炉,Qwen获最佳论文,Faster R-CNN获时间检验奖
机器之心· 2025-11-27 03:00
NeurIPS 2025 会议概况 - 会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN》获得时间检验奖 [2] - 《Random synaptic feedback weights support error backpropagation for deep learning》获得Sejnowski-Hinton奖 [3] 最佳论文奖核心研究 - 论文《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》提出Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [5][6] - 研究揭示了语言模型在开放式生成中存在人工蜂群思维效应,包括模型内重复和模型间同质化 [6] - Infinity-Chat包含31,250条人工标注,每个样本有25位独立标注者参与 [8] - 论文为理解语言模型多样性、价值多元与社会影响做出重要贡献 [9] - 论文《Gated Attention for Large Language Models》首次系统分析注意力门控对大模型性能的影响 [12] - 研究证明门控机制通过增强注意力机制的非线性和提供输入相关稀疏性来提升性能 [12] - 门控机制能消除注意力池和巨量激活现象,提高训练稳定性并减少损失波动 [16] - 该方法已成功应用于Qwen3-Next模型,并在各尺寸架构上验证有效性 [16] - 论文《1000 Layer Networks for Self-Supervised RL》证明将网络深度增加到1024层可显著提升自监督强化学习性能 [18] - 在无监督目标条件设定下,该方法在对比式RL算法上将性能提升2×–50× [18] - 增加模型深度不仅提升成功率,还会在质量上改变学到的行为 [18] - 论文《Why Diffusion Models Don't Memorize》揭示了训练动力学中存在隐式动态正则化 [20] - 研究发现随着训练集大小N线性增长,模型泛化时间窗口变宽 [20] - 只有当N超过与模型相关的阈值时,过拟合才会在无限训练时间极限下消失 [20] 最佳论文亚军研究 - 论文《Optimal Mistake Bounds for Transductive Online Learning》解决了长达30年的公开难题 [30] - 研究精确刻画了传导式在线学习的最优错误上界为Ω(√d),并给出与之匹配的O(√d)上界 [30] - 这一结论确立了传导式在线学习与标准在线学习之间存在二次量级差距 [30] - 论文《Superposition Yields Robust Neural Scaling》论证表征叠加是支配神经网络缩放定律的主要机制 [33] - 研究不再停留在现象描述,而是为缩放定律提供了新的机制性洞见 [33] 时间检验奖研究 - 《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文已被引用超过56,700次 [40] - 该论文是第一个用完全可学习的两阶段pipeline取代selective search和手工设计候选框的方法 [41] - 实现了极高精度与接近实时(5 FPS)检测的统一,使目标检测模型得以真正部署到实际应用中 [40] Sejnowski-Hinton奖研究 - 获奖论文《Random synaptic feedback weights support error backpropagation for deep learning》提出了著名的反馈对齐机制 [46] - 研究证明多层网络可在无需对称反馈权重下有效学习,前向权重会自然与随机反馈信号对齐 [46] - 这项工作帮助建立了生物可行学习规则的全新研究方向 [47]
即将开课!面向量产的端到端小班课,上岸高阶算法岗位~
自动驾驶之心· 2025-11-27 00:04
课程核心定位 - 课程聚焦于自动驾驶领域端到端技术的量产化实战应用,旨在解决行业量产人才稀缺的问题 [1] - 课程设计历时三个月,内容涵盖从模型优化、场景优化、数据优化到下游规划兜底的全栈技能 [1] - 课程由自动驾驶之心联合工业界算法专家开设,重点为面向就业直击落地,目前仅剩35个招生名额 [3][5] 核心算法与技术内容 - 课程涉及的核心算法包括一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习等 [3] - 技术组合涵盖扩散模型+强化学习、自回归+强化学习、时空联合规划等前沿方法 [3] - 课程最后将分享实际的量产经验,帮助学员构建完整的量产优化知识体系 [3] 讲师背景 - 讲师王路拥有C9本科和QS50 PhD学历,已发表多篇CCF-A和CCF-B论文 [6] - 现任国内顶级tier1公司算法专家,从事大模型、世界模型等前沿算法的预研和量产工作 [6] - 所研发算法已成功落地并量产,拥有丰富的端到端算法研发和实战经验 [6] 课程大纲详解 - 第一章介绍主流感知模型一体化架构和经典规控learning化方案,以及开源数据集和评测方式 [9] - 第二章讲解两段式端到端算法框架,包括建模方式、感知与PNC信息传递,并通过PLUTO算法实战 [10] - 第三章深入一段式端到端框架,涵盖基于VLA和diffusion的方法,重点学习VAD系列 [11] - 第四章专注导航信息的量产应用,包括导航地图格式、编码嵌入方式及能力发挥 [12] - 第五章从模仿学习过渡到强化学习,重点介绍RL算法及其训练策略以解决corner-case场景 [13] - 第六章进行nn planner项目实战,结合模仿学习与强化学习,重点讲解扩散模型和自回归算法 [14] - 第七章介绍时空联合规划等轨迹平滑优化算法,作为模型直出的兜底方案确保轨迹稳定可靠 [15] - 第八章从数据、模型、场景、规则多视角分享量产经验,提升系统能力边界 [16] 课程安排与学员要求 - 课程于11月30日开课,预计三个月结课,采用离线视频教学加VIP群答疑模式 [17] - 学员需自备GPU,推荐算力在4090及以上,并具备BEV感知、视觉Transformer等算法基础 [18] - 要求掌握强化学习、扩散模型理论基础,熟悉Python、PyTorch及mmdet3d算法框架 [18] - 需要一定的高等数学、线性代数和矩阵论基础,课程按周解锁章节,持续至次年2月底 [19]
浙大一篇中稿AAAI'26的工作DiffRefiner:两阶段轨迹预测框架,创下NAVSIM新纪录!
自动驾驶之心· 2025-11-25 00:03
文章核心观点 - 提出一种名为DiffRefiner的全新两阶段轨迹预测框架,该框架融合了判别式轨迹提议与生成式扩散精炼,旨在解决端到端自动驾驶规划中的多模态挑战 [3][9] - 该框架通过基于Transformer的提议解码器生成粗粒度轨迹预测,再通过扩散精炼器进行迭代优化,显著提升了规划性能 [3][9] - 在NAVSIM v2和Bench2Drive两个公开基准测试中均达到当前最优性能,EPDMS分数为87.4,驾驶分数为87.1,成功率为71.4% [3][11][41][42] 技术背景与动机 - 传统单阶段回归方法在处理轨迹预测任务的多模态特性方面存在局限,易导致预测效果欠佳和泛化能力差 [7] - 基于扩散模型的生成式方法能学习未来运动的潜在分布,生成多样化轨迹,但依赖无结构噪声或固定锚点初始化,存在计算延迟和场景适应性不足的问题 [2][8] - 离散化解空间的方法(如基于评分的方法)随着锚点集规模增大会导致计算复杂度显著增加,限制其在延迟敏感系统中的应用 [7] DiffRefiner框架设计 - 采用粗到细的两阶段架构:第一阶段使用基于Transformer的提议解码器回归预定义轨迹锚点,生成粗粒度轨迹提议 [9][14][20] - 第二阶段引入条件扩散精炼器,对初始提议进行迭代去噪与优化,并设计了细粒度去噪解码器以增强场景适应性 [9][14][22] - 框架整合三个关键组件:以BEV为中心的感知模块、粗轨迹提议解码器和基于扩散的轨迹精炼器 [14] 关键技术创新 - 提出细粒度语义交互模块,通过交叉注意力和可变形注意力分层整合全局场景上下文与局部几何细节,实现轨迹与环境的精准对齐 [10][27][30] - 采用自适应门控网络动态融合全局场景表征与局部语义信息,平衡粗粒度上下文理解与精准空间对齐 [10][32] - 通过两阶段训练方案优化模型,采用赢者通吃策略选择最接近真实轨迹的预测进行损失计算 [34][36] 实验验证与性能 - 在NAVSIM v2开环基准测试中,EPDMS分数达到87.4,使用ResNet34骨干网络时相比之前最佳方法提升3.7%,使用V2-99骨干网络时提升1.6% [3][41] - 在Bench2Drive闭环基准测试中,驾驶分数达到87.1,成功率达到71.4%,相比之前最佳方法驾驶分数提升0.3,成功率提升2.3 [3][42] - 消融实验证实了各组件有效性,引入精炼器使EPDMS提升1.2,仅需一次去噪步骤即可实现接近最优性能,表明框架适用于实时系统 [43][50] 性能优势体现 - 在复杂交互场景中,该方法能更好地关注细粒度场景细节,减少与周围智能体的碰撞,并更严格地遵守地图约束 [51] - 该混合范式在大多数多能力指标上均取得持续提升,证明了其在多样化交互式驾驶场景中的鲁棒性和有效性 [42]
为啥机器人集体放弃“跑酷” 全去“叠衣服”了?
机器人大讲堂· 2025-11-24 15:00
行业风向转变 - 机器人行业从展示跑酷、跳舞等极限动作转向专注于叠衣服等家务任务[1][3] - 企业减少概念炒作,开始关注市场需求,技术演示更务实[7] 技术演示案例 - Figure 03使用五指手叠毛巾,但边角容易卷起[5] - Weave Robotics的半自动叠衣视频采用2倍快进,实际速度偏慢[5][20] - 谷歌ALOHA挂衣演示未剪帧,动作缓慢且对齐衣架有困难,但因真实感获得认可[8] - Dyna Robotics让机器人连续18小时叠餐巾,展示单一任务的执着[8] 技术突破驱动 - 十年前PR2机器人需固定绿色背景才能叠简单衬衫,动作缓慢且环境适应性差[9] - 扩散模型和零样本学习成熟后,机器人无需逐步骤编程,仅凭几千条人类演示数据即可学会叠衣[13] - 谷歌ALOHA仅用6000条系鞋带演示数据就让机械臂学会精细操作,叠衣服容错率更高且数据收集更简单[13] - HuggingFace、LeRobot等生态系统降低技术门槛,初创团队可借助预训练模型快速开发演示[13] 市场需求匹配 - 叠衣服是刚性需求,许多用户愿意为此付费,家庭场景价值感知度高[15] - 相比工业场景,家用叠衣落地路径更清晰,容错率高,试错成本低[15] - 任务失败仅需重新摆放衣物,不易损坏设备,适合资金有限的初创团队打磨技术[15] 当前技术局限 - Figure 03叠衣时放得太快,边角卷翘,机器人无法感知衣物材质和受力情况[18] - 1X Technologies的Neo机器人动作僵硬,缺乏人类灵活调整的能力[20] - 演示多在实验室固定环境中进行,桌面纯色平整,衣物单一,背景无干扰[22] - 真实家庭环境复杂,衣物可能混搭,桌面杂乱,光线变化,机器人对齐衣架困难[22] - 企业关注“能否做到”,用户更关心“能否做好”,如是否损坏真丝衬衫、5分钟内叠完一篮衣物等[24] - 当前演示仅完成“折叠”动作,未涉及取衣、整理、收纳等关键步骤[24] 行业发展逻辑 - 早期跑酷、跳舞演示旨在秀肌肉,吸引资本和行业热度[27] - 叠衣赛道爆发标志行业从“我能做什么”转向“用户需要什么”[27] - 工业机器人巨头如发那科、安川的成功在于围绕真实需求研发,如焊接精度和搬运效率[27] - 人形机器人需先解决用户刚需痛点,再拓展复杂功能,遵循市场需求导向的发展逻辑[27] 未来技术方向 - 需优化算法和升级硬件,解决感知精度不足、操作不灵活等问题[29] - 《Science Robotics》论文提出机械臂24小时学会1000项任务的方向,通过高效算法减少数据依赖,提升环境适应性[29] - 技术成熟后,机器人可能从叠衣服拓展到洗碗、擦窗、整理衣柜等更多场景,但需始终围绕用户需求[29] 行业价值回归 - 技术价值在于解决日常真实问题,而非突破极限[30] - 企业应聚焦用户诉求,提升折叠速度、操作精度和场景适配性,实现从取衣到收纳的全流程自动化[30] - 当家务机器人成为日常,人形机器人才能真正实现商业价值[30]
NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!
机器之心· 2025-11-24 09:30
研究背景与现有方案的局限性 - 重光照技术旨在编辑图像或视频中的光照效果,在电影、游戏、虚拟现实和增强现实等领域具有重要应用价值[11] - 当前基于扩散模型的方法存在物理一致性缺失的问题,常导致阴影错位、高光过曝和遮挡关系错误等不合理现象[11][15] - 现有评估体系不完善,通用图像评价指标无法针对性衡量光照属性的准确性,制约了模型在光照可控性方面的优化[12] UniLumos框架的核心创新 - 引入来自RGB空间的几何反馈机制,采用深度图与表面法线图作为监督信号,强制模型学习光影与三维场景结构的对齐关系,显著提升物理一致性[22] - 采用路径一致性学习,在少步训练条件下保持有效监督,使推理速度较现有SOTA方法提升达20倍[3][22][33] - 构建了细粒度光影评估基准LumosBench,基于视觉语言模型实现自动化、可解释的评估,覆盖方向、光源类型、强度等六个光照维度[4][22] 高质量训练数据构建 - 构建了高质量光影训练数据集LumosData,包含11万视频样本与120万图像样本的大规模高质量光影数据对[23] - 数据构建流程包含四个阶段,用于从真实场景数据生成多样化的重光照样本对,并引入结构化的六维光照标注协议[20][21][22] 模型架构与训练策略 - 模型基于视频生成模型Wan 2.1构建,将对齐后的视频输入经由Wan-VAE编码器处理得到语义潜表示[24] - 训练目标融合了流匹配损失、路径一致性损失和物理引导损失三种互补的损失函数,以权衡外观保真度、几何一致性与推理速度[24] - 采用选择性优化策略,在每轮训练迭代中按80/20比例划分批次,平衡物理监督与训练效率[24] 实验结果与性能表现 - 在定量结果中,UniLumos在所有关键指标上均取得最优性能,PSNR达26.719(图像)和25.031(视频),SSIM达0.913(图像)和0.891(视频)[27][28] - 在LumosBench细粒度可控性评估中,UniLumos平均可控性得分达0.773,显著高于其他专有重光照模型和通用视频生成模型[29][30] - 在生成49帧480p视频的任务中,UniLumos仅需12秒,而IC-Light需277秒,Light-A-Video需756秒,实现了显著的推理效率提升[33] 消融实验与模块分析 - 物理引导反馈模块对性能至关重要,移除深度与法向反馈会导致图像质量与物理一致性显著下降,其中法向监督的作用尤为关键[35] - 路径一致性模块在几乎不牺牲生成性能的前提下,为少步生成场景带来了可观的效率优势[35] - 统一训练方法在图像和视频两类输入上均取得了高质量的重光照结果,实现了最优的时序一致性平衡[35]
圣母大学团队打造分子设计新利器:让AI像写文章一样创造分子
仪器信息网· 2025-11-19 09:08
核心观点 - DemoDiff是一种基于上下文学习的AI分子设计系统,能够通过少量示例分子快速生成全新分子结构,显著提升药物和材料研发效率[6][7][8] - 该系统采用创新的节点对编码方法将分子描述效率提升5.5倍,原本需要38个原子描述的分子现仅需4个分子积木即可准确表达[9] - 在33个不同设计任务测试中表现优异,与比其大100-1000倍的大型语言模型相媲美,某些任务甚至更优[19][20] AI分子设计原理 - 模仿人类化学家思维过程,通过分析一组标记为正面、中等和负面示例的分子来理解功能与结构关系[10][11] - 基于扩散模型技术,采用渐进式生成方式,从随机分子结构开始经过数百步骤逐步优化至目标结构[16][17] - 具备独特负面学习能力,仅通过效果不佳分子示例就能反向推理设计出高质量分子,在新药开发早期阶段特别有价值[21][22] 技术创新点 - 开发节点对编码方法,类似汉字偏旁部首概念,用分子基团组合描述复杂结构,大幅提升计算效率[12][13] - 采用图注意力机制处理分子三维空间结构,保持全局理解同时确保化学合理性[23] - 模型规模经过优化测试,在7.39亿参数时达到性价比平衡点,性能随参数增加稳步提升[24] 数据基础 - 构建包含超过100万个分子结构和155万种分子属性记录的综合性数据库,涵盖药物和材料领域[9][14] - 数据来源包括ChEMBL药物数据库和各种材料科学数据库,组织成164万个设计任务[14][15] - 分子属性分布遵循齐普夫定律,既保证学习常见设计模式又接触多样化特殊案例[15] 性能表现 - 在六大类33个设计任务测试中表现全面,包括药物重发现、多目标优化、材料设计等[19] - 生成分子多样性优秀,提供多种解决方案,传统方法需数万次试验而DemoDiff仅需少量示例[19][20] - 在属性驱动设计任务中表现突出,能根据期望分子性质而非简单模仿结构进行创新设计[20] 应用前景 - 有望将药物研发周期从10-15年大幅缩短,降低数十亿美元开发成本[25] - 推动材料科学领域突破,在相互制约性能指标间找到平衡,如高强度轻量化航空材料[25] - 可能催生分子设计民主化,让不同背景研究人员参与创新,类似个人电脑普及对软件开发的影响[26] 发展展望 - 当前模型在处理精确控制分子结构细节任务时仍有局限性,未来需开发专业化模型变种[27] - 计划通过增加模型规模、扩展训练数据和优化方法提升处理复杂挑战能力[27] - 正与多家制药公司和材料研发机构合作,在实际项目中验证技术价值[28]
端到端和VLA的岗位,薪资高的离谱......
自动驾驶之心· 2025-11-19 00:03
行业人才需求与市场状况 - 端到端和视觉语言动作模型技术人才需求旺盛,多家主机厂和供应商积极寻求引荐 [1] - 某招聘网站上3-5年经验的专家岗位月薪高达70k [1] 核心技术栈与趋势 - 技术发展路径从模块化量产算法演进至端到端,再到当前的视觉语言动作模型 [2] - 核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等前沿领域 [2] - 掌握端到端与视觉语言动作模型技术意味着掌握学术界和工业界最前沿的技术方向 [2] 自动驾驶VLA与大模型实战课程 - 课程聚焦视觉语言动作模型领域,涵盖从视觉语言模型作为解释器到模块化、一体化及推理增强视觉语言动作模型的三大方向 [2] - 配套理论基础包括视觉、语言、动作三大模块,以及强化学习、扩散模型等,并设有大作业章节指导学员从零搭建模型及数据集 [2] - 授课老师包括清华大学硕士生,在ICCV/IROS/EMNLP等顶级会议发表多篇论文,拥有多模态感知、视觉语言动作模型、大模型Agent等前沿算法预研经验 [7] - 授课老师包括QS30高校博士在读,在EMNLP/IROS/ICCV等会议发表论文,研究方向涵盖多模态大模型与视觉语言动作模型,其GitHub开源项目总Star数超2k [7] - 授课老师包括清华大学硕士生,在RAL/IROS/EMNLP发表论文,从事在线建图感知、视觉语言动作模型、大模型Agent等算法预研 [10] 端到端与VLA自动驾驶课程 - 课程聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解BEV感知、大语言模型、扩散模型和强化学习 [11] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [11] - 授课老师为C9本科+QS50博士,已发表CCF-A论文2篇,现任国内顶级主机厂算法专家,从事端到端、大模型、世界模型等算法的预研和量产,并完成多项产品量产交付 [13] 课程面向人群要求 - 学员需自备GPU,推荐算力在4090及以上 [14] - 需具备一定的自动驾驶领域基础,熟悉基本模块,了解transformer大模型、强化学习、BEV感知等技术概念 [15] - 需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [15]
做了一份端到端进阶路线图,面向落地求职......
自动驾驶之心· 2025-11-18 00:05
文章核心观点 - 市场对端到端和视觉语言动作模型技术人才需求旺盛,主机厂和供应商积极寻求相关专家,3-5年经验的专家岗位月薪高达70k [1] - 为满足行业学习需求,公司联合工业界和学术界专家推出两门实战课程,分别聚焦VLA大模型和端到端自动驾驶技术 [1][10] 课程内容与技术方向 - 自动驾驶VLA与大模型实战课程由学术界团队主导,课程体系覆盖从视觉语言模型作为解释器到模块化VLA、一体化VLA及推理增强VLA的全链路技术 [1] - 课程配套理论基础模块,包括Vision/Language/Action三大组件、强化学习、扩散模型等,并通过大作业指导学员从零搭建VLA模型及数据集 [1] - 端到端与VLA自动驾驶课程由工业界专家带队,重点讲解一段式/两段式端到端算法,核心技术点包括BEV感知、大语言模型、扩散模型和强化学习 [10] - 端到端课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法,紧密结合工业界量产实践 [10] 师资力量与团队背景 - 课程讲师团队由清华大学硕士、QS30高校博士等顶尖学术背景人才组成,在ICCV、IROS、EMNLP、Nature Communications等顶级会议和期刊发表多篇论文 [6][9] - 工业界讲师具备C9本科和QS50博士学历,现任国内顶级主机厂算法专家,拥有端到端算法和大模型预研及量产交付经验,已发表多篇CCF-A/B类论文 [12] - 讲师团队长期维护GitHub开源项目,总Star数超过2k,具备扎实的多模态大模型研发能力和丰富的自动驾驶实战经验 [6] 目标学员与技术要求 - 课程面向具备一定自动驾驶领域基础的学习者,要求熟悉自动驾驶基本模块和transformer大模型、强化学习、BEV感知等技术概念 [14] - 学员需具备概率论、线性代数基础和常用的数学运算能力,同时要求掌握一定的Python和PyTorch编程语言基础 [14] - 硬件方面要求学员自备GPU,推荐算力在4090及以上级别以满足课程实战需求 [13]