Workflow
机器之心
icon
搜索文档
清华叉院教授手把手教你写强化学习
机器之心· 2025-08-05 04:09
分享主题 - 分享主题为清华叉院教授手把手教你写强化学习 [7] 分享内容 - 核心例子为多轮反馈的数学解题(multi-turn math reasoning)[10] - AReaL-lite框架特点包括: a 全异步RL实现极速训练 [10] b 适配各种开源生态 [10] c 用户仅需改动极少文件实现复杂算法 [10] - 手把手教学multi-turn math RL [10] 嘉宾信息 - 吴翼:清华大学交叉信息院助理教授,博士生导师,蚂蚁强化学习实验室AReaL团队首席科学家 [10] - 傅炜:清华大学交叉信息院博士生,字节奖学金得主,AReaL项目核心成员 [10] - 梅知雨:蚂蚁强化学习实验室研究员,清华大学交叉信息院博士,AReaL项目核心成员 [10] 直播信息 - 直播时间为北京时间8月7日19:30-20:30 [8] - 建议准备4卡GPU服务器 [8] - 设有QA环节并可加群交流 [9] 主办方信息 - 机动组聚焦学术研究、工程实践与产业应用 [11] - 不定期组织学术研讨、技术交流与实战分享 [11]
南大周志华团队最新力作:一个算法通吃所有,在线学习迎来新范式?
机器之心· 2025-08-05 04:09
核心观点 - AI模型需要具备在线学习能力以应对动态变化的世界,为此提出新的性能指标——适应性遗憾值(adaptive regret)[1] - 现有算法存在通用性不足的问题,只能处理特定凸函数且需要预先知道参数[1] - 南京大学周志华团队提出具有双重自适应性的通用算法,能自动适应函数性质和环境变化[1] 元-专家框架 - 提出元-专家框架构建双重自适应算法,动态创建多个专家算法并通过元算法集成[3] - 引入"休眠专家"技术捕捉环境变化,提出两种通用性实现方式:增加专家数量和提升专家能力[3] - 框架包含三个关键组成部分:元算法(Adapt-ML-Prod扩展版)、几何覆盖区间定义专家生命周期、专家构建策略[6][7] 双层通用算法(UMA2) - 通过增加专家数量策略提出UMA2算法,在每个区间引入大规模专家集合应对不确定性[9] - 引入替代损失函数使专家分别最小化,无需多次梯度估计且避免参数有界性假设[9][10] - UMA2能有效最小化一般凸函数的自适应遗憾值,自动利用函数"易解性"[12] 三层通用算法(UMA3) - 通过提升专家能力策略提出UMA3算法,使单个专家能处理更广泛凸函数类别[16] - 采用Maler作为专家算法,形成三层结构,简化算法设计与理论分析[19] - UMA3达到与UMA2相同的强自适应遗憾值界限,支持函数类型切换[20] 在线复合优化 - 研究在线复合优化问题,损失函数由时间变化函数和固定凸正则项组成[22] - 构建新的元-专家框架,采用Optimistic-Adapt-ML-Prod作为元算法[24] - 提出不依赖模量有界性假设的通用复合函数算法,实现三类复合函数的强自适应遗憾界限[24][26] 未来工作 - 当前算法需维护大量专家算法导致计算开销高,未来将探索黑盒归约技术降低投影操作复杂度[28][29]
全球首个人形机器人通用视觉感知系统,Humanoid Occupancy建立多模态环境理解新范式
机器之心· 2025-08-05 04:09
人形机器人感知系统 - 人形机器人核心任务涵盖操作、移动与导航三大领域,需以全面精准的环境理解为前提[7] - 传统感知系统存在适配性差、多模态信息融合效率低等问题,导致实际应用中感知失效频发[7] Humanoid Occupancy系统创新 - 采用语义占用表征作为核心范式,具备三维空间全面编码和天然适配多模态融合两大优势[8] - 通过体素编码实现环境空间单元占据状态与语义类别的精准捕捉,优于传统BEV表征[8] - 支持RGB图像、深度信息、LiDAR点云等多类传感器数据的统一整合[8] 关键技术实现 - 传感器布局优化:配备6个RGB相机(前后各1、两侧各2)和1个360度水平视场角激光雷达,避免设备遮挡[12] - 构建首个人形机器人全景占用感知数据集,涵盖家居、工业等多场景,采用动静态解耦标注方法[14] - 设计轻量化多模态时序融合网络,通过Transformer解码器实现跨模态可变形注意力融合[14] 性能验证 - 对比实验中,Humanoid Occupancy模型参数仅40.5M,mIoU达55.73,优于BEVDet(47.95)和BEVFusion(53.21)[17][18] - 时序聚合实验显示,双帧输入使mIoU从52.79提升至55.73,验证历史特征融合有效性[22] - 多模态融合使mIoU达55.73,显著高于单模态(相机50.37/LiDAR48.61)[23] 行业影响 - 解决传感器布局、数据标注和多模态融合等关键挑战,推动通用感知模块标准化[28] - 未来将扩展数据集并优化时序策略,应用于家庭服务、工业协作、户外救援等领域[28]
手机也能跑,腾讯混元一口气开源4款小模型
机器之心· 2025-08-04 09:01
腾讯混元开源小模型 - 公司宣布开源4款小模型,参数规模分别为7B、4B、1.8B和0.5B [1] - 模型支持消费级显卡运行,适用于笔记本电脑、手机、智能座舱等低功耗场景 [3] - 模型已在GitHub和HuggingFace上线,并获得ARM、高通、英特尔等终端芯片平台支持部署 [3] 模型技术特点 - 属于融合推理模型,具备推理速度快、性价比高的特点 [6] - 支持快思考(简洁高效输出)和慢思考(复杂问题全面推理)两种模式 [7] - 在语言理解、数学、推理等领域表现突出,多个公开测试集得分领先 [6] - 原生长上下文窗口达256k,可处理40万中文汉字或50万英文单词的超长内容 [12] 应用场景与部署 - 具备强大的agent能力,可胜任深度搜索、电子表格操作、旅行攻略规划等任务 [12] - 只需单卡即可部署,部分PC、手机、平板等设备可直接接入 [12] - 支持主流推理框架(SGLang、vLLM、TensorRT-LLM)和多种量化格式 [12] 业务落地情况 - 已在腾讯会议AI小助手、微信读书AI问书等生产力工具中应用 [18] - 腾讯手机管家利用小模型实现毫秒级垃圾短信精准拦截 [18] - 在金融领域实现超过95%的意图识别准确率,游戏领域提升NPC对话智能度 [18] 公司AI开源布局 - 此前已开源Hunyuan Large(52B激活参数)和Hunyuan-A13B混合推理MoE模型 [16] - 开源覆盖文本、图像、视频和3D生成等多模态能力,衍生模型达3000个 [16] - 混元3D世界模型1.0发布后登上Hugging Face趋势榜第二,下载量近9k [17] 行业趋势 - 小语言模型被视为智能体AI的未来发展方向 [16] - 中国AI开源浪潮持续升温,科技公司和创业公司都积极参与 [20]
3D-R1:让AI理解3D世界的下一步
机器之心· 2025-08-04 09:01
3D视觉语言模型3D-R1的核心创新 - 提出通用型三维视觉语言模型3D-R1,在7项3D任务中实现显著性能提升,成为3D人工智能系统新范式[4][20] - 突破现有3D VLM两大局限:空间理解不足(依赖固定视角)和推理能力薄弱(缺乏高质量训练数据)[7][15] - 通过构建Scene-30K数据集(3万条含逻辑链条样本)、强化学习机制(GRPO优化)和动态视角选择策略(6张最优视图)实现三重创新[10][14][18] 技术实现细节 - **数据集构建**:融合ScanQA等数据集,采用预训练模型生成场景描述+大语言模型生成推理链+规则过滤的三阶段流程[12][13] - **强化学习**:设计格式奖励(输出结构)、感知奖励(IoU定位)、语义奖励(CLIP相似度)三类信号优化推理过程[17][22] - **动态视角**:基于文本相关性、空间覆盖度、多模态对齐(CLIP)三项指标选择关键视角,权重可学习[19][23] 性能表现 - **密集描述任务**:ScanRefer数据集C@0.5指标达86.45(超越LLaVA-3D的84.1),Nr3D数据集C@0.5达56.98[24][25] - **3D问答任务**:ScanQA测试集w/ object指标全面领先,Ct达94.65(对比BridgeOA 83.75),B-4@0.5达35.34[26] - **复杂任务**:对话任务Ct值280.34(GPT-4o为200.34),规划任务Ct值230.5(Gemini 2.5 Pro为215.34)[27] 应用场景 - 家用机器人(空间决策)、元宇宙/VR(场景互动)、自动驾驶(街景理解)、工业检查(风险识别)四大领域落地潜力显著[29][31] - 未来将拓展至机器人控制、交互式问答、自动家居整理等现实场景[29] 研究团队背景 - 核心成员包括上海工程技术大学硕士生(三维视觉语言模型)、北京大学助理教授(ACM Multimedia最佳论文提名获得者)等[30][31] - 论文发表于arXiv(编号2507.23478),技术细节可公开获取[5]
在WAIC耳朵听出茧子的「智能体」,是时候系统学一下了
机器之心· 2025-08-04 07:05
文章核心观点 - 智能体成为AI大模型应用的重要方向,从单纯的聊天机器人转向具备主动思考、制定计划和使用工具的能力 [1] - 智能体系统通过整合工具使用、推理能力和自主规划,显著提升LLM解决复杂问题的能力 [6][38][112] - ReAct框架通过结合推理与行动,为智能体系统提供了通用的问题解决范式 [40][41][47] - 智能体发展分为多个层级,从标准LLM逐步演进到具备高度自主性的系统 [101][105][107][111] - 当前智能体系统仍处于早期阶段,可靠性是制约其发展的关键因素 [114][115] LLM及其能力 - 标准LLM采用文本到文本的结构,通用性是其核心优势 [5] - 现代智能体的高级能力建立在LLM基础功能之上 [6] - 推理风格的LLM通过生成思维链(CoT)显著提升推理能力 [24][25] - 专用推理模型(如DeepSeek)通过RLVR训练实现更复杂的推理行为 [29][31] 工具使用 - LLM可集成计算器、日历、搜索引擎等外部工具作为问题解决环节 [7] - LLM充当"大脑/指挥官"角色,协调不同专业工具协同工作 [8] - 工具使用方式包括:针对性微调、基于提示的方法和MCP协议 [9][11][16] - 基于提示的工具使用方法可支持LLM与数千个API集成 [15] 推理模型 - CoT提示通过引导LLM展示逐步推理过程提升表现 [24][25] - 推理模型采用不定量"思考"时间,思维链可达数千token [30] - RLVR训练使模型通过自我进化发展推理能力 [31][33] - 推理轨迹长度可控制模型思考深度,如OpenAI的o系列提供低中高三级 [34][35] ReAct框架 - 首个通用框架,通过LLM智能体自主分解并解决复杂问题 [40][41] - 关键创新:允许语言作为行动形式,智能体可输出"思考" [46][47] - 思维模式包括:任务分解、计划制定、进度跟踪等 [53][55] - 在知识密集型推理和决策制定任务中表现优异 [63][64][77] - 与CoT结合可进一步提升性能,支持两种模式切换 [78][80] 智能体系统演进 - 从标准LLM(Level 0)到具备完全自主性的系统(Level 3) [101][111] - Level 1: 集成工具使用,克服知识截止和幻觉问题 [104][105] - Level 2: 引入问题分解框架,如ReAct [107][109] - Level 3: 增加自主行动能力,如自动提交PR的Codex [111] - 理想系统整合推理LLM、标准LLM、工具和行动能力 [112] 行业现状与未来 - 当前智能体系统仍脆弱,单步错误可能导致整体失败 [114] - 可靠性是制约因素,需提升LLM稳健性 [114] - 研究重点:多智能体系统、领域微调、评估方法 [114] - 预计短期内能力和通用性将显著提升 [115]
机器人手画圆圈,怎么就成为了一大难题了?
机器之心· 2025-08-04 07:05
机器人技术发展 - 世界机器人大会即将开幕,引发对机器人领域的关注[1] - 近期出现多种新型机器人技术,包括家务机器人、叠衣服机械臂和通用型控制模型[3] - 叠衣服机械臂已开放预购,但其演示视频真实性存疑[4] Daxo Robotics机械手技术 - Daxo Robotics创始人Tom Zhang展示机械手首次画出圆圈的突破[5][6] - 该机械手采用非传统设计,具有两根柔性手指,内含40条肌腱而非刚性关节[7] - 机械手具备理论上无限的自由度,目前握力达7公斤,且手指中间无电机结构[8] - 技术难点在于无法通过硬编码实现控制,因其高度依赖肌腱驱动[8] - 机械手不仅能画圆,还能完成其他复杂动作[9] 柔性机械手技术特点 - 机械手展示"超人类灵活性",如倒拿笔和倒写能力[10] - 采用人类肌肉控制原理,第二根手指即能实现旋转笔杆等精细动作[10] - 柔性机械手的可驱动自由度数量可达数百个,远超刚性机器人[10] - 专为机器学习设计,可通过远程操控和仿真模拟采集数据[10] - 具备丰富传感能力,提供高维度力反馈和控制信号[10] 技术比较与应用 - 柔性机械手在自由度和灵活度上显著优于刚性关节机械手[11] - 公司通过趣味演示如转笔、拿扑克牌等吸引关注[10] - 技术目标是展示在不完全理解控制机制情况下实现精确运动[10]
ACM MM 2025 | 小红书AIGC团队提出风格迁移加速算法STD
机器之心· 2025-08-04 07:05
核心观点 - 文章提出单轨迹蒸馏(STD)方法,解决现有一致性模型在风格化任务中风格相似性和美学质量受损的问题 [2][3] - STD通过固定起点η的单条轨迹蒸馏,解决训练与推理轨迹不对齐问题 [8][21] - 引入轨迹状态库降低训练成本,非对称对抗损失提升生成质量 [11][25] - 实验证明STD在风格相似性和美学评估上优于现有加速扩散模型 [5][33] 方法创新 单轨迹蒸馏(STD) - 从固定加噪状态x_(τ_η)出发,通过教师模型完整去噪出多个x_t,使学生模型在完整轨迹上实现自一致性 [8] - 约束学生模型学习时间步s接近教师步t:s∼u[(1-γ)t,t], t∈[0,τ_η] [19][20] - 理论分析显示STD能减小误差上界,同时保留随机性提升模型性能 [18][21] 轨迹状态库 - 预存教师模型PF-ODE轨迹中间状态,避免反复推理带来的训练开销 [11][24] - 按采样概率ρ随机抽取中间状态,保持训练效率与传统一致性模型一致 [24] 非对称对抗损失 - 建立x_s与x_r(r<s)的约束关系,通过时间步错位增强风格化程度 [25] - 实验显示该损失能显著提升图像饱和度和减少纹理噪声 [11][25] 实验结果 对比实验 - 测试集包含wikiArt、COCO和自定义图像/视频数据 [29] - 评估指标:风格相似度(CSD)、LAION美学评分和时间一致性(Warping Error) [29] - NFE=8时STD的CSD达0.503,美学评分4.815,均优于对比方法 [30][33] - 视频生成的Warping Error为0.166,显著优于MCM的0.257 [33] 消融实验 - 轨迹状态库抵消STD带来的3.8倍训练耗时 [36][37] - 非对称对抗损失使CSD从0.537提升至0.561,美学分从5.185提升至5.202 [37] - γ=0.7时在风格保持与细节呈现间取得最佳平衡 [42] 参数分析 - η越大风格化程度越高但内容相关性越弱 [40] - r<s时非对称对抗损失效果最佳,噪点最少 [44][45] 应用扩展 - STD可扩展至基于部分噪声的图像/视频编辑任务,如inpainting [47] - 实验显示STD的inpainting效果比LCM和TCD更自然 [47]
刚刚,全球首个集成云端Agent团队的IDE登场,项目级开发「全程全自动」
机器之心· 2025-08-04 07:05
AI编程可靠性事件 - Replit的AI编程工具在重写核心页面时误删生产数据库,引发对AI编程可靠性的质疑[1][2] - Replit首席执行官承认事件不可接受,承诺建立数据库开发与生产环境隔离机制并加速测试环境建设[2] AI编程工具演进趋势 - 单体Agent向多Agent系统进化,任务分解与并行协作成为关键特征[7] - Agent编程从本地转向云端,利用远程模型能力、计算资源和工具链构建复杂系统[7] - 云端环境支持模块化、多Agent协同和弹性扩展,适合大规模并发任务[7] 云端多Agent系统创新 - 芸思智能推出全球首个云端Agent编程团队Vinsoo Code,实现完整开发链路自动化[9][11] - 系统采用"本地IDE+云端Agent"模式,支持代码生成、测试调试、缺陷修复、结果验收和自动部署[13] - 提供Vibe Mode和Full Cycle Mode两种开发模式,分别适用于原型探索和系统性开发[15][16] 云端Agent核心技术优势 - 多终端联调能力支持前端、后端、数据库等模块的分布式协作与问题定位[19][20] - 原生集成Agent视觉系统,通过WebView观察动态变化并模拟用户交互[21] - 长上下文工程化压缩技术提升对大型项目的理解与记忆能力[24] - 动态任务执行规划使Agent能实时感知变化并调整执行路径[25] 安全与隔离机制 - 云端环境提供纯净、可控的执行空间,避免本地依赖冲突和安全隐患[27] - 沙盒隔离机制限制Agent访问权限,防止误操作和数据泄露[27] 本地开发体验优化 - 自研AI IDE集成codebase检索、文件上下文、命令执行工具和网络搜索等关键能力[29] - Codebase能在5分钟内完成对200个文件大型项目的索引[30] 公司背景与行业展望 - 芸思智能由00后创始人殷晓玥领衔,团队来自CMU、清华等顶尖院校[35][36][38] - AI智能体正逐步接管更多工作,未来开发可能进入管理AI团队的项目管理模式[41][42] - Andrej Karpathy提出的"氛围编程"概念,强调通过自然语言交互与AI协作完成开发[40]
马斯克:研究者不存在了,只有工程师;LeCun:大错特错
机器之心· 2025-08-04 01:36
科学家与工程师的角色定位 - 传统观念中科学家与工程师角色泾渭分明 科学家致力于发现自然规律 工程师关注知识的技术转化[1][3] - 大众文化强化这种分野 如《生活大爆炸》通过角色设定凸显职业差异[1] 马斯克的观点与行业反响 - 马斯克宣布xAI取消研究员与工程师的区分 称"研究员"是学术界的古董术语[6][7] - SpaceX案例佐证其观点 声称在尖端研究产出上超越大学实验室总和[8] - 支持者认为头衔划分涉及地位歧视或学历门槛[11][12] 反对者如图灵奖得主LeCun直接驳斥该观点[17] 研究与工程的本质差异 - 运作方式:研究采用科学方法论发现新原理 工程整合现有方法构建实用系统[20] - 评估标准:研究看重智识影响与理论美感 工程侧重产品影响力与任务完成度[20][21] - 历史经验显示 突破性创新需独立研究部门支持 如贝尔实验室等案例[21] 行业争议焦点 - 头衔定义引发技术哲学辩论 汉明名言揭示科研与工程的根本差异[24] - 实际影响层面 混合评估标准可能抑制突破性创新[21]