Workflow
强化学习
icon
搜索文档
观众抢位中!锁定MEET2026,让我们畅聊AI|最新嘉宾阵容
量子位· 2025-11-27 04:34
大会核心信息 - 大会主题为“共生无界,智启未来”,关注AI等智能科技如何穿透产业、学科与场景边界,成为社会演进核心动能[2] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题[3] - 内容涵盖学术前沿与商业落地碰撞,以及来自Infra、模型、产品产业的领先技术成果[4] - 大会将权威发布人工智能年度榜单与年度AI趋势报告[5][93] 嘉宾阵容与研究方向 - 张亚勤:数字视频和AI领域世界级科学家,曾任百度总裁,发明多项图像视频压缩传输技术被国际标准采用[11][12] - 孙茂松:主持国家973项目、国家社科基金重大项目等20余项科研项目[15] - 王仲远:发表国际顶级学术会议及期刊论文100余篇,获得ICDE 2015最佳论文奖,研究兴趣包括大模型、多模态等[19] - 王颖:现任百度集团副总裁,负责百度文库、百度网盘等重点业务的产品创新和落地[23][24] - 何晓冬:发表论文200余篇,被引用6万余次,带领团队打造京东JoyAI大模型并应用于零售、物流、金融、健康等行业[28][29] - 韩旭:文远知行创始人,带领公司在全球11国超30城开展自动驾驶研发测试运营,并于2024年登陆纳斯达克[33][34] - Daniel Povey:小米集团首席语音科学家,著名开源语音识别工具Kaldi提出者,谷歌学术引用近52000次[38] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一[42][43][46] - 尤洋:潞晨科技创始人,曾获ACM-IEEE CS George Michael Memorial HPC Fellowship,曾任职谷歌、微软、英伟达等公司[48] - 杨帆:商汤科技大装置战略业务负责人,主导推动身份验证、娱乐、安防等核心业务规模化商业落地[51][52] - 万卫星:高通公司AI产品技术中国区负责人,负责高通智能终端侧人工智能引擎软硬件规划及生态系统建设[54][55] - 陈晓建:亚马逊云科技大中华区产品部总经理,负责云服务在大中华区落地、产品管理及业务拓展[58][59] - 朱宁:研究涵盖行为金融学、中国宏观经济等领域,所著《刚性泡沫》等畅销书被译为多国语言[62][63] - 赵俊博:首创数据库大模型TableGPT,参与过PyTorch早期研发,师从图灵奖得主Yann LeCun[66] - 喻友平:提出“平台+应用+服务”大模型落地三级引擎战略,带领公司入选2025《财富》中国科技50强[69][70] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型,首倡“群体智能”理念推动AGI发展[73][74] - 乔梁:太初元碁联合创始人,曾主导计算生物、流体力学等AI4S前沿领域国产应用研发及成果转化[78][79] - 王潜:自变量机器人创始人,致力于研发由端到端大模型驱动的通用机器人[81][82] - 杜知恒:小宿科技联合创始人,曾在红杉中国对冲基金、高瓴资本、百度等企业从事投资、战略岗位[86][87] - 徐达峰:蚂蚁集团平台体验技术部负责人,致力于通过AI驱动的前端研发范式革新实现企业级研发效能突破[90][91] 大会发布内容 - 将发布2025人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[94] - 将发布2025年度AI十大趋势报告,结合技术成熟、落地现状、潜在价值等因素提名十大AI趋势并进行深入分析[95] 大会影响力 - 每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[98] - 已成为智能科技行业年度风向标,汇聚技术、产业、投资领域代表性企业和人物[98]
没有身体就没有AGI!Hillbot苏昊对谈千寻高阳:具身智能泡沫很大但进展真实
量子位· 2025-11-27 03:00
文章核心观点 - 具身智能是通往通用人工智能的必经之路,其本质与大语言模型无异,核心在于数据规模的扩展[2][3][4] - 行业正处于“全民做科研”的泡沫与真实进展并存阶段,技术突破是连续过程,机器人具身模型的GPT-3.5时刻预计在2-3年内到来[31][33][38][41] - 中国在具身智能领域具备硬件与软件协同设计、供应链效率和现实世界数据采集的显著结构性优势[25][26][27][30] 具身智能的战略重要性 - 具身智能是实现通用物理智能和通用智能的关键出口,缺乏身体则无法验证认知和改变世界[2][16][19] - 无论是虚拟智能体还是物理机器人,与环境的交互和经验学习是获得通用能力的必不可少环节[21][23] - 科学发现和拓展人类生存空间等宏大目标,均需具身智能实现感知与交互的配合[19] 技术路径与突破预期 - 技术路径借鉴大语言模型的成功经验,核心是解决预训练问题,让模型具备先验知识[39][40] - 世界模型是技术框架的重要组成部分,旨在建立对物理世界常识的表征,视觉-语言-动作架构需要其支撑[34][36] - 下一个突破是模型听话程度和完成多样化物理行为能力的连续提升,最终能串联复杂任务[40][41] - 机器人具身模型的GPT-3.5时刻预计还需2-3年,GPT-4时刻则需更长时间[41] 中美竞争与中国优势 - 中美在顶尖技术层面差距不大,美国在人才绝对数量和资本对“世界第一”量级的投入上具有优势[24][25] - 中国的核心优势在于硬件和软件的协同设计能力、供应链效率以及现实世界数据采集的迭代速度[25][26][27] - 硬件迭代周期在中国可比美国快3-10倍,配件获取速度以天为单位,而美国需周以上[25][26] - 中国全社会对具身智能的投入度和决心更强,且在该领域“没有退路”,必须持续支持[30] 行业现状与挑战 - 当前AI行业处于“全民做科研”状态,因问题宏大,资本和研究力量过早介入导致泡沫与真实进展并存[31][33] - 具身智能发展的最短板是数据,其瓶颈与大语言模型的电力瓶颈不同[27] - 芯片供应,特别是端上芯片,是中国面临的一个明确挑战[30]
NeurIPS 2025奖项出炉,Qwen获最佳论文,Faster R-CNN获时间检验奖
机器之心· 2025-11-27 03:00
NeurIPS 2025 会议概况 - 会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN》获得时间检验奖 [2] - 《Random synaptic feedback weights support error backpropagation for deep learning》获得Sejnowski-Hinton奖 [3] 最佳论文奖核心研究 - 论文《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》提出Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [5][6] - 研究揭示了语言模型在开放式生成中存在人工蜂群思维效应,包括模型内重复和模型间同质化 [6] - Infinity-Chat包含31,250条人工标注,每个样本有25位独立标注者参与 [8] - 论文为理解语言模型多样性、价值多元与社会影响做出重要贡献 [9] - 论文《Gated Attention for Large Language Models》首次系统分析注意力门控对大模型性能的影响 [12] - 研究证明门控机制通过增强注意力机制的非线性和提供输入相关稀疏性来提升性能 [12] - 门控机制能消除注意力池和巨量激活现象,提高训练稳定性并减少损失波动 [16] - 该方法已成功应用于Qwen3-Next模型,并在各尺寸架构上验证有效性 [16] - 论文《1000 Layer Networks for Self-Supervised RL》证明将网络深度增加到1024层可显著提升自监督强化学习性能 [18] - 在无监督目标条件设定下,该方法在对比式RL算法上将性能提升2×–50× [18] - 增加模型深度不仅提升成功率,还会在质量上改变学到的行为 [18] - 论文《Why Diffusion Models Don't Memorize》揭示了训练动力学中存在隐式动态正则化 [20] - 研究发现随着训练集大小N线性增长,模型泛化时间窗口变宽 [20] - 只有当N超过与模型相关的阈值时,过拟合才会在无限训练时间极限下消失 [20] 最佳论文亚军研究 - 论文《Optimal Mistake Bounds for Transductive Online Learning》解决了长达30年的公开难题 [30] - 研究精确刻画了传导式在线学习的最优错误上界为Ω(√d),并给出与之匹配的O(√d)上界 [30] - 这一结论确立了传导式在线学习与标准在线学习之间存在二次量级差距 [30] - 论文《Superposition Yields Robust Neural Scaling》论证表征叠加是支配神经网络缩放定律的主要机制 [33] - 研究不再停留在现象描述,而是为缩放定律提供了新的机制性洞见 [33] 时间检验奖研究 - 《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文已被引用超过56,700次 [40] - 该论文是第一个用完全可学习的两阶段pipeline取代selective search和手工设计候选框的方法 [41] - 实现了极高精度与接近实时(5 FPS)检测的统一,使目标检测模型得以真正部署到实际应用中 [40] Sejnowski-Hinton奖研究 - 获奖论文《Random synaptic feedback weights support error backpropagation for deep learning》提出了著名的反馈对齐机制 [46] - 研究证明多层网络可在无需对称反馈权重下有效学习,前向权重会自然与随机反馈信号对齐 [46] - 这项工作帮助建立了生物可行学习规则的全新研究方向 [47]
即将开课!面向量产的端到端小班课,上岸高阶算法岗位~
自动驾驶之心· 2025-11-27 00:04
课程核心定位 - 课程聚焦于自动驾驶领域端到端技术的量产化实战应用,旨在解决行业量产人才稀缺的问题 [1] - 课程设计历时三个月,内容涵盖从模型优化、场景优化、数据优化到下游规划兜底的全栈技能 [1] - 课程由自动驾驶之心联合工业界算法专家开设,重点为面向就业直击落地,目前仅剩35个招生名额 [3][5] 核心算法与技术内容 - 课程涉及的核心算法包括一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习等 [3] - 技术组合涵盖扩散模型+强化学习、自回归+强化学习、时空联合规划等前沿方法 [3] - 课程最后将分享实际的量产经验,帮助学员构建完整的量产优化知识体系 [3] 讲师背景 - 讲师王路拥有C9本科和QS50 PhD学历,已发表多篇CCF-A和CCF-B论文 [6] - 现任国内顶级tier1公司算法专家,从事大模型、世界模型等前沿算法的预研和量产工作 [6] - 所研发算法已成功落地并量产,拥有丰富的端到端算法研发和实战经验 [6] 课程大纲详解 - 第一章介绍主流感知模型一体化架构和经典规控learning化方案,以及开源数据集和评测方式 [9] - 第二章讲解两段式端到端算法框架,包括建模方式、感知与PNC信息传递,并通过PLUTO算法实战 [10] - 第三章深入一段式端到端框架,涵盖基于VLA和diffusion的方法,重点学习VAD系列 [11] - 第四章专注导航信息的量产应用,包括导航地图格式、编码嵌入方式及能力发挥 [12] - 第五章从模仿学习过渡到强化学习,重点介绍RL算法及其训练策略以解决corner-case场景 [13] - 第六章进行nn planner项目实战,结合模仿学习与强化学习,重点讲解扩散模型和自回归算法 [14] - 第七章介绍时空联合规划等轨迹平滑优化算法,作为模型直出的兜底方案确保轨迹稳定可靠 [15] - 第八章从数据、模型、场景、规则多视角分享量产经验,提升系统能力边界 [16] 课程安排与学员要求 - 课程于11月30日开课,预计三个月结课,采用离线视频教学加VIP群答疑模式 [17] - 学员需自备GPU,推荐算力在4090及以上,并具备BEV感知、视觉Transformer等算法基础 [18] - 要求掌握强化学习、扩散模型理论基础,熟悉Python、PyTorch及mmdet3d算法框架 [18] - 需要一定的高等数学、线性代数和矩阵论基础,课程按周解锁章节,持续至次年2月底 [19]
具身智能之心技术交流群成立了!
具身智能之心· 2025-11-26 10:00
社群成立与目标 - 具身智能之心技术交流群正式成立,旨在促进相关技术领域的交流与合作 [1] - 社群主要关注方向包括视觉语言导航、遥操作、扩散策略、强化学习、多模态大模型等前沿技术领域 [1] 社群加入方式 - 感兴趣者可通过添加指定助理微信账号申请加入社群 [2] - 申请入群需按要求备注个人机构、姓名及研究方向信息以加速审核流程 [3]
观众抢位中!锁定MEET2026,让我们畅聊AI|最新嘉宾阵容
量子位· 2025-11-26 09:33
大会概况 - 大会主题为"共生无界,智启未来",关注AI技术穿透产业、学科与场景边界[2] - 聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术话题[3] - 涵盖学术前沿与商业落地的最新碰撞,包括Infra、模型、产品产业的技术成果[4] - 预计吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[98] 嘉宾阵容 - 张亚勤院士为数字视频和AI领域世界级科学家,曾任百度总裁,拥有多项国际标准技术专利[11][12] - 孙茂松担任清华大学人工智能研究院常务副院长,主持国家973项目、国家社科基金重大项目等20余项科研项目[15] - 王仲远博士为北京智源人工智能研究院院长,发表论文100余篇,获得ICDE 2015最佳论文奖,专注大模型、多模态研究[19] - 何晓冬博士为IEEE Fellow,京东集团高级副总裁,发表论文200余篇被引用6万余次,主导打造JoyAI大模型[28][29] - 韩旭创立文远知行,带领公司在全球11国超30城开展自动驾驶运营,2024年登陆纳斯达克成为"全球Robotaxi第一股"[33][34] - Daniel Povey为小米首席语音科学家,开发开源语音识别工具Kaldi,谷歌学术引用近52000次[38] - 方汉拥有31年互联网经验,为中文Linux奠基人之一,参与创立昆仑万维[42][43] - 尤洋为潞晨科技创始人,高性能计算领域谷歌学术引用最高博士毕业生,曾任职谷歌、英伟达等企业[48] - 杨帆主导商汤科技大装置战略业务规划,推动AI专用计算中心建设,担任工信部人工智能专家库专家[51][52] - 赵俊博首创数据库大模型TableGPT,参与PyTorch早期研发,师从图灵奖得主Yann LeCun[66] 行业趋势与成果发布 - 大会将发布人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[94] - 发布年度AI十大趋势报告,深入分析技术成熟度、落地现状和潜在价值[95] - 报告将提名代表机构和最佳案例,聚焦释放巨大潜力的AI趋势[95]
llya最新判断:Scaling Laws逼近极限,AI暴力美学终结
36氪· 2025-11-26 08:46
AI行业技术路径转向 - 规模化法则正在接近极限,强化学习的算力消耗巨大但并不能算作真正的扩展,扩展与浪费算力之间的界线变得模糊[1] - 行业正在从"规模驱动"重新回到"研究驱动",科研需要正确的问题和新的方法而非绝对最多的算力[2] - 预训练提供了一套可复用配方:准备足够的数据、算力和能撑住规模的模型结构,性能就会持续上升,但预训练终究会耗尽数据[27] 模型性能与泛化能力 - 当前模型在评估中表现出色但经济影响滞后,存在评估性能与实际现实世界性能之间的脱节[11] - 模型更像投入一万小时练习的算法竞赛选手,虽然训练良好但未必能推广到其他领域[14][15] - 人类学习速度快不是因为预装大量知识,而是因为进化内置了强大的通用学习机制[3][33] - 人类样本效率高的可能解释是进化赋予了我们少量但最有用的信息,对于视觉、听觉和运动能力有强大的先验[33] 公司战略与竞争格局 - 即使创新放缓,各公司依旧会取得显著进展并获得高额收入,差异化可能变得更难但"停滞"并不意味着"衰落"[2] - 规模化扼杀了所有创新空间,导致每个人都开始做同样的事情,公司数量远超创意数量[39] - SSI已经筹集了30亿美元,真正区别在于算力使用方式而非绝对规模,资源需要集中投入重要方向[42][44] - 随着人工智能能力提升,公司在战略协调方面会趋同,OpenAI和Anthropic已经在AI安全方面合作[63][78] 超级智能与社会影响 - 当AI足够强时,许多今天不存在的社会行为会出现,可能带来"全民高收入"并极大提升生产力[3][70] - 真正的风险在于人类可能逐渐从参与者变成旁观者,保持主体性的答案是与AI建立更深层耦合[3][71] - 超级智能最令人担忧的不是意图而是力量,即便目标是善意的,人类仍可能不喜欢实现目标的方式[3][67] - 如果模型被限定在某些领域,它们一样可以极其强大,可以拥有许多功能狭窄的超级智能[3][80] 技术方法与研究重点 - 价值函数能够提高强化学习效率,让系统在中途就能发出预警而不是等到终局才知道失败[22][31] - 预训练的主要优势是数据量庞大且无需费心考虑应该使用哪些数据,试图捕捉人们将世界投射到文本的过程[16] - 研究品味来自对简单而清晰信念的坚持,人工智能应该符合大脑的本质结构但要以正确方式理解大脑[4] - 自博弈提供了一种仅使用计算资源而无需数据即可创建模型的方法,如果数据是最终瓶颈则非常有趣[83] 学习机制与进化启示 - 人类的价值判断情感是演化出来的底层代码,这种情感关键点是社会中正常运转的基石[24] - 进化赋予了我们高度抽象的社交欲望,让我们强烈在意别人看法并渴望获得社会认可,尽管这些现象从进化时间尺度看极其新近[72] - 人类具备一种对"好"与"坏"的内在感知能力,这种普遍感知在人类身上极其强大且稳定可靠[36] - 五岁孩子接触到的信息量非常有限,但认知能力已经足以胜任某些工作,表明人类拥有强大的通用学习机制[33]
抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI
量子位· 2025-11-25 09:32
大会概况 - 大会主题为“共生无界,智启未来”,关注AI技术穿透产业、学科与场景边界的核心动能 [3] - 会议将探讨强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题 [4] - 内容涵盖学术前沿与商业落地的最新碰撞,以及来自Infra、模型、产品产业的领先技术成果 [5] - 大会将权威发布人工智能年度榜单与年度AI趋势报告 [6][102] - 预计吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [107] 参会嘉宾阵容 - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,曾任百度总裁,数字视频和AI领域世界级科学家 [12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,主持多项国家级科研项目 [17] - 王仲远:北京智源人工智能研究院院长,曾任职快手、美团、Facebook,发表顶级会议论文100余篇 [21][22][23] - 王颖:百度集团副总裁,负责文库事业部、网盘事业部等重点业务 [26] - 何晓冬:京东集团高级副总裁,IEEE Fellow,发表论文200余篇被引用6万余次 [30] - 韩旭:文远知行创始人兼CEO,带领公司登陆纳斯达克和港交所,成为全球Robotaxi第一股 [35][36] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,Kaldi之父,论文引用近52000次 [40] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网经验,中文Linux奠基人之一 [44][45] - 尤洋:潞晨科技创始人,新加坡国立大学校长青年教授,曾任职谷歌、微软、英伟达等企业 [48] - 杨帆:商汤科技联合创始人,负责大装置战略业务规划与AI基础设施建设 [53][54] - 万卫星:高通公司AI产品技术中国区负责人,负责终端侧AI引擎软硬件规划 [58][59] - 陈晓建:亚马逊云科技大中华区产品部总经理,拥有超过20年企业级业务经验 [63][64] - 朱宁:上海高级金融学院金融学教授,行为金融学专家,曾任职雷曼兄弟与野村证券 [67][68] - 赵俊博:浙江大学百人计划研究员,蚂蚁集团资深技术专家,师从图灵奖得主Yann LeCun [72] - 喻友平:中关村科金总裁,前百度智能云副总裁,提出大模型落地三级引擎战略 [75][76] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型 [80][81] - 乔梁:太初元碁联合创始人,清华大学计算机系博士,深耕高性能计算领域 [86][87] - 王潜:自变量机器人创始人,致力于研发端到端大模型驱动的通用机器人 [90][91] - 杜知恒:小宿科技联合创始人,曾任家办CIO、红杉中国对冲基金创始成员 [95][96] - 徐达峰:蚂蚁集团平台体验技术部负责人,致力于AI驱动的前端研发范式革新 [99][100] 大会发布内容 - 人工智能年度榜单将从公司、产品、人物三大维度评选五类奖项 [103] - 年度AI趋势报告将提名十大AI趋势,并分析各趋势的潜力、代表机构及最佳案例 [104] 会议基本信息 - 会议时间定于2025年12月10日,地点为北京金茂万丽酒店 [105] - 大会已开启观众报名通道,欢迎技术、产业、投资领域代表参与 [8][107]
刘芹:伟大的公司不是赢下一场战役,而是永不离场丨2025尾声
36氪· 2025-11-25 00:09
投资行业转型与心智挑战 - 投资行业从业者面临从模式创新向硬科技和生物医药等全新领域转型的心智挑战,需要克服知识空白和经验依赖 [9] - 五源资本在2015至2017年内部讨论进入生物医药领域时,知识储备和投资经验完全空白,但通过方法论泛化验证实现突破 [9][10] - 面对新范式时,个体易被过往成功或失败困住,而无限游戏心态强调持续学习与边界突破,将失败视为成长输入而非终点 [11][28] 中国创新周期与投资信心 - 中国正进入创新2.0繁荣周期,工程师红利取代人口红利,推动生物医药、新材料等领域涌现 [12][16] - 中国企业家的精神根植于千年文化韧性,如愚公移山等叙事,支撑其对复兴新周期的长期信心 [13] - 市场信号转变与企业家群体信心恢复形成共振,例如滴普科技完成IPO等案例印证乐观预期 [12] AI时代的生产力变革 - AI发展上半场聚焦模型与技术,下半场将深度结合消费行业,实现个体创造力与工业规模化的融合 [16][17] - 未来可能出现大量"一人公司"或"十人公司",通过AI调动资源实现数十亿至上千亿市值,形成个体级工业生产力 [17] - AI的价值最终体现在渗透各行业与个人生活,成为基础能力而非孤立技术 [17] 叙事能力与商业奇迹 - 人类独特能力在于构建共同叙事,如文明、金钱等虚构概念促成大规模协作,从金字塔到登月计划均依赖叙事动员 [19][20] - 企业家核心能力是构建世界观而非仅实现财报数字,NVIDIA通过并行计算叙事从十亿美金市值成长为AI技术底座 [21] - 中国"中华民族伟大复兴"叙事驱动跨行业协同,例如贵州花江峡谷大桥工程体现文明级动员能力 [20] 无限游戏与商业演化 - 有限游戏以赢得胜利为目标,无限游戏旨在持续进行,前者恐惧失败而后者将其转化为迭代信号 [24][28] - 基业长青企业如任天堂(从花札纸牌到电子游戏)和3M(跨越120年技术周期)均在无限游戏中持续扩展边界 [25][26] - 商业无限游戏本质是通过强化学习式迭代,将失败作为数据输入,推动组织在不确定环境中持续成长 [28][29]
最爱喝奶茶的AI科学家,要做最能懂你的“智能体”
36氪· 2025-11-24 08:02
公司与技术进展 - 清华大学与蚂蚁集团合作,于2025年5月开源首个异步强化学习训练框架AReaL-lite,旨在提升AI训练效率并减少GPU浪费[1] - 团队负责人吴翼强调创业心态,主张快速迭代、不怕踩坑,并认为从0到1的本质是创造资源而非等待条件完备[1][25] - AReaL团队采用极简组织形态,目前核心成员为6人,并通过算法与基础设施团队融合的全栈模式提升创新效率与战斗力[52][54][57] 技术方向与核心观点 - 强化学习被视为提升AI智能水平的关键,其特点是让AI在实践中自主学习,培养探索能力,优于需要人工持续指导的监督学习[6][33][34] - 智能体的未来发展方向是能够理解人类模糊意图、完成长程任务,并最终从数字世界走向物理世界,成为具身智能的“大脑”[4][12][41] - 实现具身智能需结合负责底层运动控制(如机器狗跑跳)的强化学习与负责长程推理规划、基于大模型预训练的强化学习,形成“大脑”与“小脑”的分层协作体系[36][38][42] 产品与市场展望 - AI产品将出现从用户主动驱动到AI提前预测并满足需求的根本性变化,最终形态可能是一个能服务“懒人”需求的全新产品[12] - 在AI时代,产品开发和组织形态可极度简化,小型团队借助AI工具可完成过去需多人协作的任务,并可能催生新的产品机会[50][51][52] - 多智能体系统可通过协作提升效率,例如在数字世界中由主智能体进行规划,其他智能体执行;在物理世界中多个机器人可沟通协作完成复杂任务如打扫房间[17][18][20] 研发方法论 - 创新不能依靠多点布局“赌一把”,而应基于深度思考与长期坚持,创业需要对所做的事情有坚信[4][26] - 强化学习训练框架的成功要素包括高质量的提示词、有效的搜索探索机制以及奖励模型,其中创造大量高质量的提示词被视为当前最重要的挑战[35] - 技术研发应避免算法与基础设施团队的严格分工,主张两者共同设计、协同演进,以保持对技术底层的感知和创新的自驱力[54][56][57]