大语言模型(LLMs)

搜索文档
港科大等提出LOVON:足式机器人开放世界全域目标追踪新范式!
具身智能之心· 2025-07-27 09:37
核心观点 - LOVON框架通过整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型,解决了足式机器人在动态非结构化环境中长程多目标导航的难题[4][6] - 该框架在仿真环境中成功率(SR)达1.00,训练效率比同类最优模型提升240倍(1.5小时vs 360小时)[19] - 具备"即插即用"特性,兼容Unitree Go2/B2/H1-2等主流机器人平台,在真实世界实现开放世界适配、多目标追踪等四大突破[21][24] 技术架构 三大核心模块 - LLM任务规划器:可拆解复杂指令为连续子任务(如"先跑向椅子,再靠近行人")并动态调整顺序[18] - 开放词汇视觉检测:识别范围从背包/盆栽到汽车/宠物等非预定义类别目标[18] - 语言-运动模型(L2MM):将文字指令直接转化为精确运动向量,实现"说走就走"的精准控制[18] 抗干扰设计 - 拉普拉斯方差滤波技术:通过清晰度特征分析过滤模糊帧,使有效检测帧比例提升25%[12] - 自适应执行逻辑:目标丢失时自动切换搜索模式,新指令可无缝衔接,外力干扰下快速重规划[15] 性能表现 仿真测试 - 在停车场/城市街道/雪地村庄等场景中: - 成功率(SR)1.00,超越EVT(0.94)和TrackVLA(1.00)[19] - 训练时间1.5小时,效率较TrackVLA(360小时)提升240倍[19] - 平均性能得分499.75,接近满分500[20] 真实场景 - 开放世界适配:可识别汽车至背包等不同尺寸目标[24] - 多目标追踪:连续完成"找椅子→找行人→找背包"任务无中断[24] - 动态鲁棒性:在螺旋楼梯/杂草丛等复杂地形稳定跟踪移动目标[24] - 抗干扰能力:目标移动或碰撞后能快速重新锁定[24] 应用价值 - 打破传统机器人导航的场景限制,推动家庭服务/工业巡检/野外科研等领域的实际应用[21][23] - 通过"通用框架+轻量化部署"设计理念,加速实验室技术向商业化落地转化[23]
港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!
机器之心· 2025-07-25 04:29
核心观点 - LOVON框架创新性地整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型,解决足式机器人在动态非结构化环境中长程目标导航的难题[2][5] - 该框架具备即插即用特性,兼容Unitree Go2、B2、H1-2等主流足式机器人平台,突破传统导航场景限制[2][19] - 在仿真与真实环境中均实现性能突破,如仿真成功率1.00(EVT为0.94),训练效率提升240倍[18] 技术架构 三大核心模块 - **LLM任务规划器**:分解长视野任务为子任务并动态调整顺序,例如“先跑向椅子再靠近行人”[16] - **开放词汇视觉检测**:识别从背包、盆栽到汽车、宠物等开放类别目标,适配多样化场景[16] - **语言-运动模型(L2MM)**:将指令直接转化为运动向量,实现精准速度与方向控制[16] 抗干扰视觉处理 - 采用拉普拉斯方差滤波技术过滤模糊图像帧,配合滑动平均滤波提升有效检测帧比例25%[11][12] 自适应执行逻辑 - 目标丢失时自动切换至搜索模式,新指令无缝衔接,外力干扰后快速重规划路径[14][15] 性能表现 仿真环境 - GymUnreal场景中成功率1.00(EVT为0.94),训练时间仅1.5小时(TrackVLA需360小时)[18] 真实世界 - **开放世界适配**:识别大小形态各异目标并在陌生环境快速适应[23] - **多目标长程追踪**:流畅执行“找椅子→找行人→找背包”等复杂任务链[23] - **动态环境鲁棒性**:在螺旋楼梯、杂草丛等复杂地形稳定跟踪移动目标[23] - **抗干扰能力**:目标移动或碰撞后快速重新锁定[23] 应用前景 - 覆盖家庭服务、工业巡检、野外科研等领域,推动足式机器人从实验室走向实际应用[21] - 通用框架设计加速技术落地,有望成为智能服务变革的关键技术[21]
让 VLMs 更适配机器人:小型VLMs也能展现出强大的视觉规划能力
具身智能之心· 2025-07-15 13:49
研究背景 - 大语言模型(LLMs)在机器人程序规划中展现出潜力,能生成符合人类直觉的分步动作序列,但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型(VLMs)为生成更具感知接地性的计划提供可能,但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当,可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架,通过迭代自我批判和自我改进提升小型VLMs(3B-72B参数)的视觉语言程序规划能力[4] - 框架基于自蒸馏原则,无需外部监督或教师模型,通过三阶段循环(批判-修订-验证)优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型,在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集(100个真实场景)和修改后的MFE-ETP仿真数据集(100个虚拟场景)[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度,采用GPT-4o作为自动评估器,与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%,完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%,优化轮次增加使胜率从75-78%升至81%,多数改进出现在前2-3轮[16] - 相较best-of-N方法,SelfReVision在多数设置中提升60%,12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中,Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中,SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%,高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强,消融实验中Verify步骤被证明对过滤次优修订至关重要(PLACES数据集胜率差9 3%)[18][19] - 推理成本较高,平均每个样本需8个推理步骤,可能影响实时应用[22] - 当前仅整合视觉输入,未利用机器人本体感受等多模态信息,限制场景适应性[22]
中金:如何利用大模型实时预测宏观经济指标?
中金点睛· 2025-07-09 23:59
宏观数据实时预测方法 - 宏观经济指标存在滞后性,需通过实时预测模型捕捉变化 [1][7] - 三种常用实时预测方法:高频数据拆分、自回归模型(SARIMAX)、大语言模型(LLMs)文本解析 [2][8][15] - 高频数据拆分方法(如GDPNow)可解释性强但需定制化建模,易过拟合 [9] - SARIMAX模型通过历史数据自相关性和季节性参数预测,适合平稳序列 [10][12] - LLMs通过解析非结构化文本(研报、新闻)生成预测,突破结构化数据局限 [3][15] 自回归模型(SARIMAX)应用 - 自回归模型对CPI环比、新增人民币贷款等指标预测效果有限 [4][27] - 春节效应需作为外生变量处理,以修正1-2月数据失真 [20][26] - 适用条件:指标需满足平稳性(均值/方差稳定)、趋势性弱 [30] - 与上期相关性≥0.8的指标可直接沿用历史数据,无需建模 [23][27] 大语言模型(LLMs)预测效果 - LLMs对新增人民币贷款预测相关性从-0.1提升至0.9,显著优于自回归 [5][35] - 出口金额同比预测效果从0.37提升至0.72,贸易差额从0.55提升至0.76 [5][35] - 研报标题比内容向量(chunk)更有效,因内容匹配质量不稳定 [36][37] - 极值捕捉较平滑,但非极值趋势预测准确度高 [38] 方法对比与实施流程 - 优先级:高相关性指标沿用历史→平稳指标用SARIMAX→复杂指标用LLMs [24][45] - SARIMAX计算复杂度低,但依赖数据平稳性;LLMs适应性更强但存在随机性 [12][45] - 测试区间为2014-2025年月频数据,覆盖工业增加值、社零、贸易差额等12项指标 [18][19]
告别盲选LLM!ICML 2025新研究解释大模型选择的「玄学」
机器之心· 2025-07-04 08:59
大语言模型选型挑战 - 开源LLM数量激增(如LLaMA、Falcon、Mistral、DeepSeek),导致特定下游任务选型困难[4] - 传统选型方法计算资源消耗大且泛化能力不足,存在高度不确定性[4] LensLLM理论框架 - 基于PAC-贝叶斯泛化界限,首次揭示LLM微调中测试损失随训练数据量的"相变"动力学[6][11] - 提出双相演进理论:预幂律相(Hessian值高、参数敏感)和幂律相(Hessian值低、稳定性强)[16] - 数学公式量化性能与数据量关系:$L(f_{\hat{w}})\leq(1+\epsilon)\hat{L}(f_{\hat{w}})+C_{3}n^{-\beta_{3}}+O(n^{-\frac{3}{4}})$[10] LensLLM技术优势 - 引入NTK(神经正切核)增强型修正缩放模型,精准捕捉Transformer微调动态[15] - 在三大数据集(FLAN/Wikitext/Gigaword)上RMSE显著低于基准模型: - Wikitext上OPT-6.7B误差0.026 vs 基准0.132(5倍差距)[18] - FLAN数据集误差0.022-0.035 vs 基准0.087-0.15[18] - 计算成本降低88.5%,仅需0.48-0.97×10^21 FLOPs[23] 性能验证 - Gigaword数据集选型准确率91.1%,Pearson相关系数85.8%[21] - Pareto最优曲线显示LensLLM在低FLOPs下保持高相关性[25] - 覆盖14种架构(如OPT/T5/mT5/GPT-2等),误差带更窄[19][20] 应用前景 - 边缘设备部署:快速筛选资源受限场景最优模型[31] - 加速A/B测试周期,降低模型迭代成本[31] - 扩展至多任务场景及MoE架构研究[27]
ChatGPT越用人越傻?
虎嗅APP· 2025-06-25 15:06
实验设计与参与者 - 实验由麻省理工学院媒体实验室研究科学家Nataliya Kosmyna团队统筹,共有54名来自哈佛、MIT、塔夫茨的大学生参与[3] - 参与者被分为三组:AI组(仅使用GPT-4o)、搜索引擎组(仅使用Google搜索)、大脑组(完全自主写作)[6] - 每人需完成三轮写作,每轮20分钟,题目包括SAT写作真题如"成就必须惠及他人才能带来幸福吗?"等[6] 脑电波监测结果 - EEG数据显示大脑组在所有波段(Alpha、Theta、Beta、Delta)活跃度最高,反映主动构思和组织能力[10] - 搜索引擎组脑电波活跃度中等,集中于视觉区和任务切换时的调动[10] - AI组脑电波整体偏弱,Alpha波(信息抑制)和Theta波(工作记忆)最低,反映认知参与度下降[10][11] 写作质量评估 - 真人英语教师评价AI辅助完成的文章语法完美但观点"空洞",更青睐有个性、思辨性的文章[8] - 搜索引擎组学生能清楚标注引用来源,文章结构清晰且融入个人经历,满意度最高[14] - 大脑组学生虽写作过程较慢,但拥有最扎实的写作体验,对内容记忆最清晰[15][16][17] 第四轮分组交换结果 - 从AI组切换到大脑组的学生普遍出现大脑反应变慢、认知能力下降的情况[21] - 其文本呈现高度模板化特征,对文章记忆准确率和归属感评分最低[22] - 原大脑组学生首次使用GPT-4o后,Theta/Alpha/Beta波全线飙升,文章信息密度提升且评分最高[24] 研究核心发现 - 实验首次量化了AI辅助写作对认知能力的影响,提出"认知负债"概念:长期依赖AI可能导致批判性思维退化[8] - 研究强调AI工具的使用方式决定影响:被动依赖会降低神经活跃度,而主动整合能增强认知能力[24] - 论文《Your Brain on ChatGPT》发表于arXiv平台,引发关于LLM对人类认知影响的广泛讨论[24][25]
Andrej Karpathy 爆火演讲刷屏技术圈:AI 开启软件 3.0,重写一切的时代来了!
AI前线· 2025-06-19 08:10
编程范式演进 - 软件1 0时代以传统代码为主 需要人工编写精确指令 [16] - 软件2 0时代以神经网络权重为核心 通过数据集训练生成参数 [8][16] - 软件3 0时代以自然语言编程为特征 大模型直接理解语义指令 [17][19][21] 技术栈变革趋势 - 特斯拉自动驾驶系统中软件2 0逐步替代1 0代码 删除大量C++逻辑模块 [24] - 开发者需掌握三种编程范式混合应用能力 根据场景选择最佳实现方式 [25] - GitHub等平台正在演变为新型代码托管形态 Hugging Face成为软件2 0时代的GitHub [11] LLM基础设施特性 - LLM具备公共事业属性 实验室通过API按token计费提供服务 类似电力网络 [31] - 训练LLM需要巨额资本支出 技术壁垒快速集中 类似半导体晶圆厂模式 [38] - 开源与闭源生态并行发展 LLaMA可能成为LLM时代的Linux系统 [42] 人机交互革命 - 自然语言编程彻底降低技术门槛 实现全民可编程 [136][140] - Vibe Coding成为新一代开发者的入门方式 通过自然语言快速构建应用 [141][146] - 文档体系需适配LLM阅读 如Vercel将操作指南改为curl命令格式 [152][157] 应用开发新范式 - 部分自主应用成为主流 需设计自主滑块调节AI参与度 [98][137] - Cursor等工具展示典型特征:上下文管理 多模型编排 专用GUI界面 [96][97] - 生成-验证循环效率是关键 需优化可视化审阅与操作范围控制 [110][112] 行业发展阶段 - 当前LLM发展相当于1960年代计算水平 集中式云端服务为主 [51][56] - 技术扩散路径反转 个人用户早于政府企业采用创新技术 [63][64] - Agent发展需长期演进 激进的全自动化方案存在风险 [131][135]
陈岱孙经济学纪念讲座报名丨熊伟:结构化信念与基金投资
搜狐财经· 2025-06-17 08:25
讲座背景 - 陈岱孙经济学系列纪念讲座设立于2011年,旨在纪念著名经济学家陈岱孙先生并推动经济学术研究与中外交流 [1] 讲座安排 - 主题:结构化信念与基金投资(Structured Beliefs and Fund Investment) [2] - 时间:2025年6月20日14:00-15:30 [2] - 地点:清华大学建华楼A503 [2] - 主办单位:清华大学经济管理学院金融系、清华大学全球共同发展研究院 [2] - 讲座语言:英文PPT配合中文讲解 [11] 主讲嘉宾 - 熊伟现任普林斯顿大学经济系及本德海姆金融中心金融学兼经济学讲席教授 [4][6] - 兼任香港中文大学(深圳)经管学院学术院长及美国国家经济研究局研究员 [4][6] - 研究领域:资本市场不完全性、行为金融学、数字经济及中国经济 [4][6] - 学术荣誉:2018年中国经济学奖、2014年孙冶方金融创新奖、2023年计量经济学会会士等 [4][6] - 教育背景:杜克大学金融学博士、哥伦比亚大学物理学硕士、中国科学技术大学物理学学士 [5][6] 研究内容 - 基于中国公募基金强制披露的季度展望报告,利用大语言模型(LLMs)分析基金经理对政府政策缓解经济冲击的认知 [7][9] - 构建"逆周期政策信念"指标(CCP),量化基金对政策抵消经济冲击的预期 [7][9] - 实证发现:基金经理的市场信念对市场收益率具有正向预测能力,CCP信念可增强预测效果并提升基金业绩 [8][9] 参与方式 - 面向清华师生开放,经管学生通过教学项目报名,其他院系需邮件提交个人信息至指定邮箱 [10] - 报名截止日期:2025年6月19日12:00 [10]
「Next-Token」范式改变!刚刚,强化学习预训练来了
机器之心· 2025-06-11 03:54
核心观点 - 强化学习(RL)在AI模型预训练阶段展现出突破性潜力,微软研究提出的「强化预训练(RPT)」新范式将传统next-token预测任务重构为推理任务,通过可验证的内在奖励提升模型性能 [6][9][24] - RPT通过利用海量无标注文本数据实现通用强化学习,显著提升语言建模准确性和推理能力,同时规避reward hacking风险 [26][28][29][30] - 实验表明RPT-14B模型在next-token预测准确率、零样本性能及下游任务微调效果上均超越基线模型,甚至媲美更大规模模型 [40][42][43][49][50] 技术范式创新 - **任务重构**:将next-token预测转化为推理过程,模型通过比对语料真实token获得内在奖励,无需外部标注 [25][32] - **可扩展性**:直接利用现有预训练语料库,将其转化为强化学习训练资源,支持长思维链推理(如自我修正) [28][33][34] - **训练机制**:采用on-policy强化学习,生成多组思维轨迹并通过前缀匹配奖励验证,分配更多计算资源于推理步骤 [35][37][31] 实验性能表现 - **语言建模**:RPT-14B在Easy/Medium/Hard难度测试集上next-token准确率分别达45.11%/33.56%/23.75%,全面超越基线模型Qwen2.5-14B和R1-Distill-Qwen-14B [42] - **Scaling特性**:预测准确率随训练计算量增加持续提升,高R2值验证性能增长趋势稳定 [45] - **下游任务**:经RPT预训练的模型在RLVR微调后性能上限提升至58.3,显著高于基线模型的52.7 [47][48] - **零样本能力**:在SuperGLUE和MMLU-Pro基准测试中,RPT-14B分别以39.0和71.1的分数超越32B大模型 [50] 行业影响 - **突破限制**:解决传统RL依赖人类反馈数据(高成本)和RLVR数据稀缺的问题,实现通用预训练与强化学习的结合 [22][23][24] - **效率提升**:通过推理过程直接优化token预测准确性,模型在相同参数量下性能可比拟更大规模模型 [43][49] - **潜在应用**:特别适用于需复杂推理的领域(如数学解题),模型表现出结构化问题解决能力 [51][53]
Redis 之父亲证:人类程序员仍力压 LLM!网友锐评:那是你没见过平庸码农被 AI 吊打的样子
程序员的那些事· 2025-05-30 07:10
AI与程序员能力对比 - 核心观点:人类程序员在复杂问题解决和创造性思维方面仍显著优于大语言模型(LLMs),AI当前主要作为辅助工具而非替代品[2][3][10] - Redis之父antirez通过修复HNSW图结构双向连接校验的案例,展示人类能提出LLM无法自主生成的优化方案(如异或累加器检测算法),将2000万向量集的校验时间从90秒优化至可接受范围[5][7][8][10] - 行业专家普遍认为LLM的价值在于充当"智能伙伴",帮助验证想法和代码审查,但无法替代需求分析、社交协作等软件工程核心环节[13][14] 技术实现细节 - Redis向量集修复方案: - 常规方法时间复杂度达O(N²),导致2000万向量加载时间翻倍至90秒[5][7] - LLM(Gemini 2.5 PRO)仅能建议排序+二分查找等基础优化,无法突破性解决指针校验问题[7][8] - 人类提出创新方案: - 哈希表存储连接关系(A:B:X格式),利用memcpy替代snprintf提升效率[8] - 128位寄存器异或累加检测,配合murmur-128哈希函数降低碰撞风险至可接受水平[9][14] 行业观点碰撞 - 能力边界争议: - 顶尖程序员(如antirez)的创造性解决方案能力远超LLM,但平庸程序员可能被AI工具缩小差距[15] - 软件工程的社交属性(需求分析、客户沟通)是AI难以替代的核心竞争力[14] - 技术演进预期: - 当前LLM在代码生成文档等标准化任务中表现最佳,但无法预判未来2年技术突破后的格局[13][16] 典型案例参考 - 高性能编程领域人类优势显著:日本工程师的PowerPC汇编代码性能可超越编译器生成代码达数量级差异[15] - AI生成代码现存缺陷:存在生成3000+行无法运行代码的案例,反映逻辑连贯性不足的问题[16]