大语言模型(LLM)
搜索文档
上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述,LLM化身数据分析师,让数据自己「说话」
机器之心· 2025-10-27 10:40
行业技术演进背景 - 传统数据分析方法依赖人工编写SQL、Python脚本及手动解读数据,存在耦合度高、扩展性差的问题,难以应对动态多模态的复杂数据[2] - 大语言模型与智能体的出现将数据分析从“规则执行”推向“语义理解”,使机器能够解读数据内在逻辑与关系,灵活完成查询、建模与报告生成等多样化任务[2] - 研究团队总结出LLM/Agent技术在数据分析领域的核心演进方向,共同指向让数据分析从“规则系统”迈向“智能体系统”的目标[7] 技术综述核心内容 - 该综述系统回顾了大语言模型在数据分析领域的整体演进,提出了构建“通用数据分析智能体”的新范式[2][11] - 论文重点讨论结构化、半结构化、非结构化及异构数据上的关键技术与演化趋势[4] - 不同于以往聚焦单一任务或模态的研究,该综述首次从全模态与全流程视角系统梳理了LLM/Agent在数据分析领域的整体格局[11] 五大核心演进方向 - 从字面理解转向语义推理:模型能洞察语义、推理逻辑,真正“理解数据”而非只“看数据”[10] - 从封闭工具转向自由协作:模型能调用外部API与知识库,与各类工具协同完成复杂任务[10] - 从封闭数据转向开放域分析:针对无结构约束的数据进行分析,摆脱原有工具限制[10] - 从静态工作流转向动态生成:智能体可自动构建分析流程与管道,使数据处理更高效灵活[10] - 从人工Agent框架转向自动生成框架:智能体可智能构建为特定工作服务的智能体,更灵活实现Agent工作流[10] 结构化数据分析技术 - 关系型数据分析正由NL2SQL向多样化的NL2Code、ModelQA过渡,研究方向包括语义对齐与模式链接、多步分解与检索增强推理、端到端表格问答[9] - 图数据分析以NL2GQL为代表,研究重点在图查询生成、语义级图推理与代理式操作,逐步实现从代码级到语义级的自动理解与执行[9] 半结构化与非结构化数据分析技术 - 半结构化数据的标记语言理解技术路线从模板+规则驱动向基于LLM的数据抽取与查询转变,强调树结构建模、层级编码、工具增强等[12] - 非结构化文档理解从OCR模板式向VLM转变,任务包括版面识别、RAG检索问答、摘要生成与多文档推理[12] - 图表理解将图像解析与自然语言推理结合,支持描述生成、问答与可视化推理[12] 异构数据与未来挑战 - 异构数据分析涉及跨模态整合多源数据湖,支撑统一语义查询与多模态推理,主要子任务包括模态对齐、自然语言检索接口、异构分析智能体[12] - 该领域未来挑战集中在可扩展性、评估体系与实际落地等方面,旨在推动通用数据分析智能体的发展与应用[4][11]
LeCun怒揭机器人最大骗局,坦白Llama与我无瓜
36氪· 2025-10-26 09:22
人形机器人行业现状与挑战 - 行业面临从特定任务训练到通用智能的鸿沟,家用机器人实现叠衣服、倒水等任务仍需AI领域取得一系列突破[1] - 行业秘密在于公司尚不知晓如何让机器人变得足够聪明以达到实用级别[21] - 人形机器人拥有40个自由度,可能产生的位姿组合数量超过宇宙原子总数,该问题无法通过编程解决,唯一途径是神经网络[25] 技术路径分歧:世界模型与LLM - Meta首席AI科学家Yann LeCun认为突破核心在于打造可规划的世界模型架构,以学习理解和预测物理世界系统[1] - LeCun指出大语言模型是一条死胡同,仅靠文本训练无法实现人类水平智能,智能源于视觉、听觉、触觉等多模态经验[15] - 四岁儿童通过视觉接收的数据量已相当于所有公开文本训练的最大规模LLM的数据量[15] - LeCun预测未来3-5年内,世界模型会成为AI架构的主流模型,届时头脑清醒的人都不会再用生成式LLM的路子[20] 主要公司动态与战略 - **特斯拉**:公司内部对于如何快速实现通用人形机器人已有非常明确的思路[1];正建设年产百万台Optimus机器人的生产线,目标2026年初推出具备量产意向的V3原型机[26];其神经世界模拟器能够基于当前状态与后续动作直接合成未来状态,该架构将无缝迁移至Optimus机器人[28][31] - **Figure AI**:公司CEO宣称明年就能实现通过语音指令让人形机器人在陌生环境完成各类通用工作[23];强调其机器人所有操作都由神经网络驱动,否认某些公开演示仅为戏剧表演或预设程序[25] - **1X Technologies**:公司发布自研世界模型,该模型允许从相同初始条件出发并行部署不同策略进行直接对比[35][37];公司CEO坦言让机器人进入家庭存在理想与现实的落差,现实环境复杂得离谱[37] 世界模型技术架构 - 世界模型定义为给到时刻t的世界状态及智能体可能动作,以预测动作执行后的环境[16] - 系统配备世界模型后可进行规划,设想连续动作并预测结果,结合代价函数评估任务完成情况,运用优化方法搜索最优动作序列[18] - 环境动力学模型完全通过自监督学习,机器人无需针对特定任务反复训练,能从模拟数据或真实操作中学习动作-结果关系,零样本完成新任务[18][19] - 1X世界模型包含视觉编码器、动作编码器、核心网络及视频与状态价值解码器,通过对成功标签进行监督学习生成的状态价值预测可量化评估输入动作质量[35]
5年内再现巴菲特传奇?AI能否成为投资“神手”
日经中文网· 2025-10-25 00:33
AI在资产管理行业的应用现状 - 总部位于加利福尼亚州的Voleon Group是一家专门采用量化策略的对冲基金公司,管理着160亿美元资产,自2007年由两名机器学习研究人员创立以来,一直作为AI投资领域的先驱而闻名[4] - Voleon每天买卖多达约5000只股票及债券、货币等,没有人类参与操作,除股价、买卖数据、财务状况、分析师报告外,AI还学习新闻报道、产品信息乃至线上商店购买记录,从这些数据中找出与股价的相关性并自动判断买卖操作[5] - 自2020年以来,该公司每年保持近两位数的总回报率,2024年全年实现了与标普500指数相同的回报率[5] AI投资决策的技术特点 - 在Voleon的AI交易中,两成处于接近黑箱的状态,即便专业人士也无法轻易解释投资决策的依据[2][7] - 公司首席投资官表示同时投资5000只股票的情况是人类无法做到的,在唯有AI才能做到的领域发现了潜力[2][7] - 随着AI进步,交易范围已从股票扩大至债券及货币[5] 大语言模型在投资分析中的应用 - 管理着280亿美元资产的对冲基金公司Balyasny Asset Management将日本央行总裁植田和男在记者会上说的每一句话导入自主AI,大约60秒就生成一份分析报告[7] - 日本银行总裁的记者会因解读难度高被戏称为"日银文学",而AI生成的报告能精准捕捉总裁发言的细微语气与深层含义,分析精度已经与年轻分析师相当[7] - 该公司首席经济学家表示多亏了技术,才能够为所有投资团队配置专属的'日本银行观察者'[7] AI投资的未来发展与潜在影响 - 研究金融与AI的美国麻省理工学院罗闻全教授表示5年内也许可以使用AI重现沃伦·巴菲特传奇[2][8] - 如果AI能够实现与人类相似的直觉能力,中长期推理的准确性将大幅提升,可能成为投资的神之手[8] - 随着AI普及,如果投资策略变得相似,AI自身可能会产生新的脆弱性,人类的干预将变得困难,市场可能像闪电崩盘一样暴跌,金融危机可能迅速加剧[8]
教全世界与AI对话的男人,正式加入DeepMind,提示工程封神
36氪· 2025-10-24 12:57
核心事件 - 提示工程师Riley Goodside官宣入职谷歌DeepMind [1] - Riley Goodside在2022年凭借与ChatGPT互动年入百万美金而闻名 [1][6] - 此次加盟受到DeepMind CEO Demis Hassabis和产品负责人Logan Kilpatrick的公开欢迎 [2][3] 职业背景 - Riley Goodside本科毕业于西宾夕法尼亚大学计算机科学专业 [8] - 其职业经历包括在Verisk Analytics、OkCupid、AngelList等公司担任业务分析师、数据科学家等数据相关职位 [8] - 此前在Scale AI的入职被其创始人兼CEO Alexandr Wang称为可能是人类史上首次招聘提示工程师 [9] 提示工程行业 - “提示工程师”这一职业因Riley Goodside等人在ChatGPT发布后迅速走红 [1][6] - ChatGPT的发布被视为提示工程发展史上的里程碑事件,显著降低了提示工程的难度 [12][13] - 提示工程可被视为大型语言模型发展的前沿试验场,出色的提示想法最终可能被整合进模型系统 [13] 技术观点与贡献 - Riley Goodside将提示工程分为“上下文工程”和“提示词编程” [13] - 其经典杰作包括“忽略之前所有的指令”这一提示词 [10] - 他发现了GPT-4中的“故障token”现象,例如字符串“ davidjl”拥有专属的单个Token ID 23282 [15][16] - 在2022年设计了“你是一个GPT-3模型”的提示词,用于辅助进行精确的算术、字符串操作和维基百科查询 [19]
Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上
AI前线· 2025-10-21 04:54
DeepSeek-OCR模型技术突破 - 模型发布6.6GB专门为OCR微调的模型,首次量化视觉-文本token压缩比,验证10倍近无损压缩、20倍仍保有60%精度的可行性[2] - 提出DeepEncoder解决现有编码器高分辨率-低内存-少token不可兼得的问题,在实用场景达到SOTA且token消耗最少[2] - 采用仅12层的精简架构,因OCR本质是模式识别任务,不需要太多推理或长程记忆[5] - 进入新兴小型专家混合范式,总规模较大但每次推理仅激活5亿参数,能单批次处理大量数据[7] - 采用激进编码策略结合语义池化,在输入阶段进行大量信号压缩,显著提升处理速度[7] 输入范式革命性观点 - Karpathy提出根本性问题:对大语言模型而言像素可能比文本是更好的输入形式,文本token可能是浪费而糟糕的输入方式[3] - 认为Tokenizer必须被淘汰,许多文本到文本任务可重构为视觉到文本任务,但反过来行不通[4] - 未来用户输入可能都是图像,模型输出仍是文本,因生成像素级输出不现实且暂时不需要[4] - 图像输入优势:信息压缩更高效,在更短上下文窗口中包含更多信息;信息流更丰富,能自然包含加粗、颜色、格式等视觉要素[6] - 输入可天然使用双向注意力,而非语言模型必须的自回归逐步处理,结构表达更强大[6] 行业影响与竞争格局 - 代表轻量高效OCR模型最佳范例,可能成为未来所有OCR系统的起点[4] - 在多模态视觉语言模型出现前,业界领先的Google Cloud OCR模型规模仅一亿参数左右[4] - 17亿参数的dots.ocr在内部和公开基准测试中准确率普遍超过OpenAI、Anthropic,某些任务优于Gemini,成本仅为后者一小部分[4] - 模型意义在于成为真正基础型OCR模型,找到推理效率与性能最佳平衡点,奠定工程基础[8] - 要在大规模真实业务中应用,仍需针对特定领域进行数据标注和定制化流程设计[8] 开发者实践与部署案例 - 资深开发者Simon Willison花40分钟成功在NVIDIA Spark上运行模型,通过Claude Code用4次提示解决兼容问题[9] - 环境搭建涉及Docker容器、CUDA配置、npm安装Claude Code等步骤[10] - 遇到PyTorch 2.5.1不支持新GPU问题,通过寻找ARM版本CUDA wheel包,升级到PyTorch 2.9.0解决兼容性[14][15] - 模型成功识别文本与定位框,生成检测结果,不同提示词模式表现各异[16][17][19] - 实践总结成功要点:给予充分环境与目标、沙箱模式完全自主执行、关键时刻用经验引导[22]
马斯克亲自点名Karpathy迎战Grok 5,别神话LLM,AGI还要等十年
36氪· 2025-10-21 02:21
AGI发展时间表与现状评估 - 行业专家预测实现通用人工智能仍需约10年时间 [1][3][12] - 该时间线相对于当前市场炒作氛围显得保守,但相对于怀疑论者仍属乐观预期 [17] - 专家认为比旧金山同行对AGI时间线的预测悲观5-10倍 [17] AGI实现路径的技术挑战 - 强化学习方法存在信号稀疏问题,仅通过二元对错信号进行学习效率低下 [21][23] - 模型崩塌现象阻碍大语言模型实现人类式学习能力 [2] - 系统集成与安全防护构成重大技术障碍,包括越狱和投毒等风险 [17] - 环境与评估体系匮乏,需要大量多样化高质量环境集作为训练基础 [25] 大语言模型发展现状与趋势 - 行业正处于LLM炒作的"幻灭低谷期",但将进入生产力缓慢提升的"启蒙斜坡"阶段 [7][9] - 模型发展呈现"先大后小"趋势:先扩大规模承载能力,再通过架构优化实现小型化 [29] - 智能体时代将从2025年开始,未来10年都将处于"智能体时代" [15][17] 新型学习范式探索 - 系统提示学习作为强化学习替代方案,通过编辑操作而非梯度下降实现优化 [26] - 新范式可使LLM自动生成系统提示,形成强大的新型学习机制 [26] - 记忆功能等特性已成为新学习范式的早期部署样本 [27] 人机协作模式演进 - 倡导"协作式中间态"而非全自动编程,避免产生代码沼泽和安全风险 [32] - AI编程助手应定位为"天才实习生",需保持防御性、谨慎多疑的工作态度 [32][36] - 当前工具尚未充分优化人机协作流程,用户体验存在巨大改进空间 [33] 行业应用与自动化前景 - 工作自动化程度取决于输入输出标准化、错误代价和决策频率等因素 [34] - 放射科等领域呈现人机互补模式,模型作为第二读片者提升整体质量 [34] - AGI预计将融入过去约2.5个世纪以来每年约2%的GDP增长趋势 [2]
世界模型:机器能否理解现实?
36氪· 2025-10-20 13:01
世界模型的概念与重要性 - 世界模型是AI系统内部携带的环境表征,用于在执行任务前对预测和决策进行评估 [1] - 多位深度学习领域权威人物认为世界模型是构建真正聪明、科学且安全的AI系统不可或缺的部分 [1] - 该概念在心理学、机器人学和机器学习等领域已有数十年历史,类似于人类大脑中避免危险的本能模型 [1] 世界模型的历史渊源 - 世界模型的概念可追溯至1943年心理学家肯尼斯·克雷克提出的"外部现实小尺度模型"设想 [2] - 克雷克的设想预示了认知革命,并将认知与计算能力直接联系起来 [2] - 20世纪60年代末的SHRDLU等AI系统曾使用简易模型,但手工构建的模型难以规模化 [3] 当前AI与世界模型的现状 - 当前大语言模型展现的许多能力使世界模型成为一个颇具解释力的思路 [4] - 然而,生成式AI更像是在学习成百上千条互不关联的经验法则,而非一个自洽的整体世界模型 [4] - 研究者尝试寻找世界模型证据时,发现的是零散的启发式规则,而非连贯的表征 [4] 世界模型的优势与挑战 - 大语言模型可以在其数万亿个参数中编码大量启发式规则,通过数量实现质量 [5] - 缺乏连贯世界模型导致系统鲁棒性不足,例如当1%街道封闭时,LLM的导航能力明显崩溃 [6] - 一个鲁棒且可验证的世界模型有望消除AI幻觉、支持可靠推理并提升系统可解释性 [6] 未来发展方向 - Google DeepMind和OpenAI认为通过足够多的多模态训练数据,世界模型会在神经网络中自然形成 [7] - Meta的杨立昆则认为构建世界模型需要完全不同于生成式AI的全新架构 [7] - 构建世界模型是大型AI实验室和学术界的重点研发方向,但其具体实现方法仍属未知 [7]
LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统
量子位· 2025-10-20 10:29
技术方案与核心创新 - 提出名为Mem-α的强化学习框架,用于训练大语言模型智能体自主管理复杂的记忆系统[2] - 采用数据驱动的强化学习方法,让模型在交互中自主学习最优记忆管理策略,而非依赖预设指令[4] - 将记忆构建问题转化为可通过强化学习优化的序列决策问题,实现端到端的优化[14] - 训练时智能体依次处理信息块并决定记忆操作,通过下游任务表现获得反馈进行优化[16] 技术背景与现有挑战 - 大语言模型智能体受限于有限的上下文窗口,使得外部记忆系统对长期信息理解至关重要[5] - 即使支持100万tokens的模型如GPT-4.1,在长期交互中也会因窗口增长导致成本激增和延迟增加[6] - 当前记忆增强智能体依赖预定义指令和工具进行记忆更新,缺乏决定存储内容、组织结构和更新时机的能力[7][8] - 传统方法导致次优记忆构建和信息丢失,严重影响智能体在长期交互中的表现[9] 记忆系统架构设计 - 设计包含三种记忆类型的复杂系统:核心记忆(容量512 tokens)、情景记忆(记录带时间戳的事件)和语义记忆(存储结构化知识)[20][22] - 每种记忆类型支持插入、更新、删除操作,智能体需学习在适当时机选择合适工具和记忆类型[23] - 记忆系统灵感来源于认知科学中的记忆分类理论,涵盖持久信息、事件记录和结构化知识[20] 实验性能与效果验证 - 在30k tokens上训练后,模型在验证集上问答准确率等指标显著提升[27] - 主实验显示Mem-α在MemoryAgentBench上全面超越现有方法,平均性能达64.2%[29][33] - 相比Long-Context和RAG-Top2,记忆占用减少约50%的同时保持更优性能,在BookSum等任务上压缩效果更佳[35] - 训练仅使用平均<30K tokens的文档,成功泛化到超过400K tokens的文档,最长泛化至474K tokens[35] 技术突破与行业意义 - 证明在LLM智能体记忆管理领域,学习胜过工程,传统需精心工程化的系统组件可通过端到端学习优化[34][35] - 结构化架构必要性得到验证,扁平记忆基线性能明显受限,凸显分层记忆设计和强化学习优化的有效性[35] - 展现出对未见分布的强泛化能力,在精确检索和长期理解任务上表现尤其突出[35]
微软BitDistill将LLM压缩到1.58比特:10倍内存节省、2.65倍CPU推理加速
机器之心· 2025-10-20 07:48
核心技术:BitDistill框架 - 提出一种名为BitDistill的量化感知训练框架,旨在将现有全精度大语言模型高效微调为1.58比特的BitNet模型,以适配特定下游任务[4][7] - 该框架包含三个关键阶段:模型精炼阶段、持续预训练阶段和基于蒸馏的微调阶段[8][11][12] - 在模型精炼阶段引入额外的归一化层以稳定优化过程,缓解低比特量化模型激活方差过大的问题[8][9] 性能表现与效率提升 - 在文本分类和文本摘要任务上的实验表明,BitDistill模型性能与全精度基线相当,例如在MNLI任务上达到88.17准确率,与FP16基线的88.01相近[19][20] - 该技术实现了显著的内存节省和推理加速,在CPU上内存占用从1.20GB降至0.11GB,节省近10倍,推理速度从427 tokens/s提升至1,135 tokens/s,加速约2.65倍[4][19][20] - 在CNN/DailyMail摘要任务上,BitDistill模型的BLEU得分达到14.41,优于FP16基线的13.98,同时ROUGE-1得分达到40.21,与基线的40.62相当[21] 方法通用性与技术细节 - BitDistill框架展现出良好的可扩展性,在不同模型规模上性能稳定,当模型从0.6B扩大到4B时,性能差距未出现显著扩大[4][17][19] - 该方法具备跨架构通用性,在将基础模型替换为Qwen2.5和Gemma后仍能保持稳定性能[22][23] - 消融实验证明框架的三个阶段相互补充,移除任一阶段均会导致性能显著下降,例如在MNLI任务上,完整框架准确率为88.17,而移除第三阶段后降至86.73[25][26] 优化策略与关键发现 - 知识蒸馏阶段联合使用logits蒸馏和多头注意力蒸馏效果最佳,单独使用任一种技术也能提升性能,但联合使用效果最优[27][28] - 使用更大规模的FP16教师模型进行蒸馏能进一步提升学生模型性能,甚至可超越同规模FP16模型[37][38] - 持续预训练阶段使用100亿个token的语料,与从头训练所需的约4万亿个token相比,成本几乎可忽略[17]
卡帕西:强化学习很糟糕,但其他所有方法都更糟
量子位· 2025-10-18 09:30
AGI发展时间框架 - 通用人工智能至少还需要十年时间才能达到理想状态[5][6][10] - 当前智能体系统在智能水平、多模态能力和复杂任务操作方面存在明显局限[8] - 智能体需要具备持续学习能力并解决认知架构缺陷才能实现真正协作[9] 大语言模型技术局限 - 现有大语言模型存在认知缺陷,容易陷入编程范式思维定势[15] - 模型训练数据导致过度追求生产级标准代码,造成代码库膨胀和复杂度增加[15] - 业界对大语言模型能力存在过度夸大,实际仍需大量改进[16] 强化学习技术评估 - 强化学习方法存在严重缺陷,但其他替代方法表现更差[18] - 强化学习通过正确结果反向强化整个解题路径的做法充满噪声且不合理[20] - 当前系统缺乏人类式的复杂复盘机制,仅依赖正确错误二元判断[21][23] AGI经济影响预测 - AGI将延续现有2%的GDP增长趋势,不会产生突然的技术跳跃[5][29] - AGI替代人类工作将采用渐进式自动化模式,实现自主性滑块分配[26] - 智力爆炸已通过历史GDP指数增长体现,AGI只是自动化趋势的延续[28] 自动驾驶技术挑战 - 自动驾驶技术从演示到产品的差距极大,失败代价高昂[30][31] - 可靠性每增加一个9(如90%到99%)都需要大量工作[32] - 真实产品需要应对各种边缘情况,特斯拉五年仅达到两到三位9的可靠性[32] 教育领域应用前景 - 理想的教育系统应提供个性化导师体验,能够快速判断学生知识水平[36] - 优秀导师能提供适度挑战,既不太难也不太简单[36] - 当前大语言模型尚无法实现真正个性化教学,需要构建完整课程体系[36]