Workflow
大语言模型
icon
搜索文档
大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源
量子位· 2025-07-26 09:01
文章核心观点 - 当前最强大的大语言模型(LLM)在解决真实、复杂的机器学习工程(MLE)任务时存在局限性,无法模拟人类工程师的反复实验、调试和优化工作流 [1] - MLE-Dojo是一个专为训练和评测大模型智能体(LLM Agents)设计的交互式基准测试框架,旨在将LLM从静态答题者转变为动态学习的机器学习工程师 [1][2] - MLE-Dojo提供了包含200多个真实Kaggle竞赛的交互式环境,支持智能体通过结构化反馈循环进行反复实验和优化 [2][12] 现有问题与解决方法 - 评测真空:现有基准大多是静态的,无法模拟真实世界中机器学习工程师的动态工作流,缺乏对持续实验、反馈吸收和资源管理等关键能力的考察 [6] - 训练缺失:大多数平台缺乏交互式环境,不支持监督微调(SFT)或强化学习(RL)等高级训练范式,限制了开发更强大AI智能体的可能性 [7] - 场景片面:许多基准只关注孤立任务,未能捕捉端到端机器学习流程的复杂性和内在联系 [8] MLE-Dojo的核心特点 - 全面的基准和框架:由超过200个真实的Kaggle竞赛构成,覆盖表格数据、计算机视觉(CV)、自然语言处理(NLP)等多个领域,其中150个任务用作训练集,50个用作评估集 [12] - 交互式可执行环境:提供Gym风格的交互环境,智能体可以调用一系列动作如request_info、validate_code、execute_code等,所有代码在安全沙箱中执行 [13] - 先进功能和精细化反馈:提供丰富的观察信息,包括错误报告、数据集信息、交互历史以及HumanRank奖励分数,该分数通过计算智能体在人类选手排行榜上的相对位置提供标准化性能指标 [14] 八大顶尖LLM评测结果 - Gemini-2.5-Pro综合实力登顶:在最关键的Elo综合评分中拔得头筹,在HumanRank分数上超越了61.95%的人类选手 [20] - 顶尖模型各有千秋:DeepSeek-R1和o3-mini等模型同样展现强大实力和适应性,在各项指标中名列前茅 [20] - 行动策略与模型性格:o3-mini策略激进,超过90%的动作直接执行代码;gpt-4o策略保守,仅有约20%的动作直接执行 [23] 性能与成本分析 - Gemini-2.5-Pro不仅性能领先,代码验证和执行中的总体失败率也是最低,生成的代码更加稳健可靠 [23] - 表现更强的模型通常能生成更长、更复杂的解决方案,交互历史也更长,表明其能进行更深入的多步推理 [24] - 顶尖推理模型通常需要更多token消耗,成本更高,但DeepSeek-r1展现出更高成本效益的潜力 [25] 开源与社区推动 - 团队已将MLE-Dojo的框架、基准和排行榜完全开源,旨在推动社区共同创新,加速下一代自主机器学习智能体的到来 [4] - 项目主页、排行榜、论文和Github链接均已公开,方便社区参与和进一步研究 [26]
Hinton上海演讲:大模型跟人类智能很像,警惕养虎为患
量子位· 2025-07-26 09:01
演讲核心观点 - 数字智能可能取代生物智能 大语言模型与人类理解语言的方式高度相似 人类可能本质上就是大语言模型 同样会产生幻觉[5][6][20][27] - AI知识迁移效率远超人类 通过参数共享可实现每秒数万亿比特的知识传递 比人类交流效率高数十亿倍[6][34][36][38] - AI发展已不可逆 需建立国际合作机制确保AI安全 防止其获得控制权威胁人类生存[6][42][45][51][53][55] AI技术发展历程 - 两种AI发展范式:符号逻辑型与生物神经网络型 前者主导过去60年 后者由图灵和冯·诺依曼提出[8][10] - 1985年提出的微型语言模型成为现代大语言模型雏形 通过特征向量预测词语 奠定神经网络语言理解基础[13][14] - 技术演进关键节点:1995年实现实时语言建模 2015年普及词向量嵌入 2022年Transformer架构突破[15][16][17] 数字智能优势分析 - 知识永久保存特性 软件与硬件分离确保知识永恒存在 生物智能受限于个体生命[29] - 计算效率对比 人类大脑仅需3瓦特功耗 但数字计算可实现精确复制与海量并行[32][40] - 知识传递机制 蒸馏技术实现大模型向小模型的知识迁移 类似师生教学关系[34] 人类与AI关系比喻 - 养老虎比喻 当前AI如同幼虎 需建立机制防止其成长后威胁人类[6][49][50] - 乐高积木模型 词语如同多维乐高模块 通过动态"握手"机制实现语义理解[22][24][26] - 蛋白质折叠类比 词语连接方式类似氨基酸组合 不同排列形成不同语义[26] 行业影响与建议 - AI已深度赋能医疗 教育 气候 新材料等领域 显著提升各行业效率[51] - 呼吁成立国际AI安全研究网络 共同开发可控AI系统[6][53][55] - 建议优先合作领域包括网络安全 自主武器管控 虚假信息识别等[53]
“AI教父”辛顿现身WAIC:称AI将寻求更多控制权
第一财经· 2025-07-26 06:27
人工智能发展路径与现状 - 人工智能发展存在两种不同范式:符号型逻辑性范式和以生物为基础的范式,辛顿在1985年尝试结合这两种理论[3] - 当前大语言模型是辛顿早期微型语言模型的衍生,采用更多词输入、更多层神经元结构,处理大量模糊数字并建立复杂交互模式[4] - 大语言模型理解语言的方式与人类相似,通过将语言转化为特征并整合这些特征,因此也会产生"幻觉"[4] 人工智能技术突破 - 2012年辛顿团队开发的AlexNet算法采用卷积神经网络(CNN),成为机器学习重要分支[5] - AlexNet仅使用4颗英伟达GPU就取得突破性成果,相比谷歌猫项目使用的16000颗CPU大幅提升效率[5] - GPU在深度学习中的价值被辛顿早期发现,AlexNet论文成为计算机科学史上最具影响力的论文之一[5] 人工智能安全挑战 - 几乎所有专家认为人类将创造出比自身更智能的AI,AI未来可能为生存和目标寻求更多控制权[1][4] - 辛顿将AI发展比喻为抚养虎崽,强调需要确保其不会伤害人类[4] - AI接管并摧毁人类文明的概率估计在10%至20%之间[6] - 建议将至少三分之一计算资源用于研究如何确保AI系统不偏离人类意图[6] 人工智能治理建议 - 提议建立AI安全机构国际社群,研究训练AI向善的技巧[5] - 各国可在主权范围内研究并分享成果,全球或AI领导国家应建立相关网络[5] - 批评大型科技公司为商业利益游说放松监管是危险趋势[6] - 强调需要国际合作预防AI统治世界,防止AI夺走人类控制权[4]
小米申请文本处理方法等相关专利,保证专项任务良好效果同时不降低其他任务处理效果
金融界· 2025-07-25 08:26
公司专利动态 - 北京小米移动软件有限公司与北京小米松果电子有限公司联合申请了一项名为"文本处理方法、文本处理装置及存储介质"的专利,公开号为CN120373448A,申请日期为2024年1月 [1] - 该专利涉及使用大语言模型处理文本任务,通过预先训练的判别器确定任务类型,并利用包含前缀编码器的大语言模型执行处理,旨在保证专项任务效果的同时不降低其他任务的处理效果 [1] - 专利摘要显示技术方案包括获取文本描述信息、判别任务类型、处理文本并输出目标文本三个核心步骤 [1] 公司基本信息 - 北京小米移动软件有限公司成立于2012年,注册资本14.88亿人民币,主要从事互联网和相关服务,对外投资4家企业,参与招投标137次,拥有5000条专利信息和123个行政许可 [2] - 北京小米松果电子有限公司成立于2014年,注册资本2.5亿人民币,主要从事零售业,对外投资1家企业,拥有15条商标信息、1029条专利信息和5个行政许可 [2]
速递|高盛、红杉等持续跟投,AI合规独角兽Vanta获1.5亿美元融资,估值飙至41.5亿美元
Z Potentials· 2025-07-25 03:24
融资与估值 - Vanta在最新一轮融资中获得1.5亿美元,估值达到41.5亿美元,较一年前的24.5亿美元大幅提升 [1] - 自2021年以来累计融资额达5.04亿美元 [1] - 本轮融资由威灵顿管理公司领投,高盛、红杉资本、摩根大通和Craft Ventures等机构参与 [1] 业务发展 - 公司成立于2018年,专注于开发企业合规管理及客户数据存储软件 [1] - 目前已积累12,000家客户,覆盖科技、金融服务和医疗保健领域 [1] - 正寻求将业务拓展至国家和地方政府层面 [1] 人工智能战略 - 计划利用新融资扩大人工智能产品线 [1] - 近期推出AI Agent产品,旨在比传统软件更独立地执行任务 [2] - 将AI应用于自身产品和客户工作流程,实现零接触安全审查 [2] - 生成式AI和大语言模型技术进步使公司工具更具实用性 [2] 国际化扩张 - 过去一年在伦敦设立办事处,并在澳大利亚建立数据中心 [2] - 正在推进亚太地区业务拓展 [2] 行业趋势 - 此次融资表明投资者对运用人工智能简化复杂企业流程的公司兴趣浓厚 [1] - AI Agent等新型软件服务正日益流行,旨在把握AI热潮 [2]
ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗?
机器之心· 2025-07-24 04:08
大语言模型主动推理研究 核心观点 - 大语言模型在被动推理(如数学推理、代码生成)表现优异,但主动推理(信息不完备场景下的动态交互推理)能力存在显著短板 [1][2] - 主动推理要求模型通过多轮交互提问获取关键信息,其核心是"提出正确问题"而非"找到答案" [4][18] - 当前顶尖模型如GPT-4o在主动推理任务中准确率仅35%,且现有方法(SFT/DPO/ToT)提升有限 [28][29][30] 研究创新 理论框架 - 首次系统定义主动推理(AR)与被动推理(PR)的本质区别:PR基于完整信息直接求解,AR需通过交互补充缺失信息 [8][14][15] - 提出AR三大核心挑战:动态提问能力、信息检索效率、迭代推理质量 [15][18] 评估体系 - 开发AR-Bench基准测试,包含三类任务:情景谜题(逻辑发散)、数字猜谜(符号推理)、诊断对话(专业交互) [20][21][22] - 采用双维度评估:结果匹配度(答案准确性)和过程质量(关键问题覆盖率/F1-Score) [25] 实验结果 模型表现 - 模型普遍存在提问质量递减现象,后期问题有效性下降38% [38][45] - 典型错误模式:宽泛提问(占比42%)、时间线误解(23%)、未利用符号反馈(19%) [49][50][51] - 模型规模与表现正相关:Llama-3.1-70B比8B版本多提取27%有效信息 [36][43] 方法对比 - 基于搜索的方法(如ToT)在数字猜谜任务提升15%准确率,但在情景谜题中无效 [38] - 微调方法(SFT/DPO)导致部分任务性能下降12-18% [30] - 人类表现显著优于模型,在诊断对话任务中F1-Score高出41% [34][37] 未来方向 技术突破 - 开发高质量微调数据集(计划构建10万条AR样本) [56] - 强化学习适配(PPO/GRPO)与可靠验证器设计 [60] 场景拓展 - 医疗诊断场景的定制化代理开发 [60] - 多模态主动推理(机器人/游戏环境) [60] 注:所有数据引用自ICML 2025会议论文及AR-Bench基准测试结果 [11][20][25]
一场对抗OpenAI们的“危险游戏”
虎嗅APP· 2025-07-23 10:25
核心观点 - AI原生搜索优化(GEO)正在成为新风口,品牌方需适应AI助手重塑的消费者搜索习惯 [3][4] - Profound作为GEO赛道先行者,通过分析大模型行为帮助品牌提升AI推荐权重,已获2000万美元A轮融资 [3][10] - GEO商业模式面临与大模型算法迭代的对抗风险,长期价值取决于技术迭代和服务链条延伸 [5][25][28] 行业趋势 - 全球AI搜索引擎市场规模预计从2025年436.3亿美元增至2032年1088.8亿美元(CAGR 14%),生成式AI技术占比54.2% [12] - 美国商业网站流量因AI助手推送增长1200%,39%消费者使用AI搜索,可能重塑8000亿美元数字广告市场格局 [11] - 60%消费者绕过传统搜索引擎直接询问AI助手,但品牌方缺乏对AI推荐机制的控制力 [3] 公司分析 Profound - 核心功能:答案引擎洞察/代理分析/对话探索器/购物追踪,提供从分析到迭代的五步工作流 [17][18][20][22][23] - 商业化:企业级SaaS订阅(含499美元/月Lite版),客户覆盖18国,60天内助品牌AI声量提升25%-40% [20][23] - 融资历程:种子轮350万美元(2024年8月),A轮2000万美元由Kleiner Perkins领投(2025年6月) [10] 竞争格局 - **Daydream**:ToC购物搜索平台,支持自然语言+图像搜索,团队含微软/Pinterest背景高管 [13][16] - **Goodie AI**:聚焦AI搜索可见性监控与内容优化,CEO具字节跳动增长经验 [14][16] - **传统转型**:Ahrefs等SEO工具商凭借存量客户成为GEO初创公司主要对手 [14][16] 商业模式挑战 - 算法对抗:大模型频繁迭代(按周调整)可能导致GEO优化策略失效,技术门槛持续抬升 [5][26][27] - 效果归因:品牌无法区分曝光增长源于GEO工具还是算法自发调整,影响付费决策 [26][27] - 转型路径:需延伸服务链条(如垂直行业工具包),从单纯优化转向综合数据服务商 [28]
从“想得好”到“做得好”有多远?具身大小脑协同之路解密
具身智能之心· 2025-07-23 08:45
具身智能系统架构 - 具身智能系统由"大脑"、"小脑"和"身体"三部分组成,分别对应认知决策、运动控制和物理执行功能 [2] - "大脑"采用大语言模型和视觉语言模型,具备感知、理解、推理和规划能力,是系统的智慧核心 [2] - "小脑"运用运动控制算法和反馈控制系统,实现精准流畅的动作控制,被称为"动作艺术家" [2] - "身体"作为物理载体,负责将认知决策和运动指令转化为实际动作,完成"知行合一" [2] 当前技术挑战 - "大脑"需提升自主推理能力,实现无指令、无地图环境下的实时在线思考与路径规划 [3] - "小脑"需增强适应性,在复杂物理环境中实现类人类的直觉反应和精细操作 [3] - 系统需解决"大脑"与"小脑"的协同问题,目前存在信息传递延迟和动作响应滞后 [3] - 数据采集面临成本高、质量差等挑战,需构建真实多样且可迁移的训练数据集 [3] 行业技术进展 - 北京智源人工智能研究院和智元机器人正在开展具身智能相关研究 [3] - RoboBrain 2.0和RoboOS 2.0等系统展示了最新技术成果 [5] - 对抗性数据收集方法(Human-Collaborative Perturbations)可提升模仿学习效率与鲁棒性 [5] - 相关研究成果已在ArXiv等平台公开发表,涉及机器人操作系统和脑机协同等领域 [7] 未来发展方向 - 行业聚焦于提升具身智能系统的认知能力、运动控制精度和系统协同效率 [4] - 需建立更高效的数据获取与处理体系,解决数据质量与成本问题 [3] - 技术突破将推动具身智能向通用人工智能(AGI)方向发展 [3]
分层VLA模型与完全端到端VLA哪个方向好发论文?
自动驾驶之心· 2025-07-23 07:32
自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题,依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化了架构但存在黑箱问题、因果混淆和泛化能力受限等瓶颈 [2] - VLA(视觉-语言-行为)模型通过引入语言中间表征,显著提升可解释性、常识推理和长尾场景处理能力 [2][3] VLA技术优势 - 语言桥梁作用:模型可输出自然语言解释决策依据(如"减速因行人可能横穿"),增强透明度 [2] - 知识注入:利用LLM预训练的世界知识理解施工区域等复杂场景 [3] - 交互革新:支持自然语言指令(如"找最近充电站"),实现人性化交互 [3] 科研辅导课程设计 - 课程周期:12周科研+2周论文指导+10周维护期,覆盖创新点挖掘至投稿全流程 [6][12] - 教学资源:提供nuScenes/Waymo等数据集及VAD/UniAD等开源代码基准 [16][17] - 论文产出:学员可完成初稿,优秀者获推荐信,结业证书为升学就业加分 [15] 目标学员与能力要求 - 面向群体:自动驾驶领域本硕博学生、留学申请者及AI从业者 [8] - 技术门槛:需掌握Python/PyTorch,建议配备4-8张4090显卡或云服务器 [13] - 学术规范:全勤要求+作业限时提交,剽窃行为将被严格禁止 [13][15] 教学支持体系 - 师资配置:名校教授+行业导师+班主任的"2+1"多师制跟踪辅导 [14][15] - 学习工具:腾讯会议直播与小鹅通回放结合,确保学习灵活性 [19] - 基础补强:提供先修课与1v1面试评估,适配不同基础学员 [13][20] 关键技术文献 - 核心论文:涵盖Senna/SimLingo等VLA模型在闭环驾驶、语言对齐方面的突破 [18] - 研究热点:包括扩散模型驱动方案(DiffusionDrive)与多模态指令生成(ORION) [17][18]
ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval
机器之心· 2025-07-23 01:04
大语言模型在医疗领域的应用与挑战 - 大语言模型(LLMs)技术正在深刻重塑医疗行业,具备强大的文本理解与生成能力,能够快速读取医学文献、解读病历记录,甚至生成初步诊断建议,有效辅助医生提升诊断准确性与效率 [2][3] - 当前主流大语言模型在MedQA等医疗问答基准数据集上已取得90%以上的准确率,但临床一线反馈显示其在真实医疗场景中仍存在"高分低能"问题 [4] - 医疗领域正成为大语言模型技术的"新战场",该技术有望在缓解医生工作负担、提升就诊效率、优化医疗管理水平等方面发挥重要作用 [2][3] MultiCogEval评测框架的核心设计 - MultiCogEval框架首次提出从医学知识掌握到临床问题解决的"全周期"大语言模型医学能力评测,覆盖基础知识掌握、综合知识应用和场景问题求解三大认知层次 [5][6][12] - 框架设计受医学生培养流程启发,采用多项选择题评测基础知识掌握,设计三种任务评测综合知识应用,并通过模拟诊断任务考察场景问题求解能力 [14] - 该框架实现了跨认知层次的评估可比性与结果可解释性,解决了现有评测集任务设计单一、缺乏明确认知层次对应关系的问题 [9][10] 主流大语言模型的医学能力表现 - 实验显示GPT-4o、DeepSeek-V3和Llama3-70B等SOTA模型在低阶任务(基础知识掌握)准确率超过60%,但在中阶任务(综合知识应用)性能下降约20%,高阶任务(场景问题求解)表现最好的DeepSeek-V3全链条诊断准确率仅19.4% [16][17] - 医学领域SFT可提升模型低阶与中阶临床能力最高达15%,但对高阶任务性能提升有限,部分模型表现甚至不如基座模型 [17][19] - 推理增强模型在所有认知层级上均优于指令微调模型,中阶任务提升显著(如DeepSeek-R1提升23.1%),但仍未完全解决高阶任务 [19][20] 行业技术发展现状与未来方向 - 当前大语言模型在医学知识记忆与理解方面表现较强,但在复杂临床场景下的主动信息获取与推理决策能力仍显不足 [21][22] - 研究团队曾研发首个通过国家临床执业医师资格考试(456分)的AI引擎Med3R,并在全国400多个区县服务基层医疗 [1] - 行业需进一步解决医学知识覆盖不充分、临床应用能力缺乏以及复杂场景推理决策短板等问题,以推动"可信赖的AI医生"落地 [5][21]