Workflow
机器之心
icon
搜索文档
ACL首届博士论文奖公布,华人学者李曼玲获荣誉提名
机器之心· 2025-07-29 09:58
ACL计算语言学博士论文奖 - 获奖者Sewon Min的博士论文《重新思考大型语言模型中的数据使用》对大型语言模型的行为和能力提供了关键见解,特别是在上下文学习方面[2][4] - 论文提出非参数语言模型概念,通过检索训练数据提高模型准确性和可更新性,并开发了首个广泛应用的神经检索模型[16] - 研究探讨了负责任数据使用的新途径,如分离许可文本和版权文本的不同处理方式[18] 获奖者学术背景 - Sewon Min本科毕业于首尔大学,2024年获华盛顿大学博士学位,现任加州大学伯克利分校助理教授[6] - Google Scholar显示其论文总被引量达13,821次,h-index为35,i10-index为45[7] - 代表作《Dense Passage Retrieval for Open-Domain Question Answering》被引4,605次,是2020年EMNLP会议论文[7] 提名论文1:多模态知识获取 - 李曼玲论文提出以事件为中心的多模态知识获取方法,实现从实体中心到事件中心的范式转换[27] - 开发CLIP-Event模型解决跨模态对齐难题,首次实现零样本多模态事件抽取(M2E2)[31] - 构建事件图谱结构支持全球事件推理与预测,并开发多媒体事件知识图谱[33][34] 提名论文2:人机协作心理健康 - Ashish Sharma研究显示AI反馈机制使300名在线互助者共情表达能力显著提升[49] - 在15,531名用户试验中,人机协作的认知重构工具有效缓解负面情绪[51] - 开发计算框架BOLT评估LLM作为治疗师的行为表现,并设计临床试验评估AI心理干预[52] 提名论文3:跨语言语义解析 - Thomas Sherborne研究如何将语义解析器从英语高效适配到新语言,解决数据稀缺问题[62] - 提出四种跨语言对齐策略:集成机器翻译源、零样本解析器、元学习算法和潜变量模型[64] - 证明通过最少目标语言数据样本组合可实现准确跨语言语义解析[65] 研究者职业发展 - 李曼玲现任西北大学助理教授,领导机器学习与语言实验室开展多模态AI研究[41] - Ashish Sharma加入微软应用研究院担任高级应用科学家,负责人机协作系统优化[54] - Thomas Sherborne加入AI创企Cohere,专注大语言模型企业应用开发[66]
从数字人到「有温度的」机器人,京东把 AI 深度应用的路线图「摸透」了
机器之心· 2025-07-29 07:44
京东大模型品牌升级与战略布局 - 京东宣布将大模型品牌全新升级为「JoyAI」,强调从实验室走向产业深度应用的战略方向[1][6] - JoyAI拥有从3B到750B的全尺寸模型,涵盖语言、语音、图像、视频、数字人等多种模态,推理效率提升30%,训练成本降低70%[7] - 公司通过动态分层蒸馏、跨领域数据治理等创新技术实现「大而精」的模型效果[7] 大模型应用落地成果 - JoyAI已在京东超过数百个场景广泛应用,618期间大模型调用量同比增长130%[11][12] - 数字人服务覆盖超2万家平台商,智能客服累计咨询服务量超26亿次[12] - 数字人带货水平超越市场上80%的真人主播,安踏直播间GMV突破2000万[19][25] - 公司内部已部署超2万个智能体,承担企业18%的工作内容[52] 多模态技术突破与行业应用 - 数字人技术获吴文俊人工智能科学技术奖特等奖,支持精品音色微调和精准声唇对齐[21][26] - 技术覆盖零售、物流、医疗、工业等领域,包括AR眼镜辅助质检、无人机物流等应用场景[44][45] - 教育领域应用使元萝卜AI下棋机器人人均对话轮次提升148%[34] 具身智能生态布局 - 公司发布附身智能平台JoyInside,具备海量知识库和长期记忆能力,已接入数十家企业[29][33] - 中国具身智能市场规模达8634亿元(2024年),预计2025年达9731亿元[37] - 京东通过投资众擎机器人、智元机器人等4家企业布局具身智能赛道[41] - JoyInside平台支持SDK、盒子、API三种对接方式,限时免费开放接入[43] 技术研发与产业协同 - 公司2017年以来累计研发投入达1456亿元,直接面向供应链实际需求[51] - 采用70%通用数据+30%供应链原生数据的独特训练模式[49] - 开源JoyAgent智能体平台,GAIA榜单准确率超75%,支持企业级多智能体部署[56][58] - 技术演进路线与产业落地路线同步推进,形成生态扩张动能[50][61]
开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练
机器之心· 2025-07-29 07:44
强化学习扩展性瓶颈与趋势 - 当前顶尖基础模型(DeepSeek-R1、o3-pro、Gemini 2.5-pro、Claude-4)的卓越推理能力依赖大规模强化学习,RL Scaling成为大模型领域"军备竞赛"核心[1] - xAI发布的Grok 4在200,000块GPU集群上运行强化学习,推动后训练规模达到新高度[1] - 解决RL扩展性瓶颈是解锁下一代AI高级推理能力的关键战略[2] siiRL框架创新设计 - 采用多控制器范式和全分布式架构,将数据加载/计算/流转任务均匀分散到工作节点,消除单一控制器瓶颈[3][11] - 核心组件:DAG Planner(逻辑工作流分解)、DAG Worker(GPU绑定执行)、Data Coordinator(数据生命周期管理)[13][14][15] - 支持华为昇腾NPU,实现跨硬件平台兼容[3] 性能优势验证 - 在1024 GPU规模下实现近乎线性扩展,512卡时保持80.5%线性扩展效率[3][21] - PPO/GRPO算法训练中最高实现2.62倍吞吐提升,72B模型训练时基线框架出现OOM而siiRL稳定运行[19] - 数据密集型任务(64k长上下文)中性能优势从1.48倍扩大至2.03倍[26] 技术突破点 - 端到端训练吞吐最高提升7倍(VLM任务)[21][25] - 动态数据缓冲机制自动调整数据分片(数据并行度变化时)[17] - 收敛性验证显示在保持与基线相同精度的前提下大幅减少训练耗时[28] 行业应用前景 - DAG设计为多智能体系统奠定基础,未来将重点拓展MARL算法兼容性和复杂交互机制[29] - 全链路开源框架(代码100%开放)支持国产硬件,目标实现"大模型跑在中国芯"[33] - 产学研团队背景涵盖万卡集群建设者、CUDA开发者、芯片优化专家等[33]
共青年之智,铸AGI未来|2025 WAIC云帆奖得主名单揭晓
机器之心· 2025-07-29 06:38
2025 WAIC 云帆奖颁奖典礼 - 活动由上海人工智能实验室、机器之心、全球高校人工智能学术联盟联合主办,并得到东方菁汇、长三角国家技术创新中心、真格基金、中国联通等机构支持 [1] - 汇聚150余位产学研资核心力量,包括AI技术产业领袖、学术新锐和顶尖投资人 [1] - 设立「璀璨明星」和「明日之星」两大奖项,并创新性增设「提名奖」完善人才体系 [2][6] 璀璨明星得主成就 - 陈建宇:UC Berkeley博士,机器人与AI领域发表70+篇顶会论文,入围RSS 2024等国际会议优秀论文奖,福布斯中国"30Under30" [14] - 高阳:伯克利博士,开发OneTwoVLA模型提升泛化能力,EfficientZero系列为全球样本效率最高强化学习算法,创立千寻智能完成多轮融资 [16] - 何聪辉:清华博士,创建OpenDataLab开源平台(GitHub星标4万+),获"戈登•贝尔"奖,负责浦江书生大模型数据体系 [18] - 刘邦:MetaGPT联合发起人,构建材料科学大模型推动新材料智能设计,获2024云帆奖等多项荣誉 [20] - 王翔:中科大教授,谷歌学术引用2万+,获ICLR杰出论文奖、MIT TR35榜单等 [24] 明日之星得主成就 - 陈天龙:UNC助理教授,研究方向包括多模态学习与大语言模型,获Amazon Research Award等多项荣誉 [37] - 陈小康:DeepSeek AI研究员,主导Janus-Series多模态大模型项目(GitHub星标2万+,Huggingface百万下载) [39] - 崔淦渠:清华博士,大模型对齐技术研究者,开发UltraFeedback等数据集,谷歌学术引用1.1万+ [41] - 傅朝友:VITA多模态大模型系列开发者(GitHub星标3千+),创建Awesome-MLLM社区(星标1万+) [43] - 骆昱宇:港科大(广州)助理教授,Text2SQL技术落地华为/国家电网,获SIGMOD 2023最佳论文奖 [53] 技术突破方向 - 具身智能:高阳开发OneTwoVLA实现推理与动作无缝切换,顾家远获SIGGRAPH 2025最佳论文奖 [16][47] - 多模态大模型:陈小康Janus-Pro项目解耦视觉编码技术被业界广泛采用,傅朝友VITA系列推动多模态发展 [39][43] - AI硬件:张宸研究智能处理器架构突破算力/能耗瓶颈,龚睿昊高效学习系统被AMD/英特尔集成 [30][45] - 强化学习:吴翼开发MADDPG/MAPPO算法(多智能体强化学习最高引),于力军参与Gemini项目获ICML最佳论文 [26][59]
阿里再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达
机器之心· 2025-07-29 06:38
模型发布与开源 - 阿里发布全球首个开源的MoE架构视频生成模型Wan2.2 具备电影级美学控制能力[2][3] - 模型遵循Apache 2.0开源协议 用户可通过Hugging Face和阿里魔搭社区下载使用[4][20] 技术架构创新 - 首次在视频扩散模型中引入Mixture-of-Experts(MoE)架构 通过多个专家模型分担去噪过程[11][12] - 采用自研Wan2.2-VAE编码器 压缩率达到16×16×4 支持文本生成视频和图像生成视频两种模式[18] - 模型参数量达50亿 生成分辨率高达720P/24fps 可在消费级显卡(如4090)流畅运行[18][19] 数据与性能表现 - 训练数据量相比Wan2.1大幅提升:图像数据增加65.6% 视频数据增加83.2%[14] - 数据扩展显著增强模型在运动表达、语义理解和美学表现等多维度的泛化能力[15] - 融入特别筛选的美学数据集 标注光影、构图、色彩等细粒度属性 支持用户定制审美偏好[16] 市场定位与反响 - 模型被列为当前市场最快速的720P/24fps生成模型之一 可同时服务工业界与学术界需求[19] - 开源社区反响积极 用户评价包括"Amazing"、"Huge congrats"等正面反馈[7][10]
不靠海量数据,如何精准喂养大模型?上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果
机器之心· 2025-07-29 06:38
核心观点 - 提出Data Whisperer框架 利用预训练模型的上下文学习能力实现免训练的数据选择 仅需10%数据即可达到接近全量数据的微调效果 [2][4][6] - 该方法通过注意力机制和ICL模拟参数更新 实现高效稳定的数据筛选 无需额外训练或人工标注 [6][10][36] - 在多个基准测试中显著超越传统方法 同时大幅降低计算成本和时间消耗 [15][18][35] 方法机制 - 基于ICL少样本构建和注意力感知权重 结合模型输出质量与注意力贡献进行综合打分 [7][8][10] - 理论支持显示ICL通过上下文样本调整注意力权重 等效于隐式参数更新 [13][14][36] - 支持弱选强训机制 小模型选题大模型微调 实现知识迁移并降低计算负担 [22][23][24] 性能表现 - GSM8K数学任务:使用10%数据达到72.46% 超过全量数据71.39%的表现 [15][19] - DialogSum摘要任务:在Qwen模型上达到43% 较SOTA方法提升2.5个百分点 [15][19] - 效率指标STR低至0.03-0.2 较传统方法提升8-20倍速度 [18][21] - 在1%/5%/10%低预算场景下均保持领先优势 [15][35] 技术细节 - 最优配置为n_d=10示范样本和n_q=5查询样本 增加样本数量效果饱和 [26][27][28] - 中间层注意力(如Layer13)提供最稳定的语义信息 优化选题效果 [30][31][32] - 倾向选择低困惑度样本 符合易例优先理论 [33][34] 对比优势 - 全面超越GraNd(基于梯度)/EL2N(预测误差)/CCS(多样性)/Nuggets(需训练打分器)等方法 [15][35][38] - 在准确率、效率、稳定性三个维度均领先 尤其擅长低预算场景 [18][35] - 实现结构感知和推理驱动的数据选择新范式 [39] 应用前景 - 可迁移至法律、医疗等复杂结构任务领域 [41] - 未来可结合人类反馈、提示工程或合成数据方法进一步优化 [41] - 揭示任务对齐可不依赖人类标签或大数据量 通过结构化推理机制引导学习 [42][43]
从WAIC上爆火的功夫机器人,看到这家央企的具身智能「真功夫」
机器之心· 2025-07-28 11:52
机器人技术展示 - 功夫机器人「功夫 boy」完成全新升级,能够进行「分钟级」武术表演 [2] - 机器人与文生视频人物同步演示武术动作,展示人工智能从虚拟走向物理世界的完整图景 [3] - 展区还展示了小尺寸机器人TeleBot M1和远程全身遥操作系统TeleHumos [4] 技术能力 - 功夫机器人具备高难度动作能力,证明其「小脑」非常发达,能精确控制身体各个环节 [7] - 小尺寸机器人展示硬件研发能力,非标准本体采购 [8] - 遥操作系统配备豪华配置,支持危险场景远程作业 [9] - 公司技术栈全面,在大小脑研发上处于领先地位 [10] 全栈自研战略 - 公司选择全栈自研路线,已取得显著成果 [14] - 全栈自研是央企的必答题,承担抢占科技制高点的使命 [16] - 公司展开硬件、软件、数据全方位技术探索 [17] 硬件创新 - 自研多电机协同驱动控制嵌入式硬件系统和运动控制算法 [21] - 开发六自由度并联腰部关节,解决机器人行走和操作稳定性问题 [23] - 利用5G专网和智传网技术,实现公里级遥操作 [26] 软件架构 - 开发跨本体VLA大模型,解决数据孤岛问题 [30] - 构建统一多步态混合专家模型,支持10种以上步态 [34] - 实现分钟级长序列武术表演,并开源相关代码 [36][38] 数据平台 - 构建逼真虚拟世界,用AI自动化生成数据 [43] - 引入世界模型作为核心驱动,减少对真实环境数据的依赖 [47] - 开发两阶段双臂轨迹预测流程,应对数据稀缺挑战 [48] 系统协同 - 布局智传网(AI Flow),实现端边云协同 [54] - 多个机器人可共享云端大脑计算资源 [57] - AI、具身智能与通信网络深度融合是公司的独特优势 [58] 发展战略 - 公司采取生态级协同创新路线,形成长期发展动能 [61] - 央企背景提供丰富应用场景,如算力中心自动化运维 [62] - 全栈自研能力为行业提供可控备份和技术模块 [63]
这届WAIC,无问芯穹发布了三个「盒子」
机器之心· 2025-07-28 10:45
核心观点 - 算力是智能时代的核心基础设施,其规模与效率决定数字未来的发展边界 [1] - 公司提出两条加速AGI临界点的路径:提高智能效率与扩充计算资源,通过场景尺度×计算资源×智能效率的共振实现有限资源满足无限需求 [5][8] - 推出全规模AI效能跃升方案三大产品:无穹AI云(万卡级)、无界智算平台(百卡级)、无垠终端智能(单卡级),覆盖从超算到终端的全场景算力优化 [10] 产品技术架构 无穹AI云(大盒子) - 构建覆盖26省市53个数据中心的广域算力网,整合15种芯片架构异构算力池,总算力超25000P,支持跨地域实时算力切换 [14] - 采用"一网三异"调度架构,实现非理想状态算力资源转化为高稳定性AI服务能力,日均Token调用量突破100亿次 [16] - 与华为昇腾合作上线全国首个"算力生态超市",启动百亿生态共建计划,推动国产硬件与平台协同 [18] 无界智算平台(中盒子) - 在3000卡国产GPU集群上实现百亿参数大模型600小时不间断训练,创国产算力记录 [20] - 利用2000张华为昇腾910B卡完成千亿参数模型分布式推理,为云南移动构建商业化服务能力 [23] - 推出全球首个跨地域全分布式联合强化学习服务,最小支持单张消费级显卡接入 [25] 无垠终端智能(小盒子) - 发布全球首款端侧本征模型Infini-Megrez2.0,在7B内存占用下实现21B参数云级智能,突破终端"能效-空间-智能"不可能三角 [31] - 新一代推理引擎Infini-Mizar2.0将AIPC本地模型上限从7B提升至30B,联合Megrez2.0实现推理性能提升超100% [35] - 与新华三推出大模型一体机,单机驱动百亿参数模型,能效翻倍且成本大幅降低 [36] 行业生态布局 - 联合上海创智学院等十余家机构启动人工智能终端软硬适配优化中试平台,解决共性技术难题并建立评价体系 [40][41] - 与三大运营商及20余家AIDC伙伴启动联合运营创新生态计划,整合闲置算力资源 [27] - 合作生态覆盖联想、新华三、异格技术等终端厂商,推动端侧Agentic AI自主进化 [38]
EvaLearn:AI下半场的全新评测范式!
机器之心· 2025-07-28 10:45
AI研究范式转变 - AI研究正从"能不能做"转向"学得是否有效",传统基准测试难以衡量AI实际效用,因忽略任务连贯性和长期适应能力[1] - 更类人的动态学习能力体现在通过实践经验不断优化策略,如学生解题时逐步掌握高效方法[3] - 大语言模型(LLM)是否具备类似"成长"能力关乎其迈向通用人工智能,但长期缺乏有效评估手段[4] EvaLearn基准框架 - EvaLearn是首个量化LLM学习能力与效率的基准,以「连续问题求解」为核心重新定义评估逻辑,开源一个月星标数突破400+[5][6] - 构建648个挑战性问题组成182个序列,每个序列含7个同类任务问题,前序解答经验直接影响后续表现评估[9] - 采用顺序评估流程,结合专业评分标准和GPT-4o验证器,评估准确率超95%实现高效自动化[11][13] 关键研究发现 - 模型学习能力存在任务类型差异:数学/逻辑推理任务更易利用经验提升,摘要类任务更依赖预训练知识[14] - 思维链模型在学习能力和稳定性上普遍优于非思维链模型,能更好利用经验解决新问题[15] - 反馈学习比示例学习效果更显著,可将模型解答准确率提升最高达+18%(如Claude-3.7-Sonnet数学推理)[16][24] - 学习能力与静态模型能力无强相关性,静态高性能模型并非在所有任务学习能力上都占优[17][38] 评估指标体系 - 设计6类任务评估维度:摘要/分类/信息抽取/逻辑推理/数学推理/序列推理[20] - 5大核心指标:整体序列准确率/准确率曲线斜率/首次正确位置/连续正确次数/热身后准确率[21] - 4种学习范式对比:零样本/少样本/示例学习/反馈学习,后者平均提升效果最优[22][48] 模型表现分析 - 9个前沿LLM测试显示:5个模型从顺序学习中获益,思维型模型变化更显著(如OpenAI-o3-mini整体提升+10.5%)[27] - 非思维型模型学习效率斜率更陡峭(起始性能低易提升),思维型模型收益更稳定[44] - 首个正确解答位置(P_first)指标显示,反馈学习比示例学习更能促进模型早期掌握任务[52][53] 研究意义与展望 - EvaLearn提供动态评估新范式,揭示模型与人类学习能力差距,推动更强模型发展[55][56] - 开创性实现从静态评估转向动态学习潜力评估,为AGI发展提供重要测量工具[57]
「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
机器之心· 2025-07-28 10:45
AI术语命名与概念发展 - AI大牛Andrej Karpathy首次提出“幻觉”(hallucinations)一词,用于描述神经网络生成无意义内容的现象 [1][3] - Karpathy在2015年博客中已使用“幻觉”概念,但直到2022年ChatGPT爆发后才成为研究热点 [3][6] - Karpathy被公认为AI圈“取名大师”,提出“软件2.0”“软件3.0”“氛围编程”“细菌式编程”等概念 [6][9][11] 软件范式演进 - **软件1.0**:传统编程模式,开发者需精确编写Python/C++等显式指令代码 [12][14] - **软件2.0**:神经网络时代,代码由权重参数构成,通过数据训练而非人工编写 [13][15] - **软件3.0**:提示词时代,用户用自然语言描述需求,LLM直接生成代码 [16][17] - 软件3.0特点包括:LLM作为计算平台(类比电网基础设施)、自主滑块调节AI控制程度 [19][20] 新型编程范式 - **氛围编程**:开发者仅需向LLM提出需求并全盘接受输出,无需直接编写代码 [22][23][24] - **细菌式编程**:强调代码模块化与可移植性,类似细菌基因的水平转移特性 [35][36] - 细菌式编程检验标准:代码需满足小巧、自包含、无依赖,便于开源社区复用 [35][36] 上下文工程崛起 - 上下文工程因Karpathy转发点评迅速出圈,相关帖子浏览量达220万 [42][43] - 与提示工程区别:上下文工程更注重结构化信息提供,而非单纯优化提示词 [44] - LangChain指出提示工程是上下文工程的子集,后者适用于复杂智能体构建 [43][44] 行业趋势观察 - Karpathy预测未来99.9%内容将由AI处理,文档需转向“为AI优化”格式(如Markdown) [45] - 命名在科研中具有知识奠基作用,精确术语是科学分类的“稳定靶标” [7][9]