Qwen2.5

搜索文档
清华唐杰新作:大模型能打掼蛋吗?
量子位· 2025-09-10 10:01
时令 发自 凹非寺 量子位 | 公众号 QbitAI 大模型能打掼蛋吗? 这是 清华唐杰 的最新论文。 清华、北邮、智谱、博世AI团队联合研究表明,大模型不仅能打掼蛋,还会打麻将、德州扑克、Uno等 8种棋牌 。 不同的模型在不同棋牌类型上的表现也不同: | Model | DouDizhu | GuanDan | Riichi | Uno | Gin Rummy | Leduc | Limit | Nolimit | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | API-based models | | | | | | | | | | GPT-4o-mini | 0.195 | 0.019 | 0.15 | 0.128 | -0.176 | 0.30 | 0.45 | 2.47 | | GPT-4o | 0.180 | 0.019 | 0.25 | 0.072 | 0.405 | 0.84 | 0.60 | 2.73 | | GLM-4-air | 0.330 | 0.000 | 0.10 | -0.068 | -0.415 | -0.1 ...
自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
机器之心· 2025-09-02 01:27
研究背景与方法 - 研究由清华大学、上海人工智能实验室、上海交通大学等机构联合完成,聚焦于利用大语言模型内部世界知识提升搜索智能体训练效率 [2][6] - 提出SSRL方法,通过结构化提示和格式奖励有效提取模型世界知识,降低幻觉并在多个基准测试中取得更好效果 [2][6][8] - 探索训练智能体无需真实环境参与的可能性,并验证接入真实搜索引擎后SSRL训练的模型表现更优,体现Sim2Real有效性 [2][8] 当前搜索智能体训练挑战 - 全真实搜索方式直接调用商业搜索引擎API或RAG本地知识库,成本高昂且与真实场景存在差距 [7][13] - 半真实搜索使用辅助LLM模拟搜索引擎行为,但训练效率低下且不稳定 [7][13] - 当前训练方式非常昂贵、耗时且不稳定,多轮工具调用导致rollout效率降低,外部信息引入易导致模型崩溃 [7][13] LLM利用世界知识的上限 - 通过formatted instruction显式利用模型内部知识,在大量模型上采样显示仅依赖内部知识即可在所有基准测试中获得明显效果提升 [10][12] - Llama-3.1-8B-Instruct在Bamboogle上pass@64达到76%正确率,在BrowseComp上pass@256达到10%正确率 [12] - 发现Llama系列在该类任务上效果远超Qwen系列,与数学领域结论相反 [12] - Majority Voting方法无法逼近模型能力上限,增加采样数量时效果不会进一步提升 [15] SSRL训练优化与设计 - 训练目标函数优化为标准GRPO目标,通过信息掩码强制模型基于查询和推理生成答案而非简单复制 [22][23] - 采用复合奖励函数结合格式奖励和结果奖励,防止奖励黑客并确保奖励有效性 [24] - 训练后模型表现优于依赖外部引擎训练的模型,训练效率提升约5.6倍且训练奖励持续增长未出现崩溃现象 [31] 实验结果 - 在Llama和Qwen2.5系列模型上训练,SSRL方法在多项基准测试中取得更好效果 [25][26] - Llama-3.2-3B-Instruct模型在HotpotQA上达到43.8%准确率,在NQ上达到58.4%,在Bamboogle上达到38.4% [26] - Llama-3.1-8B-Instruct模型在HotpotQA上达到48.0%准确率,在NQ上达到62.6%,在Bamboogle上达到54.4% [26] Sim2Real泛化 - 将前K个自搜索知识替换为在线搜索结果,发现SSRL训练模型在真实场景下表现更优 [28][29] - Llama-3.2-3B-Instruct模型在Sim2Real设置下准确率提升至41.9%,Qwen2.5-7B-Instruct提升至47.9% [33] - 随着K增加效果不会持续增长,显示模型内部知识具有高度压缩性和灵活性 [32] 熵引导搜索 - 提出熵引导搜索方法,根据模型不确定性动态选择使用内部知识或外部工具 [34] - 搜索次数减少20%-42%的同时保持可比性能,Llama-3.1-8B-Instruct模型准确率提升至41.7% [36] SSRL与TTRL结合 - SSRL与TTRL结合可获得显著效果提升,Llama-3.2-3B-Instruct模型在多项测试中准确率提升最高达67% [38][39] - 在BrowseComp任务上,Llama-3.2-3B-Instruct模型达到6.2%准确率 [40] - 但TTRL易导致模型过于自信和训练崩溃问题 [39]
吴伟:中国科技崛起吹响AI平权的号角
环球网资讯· 2025-09-01 22:53
中国AI行业全球影响力提升 - 多位中国企业家与学者入选2025年度全球AI影响力榜单 包括华为创始人任正非、DeepSeek CEO梁文锋、宇树科技CEO王兴兴等[1] - 中国上榜者数量显著增加且背景多元 涵盖领导者、创新者、塑造者和思想者等类别[1] - 中国AI产业快速发展并不断靠近国际舞台中心 反映全球技术格局"去地理化"扩散趋势[1] 开源技术推动行业变革 - DeepSeek开源技术路径增强AI行业开放性与参与性 为建立包容性全球技术格局贡献中国经验[1] - 开源生态帮助企业以极低成本开发衍生模型 阿里通义实验室开源超过200款模型且衍生模型数量突破10万个[1][4] - 中国开源模型Qwen2、Qwen2.5入选斯坦福报告2024年最具代表性AI模型[4] 东南亚AI市场快速发展 - 东南亚数字经济规模预计2030年达2万亿美元 其中AI市场规模有望突破5800亿美元[2] - 新加坡推出国家AI战略2.0并与OpenAI合作设立亚太中心 马来西亚发布AI治理指南并吸引字节跳动等投资[2] - 印度尼西亚制定人工智能国家战略蓝图 预计2030年AI为印尼经济贡献3660亿美元[2] 人才格局变化 - 美国顶级AI研究机构中中国人才占比38% 高于美国本土的37%[3] - 美国STEM领域对中国学者签证收紧加速海外人才回流 中国本土直培与人才回流战略显现成效[3] - 中国现存AI相关企业超442万家 2025年新增50.5万余家[3] 技术竞争力提升 - 中美大模型综合性能差距从2023年17.5%骤降至2025年0.3%[4] - 中国在开源生态建设和垂直领域应用形成独特优势 实现跨越式发展[4] - 政策支持从要素驱动向系统赋能转变 推动基础研究与应用转化双轮驱动[3] 创新生态建设 - 中国AI产业以顶层政策为锚点 坚持自主创新和长期主义发展范式[3] - 发展模式以共建共享为核心 兼顾效率与包容 为全球科技领域提供中国案例[4] - 通过系统性技术突破打破外部垄断 从根本上瓦解技术霸权架构[2]
阿里巴巴开源三款大模型性能比肩国际顶尖
搜狐财经· 2025-08-21 00:10
技术突破 - 阿里巴巴开源三款自主研发大模型Qwen2 5 Qwen2-VL及Qwen-Audio 性能全面对标国际顶尖模型 [2] - Qwen2 5在MMLU基准测试中以87 3%准确率刷新开源模型纪录 接近GPT-4的88 1% [4] - Qwen2-VL采用动态分辨率适配技术 处理高分辨率影像时效率提升40% 在VQAv2数据集上以78 6%准确率领先开源模型 [4] - Qwen-Audio通过音频-文本联合编码器设计 噪声环境下识别准确率达92% 较上一代开源模型提高15个百分点 [4] 开源生态 - 公司全量开源模型权重与训练代码 配套发布技术白皮书 与闭源商业模式形成对比 [5] - GitHub上Qwen系列模型48小时内Star数突破2万 收到120个国家开发者提交的3000份优化建议 [5] - 开源策略带动阿里云ModelScope平台API调用量月环比增长300% 云服务收入显著提升 [5] - 欧洲AI实验室基于Qwen视觉模块开发农业病虫害检测系统 研发周期缩短60% [5] 行业影响 - 中国AI技术从跟随创新转向引领突破 首次形成对西方技术的对等竞争态势 [6] - 开源生态加速AI技术普惠化 非洲开发者可构建本地语言翻译系统 东南亚企业可定制智能客服 [6] - 开源实践推动全球AI产业格局重塑 实现技术平权 [6]
ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步
机器之心· 2025-08-09 06:02
研究背景与动机 - 大语言模型在单轮推理任务中表现亮眼,但在开放式多轮交互场景中仍存在长程规划与工具交互能力不足的问题 [8] - 现有强化学习方法在平衡模型推理与多轮工具交互方面存在局限性,常因奖励稀疏和工具过用导致价值低估 [8] - 研究发现模型在工具调用后的初始生成阶段熵值显著升高,这一高熵现象未被现有方法充分利用 [14][16] ARPO方法创新 - 提出熵驱动的自适应rollout机制,在高熵工具调用步骤加大探索力度,增强推理路径多样性 [20][24] - 引入优势归因估计,优化策略更新方式,更好理解工具交互中各步骤的价值差异 [28][29] - 算法在保持计算复杂度可控的同时,实现不确定性感知的高效探索 [27] 实验设计与结果 - 在13个高难基准测试中,ARPO仅使用一半工具调用预算即显著优于主流RL方法 [3][21] - 在Qwen2.5-7B模型上,ARPO相比GRPO方法工具调用效率提升明显,同时准确率更高 [37][39] - 多任务测试显示ARPO在计算推理(AIME24 71.4%)、知识推理(HotpotQA 67.4%)和深度搜索(GAIA 61.2%)任务中均保持稳定优势 [35][41] 技术实现细节 - 采用分层奖励设计,综合考虑答案正确性、工具调用格式及多工具协作,最高可获得0.1额外奖励 [32] - 软优势估计方法在训练中表现更稳定,被设为默认优势估计方式 [31] - 工具生态覆盖搜索引擎、网页浏览智能体和代码解释器三类代表性工具 [22] 应用前景与展望 - 未来可扩展至多模态Agentic RL,探索图像、视频等多模态场景下的工具调用优化 [42] - 通过引入代码调试器、数据分析工具等扩展工具生态,提升复杂任务表现 [42] - 算法展示出良好的大规模部署潜力,可进一步优化实时动态环境中的适配性 [42]
监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力
量子位· 2025-08-04 07:00
大模型推理能力研究进展 - 可验证奖励的强化学习(RLVR)技术取得突破,尤其是"一题强化学习"在多个任务中表现亮眼[1] - RL训练面临资源成本高(上百小时A100GPU)和训练不稳定的现实难题[2] - 传统监督式微调(SFT)在低数据量下易过拟合,效果难以保证[2] One-Shot CFT技术原理 - 滑铁卢大学TIGER Lab提出One-Shot Critique Fine-Tuning新方法,通过"逐步分析判断答案好坏"激发LLM推理能力[3] - 方法流程:选取代表性任务→多模型生成解答→强大模型点评→训练目标模型从点评中学习[4] - 仅需一题数据+多个解答+多个点评即可完成微调,训练仅需约5个GPU小时[5] 实验效果验证 - 在数学任务上,Qwen2.5-Math-7B经CFT微调后准确率提升+15%,超越使用4万多个样本的全监督微调模型[9] - Qwen2.5-Math-7B在MATH-500等基准测试中平均提升+14.9分,最高单任务提升+23.1分[9] - 在BBEH逻辑推理任务中获得+10~16%准确率增幅,展现跨任务迁移能力[10] - 效果对具体任务和种子选择不敏感,具有良好的稳定性和复现性[11] 技术优势分析 - 批判性学习:理解"答案为何正确或错误",学习信号更具深度[12] - 多视角输入:一个问题模拟多种推理路径与错误类型,接近人类学习方式[12] - 强泛化性:点评语言包含通用逻辑判断规则,更易迁移至新任务[12] - 更换问题、模型、点评风格时,提升幅度保持稳定[13] 应用前景 - 相比RL方法大幅降低资源需求(5 GPU小时 vs 上百小时)[14] - 为个人研究者、资源有限实验室和初创团队提供高性价比解决方案[15] - 全流程开源(训练脚本、模型参数、数据集等),极大降低复现门槛[17]
GPT-4o遭越狱后指挥机器人做危险动作!全球首个具身智能体安全评测基准来了,大模型集体翻车
量子位· 2025-08-01 04:23
具身智能体安全研究 - 核心观点:顶级大模型如GPT-4o、Grok被"越狱"后可能教唆机器人执行危险行为,需建立安全评测基准[2][4] - 全球首个具身智能体安全评测基准AGENTSAFE诞生,填补对抗性安全评测空白[4][5] - 研究团队计划发布数据集、代码和评测沙盒供全球使用[6] AGENTSAFE设计原理 - 模拟45种真实室内场景,包含104种可交互物体[14] - 构建9900条危险指令数据集,引入6种"越狱"攻击手段(如多语言攻击、说服性攻击)[15][24] - 采用端到端评测闭环设计(感知→规划→执行),超越传统仅评估"规划合理性"的方法[16][18][20] 实验关键发现 - 测试5个主流VLM:GPT-4o、Gemini、Grok-2、GLM-4V、Qwen2.5[29] - 安全指令下感知准确率近100%,但危险指令分化明显:GPT-4o对"伤害人类"指令拒绝率最高(90%)[33][35] - "越狱"后安全性崩溃:GPT-4o拒绝率从84.67%降至58.33%,Grok/Gemini规划成功率飙升[37][38][39] - 案例:机器人完整执行"找到电脑→扔向镜子"的危险流程[40] 行业意义 - 现有评测基准忽视对抗性危险指令,聚焦任务完成率[9] - 具身智能体需通过安全测试才能部署真实世界[43] - 研究获ICML 2025多智能体系统研讨会杰出论文奖[5]
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
机器之心· 2025-07-03 03:26
大模型元思维推理框架ReMA 核心观点 - 提出强化元思维智能体(ReMA)框架,通过多智能体强化学习实现大语言模型的"元思维"能力,即监控、评估和控制自身推理过程的能力 [3][4][6] - 将复杂推理解耦为元思维智能体(战略规划)和推理智能体(执行计算)的双层架构,通过多智能体协作提升探索效率和泛化能力 [10][11][12] - 在数学推理和LLM-as-a-Judge基准测试中,ReMA平均性能优于基线方法,如Llama3-8B在AMC23数据集提升20% [27][28] 方法论创新 - **架构设计**:采用层级化多智能体系统(MAS),相比单智能体方法(如DeepSeek R1)降低探索难度,避免动作空间过大问题 [8][12] - **训练机制**: - 单轮场景使用GRPO和REINFORCE++算法优化,奖励函数兼顾回答正确性与格式规范性 [19] - 多轮场景引入参数共享和轮次级比率(turn-level ratio)技术,提升训练稳定性 [20][22][23] - **数据生成**:从LIMO数据集转换800条多轮MAMRP样本作为冷启动数据 [37] 实验结果 - **单轮测试**: - Llama3-8B在7个数学基准平均提升6.68%,Qwen2.5-7B在AIME24提升13.33% [27] - 元思维指导使困难任务准确率提升更显著,如Llama3-8B在AMC23从2.5%提升至22.5% [27][33] - **多轮测试**: - 8B以上模型能自适应选择元思维动作(如DECOMPOSE/REWRITE),小模型(1B)则收敛至简单策略 [36] - 共享参数设计使训练效率提升2.3倍,轮次级比率技术加速收敛 [37] 技术局限 - 多轮训练存在不稳定性,测试集提升不明显且对超参数敏感 [40] - 当前基于Deterministic MDP的训练流程可能不适用于Stochastic MDP场景 [39] 资源信息 - 论文已发布于arXiv(编号2503.09501),代码开源在GitHub [8] - 实验涉及Llama3-8B、Qwen2.5-7B等模型,测试覆盖MATH、GSM8K等12个基准数据集 [27][28]
7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式
机器之心· 2025-06-21 01:33
AI4AI 新范式突破 - 当前 AI 开发依赖人类专家手动调参,效率低下且成为制约 AGI 发展的关键瓶颈,AI4AI 通过让 AI 自主设计算法减少人工干预 [1] - 上海交大与上海 AI 实验室联合团队实现重大突破,仅用 7B 参数模型训练的 ML-Agent 在 9 个任务上学习后,设计能力超越 671B 参数的 Deepseek-R1 智能体 [2] - 该研究首次实现从"提示工程"到"经验学习"的范式跃迁,开创 AI 自主设计 AI 的新路径 [2][9] 传统自主机器学习的局限性 - 传统方法需要数天至数月进行模型设计和调优,效率低下 [4] - 现有基于 LLM 的智能体仍依赖人工提示词设计,形成"等待-修改-重试"的低效循环 [5] - 智能体缺乏从经验中自主学习和泛化的能力,难以摆脱对人力的依赖 [5] ML-Agent 的技术创新 - 采用在线强化学习范式,使智能体能够跨任务积累知识并持续优化决策 [7] - 开发探索增强微调技术,通过多样化专家轨迹数据集提升智能体探索能力 [14] - 提出逐步强化学习范式,重构目标函数使数据收集效率提升数倍 [15] - 设计定制化奖励模块,将复杂实验反馈转化为统一信号推动持续改进 [19] ML-Agent 的性能表现 - 在 10 个未见任务上全面超越 671B 参数的 Deepseek-R1,展现强大泛化能力 [20] - 在 cifar-10 任务上平均准确率达 68.88%,最佳达 81.45%,显著优于对比模型 [21] - 在表格数据任务 house-price 上平均 MAE 降至 20209,最佳达 18440 [21] - 在文本任务 feedback 上 MCRMSE 降至 0.5910,优于所有对比模型 [21] 行业影响与未来发展 - ML-Agent 标志着 AI 智能体从"工具执行者"向"自主学习者"的转变 [9] - 该技术大幅减少人类干预,加速 AI 算法设计迭代,为 AGI 发展奠定基础 [25] - 研究成果已纳入 MASWorks 开源社区,该社区旨在推动多智能体系统发展 [27] - 社区将在 ICML 2025 举办大语言模型多智能体专题研讨会 [28]
小红书hi lab首次开源文本大模型,训练资源不到Qwen2.5 72B 的四分之一
AI前线· 2025-06-06 08:30
模型开源与架构 - 小红书hi lab团队开源文本大模型dots.llm1,采用MIT许可证 [1] - 模型为中等规模MoE架构,激活参数量14B,总参数量142B,上下文长度32K [2] - 采用decoder-only Transformer架构,FFN替换为MoE模块,保持经济成本的同时提升能力 [4] 训练数据与方法 - 预训练使用11.2T高质量真实数据,未采用合成数据,性能达Qwen2.5-72B水平 [2] - 采用三阶段数据处理方法:文档准备、基于规则处理、基于模型处理 [4] - 开发轻量级网页清理模型和200类别分类器平衡数据比例,增加知识性内容比重 [4][5] - 使用AdamW优化器和warmup-stable-decay学习率计划,训练中逐步增加批量大小 [5] - 采用UtK策略扩展上下文至32K,通过片段重组训练模型重构能力 [5] 训练效率与成本 - 训练框架基于内部Cybertron,集成1F1B交错式通信和计算重叠方案 [6] - 每万亿tokens训练仅需13万GPU小时,Qwen2.5 72B需34万GPU小时 [7] - 完整预训练消耗146万GPU小时,仅为Qwen2.5 72B的1/4 [7] 微调与性能表现 - 收集40万指令调优实例,聚焦多语言对话、知识问答、复杂指令和数学编码推理 [9] - 微调分两阶段:指令样本重采样与多轮对话拼接处理,拒绝采样微调增强特定领域能力 [10][12] - 中文任务表现突出:CLUEWSC得分92.6,C-Eval得分92.2,MATH500得分84.8 [10] - 英文基准测试表现稳定全面,与Qwen2.5/Qwen3系列具有竞争力 [10] 团队发展与愿景 - hi lab由原大模型技术与应用产品团队升级组成 [11] - 组建"AI人文训练师"团队,融合人文背景研究者与AI专家提升AI人文素养 [13] - 目标拓展人际智能、空间智能等多维智能形式,使AI成为人类自然有益的伙伴 [13]