Workflow
大语言模型
icon
搜索文档
更大,还能更快,更准!蚂蚁开源万亿参数语言模型Ling-1T,刷新多项SOTA
机器之心· 2025-10-09 02:24
文章核心观点 - Ling-1T作为一款万亿参数的开源大模型,通过高效的MoE架构实现了规模、速度与推理精度的兼顾,标志着大模型竞争正转向效率范式 [2][5][53] - 该模型在多项基准测试中表现亮眼,尤其在编程、数学推理等高推理密度任务上稳居第一梯队,同时实现了“万亿级储备,百亿级开销”的产业级落地 [3][8][53] - 蚂蚁集团通过开源Ling-1T及其底层技术,旨在降低AI应用门槛,推动技术普惠,特别是在金融、医疗等高合规要求的行业场景中 [71][72][74] 模型性能表现 - 在编程能力上,LiveCodeBench得分61.68,CodeForces-rating达1901,显著高于DeepSeek等对比模型 [7][8] - 在数学推理方面,Omni-Math与UGMathBench得分均突破74分,FinanceReasoning达到87.45,展现出强大的逻辑一致性 [7][8] - 知识理解维度表现出色,C-Eval得分92.19,MMLU-Redux得分92.25,OlympiadBench得分91.3,多项指标领先竞争对手1-3个百分点 [7][9][10] - 在AIME-25推理测试中准确率达70.42%,与Gemini-2.5-Pro精度相当,但消耗的token更少,实现了更高的思考效率 [14][15] 技术架构与效率创新 - 模型采用高效MoE架构,总参数规模达1T,但每次推理仅激活约500亿参数,通过“按需思考”机制实现低成本、高效率 [5][55][56] - 支持128K上下文长度,结合分组查询注意力技术,使长文档理解与敏捷响应兼得,推理速度不受长上下文拖累 [62][63] - 训练数据超过20T+ token的高质量、高推理浓度语料,为模型提供了更强的逻辑密度与思维深度 [55][66] - 采用三阶段精英教育训练路径,并自研WSM调度器和LPO优化方法,使模型在综合能力上普遍跑赢旧策略 [67][69][70] 实际应用与场景体验 - 在代码生成任务中能精准理解抽象视觉要求,完成度高,并展现出一定的审美能力 [19][21] - 具备强大的逻辑推理与科普能力,能用通俗比喻解释复杂概念如量子隧穿效应,有效降低理解门槛 [28][34] - 创意写作能力出色,能为播客节目撰写富有张力的开场白和可直接发布的小红书文案 [37][43] - 拥有工具调用能力,能执行复杂任务如推荐真实存在的小众徒步路线,并给出自洽的理由判断 [46][48] 行业影响与开源战略 - 2025年9月全球开源大模型数量较8月翻倍不止,中国力量表现亮眼,蚂蚁集团以“开源风暴”密集上线7款新品 [3] - 开源路线能降低技术迭代成本,加快版本演进,并通过社区的“质量与安全红队”效应降低边际改进成本 [72] - 开源透明性有助于金融、医疗等高合规行业审计决策路径,植入自有知识,在可控的安全边界内释放智能价值 [72] - 蚂蚁集团开源了从模型到训练框架的整套底层能力,旨在让AI能力像电力与支付一样无感却无处不在 [74]
清华、北信科、复旦团队解读具身智能!大语言模型与世界模型如何让机器人懂物理、会思考?
机器人大讲堂· 2025-10-06 04:05
文章核心观点 - 具身智能是人工智能在物理世界中实现感知-认知-互动闭环的关键方向,其终极目标是实现人类级别的通用智能[4] - 大语言模型与世界模型的协同是推动具身智能发展的核心技术,前者负责语义理解和任务规划,后者负责物理规律预测和动作验证[9][14][19] - 大语言模型与世界模型的结合能形成语义指导物理、物理约束语义的闭环,实现1+1>2的效果,是具身智能走向实用的关键[14][19] - 具身智能技术已在服务、工业、救灾等领域实现应用,显著提升了机器人的自主性和适应性[20] - 未来具身智能需在自主进化、硬件优化、群体智能及安全性等方面取得突破[21] 具身智能定义与特点 - 具身智能核心在于物理世界互动,需通过传感器感知环境、认知系统处理经验、执行器做出动作,形成闭环[4] - 与离身智能不同,具身智能直接与物理世界互动,例如扫地机器人避障规划、救灾无人机自主避障等[2][4] - 终极目标是实现接近人类级别的通用智能,能在动态不确定的物理世界中自主适应,例如听懂指令并安全移动易碎品[4] 技术发展脉络:从单模态到多模态 - 早期具身智能为单模态模式,仅依赖视觉或语言等单一感官,存在明显短板,如纯视觉机器人在昏暗环境中易迷路[5][7] - 技术转向多模态融合,整合视觉、语言、触觉、听觉等信息,使机器人能更灵活处理复杂任务,例如服务机器人可协同感知物体位置、用户需求及物体重量[8] - 多模态能力推动感知、认知、互动三者从各自为政转向互相配合,关键驱动因素是大语言模型和世界模型的突破[8][9] 大语言模型的作用与演进 - 大语言模型核心作用是赋予语义智能,使机器人从执行固定指令升级为理解模糊复杂的人类语言并进行任务分解[10] - 例如Google SayCan案例,通过搭配真实世界动作库和价值函数验证动作可行性,但早期模型依赖固定动作库,适应性有限[10] - 多模态大语言模型(如PaLM-E、RT-2)直接处理图像、语言、触觉等多模态信息,输出动作序列,不再依赖固定动作库[12] 世界模型的功能与架构 - 世界模型相当于机器人大脑中的物理世界模拟器,负责预测动作后果,确保符合物理规律[14][18] - 主要功能包括构建内部表征(压缩传感器信息为结构化地图)和预测未来变化(预判动作风险,如推桌子是否碰倒杯子)[18] - 主流架构包括RSSM(擅长时序信息和短期预测)、JEPA(擅长语义特征提取)、Transformer-based模型(擅长长序列规划和复杂环境)[14] 大语言模型与世界模型的协同 - 两者具强互补性:大语言模型懂语义但不懂物理,世界模型懂物理但不懂语义,单独使用均无法实现高级具身智能[14][19] - 结合后形成闭环:大语言模型生成初步计划,世界模型验证物理可行性并反馈调整,最终输出符合需求与规律的动作序列[19] - 例如EvoAgent具身智能体,结合两者后能在不同环境中自主完成长期任务,无需人类干预[19] 应用场景与案例 - 服务机器人从预设路线升级为听懂指令、实时避障、根据语气调整服务,如酒店送物机器人[20] - 工业机械臂从专机专岗变为通过大语言模型理解指令、世界模型预判抓取力度,实现柔性任务切换[20] - 救灾无人机从人类遥控升级为通过世界模型模拟风险、大语言模型理解指令,自主规划安全路径[20] 未来挑战与方向 - 需突破自主进化能力,使机器人能在新环境中探索学习,减少对人类标注数据的依赖[21] - 硬件需优化算法-硬件协同,设计专用加速器或通过模型压缩支持边缘设备运行[21] - 需发展群体具身智能,解决多机器人协同中的信息共享、任务分配和容错问题[21] - 安全性与可解释性至关重要,需确保动作可追溯、符合人类伦理,如危险时优先保护人类[21]
从「知题」到「知人」:UserRL让智能体学会「以人为本」
机器之心· 2025-10-05 06:42
文章核心观点 - 当前大语言模型在代码、数学等任务上表现出色,但距离成为真正的“用户伙伴”仍有差距,核心挑战在于缺乏“知人”的能力,即理解用户动态、不确定和多目标的意图 [2] - 智能体发展的下一个时代课题是从“会解题”迈向“懂用户”,这需要全新的动态评测框架与训练机制 [2] - 来自UIUC与Salesforce的研究团队提出了系统化方案:UserBench(用于评测)和UserRL(用于训练),二者相辅相成,将“以用户为中心”从理念落地为可复现的流程、接口与评测指标 [2][3] UserBench:量化用户价值的评测框架 - **核心思想**:真正的智能体价值不在于完成任务本身,而在于是否能够理解用户、服务用户,UserBench旨在通过刻画用户特征,将“用户价值”从抽象理念转化为可量化的研究对象 [4] - **设计原则**:针对传统评测集中在工具调用与任务完成,却鲜少触及模型是否对齐用户潜在与动态意图的缺口 [5] - **三大用户交互特征**:UserBench将现实交互的三大特征作为评测核心,包括用户目标未完全成形(模糊性)、在多轮对话中逐步显露(渐进性)、以含蓄间接的方式表达(间接性)[3][6][8] - **环境与数据构造**:标志性设计是旅行规划任务,覆盖五个子场景,每个维度设置数十条隐式偏好表述,要求模型理解用户话语背后的语义逻辑 [8] - **数据难度与真实性**:环境内置稳定数据库后端,搜索返回采用混合式选项(正确项、错误项、噪声项)增加模型认知难度,数据根据偏好复杂程度分为Easy/Medium/Hard三档,既保真实性又具备实验可控性 [9][10] - **标准化交互接口**:将复杂的模型、用户及环境三方交互抽象为三类原语操作:Action(与用户对话)、Search(检索数据库)、Answer(提交推荐),高度浓缩了“理解—检索—决策”的链路 [11][15] - **评价指标**:核心指标是归一化得分(选到最优解记1.0,正确但次优解记0.8,其余记0),并辅以过程指标如有效搜索/对话操作率、偏好揭示率进行综合分析 [13][16] UserBench关键评测发现 - **模型普遍表现**:在评测的主流模型中,GPT-4o的归一化得分为0.329,Gemini-2.5-Pro为0.317,Claude-4-Sonnet为0.307,Deepseek-V3为0.210 [12] - **核心挑战定位**:模型并非输在“不会算”,而是常常没能问对问题、没能挖出关键信息,真正的挑战是智能体与人的交互中进行有效的“用户价值”提炼与捕捉 [13] - **单选比多选困难**:当模型可回答次数限制为一次时,平均分数下滑约40%,暴露了“只能给一次答案”时的抉择困难 [16] - **用户偏好揭示率低**:主流模型仅约20%的答案完全贴合全部用户意图,即便是强模型,通过主动互动挖掘到的偏好不到30% [16] - **工具使用与用户理解脱节**:模型普遍有效搜索率超过80%(如Gemini-2.5-Flash达83.62%),但有效对话率显著更低(如GPT-4o为27.82%),说明“循证澄清”的难度更高 [12][16] - **约束复杂度影响**:当总偏好数固定时,把偏好更平均地分散到多个旅行需求中更容易,而集中在少数需求上会显著拉低分数,揭示了本质挑战来自局部约束的组合复杂度 [16] - **交互轮数与质量非正相关**:盲目拉长交互轮数并不能带来收益,同时,命中答案的“时效性”与整体模型对话质量也并不总是正相关 [16] UserRL:以用户为中心的强化学习训练框架 - **核心思想**:在UserBench抽象出的三个原语接口之上,构建一个统一的gym环境,把用户在多轮交互中的参与转化为一个可训练的强化学习问题,优化智能体在交互中的回报 [18] - **八大Gym Environments**:覆盖从个性化推荐到复杂推理的多维能力,包括TravelGym、TauGym、PersuadeGym、TurtleGym、TelepathyGym、FunctionGym、IntentionGym、SearchGym,所有环境统一在Action/Search/Answer接口下 [19][20][25] - **用户模拟与多轮Rollout**:每个环境中的用户由LLM模拟,并可更换不同用户模拟模型以实现交互多样性,框架特点包括确定性任务状态、可验证奖励函数、自然语言互动以及多轮rollout [22][26] - **双层奖励设计**:探索回合层(Turn-level)与轨迹层(Trajectory-level)奖励设计,回合层方法包括Naive、Equalized、Reward-to-Go(R2G)及Exponential Mapping(EM),轨迹层整合方式包括Sum和R2G [22][23][24][26][27] - **训练与优化方法**:主要采用GRPO算法进行优化,在同一query下采样多条轨迹,组内归一化优势,再结合回合与轨迹奖励进行联合优化,在RL训练前进行了SFT小规模优化 [30] UserRL关键训练发现 - **奖励组合效果**:回合均等(Equalized)加轨迹Reward-to-Go(R2G)在4B/8B模型上最稳健、平均表现最好,而回合均等加轨迹Sum最弱,说明轨迹级计分比回合级细分更具有决定性价值 [29][34] - **训练模型表现**:经过UserRL训练的Qwen3-8B(Equalized/R2G)在8个gym上的平均得分为0.5652,在TravelGym、PersuadeGym、IntentionGym等交互型任务上超过强闭源模型,整体平均也领先闭源对照 [29][34] - **闭源模型对照**:作为对照的闭源模型中,Gemini-2.5-Pro平均得分为0.4702,GPT-4o为0.4449,GPT-4o-mini为0.1729 [29] - **SFT冷启动必要性**:先做SFT再RL能显著避免早期坍塌,部分任务收益超过100% [30][34] - **用户模拟器选择关键**:使用GPT-4o作为模拟用户训练的模型下游更强,但Qwen3-32B作为开源模拟器具备性价比高且可迁移的优势 [34]
理想基座模型负责人近期很满意的工作: RuscaRL
理想TOP2· 2025-10-03 09:55
文章核心观点 - 理想基座模型团队提出RuscaRL框架,旨在通过结合教育心理学的脚手架理论和量规学习,解决大语言模型在强化学习中面临的探索瓶颈问题,以提升模型的推理能力和智能上限 [1][2][8][12] - 该技术被视为一个体系性创新,其价值在于算法与基础设施的融合,而非单一算法的突破,有望同时受益于面向数字世界的MindGPT和物理世界的MindVLA [2][9] - 团队认为强化学习是大模型智能提升的关键,而当前的关键问题是如何让模型在更广泛的问题上实现能力泛化,其核心挑战在于奖励函数在非客观且结果难以准确量化的场景中的应用 [1][8] RuscaRL框架的技术原理 - 框架核心是引入“显性脚手架”机制,通过为每个任务提供包含不同评价标准的量规来指导模型生成响应,并采用组内差异化和跨步退化策略,逐步减少外部支持以促进模型独立推理 [12][14] - 框架采用“可验证奖励”机制,利用量规设计多维度评分标准,并借助大语言模型作为评判器来生成稳定可靠的奖励信号,以增强探索的多样性和训练稳定性 [13][15] - 该框架被类比为英伟达Eureka水准的工作,同属创建元框架来解决强化学习中的关键难题,但不同于DPO那种基础理论层面的突破,其贡献更偏向框架创新和应用成效 [6] 技术价值与行业定位 - 该工作被定位为探索前景广阔但不成熟领域的高水平工作,其价值体现在明确了强化学习领域的关键问题,并提供了创新且可应用的解决方案 [8][9] - 技术潜在瓶颈包括对人工设计的高质量量规依赖较高,以及因多次采样和复杂评估导致的较大训练量和计算开销 [16] - 创新被认为源于体系能力建设,智能体强化学习的关键问题已从单点算法突破转向算法与基础设施融合的体系性问题解决 [2][9]
人工智能就是大语言模型?丨中新真探
中国新闻网· 2025-10-03 08:40
人工智能与大语言模型的关系 - 大语言模型只是人工智能技术中的一种,二者并不等同 [1] - 人工智能是一个广泛的研究领域,包括机器学习算法、图像识别、语音识别、机器人行动策略优化以及自然语言处理等 [1] - 大语言模型最初是人工智能在自然语言处理领域的突破性进展,并在多模态技术帮助下可处理声音、图片和视频等信息 [1]
苹果2026年智能眼镜前瞻:五大关键功能值得期待
环球网资讯· 2025-10-03 03:51
产品定位与战略 - 公司正加速研发智能眼镜,旨在与Meta的雷朋系列展开竞争 [1] - 面对Meta已推出带显示屏的智能眼镜,公司希望加快其首代产品的开发进程,甚至已暂停下一代Vision Pro的部分工作以优先推进眼镜产品上市 [1] - 与初代Apple Watch类似,苹果眼镜将首先定位为一款时尚配饰,而非款式有限或造型笨重的设备 [4] - 公司计划提供多种镜框与镜腿材质选项,以满足用户的个性化审美,预计将推出不同颜色、尺寸和形状供选择 [4] 核心功能与技术 - 设备将主要依赖语音控制,Siri将扮演核心角色,公司只有在下一代功能全面升级的Siri准备就绪后才会正式发布这款眼镜 [5] - 基于大语言模型重构的更智能Siri版本将于2026年春季推出,其体验将更接近Claude、Gemini或ChatGPT [5] - 用户可通过语音结合眼镜内置摄像头实现多种功能:对所见场景提供反馈、查找信息、翻译外语、记忆位置、提供任务指导、播放音乐、发送信息等 [5] - 首代眼镜将不会配备显示屏,但会具备与Meta基础款雷朋眼镜同等级的AI能力、摄像头与音频功能,支持拍摄照片、录制视频、播放音频、提供导航、回答问题、描述环境、视觉识别、拨打电话、发送信息、语言翻译等功能 [6] - 眼镜将搭载基于Apple Watch芯片的公司自研芯片,但无法完全独立运行,仍需配合iPhone才能启用AI处理等完整功能,任务交由iPhone处理有助于延长眼镜续航 [7] 发布时间与定价 - 公司可能在2026年底正式展示该产品,并于2027年初正式上市 [7] - 关于售价目前仍无确切消息,但Meta Ray-Bans起售价为380美元,预计公司会为其版本制定具有竞争力的价格 [7]
美股高开 半导体板块走强 Q3交付超预期特斯拉涨2.2%
格隆汇APP· 2025-10-02 13:52
美股大盘表现 - 美股主要指数开盘上涨,道指涨0.04%,标普500指数涨0.26%,纳斯达克指数涨0.59% [1] 半导体行业 - 美股半导体板块走强,阿斯麦股价上涨3.45%,英伟达股价上涨1.50% [2] - AMD股价上涨近3%,因报道称英特尔正与台积电展开早期洽谈,拟将AMD纳入代工客户名单 [6] 能源与工业 - 西方石油股价上涨0.6%,伯克希尔将以97亿美元收购其石化业务 [3] 科技与数据中心 - Nebius股价上涨6.6%,微软将使用Nebius数据中心进行大语言模型开发 [4] 汽车行业 - 特斯拉股价上涨2.2%,公司第三季度交付量超出预期 [5] - Rivian股价下跌超过3%,公司下调本财年交付量 [5]
美股小幅高开 半导体板块走强 Q3交付超预期特斯拉涨2.2%
格隆汇· 2025-10-02 13:45
美股整体表现 - 道指开盘上涨0.04%,标普500指数开盘上涨0.26%,纳斯达克指数开盘上涨0.59% [1] 半导体行业 - 美股半导体板块走强,阿斯麦公司股价上涨3.45%,英伟达公司股价上涨1.50% [1] - AMD公司股价上涨近3%,报道称英特尔公司正与台积电公司展开早期洽谈,拟将AMD公司纳入代工客户名单 [1] 公司特定动态 - 西方石油公司股价上涨0.6%,伯克希尔公司将以97亿美元收购其石化业务 [1] - Nebius公司股价上涨6.6%,微软公司将使用Nebius数据中心进行大语言模型开发 [1] - 特斯拉公司股价上涨2.2%,第三季度交付量超出预期 [1] - Rivian公司股价下跌超过3%,公司下调本财年交付量 [1]
英伟达持仓概念股Nebius盘前涨超6%
格隆汇APP· 2025-10-02 10:58
公司股价表现 - Nebius美股盘前涨幅超过6% [1] 公司业务动态 - 微软据悉将使用Nebius数据中心进行大语言模型开发 [1] 公司关联信息 - Nebius是英伟达持仓概念股 [1]
28岁融资过亿,他说大语言模型已“撞墙”,3D是蓝海
混沌学园· 2025-10-01 11:58
公司概况 - VAST是一家专注于AI 3D大模型研发的公司,其产品Tripo能够通过文字、图片或多模态输入生成完整的3D内容[13] - 公司已完成三轮融资,每轮融资额达数千万美金[14],团队规模约110人[15] - 创始人宋亚宸具有跨学科背景,曾在商汤从事AI与动画、游戏结合的工作,并于2021年参与创立MiniMax,2023年创立VAST[17] 3D大模型技术进展 - Tripo 3.0于2024年8月发布,其核心突破在于首次实现"pipeline-ready",用户可直接生成可用于3D打印的模型,无需二次修改[46] - 技术升级涉及系统性优化,包括数据量扩充、算法改进及模块优化,尤其在几何精细度上取得显著进步[47] - 公司研发了新型3D表达形式SparseFlex(SF),该技术已开源,能降低生成成本、提升速度,并支持上千空间维度的高精细度生成[49] - 当前模型覆盖全球三四百万专业创作者及超4万家企业客户,其中700多家为大型客户[46] 产品战略与商业化 - Tripo Studio作为AI原生工作流工具,于2024年5月31日上线后收入增长超两倍[51],其功能包括万物自动语义分割、万物骨骼绑定及低模生成等独有能力[52][55] - 公司战略强调同时推进基模与应用开发,通过Tripo Studio贴近用户反馈,指导大模型迭代,形成技术与产品的闭环[71] - 商业化路径优先聚焦产品技术打磨,而非早期大规模推广,因当前产品差异化显著且用户无信息差[118][119] - 长期愿景是构建面向UGC的3D创作者社区,推动零门槛、零成本的实时3D创作生态[76][95] 行业竞争与差异化 - 3D大模型领域面临数据、算法、算力三要素挑战:数据方面,公司拥有全球最大规模高质量3D原生数据集(超4000万样本)[83];算法方面,团队汇聚数十位清华博士等顶尖科学家[85];算力方面,公司为赛道内融资规模最大企业之一[86] - 与语言模型不同,3D模型仍处于快速迭代期,应用层需与基模同步开发,否则易被下一代技术覆盖[70] - 竞争对手多聚焦游戏公司定制化服务或工具开发,而VAST定位为构建完整创作者平台与社区,路径差异显著[112][115] 市场前景与愿景 - 3D内容市场潜力巨大,全球游戏市场规模约2600亿美金,未来3D UGC平台规模可能超过现有图文视频平台总和的两到三倍[79][80] - 科技发展被视为"解压缩"过程,3D作为信息密度最高的形态,将逐步取代文字、图片、视频成为互联网终极表达形式[103][108][109] - 公司愿景长期稳定,旨在通过降低3D创作门槛,推动"第四产业"(内容与体验产业)发展,未来人类价值将更多体现在创意带来的体验时间总和[125][126]