大语言模型

搜索文档
Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源
机器之心· 2025-08-23 04:42
文章核心观点 - 提出全新智能体推理范式Chain-of-Agents(CoA)以解决传统多智能体系统通信效率低、泛化能力有限及缺乏数据驱动学习能力的问题 [2][3] - CoA框架通过层次化智能体架构实现端到端多智能体协作 显著降低推理成本并提升性能 [6][8] - 基于CoA训练的Agent Foundation Model(AFM)在近20项复杂任务基准测试中刷新性能记录 包括多跳问答、代码生成和数学推理等领域 [6][18][24][25][27] 技术架构 - CoA采用角色型智能体(思考/计划/反思/验证)与工具型智能体(搜索/爬取/代码)的层次化架构 支持动态激活机制 [10][13] - 通过多智能体能力蒸馏将OAgents成功轨迹转换为CoA兼容格式 生成约87k条SFT轨迹数据用于监督微调 [11][14][15] - 强化学习阶段采用约85k条高质量任务数据 通过策略抽样优化高难度任务表现 [16] 性能表现 多跳问答任务 - AFM-RL在7个数据集上达成平均性能新高 以Qwen-2.5-7B-instruct为基准时平均准确率达45.5% 较ZeroSearch提升6.4% [19] - 多跳问答任务提升显著 表明其在任务分解与工具使用方面具有更强能力 [19] 复杂网页搜索任务 - AFM(Qwen-2.5-32B-Instruct)在GAIA基准实现55.4%通过率 领先WebSailor 2.2%和WebDancer 3.9% [24] - 在BrowseComp任务以11.1%成功率居32B模型首位 WebWalker任务准确率达63.0% 超过WebThinker-RL 16.5% [24] 数学推理能力 - AFM-RL-7B在五个数学基准平均准确率64.3% 较次优模型SimpleTIR-7B-Multi提升3.6% [26] - AFM-RL-32B平均准确率78.0% 领先ReTool-32B达3.6% 在AIME25和OlympiadBench分别实现10.5%和5.7%绝对提升 [26] 代码生成能力 - AFM-RL-32B在LiveCodeBench v5准确率47.9% CodeContests成绩32.7% 显著超越TIR方法 [6][27][28] - 与基础模型相比 AFM通过RL优化后在7B与32B模型上平均准确率分别提升8.5%和13.2% [27] 效率优势 - AFM将推理成本(token消耗)减少高达85.5% 在工具调用效率和token消耗维度均表现最优 [6][33] - 在GAIA数据集测试中 AFM工具调用次数最少 且提示工程token消耗最低 [33] 技术局限与展望 - 当前角色型智能体类型需预先定义 未来需探索动态角色生成机制以增强未知任务适应性 [39] - 现有工具以文本为主 需融合图像/语音等模态工具扩展应用场景 [39] - 针对长周期任务需设计更高效的智能体状态记忆与历史轨迹复用策略 [39]
均普智能发展逐步多元化 具身智能机器人业务实现突破式进展
证券日报网· 2025-08-23 04:13
财务表现 - 2025年上半年营业收入10.32亿元[1] - 期末在手订单规模34.64亿元[1] - 新接订单11.12亿元,同比增长20.22%[1] 业务结构 - 非汽车业务订单达4.45亿元,占总新接订单约40%[1] - 医疗健康领域中标连续血糖监测传感器生产线项目,年设计产能1500万件[1] - 获得胰岛素注射笔及自动注射器全自动生产线项目[1] 技术创新与突破 - 自主研发多刃体智能装配工艺应用于国际知名品牌剃须刀刀片组装订单[1] - 获得高端电动牙刷驱动单元柔性装配线订单[1] - 人形机器人贾维斯2.0智能系统完成多模态升级,接入大语言模型和视觉语言模型[2] 战略合作与产能建设 - 与国内头部医疗企业达成战略合作开发胰岛素注射笔平台化凸轮技术[1] - 与智元机器人合资公司首条本体量产中试线投产[2] - 合资公司接获超2800万元人形机器人生产销售订单,三款具身智能机器人同步生产[2] 研发与教育合作 - 贾维斯轻量化1.0版本交付清华大学等高校用于科研教学[2]
最强兄妹档,又要融资700亿
搜狐财经· 2025-08-22 16:21
融资规模与估值 - Anthropic正在洽谈高达100亿美元(约718亿元人民币)的融资,接近其历史融资总额114.04亿美元(约818.9亿元人民币)[2] - 公司计划以1700亿美元(约1.2万亿元人民币)估值融资,较2024年3月615亿美元(约4415.9亿元人民币)的投后估值增长近3倍[2][3] - 本轮融资由Iconiq Capital领投,计划投入约10亿美元(约71.8亿元人民币),单笔投资额不低于2亿美元(约14.4亿元人民币)[4] 财务表现与增长 - Anthropic年化收入已攀升至50亿美元(约359亿元人民币),预计年底达到90亿美元(约646.2亿元人民币)[3] - 若本轮融资完成,公司估值将在1700亿美元基础上再度大幅提升[4] 融资历史与投资方 - 自2021年以来完成8次融资,总额114.04亿美元(约818.9亿元人民币),正在完成第9次融资[2][5] - 主要投资方包括亚马逊(总计承诺投资40亿美元)、谷歌(总计承诺投资20亿美元)、Spark Capital、FTX等[6][7][8][9] - 本轮融资参与方包括TPG Inc、光速创投、Spark Capital、Menlo Ventures及卡塔尔投资局、新加坡主权基金GIC[4] 行业地位与竞争格局 - Anthropic估值有望突破千亿美元,成为全球第四家千亿美元级AI独角兽,仅次于SpaceX、字节跳动、OpenAI[3] - AI数据分析公司Databricks预计融资后估值超过1000亿美元(约7180.4亿元人民币),行业融资热度持续高涨[3] - 公司由OpenAI前高层于2021年创立,2023年3月发布聊天机器人Claude,目前已更新至Claude 4.1版本[2]
“智元机器人收购A股上市公司是创新需要…现金流能撑三年”
量子位· 2025-08-22 09:03
公司战略与融资 - 公司已完成对A股科创板公司上纬新材63.62%的控股[1] - 融资能力强劲 可随时启动融资 计划年底启动C轮融资并引入国际产业方[8] - 当前无营收 但现金流可支撑三年运营[8] - 未来三年计划投入数十亿资金孵化50个早期项目 已投15个早期项目 年化收益达8倍[8] - 启动"智元A计划" 目标三年内打造千亿级产业生态[8] 产品与商业化 - 2024年计划出货几千台机器人 2025年出货数万台 未来目标每年出货几十万台[8] - 商业化路径优先ToB场景 后续拓展ToC市场[8] - 落地场景从简单环境+简单任务逐步过渡到复杂环境[8] - 当前销售以直销为主 但计划2024年渠道占比提升至30% 2026年达到70%以上[8] - 重点布局展厅讲解接待和文娱表演场景 已与马来西亚i-city等国际伙伴签约[56][57] 技术研发与突破 - 团队规模超1000人 平均年龄31岁 其中75%为研发人员[8] - 研发投入中2/3聚焦AI算法 1/3专注机器人本体技术[8] - 实现24小时连续自主行走 突破极端环境适应性(地表温度61℃)[20][21] - 实验室测试已达连续行走3000小时 批量测试完成360小时无异常 正进行720小时测试[22] - 开发视觉SLAM与激光雷达融合方案 强化感知精度与安全性[36][38][39] - 发布动作驱动世界模型开源平台Genie Envisioner 采用3000多小时真实机器人数据训练[25][26] 数据战略与行业合作 - 行业处于数据早期阶段 公司通过杭州湾具身智能创新中心推动数据标准化与产业化[28][29] - 计划1-2年内积累大规模真实数据 目标达到大语言模型数据规模[29] - 采用"数据金字塔"策略 结合互联网数据与真机数据优化模型性能[35] - 与上市公司深度合作 借助其行业资源与资金加速落地[49] - 平台化开发生态 包括开源AMRT框架和AimIO嵌入式系统[45] 国际化进展 - 出海双路径并行:科研教育(北美合作)与商业化(东南亚、日韩、中东)[55][56] - 与英伟达、Skill AI达成数据驱动领域合作[55] - 东南亚市场进展最快 已落地马来西亚主题乐园机器人项目[56] 成本与效率优化 - 工业场景ROI回收周期因地区而异:绵阳约3年 上海约2年 海外可缩短至1年[59] - 通过客户协同优化作业效率 例如料箱转运时间从160秒压缩至40秒[60] - 与富临精工合作降低关节成本 推动整机成本下降[61]
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
AI前线· 2025-08-22 06:07
核心观点 - 大语言模型在数学与代码推理能力上的竞争日趋激烈 数学与代码推理能力已成为大语言模型竞争中最硬核的"分水岭" [1] - 快手Klear语言大模型团队推出Klear-Reasoner模型 基于Qwen3-8B-Base打造 在多个权威基准测试中达到同规模模型的SOTA水平 [1] - 核心技术创新是GPPO算法 一种在保留训练稳定性的同时大幅提升探索能力的强化学习优化方法 [5] 技术突破 - GPPO算法通过stop gradient操作将clip操作与梯度反向传播解耦 让被截断的token依然参与反向传播 [8] - 解决传统clip机制的两个隐藏问题:高熵token被裁剪限制探索能力 负样本延迟收敛拖慢修正速度 [7][9] - 在数学和代码任务上表现出优势 继承PPO悲观更新策略 保持更清晰的优化信号和更稳定的训练 [10] 性能表现 - 在AIME2024上取得90.5%的成绩 AIME2025上取得83.2%的成绩 登顶8B模型榜首 [2] - 全面超越同规模开源模型包括DeepSeek蒸馏版DeepSeek-R1-0528-8B [2] - 在LiveCodeBench V5和V6等基准测试中表现优异 [2] 训练方法优化 - SFT阶段强调数据质量优先 高质量数据源比数量更重要 [12] - 数学数据Top1源取得AIME2024 40.83%和AIME2025 36.04%的最佳成绩 [14] - 代码数据Top2源取得LiveCodeBench V6 29.20%的最佳成绩 [15] 数据策略创新 - 高难度任务保留部分带瑕疵的推理路径反而能提升模型表现 [16] - 困难样本混合数据在AIME2024达到47.29% 优于纯正确数据的45.63% [17] - 简单任务错误样本会损害性能 困难任务错误样本具有价值 [16][17] 强化学习改进 - 代码任务使用软奖励(测试用例通过率)比硬奖励更有效 [19] - 软奖励缓解奖励稀疏问题 增加训练信号密度 降低梯度估计方差 [19] - 代码数据测试用例过滤 pass@16大于0.5的数据保留显著提升性能 [21][26] 开源贡献 - 完整公开训练细节与全流程pipeline [1] - 提供论文链接、Hugging Face地址和GitHub地址 [3] - 为社区贡献可复现、可推广的推理模型监督学习和强化学习路线 [24]
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践
机器之心· 2025-08-22 04:58
研究背景与目标 - 强化学习在大语言模型推理优化中存在技术多样性但缺乏统一标准的问题 [8][9][14] - 研究旨在系统评估主流RL技术组件的有效性并探索简化算法方案 [3][9][14] 实验设计 - 基于自研ROLL框架实现统一实验平台确保公平对比 [3][12][15] - 覆盖不同模型规模(4B/8B)、模型类型(Base/Instruct)及任务难度(Easy/Medium/Hard)[15][17] - 在六个数学推理数据集上进行多维度评估 [18] 优势归一化技术分析 - 组内归一化在稀疏/偏斜奖励分布下更稳定 [21][24][25] - 批次归一化对分布偏斜高度敏感易受极端样本影响 [20][24][25] - 混合归一化(组内均值+批次标准差)兼顾语义合理性与统计稳健性 [29][31] 裁剪机制研究 - Clip-Higher技术对已对齐Instruct模型有效但基础模型效果有限 [32][38] - 裁剪阈值需根据模型规模差异化设置(4B持续提升,8B存在拐点)[36][38][46] - 低裁剪阈值会抑制语篇连接词压缩推理路径 [39][41] 损失聚合方式 - 基础模型更适合token-level损失聚合 [44][47][49] - 对齐模型更适合sequence-level损失聚合 [44][47][49] 样本过滤策略 - 过滤超长样本在8k token限制下有效提升训练质量 [50][52][54] - 20k token限制下过滤收益减弱因无效样本占比降低 [52][54] - 过滤操作能增强模型终止建模能力降低重复生成比例 [55][57] Lite PPO创新方案 - 仅包含混合优势归一化和token-level损失聚合两项核心技术 [58][59][60] - 在多个数学推理任务上超越多技巧复杂方案 [59][60] - 具有训练稳定、超参敏感度低、工程简单的优势 [59][60] 研究价值与启示 - 建立首个RL4LLM关键技术系统性对比框架 [63] - 证明精简技术组合比复杂堆叠更具鲁棒性和实用性 [64][67] - 通过开源框架推动领域可复现性与标准化研究 [65][66]
石头科技的逆袭:找到自己的方法论
21世纪经济报道· 2025-08-22 02:09
核心财务表现 - 2025年上半年营业收入79.03亿元 同比增长78.96% 连续六年实现营收增长 [1] - 归母净利润6.78亿元 其中第二季度环比增长53.29% [1] - 净利率回升至9.2% 期末总资产193.79亿元 较年初增长10.83% 净资产133.74亿元 [1] 市场地位与竞争格局 - 2024年全球扫地机器人出货量首次超越iRobot成为世界第一 2025年一季度继续保持 [3] - iRobot陷入财务危机 2025年3月财报显示对持续经营存在重大疑虑 正考虑债务重组和出售选项 [2] - 中国厂商完成从贴牌到自研跃迁 在激光导航/自清洁基站/算法等环节实现反超 [3] 技术突破与产品创新 - 首创LDS激光导航技术和升级避障系统 解决传统惯性导航"傻撞"痛点 [3] - 2025年1月发布G30 Space探索版 搭载五轴折叠机械臂和AI障碍物识别技术 可识别数百种物体并分类收纳 [6] - 8月发布P20 Ultra Plus瞄准拖布与污水处理痛点 配备全能自清洁基站与热风烘干功能 [6] - 洗地机A30 Pro Steam系列采用150℃蒸汽洗地与AI双向助力系统 [6] - 应用RRMind GPT大模型实现自然语言控制 3D-TOF导航与SLAM算法优化提升复杂环境应对能力 [7] 全球化战略与渠道变革 - 产品覆盖全球超170个国家和地区 服务超2000万户家庭 [8] - 在欧洲市场推动"去经销商化" 从依赖经销商转向品牌直营模式 显著提升自营渠道比例 [8][9][10] - 2024年第四季度启动越南代工生产 成为首家在海外建立代工能力的中国智能扫地机器人制造商 [10] 行业趋势与市场数据 - 2024年全球智能扫地机器人出货2060.3万台 同比增长11.2% 销额93.1亿美元 同比增长19.7% [4] - 平均单价上涨7.6%至452美元 行业高端化持续深入 [4] - 2025年第一季度全球出货量509.6万台 同比增长11.9% [5] - 2024年中国市场零售额193.6亿元 同比增长41.1% 零售量603.6万台 同比增长31.7% [5] - 2025年前4个月国内线上销售额与销售量分别同比增长67.0%和58.1% [5] - 美国市场渗透率15% 中国仅6% 海外高端产品渗透率不足中国一半但规模约为中国三倍 [8]
【点金互动易】算力芯片+Deepseek,公司部分算力芯片已实现量产,拥有实现端侧芯片的智能化处理能力
财联社· 2025-08-22 01:19
核心观点 - 公司专注于算力芯片和晶圆设备领域 产品已实现量产并具备端侧芯片智能化处理能力 同时与多家大语言模型完成技术对接 [1] 算力芯片业务 - 部分算力芯片已实现量产 拥有端侧芯片智能化处理能力 [1] - 产品已对接DeepSeek和Kimi等多家大语言模型 [1] 晶圆设备业务 - 公司已量产多款晶圆设备 适用于大英寸晶圆测试 [1]
斑马智行独立赴港IPO 上汽是最大客户和重要股东
每日商报· 2025-08-21 22:57
公司分拆上市计划 - 阿里巴巴拟分拆子公司斑马智行赴港上市 已向香港联交所递交IPO申请 联席保荐人为德意志银行、中金公司、国泰君安国际 [1] - 分拆完成后阿里巴巴将持有斑马智行超过30%股份 斑马智行仍为权益法被投资方 [2] - 上市将提升斑马智行独立形象 增强获取银行信贷融资能力 拓宽外部融资渠道 [4] 股权结构与客户关系 - 阿里巴巴目前持有斑马智行约44.72%股份 上汽集团通过关联公司间接持有约34.34%股份 [2] - 上汽集团为斑马智行2022-2024年及2025年第一季度最大客户 同时是2023-2024年五大供应商之一 [2] - 2022-2024年从上汽集团获得收入占营业收入比例分别为54.7%、47.4%、38.8% [3] 财务业绩表现 - 2022-2024年收入分别为8.05亿元、8.72亿元和8.24亿元 [3] - 同期亏损及综合开支总额分别为8.78亿元、8.76亿元和8.47亿元 [3] - 研发费用分别为11.11亿元、11.23亿元、9.80亿元 [3] 行业地位与市场前景 - 按2024年收入计算 斑马智行是中国最大的以软件为核心的智能座舱解决方案供应商 [3] - 中国智能座舱解决方案市场规模将从2024年1290亿元增长至2030年3274亿元 复合年增长率16.8% [6] - 全球智能汽车销量将从2024年5800万辆增长至2030年8650万辆 复合年增长率6.9% [6] 技术发展与募资用途 - 已发布元神AI交互智能体 联合通义及高通首发端侧多模态大模型解决方案 [6] - IPO募投资金将用于研发加强技术领导地位 提升市场份额 拓展全球市场 [5] - 部分资金将用于业务收购及扩张计划 以及营运资金补充和其他一般用途 [5]
斑马网络递表港交所,大股东包括上汽与阿里
巨潮资讯· 2025-08-21 07:43
上市申请与募资计划 - 斑马网络于8月20日正式向港交所提交上市申请 联席保荐人为德意志银行、中金公司及国泰君安国际 [2] - IPO募资将用于加强研发投入、扩大中国市场份额、拓展全球市场、支持业务收购及扩张计划以及补充营运资金 [2] - H股面值为每股人民币1元 最高发行价需另加1%经纪佣金及多项交易费用(包括0.0027%证监交易征费、0.00015%会财局征费及0.00565%联交所交易费) [3] 股权结构与分拆安排 - 阿里巴巴于8月21日公告 斑马自2024年12月27日起不再纳入集团并表范围 [4] - 阿里巴巴当前持有斑马约44.72%股份 分拆完成后仍将保留超30%股权 斑马继续作为权益法被投资方 [4] - 香港联交所已确认分拆计划符合第15项应用指引要求 [4] 业务定位与行业地位 - 斑马智行成立于2015年11月 主营智能汽车操作系统、智能汽车解决方案及数字交通解决方案 [5] - 按2024年收入计 公司是中国最大以软件为核心的智能座舱解决方案供应商 按解决方案搭载量计算亦排名第一 [5] - 为中国仅有的两家完全自研汽车操作系统的第三方供应商之一 唯一整合系统级OS解决方案、AI全栈端到端方案及汽车平台服务三大核心 [5] 技术能力与竞争优势 - 据IDC 2025年报告 斑马智行大语言模型能力在中国九大顶级汽车AI公司中排名第一 [5] - 在车辆控制、驾驶、娱乐、出行、商务、生活方式及社交互动等多场景表现领先同业 [5] - 通过技术整合将汽车转变为智能移动空间 提供差异化座舱解决方案 [5]