量子位

搜索文档
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
量子位· 2025-09-06 04:21
模型规模与性能提升 - 总参数量达到1万亿,是阿里迄今为止最大的模型,相比前代Qwen3(235B)参数规模扩大四倍[1][2] - 新版本在中英文理解、复杂指令遵循、工具调用等维度实现显著增强,并大幅减少知识幻觉[2] - 模型在官方测评中超越前代最强模型Qwen3(235B)及包括Claude Opus 4在内的国内外竞争对手[4] 技术特性与功能 - 支持多模态输入,可直接上传图片进行交互[12] - 仅支持非思考模式,不再使用混合思维模式[10] - 原生支持上下文长度262,144 token,最大输入258,048 token,最大输出32,768 token[28] - 代码生成速度达到每秒107个token,可生成4,467个token[23] 实际应用测试 - 成功解答AIME数学竞赛题,答案与标准答案"204"一致[11][13] - 快速生成p5js可交互动画代码并成功运行[15][16] - 一次性成功生成扫雷游戏代码,无需反复调试[18][19] - 能够生成介绍自身的可交互网站,支持文件保存和实时预览功能[20][21] 商业化进展 - 模型已全面上线,可通过通义APP、Qwen Chat网页和阿里云API体验[3] - API采取阶梯计费:0-32K token输入每百万$1.2,32K-128K token输入每百万$2.4[27][28] - 开源负责人透露正式版即将发布,且对继续扩展模型规模充满信心[30][32] - 按照以往节奏,预计推理版本可能在几天后发布(参考Qwen3-235B推理版仅隔4天)[34] 市场反响 - 国内外反响热烈,用户对模型规模扩张表示期待[6] - 开发者评价"再次令人惊叹",认可模型性能提升[7] - 开源阵营对后续版本保持高度期待[28]
字节发了个机器人全能大模型,带队人李航
量子位· 2025-09-06 04:21
技术突破 - 字节推出Robix视觉-语言单模型 整合机器人推理 任务规划和自然语言交互三大功能 解决多模块拼接导致的信息代沟问题 [1][3][4] - 模型采用思维链推理技术 基于当前场景物体 空间关系和任务要求进行迭代决策 实现思考过程 动作指令和人类回复的逻辑循环整合 [10][12][13][14] - 通过三阶段训练策略:持续预训练阶段使用机器人数据学习3D空间和语言-画面对应 监督微调阶段模拟真实场景训练逻辑思维 强化学习阶段通过算法纠正决策偏差 [17][19] 性能表现 - 在8个空间理解任务中 Robix的7B和32B版本有7个任务表现优于Qwen2 5-VL 平均准确率更高 [21] - 在多数基准测试中超越闭源模型 包括GPT-4o和Gemini 2 5 Pro [21] - 离线评估中Robix-32B-RL在所有评估集上排名第一 [22] - 在线评估使用UMI设备时 Robix-32B在5个任务中的3个超越Gemini 2 5 Pro 平均任务进度更高且大幅超越Qwen2 5-VL-32B [23] - 使用GR-3进行自动化真实机器人评估时 Robix-32B平均任务进度达92 5% 分别比Gemini 2 5 Pro和GPT-4o高出4 3和28 1个百分点 [25] 行业影响 - 机器人模型发展方向从拼凑模块数量转向提升单一模型的综合能力 [27] - 项目由字节AI实验室负责人李航博士领导 其曾担任华为诺亚方舟实验室主任和首席科学家 2017年加入字节后主导机器人项目 [28][30]
调整训练数据出场顺序,大模型就能变聪明!无需扩大模型/数据规模
量子位· 2025-09-06 04:21
文章核心观点 - 微软亚洲研究院提出全新文本数据组织范式DELT 通过优化训练数据顺序而非增加数据量或模型规模来提升语言模型性能 [1][3][11] - DELT范式整合数据评分、选择与排序三大组件 在预训练和后训练阶段显著提升多领域任务表现 [13][19][27] - 该方法突破传统数据效率研究局限 首次系统定义"数据效能"概念并验证其关键作用 [6][15][29] 数据组织范式创新 - 提出数据训练效能(Data Efficacy)新概念:通过优化数据组织方式最大化模型性能 不改变数据内容或模型架构 [15] - 开发LQS评分系统 结合质量(Quality)和可学习性(Learnability)双指标动态评估数据价值 [20][22] - 创新折叠排序法(Folding Ordering):通过分层多次采样避免模型遗忘 兼顾难度排序与数据分布均衡 [23][25][26] 性能提升实证 - 在160M参数模型上:平均性能从36.37%提升至38.08% 其中PIQA任务从55.19%提升至56.37% [28] - 在1B参数模型上:平均性能从37.77%提升至39.17% 其中ARC-c任务从20.58%提升至22.76% [28] - 在10B tokens数据规模下:平均性能从40.24%提升至41.62% LAMB任务从30.40%提升至32.98% [28] 方法论突破 - 解决单次训练周期(epoch=1)新范式下的数据顺序敏感性问题 [9][10] - 数据选择与排序共用评分结果 显著提升数据处理效率 [20] - 适用于通用、数学和代码等多领域任务 具有广泛适用性 [13][27]
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
量子位· 2025-09-05 10:56
模型性能表现 - 在Video-MME短视频基准测试中获得73.0分 [6] - 在OpenCompass综合基准测试中获得79.5分,超越Qwen2.5-VL 7B模型的70.9分 [19][20] - 在MMBench基准测试中获得92.0分,显著高于Qwen2.5-VL 7B的82.2分和GPT-40的86.0分 [19][20] - 在AI2D图像推理数据集获得89.5分,领先同级模型 [20] - 在OCRBench测试中获得86.6分,表现优异 [20] - 在Video-MME视频理解测试中获得73.0分,领先Qwen2.5-VL 7B的65.1分 [21][23] - 在MathVistaMINI数学视觉测试中获得81.2分,显著超越GPT-40的63.8分 [23] - 内部评测中在五项人类标注指标上获得3.53分综合成绩,较预览版本提升0.51分 [24][25] 技术创新特点 - 采用Slow-Fast双路编码机制,实现128k超长上下文窗口 [5][8] - 具备0.1秒级时序定位能力,能精确识别视频中特定物品出现时间点 [8][10] - 支持跨模态推理,能根据视频内容推断事件发生原因 [4][15] - 采用ViT+MLP投影器+语言解码器三段式架构 [27] - 视觉编码器继承SigLIP-400M参数,具备语义对齐能力 [29] - 引入2DRoPE和3DRoPE位置编码技术,支持高分辨率外推和时序排序 [29][31] - 通过四阶段渐进式预训练流程,使用超过1万亿token训练语料 [37][39][41] 应用场景与业务价值 - 为短视频内容审核、智能剪辑、搜索与互动推荐等业务场景提供底层AI能力 [69] - 在26秒带货视频分析中准确识别产品出现时间点(22.3-23.8秒) [11][12] - 能够详细描述视频画面场景和细节,具备强大的视频理解能力 [14][15] - 多模态技术已应用于千万级日常场景,验证了复杂视频理解的工程化可行性 [69] 研究成果与行业影响 - 团队在ICML 2025提出多模态RLHF框架MM-RLHF,通过120k人类偏好数据提升模型安全性 [51] - 在KDD 2025获得最佳论文提名的VLM as Policy框架,显著提高短视频审核效率与准确率 [54][55] - CVPR 2025发布交错图文多模态数据集CoMM和视觉token压缩加速算法LibraMerging [57][58][60] - ICLR 2025展示MoE模型优化算法STGC、视频对话理解基准SVBench和视觉任务指令数据集TaskGalaxy [61][62][65][67]
第一家被收购的AI浏览器公司,43亿成交,产品还在内测
量子位· 2025-09-05 06:33
收购交易概览 - 企业协作软件公司Atlassian以6.1亿美元(约43亿人民币)现金收购AI浏览器公司The Browser Company [1] - 收购重点为发布仅三个月且处于内测阶段的AI浏览器Dia [3] - The Browser Company旗下拥有Arc和Dia两款浏览器产品 [1] 被收购方背景 - The Browser Company成立于2019年,已运营5年多 [5][19] - 公司累计筹集融资1.28亿美元,去年以5.5亿美元估值获得5000万美元融资 [17][19] - 投资者包括PaceCapital、LinkedIn CEO Jeff Weiner、Medium创始人Ev Williams、Figma CEO Dylan Field、Notion CEO Akshay Kothari及GitHub CEO Jason Warner等知名机构与人士 [19] - 公司已积累数百万用户 [19] 收购战略意图 - Atlassian计划将Dia打造为"AI时代的白领专业浏览器" [3] - 收购旨在获得Atlassian的分发渠道、销售团队和规模化能力 [22][23] - The Browser CompanyCEO认为AI浏览器领域胜者将在未来12-24个月内诞生 [22] - 通过收购获得急需的稳定性以应对火热市场竞争 [24] 产品特性 - Dia针对白领日常使用的SaaS应用进行优化,标签页提供丰富上下文信息 [27] - 打通AI技能与个人工作记忆,连接应用程序、标签和任务节点 [29] - 旨在解决现有浏览器"为浏览而非工作效率设计"的痛点,打造用于操作的浏览器 [25][26] 市场反应与背景 - 收购引发外界对Atlassian眼光的质疑,因Dia仍处于内测阶段且公司产品推出有限 [4][5] - 《纽约时报》曾于7月专文盛赞Dia为新型AI浏览器 [14] - 两家公司收购谈判已持续一年,最初重点为另一款浏览器Arc [7][8] - Arc浏览器因学习曲线陡峭已于去年停止开发 [9]
全给黄仁勋玩明白了!15亿美元租自家GPU/教小弟用GPU换融资,英伟达又一世子被曝准备IPO
量子位· 2025-09-05 06:33
英伟达与Lambda的交易 - 英伟达向云厂商Lambda租赁1万个装有自家AI芯片的GPU服务器,为期四年,总价值13亿美元 [2] - 另达成一笔8000个装有英伟达芯片的服务器租赁交易,价值2亿美元 [3] - 租赁目的是满足英伟达内部研究和开发需求 [4] Lambda的业务与产品 - Lambda专注于为AI/ML开发提供高性能计算基础设施和服务,核心聚焦AI模型训练、微调和部署的算力支持 [11] - 主要产品包括裸金属GPU云服务、一键式集群、Lambda Inference API、Lambda Chat、Lambda Stack及NVIDIA DGX Systems [12] - 相较于大型云厂商,Lambda的GPU租赁价格通常更便宜划算,尤其在长期或大规模使用场景下 [11] 英伟达与Lambda的多重关系 - 英伟达是Lambda的供应商、投资者和客户,形成"循环关系" [10] - 投资方面:英伟达参与Lambda的4.8亿美元D轮融资(股权融资),与Andra Capital、SGW等共同领投 [14] - 债务融资:Lambda以5亿美元债务融资购买数万块英伟达GPU,GPU作为抵押品,若无法偿还债务,债权人有权获得这些GPU [14] 英伟达的战略意图与行业背景 - 英伟达通过扶持"新云"服务商(如Lambda和CoreWeave)加强在云市场的主导性,确保其芯片市场渗透率 [9][15][30] - 大型云厂商(如AWS和谷歌云)开始生产自研芯片部署于数据中心,对英伟达增长构成威胁 [28][29] - 英伟达数据中心业务2026财年Q2贡献411亿美元营收,同比增长56%,Blackwell平台收入环比增长17% [25] 类似案例:CoreWeave - CoreWeave通过抵押英伟达GPU的债务融资筹集近100亿美元,包括23亿美元债务融资用于扩大GPU基础设施 [20] - 英伟达在CoreWeave上市时投资约2.5亿美元,巩固战略股东身份,总投资额达39.6亿美元,占公开持仓的91.36% [21] - CoreWeave上市后股价一度暴涨400%,市值逼近900亿美元,但Q2亏损扩大至2.91亿美元 [22] Lambda的IPO计划 - Lambda被曝正在准备IPO,最早可能在2026年上半年完成 [7][23]
字节Seed最新版原生智能体来了!一个模型搞定手机/电脑/浏览器自主操作
量子位· 2025-09-05 04:28
核心观点 - 字节Seed团队发布UI-TARS-2智能体 通过多轮强化学习训练实现跨平台自主操作GUI 在电脑、手机、浏览器及游戏场景中表现优于Claude和OpenAI等竞争对手 [2][4][23][25] 技术架构与设计思路 - 采用统一Agent架构 以大语言模型为核心决策器 支持自然语言指令到GUI/终端/工具操作的通用执行循环 [7] - 整合多模态感知与环境交互 输入端包含屏幕截图、文本上下文及历史操作轨迹 输出端支持点击坐标、拖拽动作、命令行及API请求 [7] - 构建混合操作流 智能体可无缝组合GUI点击、终端命令和API调用 例如网页找资料后调用搜索API处理数据 [7] - 核心目标为构建原生通用跨平台GUI智能体 覆盖电脑、手机、网页、终端及游戏复杂任务 [6] 性能表现与基准测试 - 在OSWorld测试中得分47.5 超过Claude-4-Sonnet的43.9和OpenAI CUA-o3的42.9 [23][25] - 在WindowsAgentArena测试中得分50.6 超过UI-TARS-1.5的42.1 [23][25] - 在TerminalBench命令行任务中得分45.31 超过Claude-4-Opus的43.2和OpenAI o3的30.2 [23][25] - 在15款小游戏中平均得分达人类水平的59.77% 显著高于OpenAI CUA的24.73%和Claude Computer Use的21.61% [25][27] - 在Shapes游戏中得分5.9 超过人类水平的5.42 在2048游戏中得分932.4 接近人类水平的1024.31 [27] 多轮强化学习与数据飞轮 - 通过多轮强化学习解决GUI操作四大难题:数据稀缺、环境割裂、能力单一及训练不稳定 [4][5][10] - 采用冷启动策略 通过合成数据和人工标注构建高质量监督微调数据集 [11] - 通过拒绝采样生成新轨迹 按质量筛选后高质量数据进微调集 低质量数据进预训练集 形成模型与数据相互增强的循环 [12] - 针对奖励稀疏问题 对可验证任务采用明确信号奖励 对模糊任务训练智能体自身作为奖励模型输出成功分数 [16] - 采用异步rollout模式 将模型推理与执行过程分离 并优化PPO算法包括解耦GAE和不对称裁剪 [17] 工程实现与平台支撑 - 构建统一沙盒平台 支持百万级交互训练 解决传统环境难复现、易崩溃及吞吐量低的问题 [20][21] - 沙盒平台兼容多载体 包含云虚拟机文件系统、远程VS Code及Jupyter等工具 覆盖桌面-移动-游戏全场景 [18][22] - 基于Seed-thinking-1.6模型训练 总参数230B 含532M视觉编码器和23B激活参数 [23]
ChatGPT新功能,又干掉一批创业项目
量子位· 2025-09-05 04:28
核心观点 - ChatGPT推出分支对话功能 允许用户在原有对话基础上创建独立分支话题 解决多话题对话混乱问题 [1][4][8] - 分支对话功能已全面上线 用户可通过点击按钮实现话题分割 系统能自动记录并提示合并不同分支内容 [8][12] - 项目功能向免费用户开放 新增文件上传限制和自定义选项 不同用户层级享有不同权限 [16][18][19] 功能特性 - 分支对话功能通过底部视觉分割线标识话题来源 支持跨话题提问而不影响原始对话记录 [8][10][12] - 项目功能按用户类型设置文件上传上限:免费用户5个文件 Plus/Go/Edu用户25个文件 Pro/Business/Enterprise用户40个文件 [19] - 项目支持自定义颜色和图标配置 提升多项目管理的识别效率 [18] 行业影响 - 分支对话功能直接冲击T3chat等创业公司 后者曾凭借类似分支功能吸引用户 [5][6] - 功能设计针对团队协作场景 支持多用户从主线对话独立分支 避免互相干扰 [13]
OpenAI宣布推出AI在线招聘平台,和微软的领英打起来了
量子位· 2025-09-05 01:49
OpenAI进军招聘领域 - OpenAI计划于2026年推出AI驱动的在线招聘平台OpenAI Jobs Platform 旨在实现企业需求与员工能力的精准匹配[2] - 该平台将专门为小型企业和地方政府提供顶尖AI人才通道[5] - 服务覆盖各层级专业候选人 并利用AI技术优化人岗匹配效率[16] 与微软领英的竞争关系 - 新平台与微软旗下领英形成直接竞争 而领英联合创始人里德·霍夫曼是OpenAI最早的投资人之一[11] - 此举可能导致OpenAI与其最大资金支持者微软在招聘领域产生利益冲突[12] AI技能培训生态建设 - OpenAI Academy免费在线学习平台已帮助超过200万人掌握AI工具[18] - 将推出分级AI认证课程 从基础技能到提示词工程全覆盖[20] - 与沃尔玛合作推进2030年前为1000万美国人提供AI技能认证的计划[20] 多元化合作伙伴网络 - 合作方包括沃尔玛、约翰迪尔等大型雇主 波士顿咨询集团、埃森哲等专业服务机构[14] - 覆盖Indeed招聘平台、德克萨斯商业协会等社区组织及州政府机构[14] - 德克萨斯商业协会计划通过该平台连接数千家本地企业与现代化人才[17] 战略愿景与社会影响 - 公司认为AI将创造比历史上任何技术更多的就业机会[8] - 通过ChatGPT免费服务每周触达数亿用户 降低AI接触门槛[13] - 具备AI技能的员工被证明更具价值、效率更高且薪酬更优[18]
DeepSeek新大招曝光:下一步智能体
量子位· 2025-09-05 01:49
DeepSeek新模型开发计划 - 公司正在开发具有更强大AI Agent能力的新模型 预计在今年年底推出[3] - 新模型仅需少量提示就能帮用户执行复杂操作 并能根据历史操作自我进化和学习[7] - 模型将在今年最后一个季度面世[8] DeepSeek-V3.1性能升级 - DeepSeek-V3.1具备更强的Agent能力 通过Post-Training优化在工具使用与智能体任务中有较大提升[5] - 编程智能体方面 SWE-bench测试得分从V3-0324的45.4提升至66.0 SWE-bench Multilingual从29.3提升至54.5 Terminal-Bench从13.3提升至31.3[11][12] - 搜索智能体方面 Browsecomp从8.9提升至30.0 Browsecomp zh从35.7提升至49.2 HLE从24.8提升至29.8 xbench-DeepSearch从55.0提升至71.2 Seal0从29.7提升至42.6[14] 行业发展趋势 - 智能体概念成为行业焦点 2025年下半年几乎没有大模型产品不谈智能体[16] - 并行智能体正在成为提升AI能力的新方向[16] - 行业预计智能体价格门槛可能被降低[19] 技术架构创新 - 新模型采用混合推理架构 集成思考模式和非思考模式[13] - 实现更高的思考效率 比DeepSeek-R1想得更快[13] - 在工具使用与智能体任务中表现有较大提升[13] 产品发布节奏 - 从去年12月到今年8月 DeepSeek V系列版本号从V3升级至V3.1[9] - 业内原本预期会先推出新一代V系列基础模型 再发布被期待已久的R2[8] - 小版本改进暗藏玄机 实际性能提升显著[10]