量子位

搜索文档
Claude估值暴涨300%!全球独角兽字节第三他第四
量子位· 2025-09-03 01:42
融资与估值 - F轮融资130亿美元 刷新AI行业单轮融资纪录[2][7] - 估值达1830亿美元 较年初615亿美元暴涨近300%[2][8] - 成为全球第四大估值初创公司 仅次于SpaceX、OpenAI和字节跳动[2] 投资方阵容 - 由Iconiq Capital领投 Fidelity Management&Research Company和Lightspeed Venture Partners联合领投[8] - 卡塔尔投资局、黑石、General Catalyst等全球顶级资本参与[8] - 出现主权财富基金身影 包括卡塔尔投资局和新加坡GIC[10] 业务增长表现 - 年化营收从10亿美元跃升至50亿美元 仅用半年时间[3][14] - AI编程业务Claude Code年收入突破5亿美元[3][15] - 企业客户超30万家 年收入超10万美元大客户数量同比增长近7倍[16] 产品与市场策略 - 推出Claude Code、Pro和Max套餐 覆盖开发者与个人用户[19] - 服务范围从财富500强公司到AI原生初创公司[17] - 融资资金将用于基础设施拓展、AI安全研究及全球市场推广[19] 行业趋势影响 - 大模型领域马太效应显现 融资集中度加剧[5][6] - 融资额远超初始50亿美元目标 最终达130亿美元[11] - 在资本市场趋谨慎背景下 此次融资规模凸显行业分化[10]
奥特曼给ChatGPT空降高管,11亿美元收购独角兽创始人加入OpenAI…这剧情好熟悉啊
量子位· 2025-09-03 01:42
收购与整合 - OpenAI以11亿美元全股票收购Statsig公司[2] - Statsig成立于2021年 总融资额达1.53亿美元 C轮融资1亿美元 估值11亿美元[8] - 收购后Statsig团队将保持独立运营 继续服务现有客户[17] 高管团队重组 - Statsig创始人Vijaye Raji加入OpenAI担任应用业务CTO 负责ChatGPT和CodeX产品工程[16] - Fidji Simo担任应用部门CEO 统管ChatGPT和CodeX产品线[21] - 原首席产品官Kevin Weil转岗至研究部门 负责AI for Science新业务[6][24] 组织架构调整 - 成立独立应用部门Application 专注ChatGPT和CodeX等产品开发运营[5] - 工程主管Srinivas Narayanan转任B2B应用CTO 加强企业客户业务拓展[28][29] - 新成立OpenAI for Science部门 同步开启AI加速科学探索方向招聘[24][25] 战略重心转移 - 公司战略重心进一步向应用程序业务倾斜[4] - 通过收购整合Statsig实验平台加速产品开发进程[16] - 此次调整标志着ChatGPT等明星AI应用进入重要转折点[7]
LeCun今后发论文得亚历山大王批准!Meta搞出大无语操作
量子位· 2025-09-02 10:45
Meta内部AI部门重组与权力调整 - Meta首席AI官Alexandr Wang通过TBD实验室审核FAIR论文 对FAIR论文发表和员工工作实施干预 若论文被认定高价值则暂停发表并将作者调至TBD进行技术落地[1][7][9] - 该政策导致FAIR内部人员流失 已有员工因无法忍受规定跳槽至AI初创公司[12] TBD与FAIR的定位与冲突 - Meta AI部门重组为四个平行部门:TBD实验室(Alexandr Wang负责 高风险高回报创新及大语言模型开发)、产品与应用研究(技术产品化)、基础设施(硬件与算力支持)、FAIR(Robert Fergus负责 长期基础性AI科学研究)[16] - TBD作为平行部门却获得审核FAIR论文的权限 打破原有平衡 引发内部冲突[14][37] Alexandr Wang的权力扩张与行事风格 - Alexandr Wang被扎克伯格赋予更高权限 以首席AI官名义发布内部重组备忘录 而非扎克伯格本人[22][42] - 其行事风格以目标导向和激进增长著称 曾因Scale AI的数据标注员薪酬与工时问题引发争议 被评价为"德不配位"和"扎克伯格翻版"[28][34][40] FAIR的历史地位与当前处境 - FAIR由Yann LeCun和Robert Fergus于2013年创立 专注开放研究 但近年被多次调整归属(元宇宙时期划归Reality Labs 生成式AI时期划归GenAI)[20][25] - 当前既要受TBD干预论文发表 又被要求借调人才实现技术落地 科研独立性受严重冲击[38] Meta的AI战略转向 - 扎克伯格将"让Meta的AI重振雄风"作为最高优先级 通过重金收购Scale AI 49%股份并任命Alexandr Wang为首席AI官 明确向应用落地倾斜的战略方向[27][42]
图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改 | 智象未来
量子位· 2025-09-02 10:45
行业技术背景 - AI图像编辑技术发展迅猛 扩散模型成为行业主流但面临编辑精准度低和生成速度慢两大难题 [1] 公司技术方案 - 智象未来团队提出全新自回归图像编辑框架VAREdit 引入视觉自回归架构解决行业痛点 [2][3] - 将图像编辑定义为下一尺度预测问题 通过自回归生成多尺度目标特征残差实现精确编辑 [5] - 采用多尺度量化编码技术 将图像表征编码为空间规模递增的残差视觉令牌序列 [6] - 设计视觉自回归预测机制 使用VAR Transformer主干网络预测多尺度残差视觉令牌 [10] 技术创新亮点 - 提出尺度对齐参考模块 在第一层提供多尺度对齐参考 后续层仅关注最细尺度特征 [17] - 该混合方案解决了全尺度条件计算开销大和最大尺度条件尺度不匹配的问题 [13][14][17] - 自注意力分析显示浅层关注整体布局 深层转向局部优化 为模块设计提供理论依据 [15] 性能表现数据 - 在EMU-Edit基准测试中 VAREdit-8.4B的GPT-Balance指标达6.773 较ICEdit提升41.5% [17][19] - 在PIE-Bench测试中 VAREdit-8.4B的GPT-Balance指标达7.298 较UltraEdit提升30.8% [17][19] - 编辑速度显著提升 8.4B模型处理512×512图像仅需1.2秒 比扩散模型快2.2倍 [20] - 2.2B轻量模型仅需0.7秒 在保持高质量的同时实现即时编辑体验 [20] 技术优势 - 适用范围广泛 在大多数编辑类型上取得最佳效果 大模型有效弥补小模型在全局样式和文本编辑的不足 [23] - 编辑结果自然保真度高 过度修改更少 视觉对比显示明显优势 [25] - SAR模块带来显著优化 使EMU-Edit的GPT-Balance指标从5.248提升至5.565 [22] 发展计划 - 团队将继续探索新一代多模态图像编辑架构 推动技术向更高质量、更快速度、更强可控性发展 [27]
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进
量子位· 2025-09-02 06:17
狼人杀基准测试结果 - GPT-5以96.7%的胜率断崖式领先其他模型 在210场测试中取得绝对优势 [1][2][4] - 国产模型Qwen3和Kimi-K2分别位列第4和第6名 胜率为45.0%和36.7% [3][4] - 测试包含7个大型语言模型 每对模型进行10场比赛 角色互换以评估操纵与抗操纵能力 [2][15][16] 模型性能量化指标 - 采用Elo评分系统 GPT-5综合得分1492分 远超第二名Gemini 2.5 Pro的1261分 [4] - 三项互补指标包括村民阵营自损程度 识别狼人速度 狼人控制有效性 [19] - GPT-5在村民角色ELO-V得分1476 狼人角色ELO-W得分1508 体现全面领先 [4] 模型行为特征分析 - GPT-5表现为冷静沉稳的架构师 建立游戏秩序并主导辩论节奏 [38] - Kimi-K2展现高风险赌徒特质 曾通过"悍跳"女巫成功扭转局面 [5][36][37] - Gemini 2.5 Pro擅长防御 能坚决拒绝诱饵陷阱 [26] - GPT-OSS表现脆弱 受压时常退缩且容易被误导 [29][38] 能力跃迁现象 - 测试发现能力提升存在非线性跃迁 弱模型与强模型差异极大 [31] - 强模型展现纪律性 规范投票并制定夜间计划 弱模型表现混乱各自为政 [33] - 推理优化不等于实际能力表现 部分技术标签模型适应能力差 [31] 基准测试意义 - 狼人杀测试评估模型处理信任 欺骗和社会动态的能力 [14] - 目标为实现人工智能驱动的市场研究 预测现实世界用户反应 [44] - 通过行为特征绘制可组装特定个性组合的智能体群体 [43] GPT-5综合性能表现 - 在Mock AIME测试相比GPT-4实现80%性能飞跃 [52] - Level 5 MATH测试得分高达98% 远超GPT-4的23% [52] - 虽采用强化学习而非预训练规模扩展 但基准测试显示重大进步 [57][58]
他们在1993年就提出了Scaling Law
量子位· 2025-09-02 06:17
Scaling Law历史溯源 - Scaling Law概念最早于1993年由贝尔实验室团队提出,而非普遍认为的2020年OpenAI或2017年百度[1] - 核心理论发表于《Learning Curves: Asymptotic Values and Rate of Convergence》论文,揭示训练误差与测试误差随训练规模增加按幂律形式收敛[4] - 该理论与现代Scaling Law高度一致:通过增加模型参数量(N)、训练数据量(D)和计算量(FLOPS)可预测性提升模型性能[6] 理论框架与实验验证 - 研究初衷为节省分类器训练的计算资源,通过中等规模数据集训练结果外推预测大规模数据表现[8][9] - 提出误差收敛公式:测试误差$\mathcal{E}_{\text{test}}=a+\frac{b}{l^{a}}$,训练误差$\mathcal{E}_{\text{train}}=a-\frac{c}{l^{a}}$,渐近误差a值范围0.5-1[10] - 在线性分类器的布尔分类任务中预测准确率达极高精度[15] - 在多层神经网络(如LeNet)中,仅用12000样本训练即可预测60000样本规模下的CNN性能表现[19] - 任务难度与渐近误差呈正相关,困难任务收敛速率更小(学习更慢)[22] 核心研究人员背景 - Vladimir Vapnik为支持向量机(SVM)主要发明者,1964年与Chervonenkis提出原始SVM算法,1992年在贝尔实验室开发核技巧处理非线性分类[27][28] - Corinna Cortes现任Google Research纽约分部副总裁,2022年当选ACM Fellow表彰其对机器学习贡献[30][33] - John S Denker与Yann LeCun合作完成手写识别经典论文,涉及机器学习、系统安全、好莱坞特效等多领域[35][36][37] 贝尔实验室的技术遗产 - 卷积神经网络与支持向量机均诞生于贝尔实验室,曾存在技术路线竞争[38] - 1995年Vapnik与Larry Jackel以豪华晚餐打赌神经网络可解释性,2000年Vapnik胜出但2005年局势逆转[38] - LeCun作为赌局见证人,亲历了神经网络从质疑到主流的技术演进过程[39]
最新研究揭示视觉模型与人脑的对齐机制
量子位· 2025-09-02 04:17
时令 发自 凹非寺 量子位 | 公众号 QbitAI AI看世界的方式,与人类大脑保持一致。 结果发现, 模型大小 、 训练数据量 和 图像类型 都会影响模型与大脑的相似度,而且这些因素之间还有相互作用。 特别是,规模最大、训练量最多,并使用人类相关图像训练的DINOv3模型,在脑相似性评分最高。 研究还发现,类脑表征在AI模型中的出现遵循特定的时间顺序:模型先对齐人类早期感觉皮层表征,而要像大脑的高层区 域(例如前额叶)一样处理信息,则需更多训练数据。 这一发展轨迹与人类大脑皮层的结构与功能特性高度一致。模型在训练后期学到的表征,恰好对应大脑中发育最晚、最 厚、髓鞘最少、处理速度最慢的区域。 但究竟是什么因素驱动了这种 脑-模型相似性 ,至今仍缺乏清晰认识。 为此,FAIR与巴黎高等师范学院通过训练 自监督视觉Transformer模型(DINOv3) ,并使用功能性磁共振成像 (fMRI )和脑磁图(MEG)从不同指标评估脑-模型相似性。 DINOV3学到的与大脑一致 DINOv3是一种自监督视觉Transformer模型,已在17亿张自然图像上进行训练。 为了进行全面评估,研究人员从零训练了DINOv3 ...
马斯克发布《宏伟蓝图4》:特斯拉80%价值在于机器人,还意外露出了一款新车
量子位· 2025-09-02 04:17
公司战略转型 - 特斯拉未来约80%的价值将来自人形机器人Optimus [1][2] - 公司发布《宏伟蓝图4》 将人工智能深度融入物理世界实现可持续富足 [8][11][47] - 战略核心是通过大规模统一硬件和软件 将AI引入真实物理世界 [8][12] 核心原则框架 - 增长无限原则:技术进步可化解资源短缺 突破可能性界限 [15][17] - 创新消除限制原则:通过电池技术突破建立可再生能源产业 [19][20] - 技术解决现实问题原则:产品迭代更高效可持续 包括太阳能 储能和自动驾驶 [21][22] - 自动化造福人类原则:以改善人类生存状况为技术开发指导 [24] - 普及驱动增长原则:通过价格合理的产品最大化利用时间资源 [25] 产品生态布局 - 机器人Optimus将改变劳动认知 承担枯燥或危险工作 [22] - 自动驾驶汽车改善交通可负担性和安全性 减少污染 [22] - 太阳能发电与大规模储能提升清洁电力经济性 [22] - 汽车被重新定义为轮式机器人 FSD系统可通用化移植至人形机器人 [48] 历史蓝图演进 - 2006年蓝图1聚焦电动汽车推广 执行三步走战略 [34][38][40] - 2016年蓝图2扩展至可持续能源生态系统 包括太阳能和产品线扩充 [39][41] - 2023年蓝图3提出全球能源解决方案 测算10万亿美元投资可行性 [44][50] - 蓝图4实现范式转变 从能源焦点转向AI驱动 [46][47] 执行路径 - 采用逐步推进模式:从Roadster到Model系列 利用利润持续开发 [30] - 建立可持续产品生态系统 涵盖交通 能源生产和机器人 [31] - 当前处于革命性时代入口 将通过工具构建梦想世界 [32]
用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
量子位· 2025-09-02 04:17
技术突破 - 字节Seed与斯坦福等机构推出新模型,使长视频生成计算量降低85%[1] - 新模型采用Mixture of Contexts(MoC)稀疏注意力机制,将视频生成重构为上下文检索任务[3][4] - 模型在保持人物、场景连贯性和质量的同时显著降低成本[2][6] 性能表现 - 生成1分钟480P视频仅需2.32×10¹²FLOPs,较基线模型1.66×10¹³FLOPs降低85%计算量[10] - 多镜头64秒视频计算量从1.7×10¹³FLOPs降至2.3×10¹²FLOPs,节省86%[11] - 单镜头8秒短片计算量从1.9×10¹⁰FLOPs降至4.1×10⁹FLOPs,减少78%[13] - 所有性能指标(主题一致性0.9421、背景一致性0.9535、动作连贯性0.9920)均优于基线[12][13] 实现机制 - 通过内容对齐分块技术动态切分语义一致的视频块,提升检索精度[19] - 采用动态top-k路由机制,使查询仅与最相关的k个块建立注意力连接[19] - 引入跨模态链接和镜头内链接强制边,防止提示漂移并保证稳定性[20] - 稀疏检索结构通过时间掩码约束为有向无环图,提升训练稳定性[20] 工程优化 - 键值打包至FlashAttention可变长核,支持对数千万token的线性伸缩处理[20] - GPU端实现访存连续和充分并行,保障计算效率[20]
腾讯开源智能体新框架:不用训练无需充值,用开源模型实现SOTA Agent
量子位· 2025-09-02 04:17
文章核心观点 - 腾讯优图实验室开源Youtu-agent智能体框架 解决研究者和开发者面临的上手门槛高、环境复杂、实验难以复现等问题[1] - 该框架基于开源生态 不依赖闭源API或模型训练 在多个基准测试中展现领先性能[1][4] - 通过自动化智能体生成和DITA设计原则 显著降低定制难度 支持科研、开发及爱好者快速构建实际应用[24][29][30] 技术性能表现 - WebWalkerQA基准测试准确率达71.47% 基于DeepSeek-V3.1刷新开源效果SOTA[4] - GAIA文本子集测试Pass@1达72.8% 超越部分依赖付费工具的智能体框架[4] 框架核心优势 - 开源友好且成本敏感 完全基于开源生态适配低成本部署环境[5] - 灵活架构兼容DeepSeek、gpt-oss等多类模型API与工具集[6] - 模块化异步化设计支持streaming、tracing与agent-loop高效调试[9] - 通过YAML配置和元智能体对话实现一键生成智能体配置[8][24] 实际应用案例 - 本地文件管理:自动识别PDF文件并重命名为"学号-姓名"格式 非PDF文件自动归档[13] - 数据分析:读取CSV文件后自动清洗分析 生成结构化HTML报告[15][16] - 论文分析:解析PDF论文内容 检索相关研究并生成Markdown格式研究报告[18][19] - 广域研究:通过搜索工具收集信息 经文档处理和分析后生成结构化综述报告[21][22] 自动化生成机制 - 通过meta-agent交互澄清用户意图 自动生成完整配置文件[24] - 运行python scripts/gen_simple_agent.py生成配置 python scripts/cli_chat.py启动测试[25][26] - 基于DITA原则定义需求、输入输出、工具和交互范式四维度[23] 适用群体与部署 - 研究人员可作比ReAct更强的开源基线 支持一键评估脚本[28] - 开发者可作为经过验证的脚手架快速构建真实应用[29] - 爱好者可通过丰富示例直观探索 支持web-ui可视化运行[30][35] - 部署需git克隆代码 uv同步依赖 配置.env工具API密钥[32][35]