Workflow
量子位
icon
搜索文档
快来看看GPT-5第一波实测
量子位· 2025-08-08 05:34
GPT-5技术能力 - 具备"博士生水平"的复杂任务处理能力 成功复原20阶魔方耗时18分半 [4][20][21] - 多模态应用开发能力突出 可生成网页版Word/Excel、3D生命游戏、流体动力学模拟器 [22][24][31] - 长文本理解能力显著提升 在OpenAI-MRCR 256k测试中准确率达86.8% 远超GPT-4系列 [38][39] - 常识推理突破大模型瓶颈 在SimpleBench测试中首次超越人类平均水平 [40][42] 行业竞争格局 - 大模型竞技场综合排名第一 总分1481分领先Gemini 2.5 Pro(1460分)和Grok 4(1429分) [50][52] - 编程单项能力被Claude 4-Sonnet超越 得分68.97 vs 73.58 [59][61] - 实际对战数据显示 Gemini 2.5 Pro在2/3场景中胜出但综合评分较低 [53][55] - 马斯克公开质疑其AGI能力 出示ARC-AGI和Humanity's Last Exam测试结果 [14][64] 产品商业化影响 - 发布会演示法语学习功能 直接冲击多邻国股价走势 [10] - 开发者生态活跃 已出现太空模拟器/冥想应用/Windows 95克隆等创新案例 [7] - Pro版本展现进阶能力 成功破解修改版"外科医生谜语"测试题 [43][47] - 设计体验存在争议 法语学习界面被批丑陋 多模态数数功能仍有缺陷 [70][66] 市场争议事件 - 发布会图表出现"52>69=30"计算错误 引发网友大规模调侃 [17][72][73] - 测试数据可视化方式受质疑 被指刻意夸大性能优势 [76][77] - 版本迭代策略激进 旧版ChatGPT用户面临强制升级 [80]
亏到发疯!AI编程独角兽年入2亿8,结果用户越多亏得越狠
量子位· 2025-08-08 05:34
核心观点 - AI编程公司表面收入高增长但实际普遍亏损,商业模式面临高可变成本与低利润率的挑战 [1][4][6] - 行业竞争加剧且护城河薄弱,模型供应商亲自下场加剧生存压力 [12][31] - 扭亏尝试包括自研模型、寻求收购、转嫁成本,但均存在显著执行障碍 [15][19][25] 行业现状 财务表现 - Windsurf年收入4000万美元但运营成本远超收入,毛利率为负值 [2][7] - Cursor年收入5亿美元创SaaS最快破1亿ARR纪录(12个月),估值99亿美元 [2] - Replit年收入1亿美元(18个月增长10倍),估值11.6亿美元 [2] - Lovable预计2025年6月ARR达7000万美元,获1430万欧元融资 [2] 成本结构 - 大模型调用费占成本大头,按Token计价导致用户越多成本越高 [8][10] - 可变成本占比普遍达10%-15%,所有代码生成产品利润率接近平衡或亏损 [11] - 基础模型频繁升级迫使公司持续投入,形成成本恶性循环 [9][10] 竞争格局 - 参与者包括Cursor、Replit、Bolt、Lovable等初创公司及Anthropic、OpenAI等模型供应商 [12] - 用户价格敏感度高,产品替代性强难以建立忠诚度 [30][31] - 行业重投入、高使用成本特性加剧生存难度 [12] 扭亏尝试 自研模型 - Windsurf因成本过高放弃自研计划 [17] - Cursor母公司Anysphere宣布自研模型但核心人才流失 [18][19] 资本运作 - Windsurf选择以30亿美元估值出售,趁市场未饱和锁定回报 [20] 成本转嫁 - Anysphere调整定价结构,向活跃用户转嫁Claude模型新增成本 [26] - 价格策略引发用户不满,CEO被迫公开道歉 [27][28] 外部依赖 - 部分公司寄希望于大模型成本下降,但新一代模型推理成本不降反升 [21][24]
特斯拉Dojo超算团队突然解散!20人骨干被老领导打包带走
量子位· 2025-08-08 04:06
核心观点 - 特斯拉突然解散Dojo超级计算机团队,该项目曾被寄予"为公司市值增加5000亿"的厚望[1] - 团队解散后股价盘后小幅下跌,约20名前成员加入前负责人新创立的DensityAI[2][5] - 前负责人持有Dojo专利权且拒绝特斯拉继续使用,导致项目彻底终止[6][7] Dojo项目发展历程 - **技术布局**:2021年AI Day发布自研7nm D1芯片作为核心,2024年提出与英伟达双轨并行并计划投资超10亿美元[12][14][15] - **战略转向**:2025年财报不再提及Dojo,重点转向新超级计算集群Cortex,增加对英伟达、AMD等外部供应商依赖[16] - **算力规模**:团队解散前Dojo集群算力达15 EFLOPS,团队规模约150人[30] 核心人员变动 - **创始人离职**:原负责人Ganesh Venkataramanan(AMD前15年CPU专家)因D2芯片未达预期于2023年离职,后创立DensityAI[20][21][23] - **继任者更迭**:Peter Bannon(苹果A5芯片负责人)接任后随团队解散离职,骨干Eric Quinnell转投Tranium公司[24][25][26][27][29] - **人才流失**:约20名前Dojo成员加入DensityAI,其余分配至其他项目,DensityAI成为潜在竞争对手[31][32] 资源调整背景 - **成本考量**:xAI在亚特兰大数据中心投入7亿美元AI硬件(4.42亿分配给X,2.58亿给xAI),Dojo解散或为优化财务压力[8][9][18] - **其他项目影响**:同期擎天柱项目主管、软件工程副总裁等关键岗位人才流失[33][34][36]
蚂蚁投了一家具身智能公司,做手的
量子位· 2025-08-08 04:06
公司融资情况 - 灵心巧手完成数亿元天使轮融资,由蚂蚁集团领投,中金资本、首发展创投、上海半导体装备基金、澄凯基金、德同资本、可可普丰跟投,老股东红杉中国种子基金加注 [5] - 四个月前曾获超亿元种子轮融资,由红杉种子基金和万凯新材领投,创灵巧手领域种子轮融资记录 [7][8] - 天使轮融资用于技术储备提升和具身智能数据采集场建设,加速工业、医疗等场景落地 [12] - 种子轮融资用于底层技术研发和产品优化迭代,提升技术壁垒 [8] - 公司注册资本由661.5万元增至720.8万元 [11] 市场地位与产品优势 - 公司是全球唯一实现千台高自由度灵巧手量产的企业,出货量占行业市场80%份额 [4][20] - 自研Linker Hand系列灵巧手工业版自由度达25-30,科研版达42,超越特斯拉擎天柱(22自由度)和英国Shadow Hand(24自由度) [13] - 产品采用连杆结构和键绳结构两种设计方案,是国内唯一实现两种结构商业化量产的公司 [16] - 产品耐用性是Shadow Hand的10倍,价格仅为其1/30(5万元 vs 150万元) [19] - 低成本版本Linker Hand O7价格降至0.88万元,大幅降低开发门槛 [20] - 月销量超千台,产品被剑桥大学、斯坦福大学、清华大学、北京大学等顶尖高校用于科研 [20][21] 技术能力与创新 - 每根手指最高独立拥有9自由度,支持360度旋转,最大负载5kg [15] - 搭载多传感器系统模拟人类指尖触感,实现敏锐环境交互 [17] - 建立全球最大灵巧操作数据集DexSkill-Net,涵盖海量真实场景数据辅助训练云端智脑 [17] - 工业版Linker Hand L6与L20配置"超强电缸"驱动模块,驱控一体化设计,驱动效率达90%(传统水平的2倍以上) [23] 团队背景与发展规划 - 创始人兼CEO周永毕业于华中科技大学少年班,拥有十余年互联网C端产品和机器人背景 [26] - 核心成员曾任职于达闼机器人、九号、遨博等技术负责人岗位,团队其余成员来自清华、北大等知名高校 [26][27] - 研发团队规模达数百人,具备丰富产品落地经验 [27] - 公司未来聚焦软硬件协同发展,致力于完成柔性制造决策执行终端,推动具身智能全场景应用 [28] 行业动态与投资背景 - 蚂蚁集团近期频繁投资具身智能领域,包括宇树科技、钛虎机器人、星尘智能等企业,并成立全资自研公司扩展业务 [10] - 灵巧手作为人形机器人末端执行器,2025年迎来实际应用落地验证的关键一年 [6] - 公司股东包括灵动九州(44.4%)、灵聚智慧(13.9%)、中大恒基(11.1%)、红杉种子基金(8.6%)和蚂蚁集团控股子公司上海云玚(4.5%) [11]
硅谷AI大佬都在造末日地堡:小扎夏威夷修了465平米,奥特曼承认有加固地下室
量子位· 2025-08-07 19:32
科技富豪的末日堡垒投资 - 科技巨头如扎克伯格和奥特曼正在秘密建造具备长期生存功能的地下避难所,被称为"末日堡垒" [1][3] - 这些设施配备防爆门、独立能源供水系统,目标是在全球性危机中实现自给自足 [11][15][16] 扎克伯格的夏威夷地产布局 - 2024年夏季追加6500万美元购置962英亩土地,使考艾岛总持有量达2300英亩,价值超3亿美元 [4][5][6] - 规划建设含30间卧室的豪宅群、防爆掩体及465平方米地下避难所,配套紧急逃生隧道 [10][11][12] - 2014-2021年间已累计投资1.7亿美元购置1400英亩土地 [5][6] 其他科技富豪的类似行动 - 奥特曼承认拥有混凝土加固地下室,但否认是避难所,声称用于应对疫情、网络战等突发情况 [18][20][22][23] - PayPal创始人彼得·蒂尔2011年曾计划在新西兰建造山体嵌入式避难所,因环保争议被否决 [25][27][28][29] 行业现象与公众反应 - 科技领袖的避险行为引发公众对AI潜在风险的猜测,Reddit等平台讨论热度激增 [30][31] - 设施设计标准显示其远超普通地下室,包括金属混凝土结构门和独立生存系统 [12][15][21]
GPT-5来了!人人都能免费用,最强大模型只需最傻瓜式使用
量子位· 2025-08-07 19:32
核心观点 - GPT-5正式发布并面向所有人开放,免费用户立即可用,标志着博士水平AI的普及化[1][2] - GPT-5在AIME 2025测试中开启推理模式并调用工具后获得满分成绩,成为全球大模型竞技场总分第一名[4][11] - 模型首次集成多模态与推理能力,实现GPT系列与o系列功能大一统,无需手动切换模型[15] 技术架构 - 一体化系统包含三部分:基础模型(高效解答常规问题)、深度推理模型(处理复杂难题)、实时路由模块(智能调度模型资源)[16] - 支持自适应推理,根据问题复杂度自动启用深度思考模式,用户可查看内部推理过程[39][42] - 引入安全新范式"safe completions",通过语境分析判断是否执行敏感请求(如技术细节查询)[66][68] 性能表现 - 大模型竞技场总分1481±11分,全面领先Gemini 2.5 Pro(1460±6)、Grok4(1429±6)等竞品[15][13] - 网页开发领域得分1480.07,超第二名Gemini 2.5 Pro(1403.28)约5.5%[24][26] - 文本领域全维度第一(编程/复杂提示/创造性等),编程能力被评价为"有史以来最强"[12][51] - 长上下文任务实现断崖式领先,可靠性及精准度显著提升[32][34] 应用场景 - 编程:5分钟内完成需数小时的财务仪表盘开发,支持复杂软件工程任务[57] - 教育:动态生成SVG动画解释物理原理(如伯努利效应),编写近400行代码[40][43] - 多模态:语音对话支持语速调整与个性化教学,免费用户可体验数小时[60][61] - 医疗健康:现场展示癌症患者使用案例,或成未来重点发展领域[77] 商业化布局 - 用户端提供免费/Plus/Pro三档模式,API推出GPT-5(输入$1.25/百万token)、GPT-5 Mini($0.25/百万)、GPT-5 Nano($0.05/百万)三款产品[17][18][73] - 发布前夕向1000名研究人员发放10万至百万美元奖金,强化人才激励[76] 行业影响 - 技术路线预示超越传统"预训练+后训练"范式,可能引发行业范式变革[77] - 竞品动态:马斯克质疑Grok4 Heavy在人类测试中更优,基准测试纵坐标设计引发讨论[80][82]
又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体
量子位· 2025-08-07 10:13
混合现实交互技术 - 提出Reality Proxy技术 通过数字替身实现现实物体操控 突破传统XR设备光线投射选择物体的局限性[9][11][12] - 技术流程分三步:激活代理捕获场景结构 生成代理保留空间关系 交互时保持现实世界关注[15][16][21] - 代理采用固定大小矩形3D对象 通过长按/双手缩放等手势操作 支持延迟跟随机制减少手部抖动干扰[18][19][23][25] 核心交互功能 - 浏览预览物体:滑动代理快速查看多物体信息如书籍内容[27] - 多对象刷选:双手捏合划定区域批量选择物体[28] - 属性过滤:长按代理调出面板筛选同类属性物体如红色杯子[29] - 语义/空间分组:双击代理归组同类 双手缩放导航层级结构[32][34] - 物理特征交互:利用桌面表面作触摸板 支持拖动/分指等手势操作[30] 应用场景验证 - 日常检索:办公室快速找书计算总价 厨房操作微波炉部件[38][40] - 建筑导航:大型建筑内高效定位与交互[42] - 无人机控制:混合现实应用操控动态物体 嵌入跟踪器替代AI组件[44][45] 技术评估 - 12名XR开发者测试显示 系统在实用性/易学性方面获积极评价 解决远距/密集物体交互问题[46][48][50] - 优势包括减少身体疲劳 支持批量选择 对行动不便用户友好[51] - 现存问题涉及学习曲线与代理定位精度需优化[52] 团队背景 - 核心成员Xiaoan Liu创立Fusion Reality 曾开发XR设备/游戏 研究RealiTips煮咖啡助手[54][55][57][59] - Mar Gonzalez-Franco创建沉浸式技术实验室 曾任微软EPIC首席研究员 参与470万美元A轮融资企业[61] - Xianhao Carton Liu获图灵班AI荣誉 斯坦福/哈佛研究经历 专攻人机交互[63] - Chen Zhu-Tian现任明尼苏达大学助理教授 计算机科学与工程方向[65]
谷歌Genie3全网玩疯!画质飞跃720P,网友造出西幻RPG游戏
量子位· 2025-08-07 10:13
Genie3产品升级 - 谷歌世界模型Genie3在Genie2发布仅7个月后实现快速迭代升级 [1] - 画质从模糊不清提升至720P清晰度 体验时长从几十秒延长至几分钟 [3] - 世界类型实现多重宇宙折叠 涵盖自然、历史、奇幻等多种场景 [4] 核心功能特性 - 支持高度逼真的物理模拟 包括火山口山地越野、悬崖直升机驾驶等极限运动场景 [12][13][15] - 完整生态系统模拟 包含动物行为、植物生命等复杂自然环境细节 [17] - 时空穿越功能 可回溯历史场景如古希腊生活或现代教室 [19][21] 用户创作生态 - 用户可1:1复现实景(如波多黎各圣胡安)或创造奇幻场景(如修狗飞跃彩虹桥) [23][24] - 高阶玩家实现递归生成(北极熊穿越纽约VS热带霸王龙)及无人机镜头交互 [29] - 作为游戏引擎支持像素风骑士屠龙、粘土猫骑车等创意游戏开发 [33][34] 技术应用拓展 - 可与Veo3生成的无人机镜头结合形成可操控的互动世界 [29] - 适合构建虚拟环境并利用模拟数据训练机器人 [30] - 展示出处理复杂游戏机制、UI和音频的潜力 [34]
鸿蒙终端数量突破千万后,华为发布亿元级应用开发激励计划
量子位· 2025-08-07 10:13
鸿蒙操作系统发展现状 - 搭载HarmonyOS 5的终端数量突破千万 [1] - 鸿蒙操作系统5成功经过规模化市场检验,迎来新起点 [2] - 公司推出「鸿蒙应用开发者激励计划2025」,上亿元补贴开路,单个开发者累计奖金上限达600万 [3][7] 开发者激励计划升级 - 激励力度更大:每款应用最高奖励1万元,开发者可多开发多得 [7] - 应用形态更广:涵盖应用、游戏App、小游戏、元服务等 [8] - 现金奖励更直观:基础激励与活跃激励结合,额外激励最高达20万元 [8] - 时间安排更宽裕:启动时间比去年提前两个月,截止日期同为12月31日 [10][11] 鸿蒙生态战略布局 - 公司通过终端用户数量和留存率吸引开发者投入 [17] - 提供开发者服务保障,帮助实现商业价值,减轻顾虑 [17] - 注册开发者达800万,Top5000应用已全部上架,满足用户99.99%使用时长 [24] - 构建完整赋能体系,降低技术门槛,提供行业模板、组件、云调试工具等 [27][28] 技术优势与创新 - 一次开发多端部署:通过ArkUI框架适配手机、平板、电视、手表等多种设备 [29][32] - 分布式能力:将不同设备融合成"超级终端",打破设备壁垒 [42] - AI赋能:推出小艺智能体开放平台,提供50+鸿蒙系统插件,支持自然语言创建智能体工作流 [38] 行业机遇与挑战 - 鸿蒙在AIGC、万物互联时代重新定义操作系统 [37][40] - 中国开发者有机会参与全新操作系统和底层生态标准的制定 [47][49] - 技术迁移成本高、商业变现难仍是潜在开发者的主要痛点 [26][27] 生态共建长期效益 - 目标从迅速扩张转向生态伙伴共建的长期效益 [14] - 通过分层分阶段激励机制,携手开发者长期发展 [54] - 提供全生命周期服务,包括开发、测试、上架、经营等环节 [33][34]
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
量子位· 2025-08-07 10:13
强化学习探索难题 - 传统RL框架下大语言模型存在探索与利用严重失衡问题,模型熵值迅速下降导致推理路径固化[1] - 过早收敛现象削弱了模型多样性生成能力并限制性能上限突破[2] FR3E框架设计原理 - 核心思想受OpenAI论文启发,采用"先返回,再探索"两阶段结构[2][4] - 通过识别高不确定性关键token作为锚点引导多样化展开,系统性重建探索机制[4] - 采用双难度混合数据策略:低难度数据稳定初期训练,高难度数据激发深层推理[23] 算法实现细节 第一阶段:First Return - 对每条prompt进行多次rollout收集轨迹及奖励信号,采用拒绝采样过滤全正确样本[12] - 构建基准路径并计算token生成熵,筛选top-n高熵token划分partial rollout[13] 第二阶段:Entropy-Eliciting Explore - 在GRPO++基础上引入动态优势调制机制,公式化定义优势调制因子αj[16][17] - 调控后的Advantage A'根据价值边际改善动态缩放学习信号[18] - 正向影响时降低advantage保留探索空间,负向影响时放大信号突破瓶颈[20][22] 实验结果验证 - 在GSM8K等7个数学推理基准测试中,FR3E平均表现较GRPO++提升1.8%-3.1%[25] - Qwen2.5-32B模型在AIME24基准取得6.1%显著提升[25] - 训练动态显示FR3E熵值衰减更慢,响应长度更长,突破微调模型僵化困境[26] - 全正确轨迹数量显著增加,全错误轨迹比例大幅降低[27] 方法论价值 - 结构化探索范式有效解决LLM强化学习中探索不足的核心瓶颈[28] - "结构化反馈+自适应调节"思想具备良好可扩展性,为未来训练提供新范式参考[29]