量子位

搜索文档
“还我GPT-4o”!奥特曼强推GPT-5惹怒网友,紧急公关来了
量子位· 2025-08-09 05:14
GPT-5上线遇冷及用户反馈 - GPT-5上线后市场反应冷淡,用户普遍怀念GPT-4o的情感化交互体验[1][4] - 主要批评包括对话生硬、长文本理解偏差、写作创意不足,缺乏GPT-4o的情感链接特性[4][13][17] - OpenAI强制替换所有旧模型引发用户不满,最终妥协允许付费用户切换回GPT-4o[4][8][27] GPT-5与GPT-4o的对比 - GPT-5技术指标提升(编程能力增强、幻觉减少、榜单排名领先),但缺乏颠覆性创新[13] - GPT-4o因"谄媚"风格受争议,但其情感陪伴价值被用户高度认可,尤其对孤独感缓解作用显著[15][19] - 风格差异:GPT-5偏向专业论文式输出,GPT-4o更擅长个性化创作(小说/散文)和表情符号互动[17][18] OpenAI的决策调整与战略考量 - 公司低估用户对旧模型的依赖,模型切换策略过于激进导致反弹[22][28] - 承认需强化模型定制化,未来可能支持不同属性AI(情感型/工具型)以满足多元需求[29] - 长期仍优先GPT-5迭代与算力投资,旧模型保留仅为过渡方案[34][36][37] 行业竞争动态 - 马斯克借用户不满推广竞品Grok,可能加速OpenAI的响应速度[40][41] - 公司面临平衡技术升级与用户习惯的挑战,需优化产品生命周期管理策略[26][38] 用户行为与产品使用洞察 - 过去一年多数用户默认使用GPT-4o,未主动尝试新版模型[6] - 创造性工作者和情感需求用户构成旧模型核心受众[16] - 产品突然变更影响实际应用场景(如论文写作中断),暴露用户体验设计缺陷[19][21]
高中没毕业直接读博,17岁少女推翻40年数学猜想后的下一步
量子位· 2025-08-08 07:23
数学天才汉娜·凯罗的成长历程 - 11岁学会微积分 14岁具备大学数学水平 17岁推翻40年前的Mizohata-Takeuchi猜想 [1][4] - 通过可汗学院完成早期数学学习 后由韦尔斯利学院和克拉克大学教授远程辅导 主要靠自学研究生教材 [11][13][14] - 14岁参加伯克利数学圈在线课程 自学内容相当于高级本科学位水平 [25][26][27] 学术突破与影响 - Mizohata-Takeuchi猜想涉及调和分析/偏微分方程/几何分析 其推翻将改变傅里叶限制和PDE良性问题的研究范式 [6] - 通过构造特殊函数发现波干涉异常 打破猜想禁止的分形结构 简化后验证结论正确 [65][67][68] - 成果获数学家Tony Carbery高度评价 未来类似问题将采用"汉娜式构造"检验 [18] 教育路径与职业发展 - 2023年通过伯克利并行注册项目修读研究生课程 每周通勤五天学习 [35][37][38] - 在张瑞祥教授的傅里叶限制理论课程中 从作业题延伸破解猜想 [44][48][49] - 跳过本科直接申请10所博士项目 最终被马里兰大学和约翰斯·霍普金斯大学破格录取 [71][72][73] 个人特质与学术环境 - 长期在家教育导致社交局限 数学成为精神寄托和探索无限可能的方式 [16][19][20] - 芝加哥数学圈和伯克利数学圈的经历激发研究热情 被赞"申请时已超前多个层次" [25][28] - 性格谦逊 早期对自身数学天赋存疑 习惯以自我为参照标准 [30][31][32]
无需外部数据!AI自问自答实现推理能力进化
量子位· 2025-08-08 07:23
时令 发自 凹非寺 量子位 | 公众号 QbitAI AI通过自问自答就能提升推理能力?! 这正是卡内基梅隆大学团队提出的新框架 SQLM ——一种无需外部数据的自我提问模型。 该框架包含提问者(proposer)和解答者(solver)两个角色,提问者生成与给定主题相关的问题,解答者旨在解决问题。 这凸显出当前方法的一个关键不足: 缺乏一种可扩展且自我维持的流程,能够在无人干预的情况下自动生成有意义的问题和答案。 为此,研究者提出了 SQLM框架 ,一种非对称的自我博弈框架,其中提问者 ,解答者 回答该问题,两者均通过强 化学习进行训练,以最大化期望奖励。 网友们神评,"简直是带有RL的GAN"。 | | Aryan Siddiqui @Ar_boian · 20h | | | | | | --- | --- | --- | --- | --- | --- | | ONYTH | lt's like GAN with RL | | | | | | | 这就像带有 RL 的 GAN | | | | | | | C | ા | C 4 | 11 221 | 지 | 值得一提的是,此团队中又双叒叕现华人身影~ 通 ...
哇塞,今天北京被机器人人人人人塞满了!
量子位· 2025-08-08 07:23
世界机器人大会盛况 - 世界机器人大会(WRC)在北京开幕 现场人气爆棚 吸引大量观众参观 [4] - 展会展示100多款新型机器人 其中智平方公司的人形机器人爱宝成为焦点展品 [4][5][7] 爱宝机器人核心能力 - 爱宝是通用机器人代表 通过单一基座模型可快速学习并完成多种任务 包括打架子鼓 制作冰淇淋 搬运货物等 [11][12][14][15][19] - 具备34+自由度 单臂负载10公斤 作业高度2.4米 续航6小时 展现全域行动和全身协同能力 [21] - 新发布全向轮版本 配备双激光雷达实现360°导航 48V 42Ah大电池支持自动充电和手动换电 [22][23][24][25] GOVLA大模型技术突破 - 采用全球首个全栈自研的全域全身视觉-语言-行动大模型GOVLA 具备四大核心能力 [27] - 全域感知:360度环境理解 突破传统桌面工作限制 [28] - 全身协同:控制全身自由度 实现拟人化复杂操作 [30][31][32] - 长程柔性:自主拆解多步骤任务 如完整饮品制作流程 [33][34] - 快速学习:通过观察和少量数据掌握新技能 如演奏不同风格曲目 [35] 商业化落地进展 - 已在四大场景实现商业化部署:工业制造(汽车生产线) 半导体(晶圆转运) 生物科技(无菌车间) 公共服务(机场导览) [45] - 采用多场景并行战略 从工业服务(L2)逐步向家庭服务(L4)演进 加速数据积累和模型迭代 [45]
3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学
量子位· 2025-08-08 07:23
AI验证能力发展现状 - 大模型训练能力突飞猛进但验证答案能力成为发展短板[1] - AI在规则明确领域超越人类但在需要主观鉴赏的领域进展缓慢[11] - 当前大模型验证领域缺乏合理的迭代体系[15] AI发展范式转变 - AI下半场将从解决问题转向定义问题 评估变得比训练更重要[6] - 训练AI解决任务的难易程度与任务可验证性成正比[8] - AI进化边界被结果验证的速度和客观性锁定[9] 验证技术瓶颈 - 传统方法依赖人工定制规则 面对多步骤问题和复杂公式时容易失效[18] - 使用通用大模型作为验证器存在幻觉问题 不同模型判罚尺度不一致[18] - 社区缺乏针对可验证答案的标准化高难度基准[30] CompassVerifier技术方案 - 基于OpenCompass框架从50多个大模型在15个数据集上的100余万份回复中筛选数据[21] - 采用多模型投票机制筛选简单样本 借助DeepSeek-V3进行多提示词验证[22] - 通过错误驱动对抗性增强 复杂公式增强和泛化性增强三种方式提升验证能力[23][24][25][27] 模型性能表现 - CompassVerifier-32B在VerifierBench上平均准确率达90.8% F1分数87.7%[35] - 3B轻量版本超越大规模通用模型 展现极高参数效率[36] - 在数学推理任务中作为奖励模型使Qwen3-4B-Base在AIME24数据集性能提升18.5分[40] 应用前景 - 为数学 知识问答 科学推理等多领域强化学习训练提供技术支撑[44] - 未来可能实现模型自我验证和自我改进的循环迭代[45] - 验证器能力直接影响大模型发展速度 是AGI道路上的关键环节[14]
1句话高质量生成游戏3D动作,北大新方法刷新动画制作SOTA
量子位· 2025-08-08 07:23
ReMoMask团队 投稿 量子位 | 公众号 QbitAI 在游戏开发工作室中,动画师常常面临这样的困扰:为了让角色能更自然的"走路""转圈",不得不反复微调骨骼或者逐帧手动摆出几十个姿 势。 如果只需一句指令,比如"一个人走两步,然后跳起来",就能自动生成流畅逼真的3D动作,动画制作的方式将被彻底改写。 为此,北京大学提出了 ReMoMask:一种全新的基于检索增强生成的Text-to-Motion框架 。它是一个集成三项关键创新的统一框架:(1) 基于动量的双向文本-动作模型,通过动量队列将负样本的尺度与批次大小解耦,显著提高了跨模态检索精度;(2)语义时空注意力机制,在 部件级融合过程中强制执行生物力学约束,消除异步伪影;(3)RAG-无分类器引导结合轻微的无条件生成以增强泛化能力。 基于MoMask的RVQ-VAE,ReMoMask在最少步骤内高效生成时间连贯的动作。 在标准基准测试上的大量实验表明,ReMoMask达到了最先进的性能, 与之前的SOTA方法RAG-T2M相比,在HumanML3D和KIT-ML上分 别实现了3.88%和10.97%的FID分数提升 。 ReMoMask整体架构 问题 ...
快来看看GPT-5第一波实测
量子位· 2025-08-08 05:34
GPT-5技术能力 - 具备"博士生水平"的复杂任务处理能力 成功复原20阶魔方耗时18分半 [4][20][21] - 多模态应用开发能力突出 可生成网页版Word/Excel、3D生命游戏、流体动力学模拟器 [22][24][31] - 长文本理解能力显著提升 在OpenAI-MRCR 256k测试中准确率达86.8% 远超GPT-4系列 [38][39] - 常识推理突破大模型瓶颈 在SimpleBench测试中首次超越人类平均水平 [40][42] 行业竞争格局 - 大模型竞技场综合排名第一 总分1481分领先Gemini 2.5 Pro(1460分)和Grok 4(1429分) [50][52] - 编程单项能力被Claude 4-Sonnet超越 得分68.97 vs 73.58 [59][61] - 实际对战数据显示 Gemini 2.5 Pro在2/3场景中胜出但综合评分较低 [53][55] - 马斯克公开质疑其AGI能力 出示ARC-AGI和Humanity's Last Exam测试结果 [14][64] 产品商业化影响 - 发布会演示法语学习功能 直接冲击多邻国股价走势 [10] - 开发者生态活跃 已出现太空模拟器/冥想应用/Windows 95克隆等创新案例 [7] - Pro版本展现进阶能力 成功破解修改版"外科医生谜语"测试题 [43][47] - 设计体验存在争议 法语学习界面被批丑陋 多模态数数功能仍有缺陷 [70][66] 市场争议事件 - 发布会图表出现"52>69=30"计算错误 引发网友大规模调侃 [17][72][73] - 测试数据可视化方式受质疑 被指刻意夸大性能优势 [76][77] - 版本迭代策略激进 旧版ChatGPT用户面临强制升级 [80]
亏到发疯!AI编程独角兽年入2亿8,结果用户越多亏得越狠
量子位· 2025-08-08 05:34
核心观点 - AI编程公司表面收入高增长但实际普遍亏损,商业模式面临高可变成本与低利润率的挑战 [1][4][6] - 行业竞争加剧且护城河薄弱,模型供应商亲自下场加剧生存压力 [12][31] - 扭亏尝试包括自研模型、寻求收购、转嫁成本,但均存在显著执行障碍 [15][19][25] 行业现状 财务表现 - Windsurf年收入4000万美元但运营成本远超收入,毛利率为负值 [2][7] - Cursor年收入5亿美元创SaaS最快破1亿ARR纪录(12个月),估值99亿美元 [2] - Replit年收入1亿美元(18个月增长10倍),估值11.6亿美元 [2] - Lovable预计2025年6月ARR达7000万美元,获1430万欧元融资 [2] 成本结构 - 大模型调用费占成本大头,按Token计价导致用户越多成本越高 [8][10] - 可变成本占比普遍达10%-15%,所有代码生成产品利润率接近平衡或亏损 [11] - 基础模型频繁升级迫使公司持续投入,形成成本恶性循环 [9][10] 竞争格局 - 参与者包括Cursor、Replit、Bolt、Lovable等初创公司及Anthropic、OpenAI等模型供应商 [12] - 用户价格敏感度高,产品替代性强难以建立忠诚度 [30][31] - 行业重投入、高使用成本特性加剧生存难度 [12] 扭亏尝试 自研模型 - Windsurf因成本过高放弃自研计划 [17] - Cursor母公司Anysphere宣布自研模型但核心人才流失 [18][19] 资本运作 - Windsurf选择以30亿美元估值出售,趁市场未饱和锁定回报 [20] 成本转嫁 - Anysphere调整定价结构,向活跃用户转嫁Claude模型新增成本 [26] - 价格策略引发用户不满,CEO被迫公开道歉 [27][28] 外部依赖 - 部分公司寄希望于大模型成本下降,但新一代模型推理成本不降反升 [21][24]
特斯拉Dojo超算团队突然解散!20人骨干被老领导打包带走
量子位· 2025-08-08 04:06
核心观点 - 特斯拉突然解散Dojo超级计算机团队,该项目曾被寄予"为公司市值增加5000亿"的厚望[1] - 团队解散后股价盘后小幅下跌,约20名前成员加入前负责人新创立的DensityAI[2][5] - 前负责人持有Dojo专利权且拒绝特斯拉继续使用,导致项目彻底终止[6][7] Dojo项目发展历程 - **技术布局**:2021年AI Day发布自研7nm D1芯片作为核心,2024年提出与英伟达双轨并行并计划投资超10亿美元[12][14][15] - **战略转向**:2025年财报不再提及Dojo,重点转向新超级计算集群Cortex,增加对英伟达、AMD等外部供应商依赖[16] - **算力规模**:团队解散前Dojo集群算力达15 EFLOPS,团队规模约150人[30] 核心人员变动 - **创始人离职**:原负责人Ganesh Venkataramanan(AMD前15年CPU专家)因D2芯片未达预期于2023年离职,后创立DensityAI[20][21][23] - **继任者更迭**:Peter Bannon(苹果A5芯片负责人)接任后随团队解散离职,骨干Eric Quinnell转投Tranium公司[24][25][26][27][29] - **人才流失**:约20名前Dojo成员加入DensityAI,其余分配至其他项目,DensityAI成为潜在竞争对手[31][32] 资源调整背景 - **成本考量**:xAI在亚特兰大数据中心投入7亿美元AI硬件(4.42亿分配给X,2.58亿给xAI),Dojo解散或为优化财务压力[8][9][18] - **其他项目影响**:同期擎天柱项目主管、软件工程副总裁等关键岗位人才流失[33][34][36]
蚂蚁投了一家具身智能公司,做手的
量子位· 2025-08-08 04:06
公司融资情况 - 灵心巧手完成数亿元天使轮融资,由蚂蚁集团领投,中金资本、首发展创投、上海半导体装备基金、澄凯基金、德同资本、可可普丰跟投,老股东红杉中国种子基金加注 [5] - 四个月前曾获超亿元种子轮融资,由红杉种子基金和万凯新材领投,创灵巧手领域种子轮融资记录 [7][8] - 天使轮融资用于技术储备提升和具身智能数据采集场建设,加速工业、医疗等场景落地 [12] - 种子轮融资用于底层技术研发和产品优化迭代,提升技术壁垒 [8] - 公司注册资本由661.5万元增至720.8万元 [11] 市场地位与产品优势 - 公司是全球唯一实现千台高自由度灵巧手量产的企业,出货量占行业市场80%份额 [4][20] - 自研Linker Hand系列灵巧手工业版自由度达25-30,科研版达42,超越特斯拉擎天柱(22自由度)和英国Shadow Hand(24自由度) [13] - 产品采用连杆结构和键绳结构两种设计方案,是国内唯一实现两种结构商业化量产的公司 [16] - 产品耐用性是Shadow Hand的10倍,价格仅为其1/30(5万元 vs 150万元) [19] - 低成本版本Linker Hand O7价格降至0.88万元,大幅降低开发门槛 [20] - 月销量超千台,产品被剑桥大学、斯坦福大学、清华大学、北京大学等顶尖高校用于科研 [20][21] 技术能力与创新 - 每根手指最高独立拥有9自由度,支持360度旋转,最大负载5kg [15] - 搭载多传感器系统模拟人类指尖触感,实现敏锐环境交互 [17] - 建立全球最大灵巧操作数据集DexSkill-Net,涵盖海量真实场景数据辅助训练云端智脑 [17] - 工业版Linker Hand L6与L20配置"超强电缸"驱动模块,驱控一体化设计,驱动效率达90%(传统水平的2倍以上) [23] 团队背景与发展规划 - 创始人兼CEO周永毕业于华中科技大学少年班,拥有十余年互联网C端产品和机器人背景 [26] - 核心成员曾任职于达闼机器人、九号、遨博等技术负责人岗位,团队其余成员来自清华、北大等知名高校 [26][27] - 研发团队规模达数百人,具备丰富产品落地经验 [27] - 公司未来聚焦软硬件协同发展,致力于完成柔性制造决策执行终端,推动具身智能全场景应用 [28] 行业动态与投资背景 - 蚂蚁集团近期频繁投资具身智能领域,包括宇树科技、钛虎机器人、星尘智能等企业,并成立全资自研公司扩展业务 [10] - 灵巧手作为人形机器人末端执行器,2025年迎来实际应用落地验证的关键一年 [6] - 公司股东包括灵动九州(44.4%)、灵聚智慧(13.9%)、中大恒基(11.1%)、红杉种子基金(8.6%)和蚂蚁集团控股子公司上海云玚(4.5%) [11]