量子位

搜索文档
刷新3D生成上限!一键生成精细到毛发的3D资产
量子位· 2025-08-02 05:23
Ultra3D团队 投稿 量子位 | 公众号 QbitAI 在高质量3D生成需求日益增长的背景下,如何高效生成结构精良、几何精细的三维资产,已成为AIGC和数字内容创作领域的关键挑战。 尽管近年来的3D生成方法发展迅速,精度越来越高,但现有框架在兼顾效率和质量上依然面临瓶颈,尤其是在高分辨率建模中,计算的高复 杂度严重制约了生成速度和应用落地。 为解决上述困境,南洋理工大学联合数美万物、西湖大学提出了Ultra3D:一种全新的3D生成框架。 Ultra3D提出了一种 coarse-to-fine 的两阶段生成流程,高效实现高分辨率三维资产建模,刷新了3D生成质量的上限。在第一阶段,Ultra3D 利用高效的 VecSet 表示快速生成 coarse mesh,并导出稀疏体素;在第二阶段,引入新提出局部化的 Part Attention,对每个体素进行细 粒度特征建模。 该机制仅在语义一致的局部区域内进行注意力计算,大幅降低全局注意力的冗余计算,有效提升生成效率。该方法支持1024分辨率输出,实 现在保持高保真度的同时,实现高达6.7×的加速比,为三维资产的快速生成和下游应用提供了切实可行的解决方案。 研究背景 ...
仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂
量子位· 2025-08-02 05:23
核心观点 - 两位清华校友通过设计自我迭代验证流程和提示词优化,使Gemini 2.5 Pro在IMO题目解答中达到金牌水平 [1][4][6] - 基础大模型已具备解决复杂数学推理问题的能力,但需要特定提示词和迭代验证才能充分发挥潜力 [6][7][9] - 该方法突破了单次生成中有限推理预算和初始答案错误的局限性,将LLM潜在能力转化为严谨数学证明 [24] 技术方法 - 采用通用提示词+迭代验证流程,包括初始解决方案生成、自我改进、验证解决方案、审查错误报告、纠正改进解决方案和最终接受/拒绝解决方案六个步骤 [16][17] - 使用Gemini 2.5 Pro作为求解器和验证器,分别采用差异化提示词设计 [16][18] - 验证器模拟IMO评分专家,将问题分为关键错误和论证缺口两类,通过多次迭代降低误判影响 [19][20] - 实验选择IMO 2025题目以避免训练数据污染,设置温度值0.1减少随机错误 [20] 实验结果 - Gemini 2.5 Pro在IMO 6道题目中完成5道,其中前两道题目生成有提示和无提示两种解决方案 [23] - 未解决的第六题因验证器未能区分求解器输出的假阳性答案细节 [24][40] - 使用提示后模型一次独立实验即可解决题目,未使用时思维发散且可能需要多次实验 [39] - 不同题目需要的tokens数在300k到5000k之间,计算时间最快10分钟/题 [38] 模型对比 - Gemini 2.5 Pro在IMO测试中准确率31.55%,成本$431.97,显著高于其他模型 [9] - 对比模型表现:o3(high)准确率16.67%,o4-mini(high)14.29%,Grok 4 11.90%,DeepSeek-R1-0528 6.85% [9] - 研究人员预计使用Grok 4、OpenAI-o系列或多智能体系统可能产生更强数学能力 [25] 研究团队 - 黄溢辰:加州大学伯克利分校物理学博士,曾任职微软AI研究员,研究方向包括量子物理学和机器学习 [28][31] - 杨林:加州大学洛杉矶分校副教授,研究重点为强化学习、机器学习和优化理论,曾获亚马逊教授奖等荣誉 [33][35] - 团队证明学术界利用有限资源也能做出与大厂同等重要的成果 [36][43]
谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4
量子位· 2025-08-02 01:33
产品发布与更新 - 谷歌DeepMind推出Gemini 2 5 Deep Think模型 已在Gemini App中上线[3] - 发布版本与IMO金牌版本略有不同 速度更快但实力稍逊 仅达铜牌水平[4][5][6] - 模型仅对Ultra订阅用户开放 月费249 99美元 约合人民币1803元[7] 性能表现与对标 - 推理性能超越OpenAI的o3和马斯克的Grok 4[8] - 在LiveCodeBench V6和Humanity's Last Exam测试中均取得最佳成绩[10] - 擅长编码 科学 知识和推理能力[9] 技术原理与优势 - 采用并行思维技术 拓展思维能力边界 可一次性生成众多想法并修正结合[14][15] - 延长推理时间 探索不同假设 找到创造性解决方案[16] - 迭代式开发能力突出 提升网页开发任务的美观性和功能性[12] 应用场景 - 可深度阅读论文 融合不同论文观点 非简单复述[17] - 协助数学猜想探索和科学文献推理 加速科研发现[18] - 擅长算法开发与代码编写 能精细考量问题表述和时间复杂度[18] 行业影响 - 模型展示谷歌在AI推理领域的领先技术实力[8][10] - 高性能订阅模式可能重塑AI产品商业化路径[7] - 在科研和工程领域的应用潜力显著[17][18]
这个5亿播放的AI视频,邪乎得平平无奇
量子位· 2025-08-01 09:05
AI视频生成技术进展 - 一条AI生成的8秒兔子蹦床视频在TikTok上获得5亿播放量,成为爆款内容 [2][7][8] - 视频因动物融合、物理规律异常等细节被识别为AI生成,但仍欺骗了大量观众 [4][6][14] - 网友推测视频使用Veo3生成,尝试复现效果虽不及原版但已具备混淆能力 [21][22][23] AI视频爆火原因分析 - 红外监控画质的低清晰度掩盖了AI生成的物理缺陷和细节失真 [28][29][31] - "深夜后院动物蹦床"题材兼具生活感和猎奇性,提升用户停留意愿 [33][34] - 当前第一梯队AI工具已能生成10秒级以假乱真视频,技术进展远超两年前"威尔史密斯吃面"的诡异效果 [35][36][39] AI视频识别方法 - 观察视频是否带有AI相关标签,当前爆款内容多未主动标注生成方式 [41] - 顶尖AI视频工具如Veo3、Kling的单条视频时长仍限制在10秒以内 [42]
抖音全新推荐大模型RankMixer,参数翻70倍,推理成本不涨
量子位· 2025-08-01 09:05
核心观点 - 字节跳动算法团队提出全新推荐排序模型架构RankMixer,通过软硬件协同设计实现模型效果与计算效率的最佳平衡 [2][40] - RankMixer-1B模型将抖音推荐精排模型的Dense参数量从16M扩大至1B量级,同时保持推理成本不变 [4][26] - 该模型在抖音主feed推荐场景全量生效,带来超过0.3%的LT30收益和超过1%的用户时长收益 [4][35] 模型架构创新 - 采用TokenMixing模块实现无参的跨特征信息交互,计算效率优于Self-Attention [17][19][20] - 引入Per-Token SparseMoE结构,通过门控机制动态激活专家网络,提升参数容量 [21][24] - 采用ReLU路由和DTSI训练策略解决MoE专家训练不均衡问题 [25] 性能优化 - 模型MFU从4.47%提升至44.57%,SM Activity从30%提升到80% [4][31] - 通过大矩阵乘法设计、算子融合、混合精度推理等手段实现FLOPs增加20倍下推理成本不变 [29][31] - 图外H2D优化降低3ms延迟,提升MFU [31] 业务效果 - 离线测试显示RankMixer-1B对比纯DNN累积AUC提升超过0.9%,UAUC超过1% [32] - 线上A/B测试显示用户日活跃天数提升0.3%,人均单日使用时长提升超过1% [35] - 低活用户群体效果提升更显著,日活跃天数最高提升1.74%,使用时长提升3.64% [37] 技术理念 - 验证推荐系统存在Scaling Law,通过扩大模型规模持续提升效果 [5][40] - 实现算法与基础设施的协同设计,充分释放GPU算力 [43] - 模型迭代从"雕花"式优化转向可扩展的架构升级 [42]
AI答IMO难题坦承“不会”,OpenAI:这就是自我意识
量子位· 2025-08-01 09:05
大模型能力突破 - 模型在IMO第6题上得零分,但展现了“高智商的诚实”,能在缺乏有效证据时表示不确定[2][3] - 与过去产生“看起来完美,实则错误”的幻觉式答案不同,新一代大模型开始学会承认自己不会[6] - 模型从胡编乱造的幻觉式回答转向更可靠且具有“自我意识”的新阶段,能帮助其面对困难问题时承认无能为力而非生成错误方案[7][17] 团队成就与研发细节 - 三人团队仅用两个月时间就完成了获得IMO金牌的目标,远超最初认为2025年不太可能实现的预期[5][18][19][20] - 团队真正优先考虑通用技术,而非专门开发用于数学竞赛的系统[22] - 公司研究人员拥有很大自主权去做他们认为有影响力的研究[21] 核心团队成员背景 - Alex Wei本硕就读于哈佛大学,在加州大学伯克利分校获计算机科学博士学位,曾任职于谷歌、微软和Meta,并于2024年1月加入公司,曾是FAIR团队成员并参与开发人类级人工智能CICERO[23][25] - Sheryl Hsu毕业于斯坦福大学计算机科学专业,是斯坦福AI实验室中IRIS实验室的研究员,于2025年3月加入公司[23][27] - Noam Brown本科就读于罗格斯新泽西州立大学,在卡内基·梅隆大学获硕士和博士学位,曾任职于DeepMind和Meta,于2023年6月加入公司[23][29]
OpenAI回应ChatGPT用多了会变傻
量子位· 2025-08-01 07:19
AI工具的本质与使用方式 - AI本质上是一个工具,关键在于如何使用它,使用方式决定了其影响[6][7] - 如果仅将AI用作"答案机器",会阻碍学习过程,就像抄作业无法真正获取知识[9] - 以拓展批判性思维和创造力的方式使用AI,能有效促进学习进步[10] - 举例说明:基础数学学习直接使用计算器会阻碍掌握,但高级数学中计算器可辅助提升水平[11][12] OpenAI的教育愿景与产品创新 - ChatGPT目前是全球最大学习平台,拥有6亿用户,学习是其主要用例之一[13] - OpenAI的"登月计划"愿景是让AI成为提升人类潜能的有效导师和终身伴侣,并确保全球可及[14][15] - 推出"学习模式"产品,将ChatGPT从"提供答案"转变为"引导学生找到答案"的工具[16] - 学习模式采用苏格拉底式提问,通过个性化回应、追问和测验引导深度学习[18][19] AI在教育领域的实际影响 - AI最大教育影响在课堂外,为无法获得优质教师支持的学生提供成人式辅助[21] - AI可作为陪伴者提供反馈、解答难题并增强学习信心,例如帮助诵读困难症儿童[22] - 教育系统态度转变:从早期禁用转向积极整合,部分国家将AI作为教育核心基础设施部署[23][24] - 未来教育可能走向AI负责标准化内容辅导,人类教师侧重社会技能与情商的混合模式[29] 用户实践与技巧 - 学生通过优化日常任务(如路线规划)和个性化学习(如定制锻炼计划)实际应用AI[25] - 有效使用技巧包括设置特定指令(如"无废话")、角色扮演(如顾问、教授)及限制生成范围[26] - 相比社交媒体被动消费,ChatGPT能实现更有目的性的主题探索与学习[27] 用户观点总结 - AI起到"加速器"作用,但加速方向由使用者决定,放大用户原有倾向(懒惰或创造力)[30][31][32] - 社区期待产品迭代,如"直接发布GPT5"的呼声反映市场对技术进步的迫切需求[33]
对话语鲸&深言达意:将Demo做成千万级用户产品,创企如何从「Early Adopter」向「Early Majority」拓展
量子位· 2025-08-01 07:19
核心观点 - AI技术正在重塑信息管理领域,从信息生成到获取都带来变革性影响 [4] - 深言科技通过两款产品(深言达意和语鲸)分别切入信息生成和获取环节,实现差异化布局 [6][22] - 被动信息获取方式正从"库存逻辑"向"订单逻辑"转变,个性化生成成为关键趋势 [28][29] - 产品开发需从真实需求出发,通过小步迭代和用户反馈持续优化 [20][36][37] - AI原生产品需关注用户留存而非短期商业化,PMF验证仍具挑战性 [47][48][49] 产品定位与功能 - 深言达意:专注"遣词造句"场景,用户超1000万,提供找词/找句/素材库三大功能 [6][11][12][14] - 语鲸:个性化信息助手,实现信息收集-分发-消费全链路闭环,核心功能包括订阅/智能大纲/专题聚合/日报 [15][17][52] - 两款产品均从创始人自身需求出发,通过用户反馈持续迭代 [17][19][20] 行业趋势洞察 - 信息分发颗粒度持续细化:从门户网站版块→单篇内容→信息点 [29][30] - AI推动被动获取信息方式变革:从推荐引擎向个性化定制转变 [26][28] - 5W1H框架分析信息管理:What(内容形式)/Who(角色)/Why(功能性&情感性需求)/When(主动&被动)/Where(媒介)/How(技术变革) [23][24][25] 产品开发方法论 - 技术研发与产品迭代需解耦,避免过度等待技术进步 [38][39] - 功能开发需挖掘用户反馈背后的真实需求,分阶段小步验证 [20][36][37] - 模型能力评估应基于真实场景测试,需兼顾用户需求和技术理解 [42][43] - 早期增长策略:聚焦Early Adopter,优化产品自传播功能 [53][57][58] 竞争策略 - 避开巨头主线业务,选择差异化技术路径 [61][62] - 通过极致产品打磨和深度用户洞察建立阶段性优势 [64][65] - 参考Cursor案例:在卷赛道通过产品体验差异化突围 [73][74] 发展阶段与指标 - 当前核心关注用户留存而非商业化,语鲸重点监测工作日使用频率 [50][51] - 商业化探索:深言达意作为流量入口,语鲸考虑IAP模式但需先验证价值 [71][72] - 产品成熟度评估:深言达意定位相对克制,语鲸规划多模态和更深度个性化 [66][67][68]
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
量子位· 2025-08-01 07:19
视频大型语言模型(Video LLMs)研究进展 - 视频大型语言模型展现出精准描述视频内容、回答相关问题的能力,接近人类级理解力[1] - 核心争议在于模型是否真正"理解"视频内容,还是仅进行高级"模式匹配"[2] - 南洋理工大学S-Lab团队提出Video Thinking Test(Video-TT)基准测试,旨在分离"看"与"想"的能力,精准测量AI的真实理解和推理水平[3] Video-TT测试设计原理 - 现有视频理解基准测试存在根本缺陷:无法区分模型因"没看清"或"没想明白"而犯错[9] - 传统长视频评测存在"帧采样悖论":模型因计算资源限制只能稀疏采样,性能下降可能反映采样策略失败而非理解能力不足[12][13] - 传统短视频评测存在"天花板幻觉":模型因能看完所有帧表现接近人类,但实际仍缺乏深度推理能力[15][16] - Video-TT创新点:选用1000条YouTube短视频,统一80帧采样,确保评测焦点从"采样效率"转向"理解深度"[16] 测试维度与问题设计 - 构建视觉复杂度(Visual Complexity)和叙事复杂度(Narrative Complexity)两大核心维度[18] - 视觉复杂度包含:模糊与非常规内容、运动速度、时空布局、视错觉四个子维度[19] - 叙事复杂度包含:复杂情节、叙事剪辑、技术性剪辑、世界知识四个子维度[19] - 问题设计强调激发"思考",需依赖上下文、原因和场景进行推理,例如需要世界知识回答"视频中的女士在模仿什么行为"[17][22] 模型性能评测结果 - 人类基准表现:正确性84.3%,鲁棒性64.4%,显著领先所有AI模型[29] - GPT-4o作为SOTA模型,正确率仅36.6%(不足人类一半),鲁棒性36.0%[30] - 开源模型在开放式问题上与GPT-4o差距显著,显示现有基准测试可能因侧重选择题高估模型能力[31] - 主要错误集中在复杂情节(Complex Plot)和世界知识(World Knowledge)相关任务[34] AI模型核心弱点分析 - 时空混淆:难以处理物体计数(如动态相框追踪)和序列定位(如多事件场景排序)[36][37] - 常识缺失:无法理解角色动机与情感(如银牌得主的失望情绪)等社会心理知识[38][39] - 复杂情节理解失败:难以建立跨场景因果关系(如棒球破坏房屋导致押金扣除的推理)[40][41] 研究团队与数据资源 - 主要作者包括南洋理工大学博士生张元瀚、董宇昊,通讯作者为助理教授刘子纬[6] - 论文与数据集已公开:论文链接(arXiv:2507.15028)、Hugging Face数据集、项目主页[42]
世纪华通谢斐:在“三大平衡”中领跑,实现游戏行业更高质量的发展
量子位· 2025-08-01 04:23
行业现状与矛盾 - 中国游戏行业已成为全球游戏领域的"领跑者",但面临三大亟需平衡的矛盾 [1] 平衡一:业绩高地与价值洼地 - 游戏行业在经历调整后重拾增长动能,但行业价值未获充分认可,资本市场估值远低于"新消费"领域 [3] - 游戏行业是人工智能、云计算等技术的关键推动力,并助力国内芯片产业发展,正向价值亟待更广泛社会认同 [3] - 弥合价值落差需锻造高品质创新产品力,推出精品大作并开拓蓝海市场,主动展现技术推动作用 [3] - 公司发起"数龙杯"大赛以拉近与社会距离,平衡业绩与价值 [3] 平衡二:情绪价值与品牌价值 - 游戏是满足"情绪价值"的绝佳载体,但需升华为有持久生命力、文化底蕴和社会认同的"品牌价值" [4] - 日本动漫游戏产业已形成国家文化名片,中国游戏出海成绩优异但缺乏全球文化穿透力的品牌符号 [4] - 实现情绪价值与品牌价值相互赋能需守护知识产权,挖掘产品文化深度并融入民族价值观 [4] 平衡三:简单答案与复杂提问 - AI让复杂问题更易解决,但提出高水平问题、掌握科学思维与跨界素养的能力成为人类稀缺资本 [5] - 生产力变革导向"人机协作",需重构协作范式,公司通过AI工具提升开发效率,让开发者聚焦创意 [5] - 未来游戏内容将实现"千人千面","敢想""会想"是核心竞争力,需保持内容原创力避免AI导致的趋同化 [5]