Workflow
量子位
icon
搜索文档
Karpathy氛围编程最新指南!三层AI编程结构:顺境Cursor,逆境Claude,绝境GPT-5 Pro
量子位· 2025-08-25 15:47
AI编程三层结构框架 - Karpathy提出AI编程的三层递进结构 将编程任务按复杂度和工具特性分为三个层级进行分配[1][3] - 第一层使用Cursor处理约75%的常见情况 通过Tab键自动补全代码和小范围修改[9] - 第二层使用Claude Code/Codex实现较大功能块 特别适用于开发者不熟悉的领域如Rust和SQL语句[14][16] - 第三层使用GPT-5 Pro解决最棘手问题 如复杂bug修复和深度文档研究[4][20] 工具配置与使用策略 - Cursor支持配置多模型 包括claude-3.5-sonnet、gpt-40、gpt-5等主流AI编程模型[15] - 采用"顺境Cursor 逆境Claude/Codex 绝境GPT-5 Pro"的分层调用策略[6][7] - 通过代码片段或注释实现高带宽沟通 比文字描述更高效传递任务意图[11][12] 当前AI编程工具的局限性 - 模型容易跑偏 需要频繁终止任务 不适合全面托管模式(YOLO模式)[16] - 生成代码存在质量问题 包括滥用try/catch 代码膨胀 重复代码块等问题[17] - 缺乏解释性和交互性 工具更倾向于写代码而非解释代码逻辑[18][19] 开发者实践经验 - 网友使用统计显示约80%为自动补全 18-19%为功能添加 很少用于bug修复和重构[28] - 零样本新功能生成效果不稳定 通常需要大量清理工作[28] - 全自主模式表现最差 需要高度监督才能产出有用结果[28] 社区反馈与优化建议 - 开发者建议提供详细需求说明和功能拆解 附验收标准确保代码一致性[31] - 推荐采用增量式开发流程:需求分析-思路生成-代码实现-复查测试的循环[25] - 模型间切换已成为一门艺术 不同模型针对特定任务表现差异显著[29]
AI视频生成新品实测:这怎么不算影院级呢?
量子位· 2025-08-25 15:47
模型性能表现 - 作为全球首个中文音视频一体化生成的I2V模型,在中文语音和口型同步方面表现自然[3][6] - 升级版本擅长复杂运镜和镜头叙事能力,画质进一步提升[7] - 视频生成精细度较高,生成视频大小达20.8M,比对比产品3M大很多[18] 功能应用场景 - 仅用1张图片和1段提示词即可生成带音效的视频,例如猫呼噜声和虫子叫声[4] - 支持宠物动态写真生成,使照片自然动起来[20][29] - 支持创意实现如让林黛玉念《葬花吟》或麦当劳叔叔推荐肯德基[34] - 提供5秒和10秒两种视频长度选择[47] 语义理解能力 - 对提示词中部分内容如"奔跑"和"黄蝴蝶"存在理解忽略现象[15][45] - 对情绪把控有待提升,出现中气十足林黛玉和被迫营业麦当劳的情况[35] - 人手生成仍是历史难题,还有进步空间[46] 音效处理特性 - 可生成效果音和对话,但不会自主生成背景音,需要手动添加BGM[44] - 音效表现突出,如键盘敲击声效果不错[43] - 提供单独的背景音选项但选择后无变化[44] 价格优势 - 限时优惠价格1.4元/5秒,低至行业70%[49] - 登录赠送每月210免费额度[50] - 正常价格2.5元/5秒,200秒视频仅需100元,比对比产品便宜一大半[52] 生成效率 - 视频生成需3分钟,相比对比产品不到1分钟的速度较慢[16][17] - 可能因画面精细度较高导致生成时间较长[18] 生态整合 - 已在百度移动生态广泛使用,结合本土中文生态更适合中国创作者[57] - 提供免费额度获取机会[52]
最高提效8倍!腾讯游戏发布专业游戏AI大模型,美术师做动画不用辣么“肝”了
量子位· 2025-08-25 15:47
行业AI技术发展现状 - 国际巨头在游戏开发者大会上展示超过20场AI相关议题,聚焦AI提升美术生产效率、工具集成及具体应用案例[1] - 游戏美术精细度要求呈现指数级增长,导致工作量几何级增加[2] VISVISE解决方案核心功能 - 腾讯发布游戏创作AI全链路解决方案VISVISE,包含动画制作、模型制作、数字资产管理和智能NPC四大管线[4] - MotionBlink工具可根据少量关键帧自动补全中间帧,生成完整序列动画[5] - 传统动画制作中手动补帧占角色动画总工时60%-70%,10秒动画需3-7人天完成[6] - AI生成200帧动画仅需4秒,实现1.5秒间隔极限优化,部分效果达光学动捕水准[7][9] - GoSkinning自动蒙皮工具已在《和平精英》《PUBG Mobile》等产品应用[11] 传统游戏美术生产痛点 - 50%-60%工作量耗费在美术资产制作,3D建模和动画制作是最繁琐环节[13] - 蒙皮流程需手动调整成千上万个权重点,资深绑定师需花费60%时间解决此类问题[13][14] - 传统动画制作方式中:手K方式效率极低(10秒动画调一周),动捕数据质量不稳定需大量修正[15] - 角色骨骼控制精度要求极高,易出现衣物"穿模"问题[16] VISVISE技术实现突破 - GoSkinning采用两阶段AI解决方案:通用蒙皮大模型预测权重+局部AI二次优化复杂部件[18] - 实现2万顶点模型30秒处理完成,效率提升8倍[21] - MotionBlink通过自回归Diffusion模型自动补帧,底层MotionGen大模型基于高精动捕数据[21] - 智能关键帧生成研究已被ACM SIGGRAPH 2025接收[30] - 工具以插件形式嵌入Maya等开发软件,无需重构管线[32] 腾讯游戏AI发展历程 - 2016年开始探索AI应用,2018年扩展至美术生产管线领域[33] - 2022年推出GoSkinning1.0版本,使《和平精英》动画蒙皮效率提升约40%[33][34] - 2023年加大3D模型与动画生成领域投入[36] - 2024年整合分散AI探索为系统化产品矩阵VISVISE[37] - GoSkinning已迭代至4.2版本,新增裙摆蒙皮、四足蒙皮等功能,效率提升达60%以上[34] 实际应用与行业影响 - 腾讯财报连续强调AI对研发效率提升作用,头部产品加大AI应用力度[38] - GoSkinning已应用于近百款游戏,服务内部项目及行业合作伙伴[39] - 游戏行业成为AI技术试验田,对3D资产需求最大且追求极致体验[40][42] 未来技术发展方向 - 多模态成为AI技术发展关键能力,游戏是AIGC最佳应用场景之一[40] - 智能NPC是重点突破方向,需实现像人类一样理解虚拟世界[43][45] - 游戏与AI存在天然协同关系,既是AI考场也是灵感来源[40][45]
苹果折叠屏最新爆料:Touch ID正式回归,4摄系统首次亮相!
量子位· 2025-08-25 15:47
产品设计 - 采用折叠形态 展开时可像书本一样打开 折叠时可像普通iPhone一样使用[6] - 折叠后厚度约9.5毫米 每半机身厚度控制在5毫米以内 刷新iPhone纤薄纪录[3][7] - 初期测试配色保守 仅有经典黑白两种方案[15] - 屏幕方案从on-cell转换为in-cell技术 更接近现有iPhone技术[14] 硬件配置 - 侧边按钮集成Touch ID身份验证系统 取代Face ID[8][10] - 配备4颗摄像头 包含正面/内侧/背面各一/二颗 成为摄像头数量最多的iPhone[12] - 后置双摄像头包含高分辨率主摄和超广角/长焦专用镜头[13] - 搭载首款性能媲美高通的C2蜂窝基带芯片[18] - 完全取消实体SIM卡槽 全面采用eSIM方案[18] 产品规划 - 供应商已着手开发 计划明年初加紧生产[21] - 最迟上市时间锁定2026年下半年[3][21] - 预估售价区间2300-2500美元(约16491-17925元人民币)[25] - 2027年将推出曲面屏iPhone 20 采用一体式环绕玻璃机身[22] 功能特性 - 展开后8英寸内屏可使用内侧摄像头进行自拍[14] - 机身侧面和背面可显示信息并支持触控交互[22] - iPhone 17 Pro系列将支持前后摄像头同步录制功能[14]
科学界论文高引第一人易主!AI站上历史巅峰
量子位· 2025-08-25 05:54
Yoshua Bengio学术成就 - Yoshua Bengio成为各领域被引用次数最多的在世科学家 总引用量超过95万次[1][4] - 2018年与Geoffrey Hinton、Yann LeCun共同获得图灵奖 表彰深度神经网络突破性贡献[4][12] - 三篇核心论文引用量极高:2014年GAN论文引用100,904次 2015年《Deep learning》引用100,061次 2016年深度学习著作引用81,400次[16][17] 关键学术贡献 - 2003年发表《一种神经概率语言模型》 解决语言建模维度灾难问题 为GPT等大语言模型奠定基础[4][14] - 2014年作为共同作者提出生成对抗网络(GAN) 推动计算机视觉领域发展[4][16] - 在注意力机制、循环神经网络、词嵌入等方向做出开创性工作 影响机器翻译与自然语言处理发展[13][16] 学术背景与职业轨迹 - 1986-1991年于麦吉尔大学完成计算机科学本硕博 师从Geoffrey Hinton[10] - 曾在MIT与贝尔实验室从事研究 期间与Yann LeCun开展合作[10] - 1993年起任职蒙特利尔大学 现任蒙特利尔学习算法研究所(MILA)所长[11] 行业影响力与创业动态 - 2024年6月成立非营利组织LawZero 已筹集3000万美元启动资金 专注于AI系统透明度与安全性研究[19][20] - 其弟Samy Bengio现任苹果公司AI与机器学习研究高级总监[9] - 深度学习研究成果直接推动自然语言处理与计算机视觉技术商业化应用[4][16] 学术引用排名格局 - Geoffrey Hinton以94万次总引用量位列第二 与Bengio差距微弱[21] - 何恺明以73万次引用量排名第五 Ilya Sutskever以67万次引用量排名第七[24] - AD Scientific Index覆盖全球260万科研人员 数据每20天更新一次 排名每2天重新计算[23]
人均300万的青年科学家大奖“男女条件不平等”?颜宁解释了
量子位· 2025-08-25 05:54
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,第七届科学探索奖名单出炉。 今年 50位 青年科学家获奖,每人会在5年内获得300万元的奖金资助。 其中数学物理学5人、化学新材料5人、天文和地学5人、生命科学5人、医学科学5人、信息电子6人、能源环境5人、先进制造4人、交通建筑 4人、前沿交叉6人。 "科学探索奖"设立于2018年,由杨振宁、饶毅、潘建伟、高文、施一公、谢晓亮等14位知名科学家,与腾讯公司创始人马化腾共同发起。如 今已成为国内最受关注的面向基础科研和前沿技术的奖项之一。 2025年获奖名单 数学物理领域: 化学新材料: 天文和地学: 生命科学: 医学科学: 信息电子: 其中这几年来最受瞩目的AI和计算机领域,主要还是以信息电子领域来关注。 能源环境: 先进制造: 交通建筑: 前沿交叉: 6位获奖,咱稍微展开介绍一下。 信息电子领域6人获奖 在本届科学探索奖信息电子领域共有6位获奖者,其中3位为年轻科学家。 常毅——吉林大学 常毅教授,现任吉林大学科研院院长兼科技管理办公室主任,信息检索与数据挖掘领域顶级专家、美国计算机协会杰出科学家、英国计算机协 会会士,长期从事人工智能相关的基础 ...
首个接入GPT-5的视频Agent!一句话生成商业级广告大片,分镜配音字幕等全包了
量子位· 2025-08-25 02:32
产品核心功能 - AI视频生成Agent只需一句提示词即可自动完成分镜、画面、配音、字幕等全流程制作[1][2] - 能够真实还原现实世界画面 从食物到人物动作都极致逼真[4] - 将原本需要数周的视频制作时间缩短至数天甚至数分钟[5] - 不同于传统AI视频生成单个镜头片段 而是直接交付完整创意项目[7] 技术架构特点 - 全球首个接入GPT-5的视频Agent[4][9] - 打造完全自动化的创作生态系统 使AI成为云端创作团队[9][10] - 具备持续学习能力 能记住品牌风格和历史创作[11] - 包含脚本策划、视觉合成、配音字幕三大智能模块[16] 商业应用价值 - 内容产出效率提升10倍 可快速批量生产爆款视频[12] - 支持企业广告、品牌宣传片、产品发布会视频等商业场景[13] - 从0到1构建专业级影视内容 建立可持续创作的影视王国[14] - 通过简单文字指令即可生成商用级视频 降低专业制作门槛[19][21] 用户体验优势 - 操作界面简化 所有功能通过输入栏即可完成[19] - 自动将文本指令分解为创意构思、脚本编写和分镜生成[21] - 支持实时修改调整 生成的图像自动归类到对应分镜[23][25] - 自动完成剪辑过程 并提供项目回放功能追溯创作历程[26] 市场反响 - 小范围开放邀请码后迅速在X、Reddit、YouTube等平台刷屏[6] - 主要创新在于改变了创作协作模式 从单点效率提升转向完整项目交付[7]
马斯克成立新公司「巨硬」:用AI把微软产品重做一遍
量子位· 2025-08-25 01:12
公司战略与定位 - 马斯克成立新公司"巨硬"(Macrohard) 直接针对微软进行商业竞争 [2][4][5] - 新公司定位为纯粹的AI软件公司 目标是用AI模拟微软等纯软件公司的全部功能 [7][8][9] - 计划通过训练AI模型替代功能性黑箱 复刻微软核心产品如Office全家桶 [18][19] 技术实现路径 - 基于多智能体AI架构 Grok将衍生数百个专用AI智能体负责编码、图像视频生成和用户需求理解 [14][15] - AI智能体以虚拟员工团队形式在虚拟机中协同工作 通过模拟人类与软件交互实现产品复刻 [15] - 技术能力由xAI支持 算力依托孟菲斯Colossus 2超级计算机项目 计划采购数百万块英伟达GPU [20][21] 产品方向 - 开发可下载软件用于生成AI语音和文本 [16] - 提供AI工具支持代码编写、游戏设计和运行 [16] - 构建图像、视频及语言理解系统 [16] 竞争背景 - 微软投资OpenAI 马斯克通过xAI及其衍生公司直接竞争 [28] - 历史矛盾包括比尔·盖茨持有5亿美元特斯拉空头头寸 [24][25] - 双方在电动卡车、火星移民等技术路线存在分歧 [28][29]
和图灵机相关的这个数字,已经大到整个宇宙原子都容不下了
量子位· 2025-08-24 04:38
海狸数研究突破 - 第六个海狸数BB(6)的下限被神秘研究者mxdys刷新 数值达到超乎想象的程度 即使用宇宙所有原子刻录也无法完全表示[1][25][35] - 新纪录需用五幂运算2↑↑↑5描述 远超十进制表示范围 此前纪录由克罗皮茨保持12年 数值超30000位[28][35][36] 海狸数定义与历史 - 忙碌海狸数BB(n)代表n规则图灵机在停机前的最大运行步数 用于触碰计算机解决问题的边界[7][8][15] - BB(1)=1 BB(2)=6 BB(3)=21 BB(4)=107 BB(5)=47176870 前五个数的确定耗费数十年时间[18][19][20][21] 技术演进路径 - 2007年利戈茨基父子发现近3000位步数的六规则图灵机 2010年克罗皮茨将纪录提升至超30000位[27][28] - 2022年硬件升级引发竞争 步数从10↑↑5增长至10↑↑15 最终由mxdys在2024年6月达到10↑↑107[29][30][34] - 凯特琳・杜塞特发现移位溢出计数器类机器 为BB(6)研究提供新方法论[33] 数值规模描述 - BB(6)新下限2↑↑↑5需多重指数运算表示 物理宇宙原子总量无法容纳该数值[1][35][37] - 数值规模突破常规数学描述框架 需采用超运算符号才能表征[2][29][36]
告别“炼丹玄学”:上海AI实验室推出首个大模型数据竞技场OpenDataArena
量子位· 2025-08-24 04:38
开放数据竞技场OpenDataArena平台发布 - 上海人工智能实验室OpenDataLab团队推出开放数据竞技场OpenDataArena 旨在解决AI时代数据价值量化难题 将数据质量评估从"玄学"变为"科学" [1][4][5] - 平台通过公平公开透明的评测机制 构建训评一体化开源工具和多维度评分体系 以模型效果作为数据价值衡量标准 [6][7][10][11] - 覆盖4+领域 20+基准测试 20+数据评分维度 处理100+数据集 超20M+数据样本 完成600+次模型训练和10K+次模型评估 [12] 平台核心功能与运作机制 - 采用Llama3.1和Qwen2.5的7B版本作为基准模型 使用LLaMA-Factory训练框架和OpenCompass评估框架 确保测试公平性和可复现性 [17][18][34] - 通过多领域基准测试集(通用 数学 代码 长链推理)全面评估单领域和混合领域数据质量 [19] - 提供数据评测榜单 例如AM-Thinking-v1-Distilled-math数据集在数学领域得分74.5 较基准模型提升58.5个百分点 [20][22] 多维度数据评价体系 - 从20+维度对数据集整体和单条数据进行精细化打分 包括基于模型评估 LLM评委和启发式方法 [23][24][25] - 开源部分评分数据 避免重复API调用 降低科研用户打分成本 [27][28] - 评分工具持续完善 已实现大部分评估维度开源并提供使用教程 [37] 开源工具与社区参与 - 完整开源训练评测工具和多维度数据评价工具 所有细节可通过OpenDataArena-Tool获取 [30][31] - 工具与主流研究工作和开源工具对齐 保证结果公平可比 [35] - 鼓励社区共同参与数据价值验证 通过官方wiki文档了解工具使用方法 [37][38] 未来发展规划 - 计划扩展验证范围至多模态数据类型 深化医疗金融科学等专业领域应用场景 [41] - 每月更新数据竞技场榜单 保持数据排行榜时效性 [42] - 需科研社区力量共同参与数据价值验证工作 [42]