机器之心

搜索文档
英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
机器之心· 2025-09-06 06:00
英伟达与Lambda合作交易 - 英伟达与小型云服务提供商Lambda达成总额15亿美元的合作协议 [1] - 交易包含两笔:13亿美元租赁1万个搭载英伟达AI芯片的GPU服务器(4年期)及2亿美元租赁8000台同类服务器(未明确时间) [1] Lambda公司背景 - Lambda成立于2012年 主要商业模式为租赁搭载英伟达GPU的服务器及数据中心空间 [2] - 英伟达此前已向Lambda提供芯片并进行投资 此次交易后成为其最大客户 [3] 英伟达战略动机 - 通过投资小型云服务商(如Lambda、CoreWeave)并租赁其服务器 形成资金"内循环":云服务商用融资购买英伟达芯片 英伟达租赁服务器提升双方收入 [4] - 此举可巩固英伟达在AI芯片市场主导地位 应对微软、谷歌、亚马逊等大客户自主研发芯片的竞争威胁 [8] - 类似案例CoreWeave(英伟达扶持后于2025年3月完成15亿美元IPO)证明该模式可行性 [7] 行业竞争格局影响 - 英伟达通过投资+供应链+客户三重角色绑定小型云服务商 重塑云计算市场竞争格局 [3][8] - 云服务商通过此类合作获得可观收入并提升IPO可能性 英伟达同时从芯片销售和股权投资中获益 [4]
Anthropic被作家告了,违规下载700万本书,15亿美元和解了
机器之心· 2025-09-06 06:00
机器之心报道 机器之心编辑部 最新消息,AI 初创公司 Anthropic 同意支付至少 15 亿美元,来和解一起作家集体诉讼案件。此前,这些作家联合指控 Anthropic 盗版了他们的作品来训练其聊天机 器人 Claude。 在业界看来,如果该协议获得批准,那么这将是一起具有里程碑意义的和解协议,是美国版权案件历史上金额最高的赔偿,也将是 AI 公司与指控其侵犯版权的作 家、视觉艺术家,以及其他相关创意专业人士之间法律纠纷的转折点。 据了解, 15 亿美元和解金背后涉及的作品约为 50 万本书 ,平摊下来, 每本书或每部作品预计获得 3000 美元的赔偿 。另外,作为和解协议的一部分,Anthropic 也同意 销毁其下载的原始文件及所有副本 。 根据 6 月份的一份裁决显示,Anthropic 通过各种渠道,从 Library Genesis 和 Pirate Library Mirror 等 盗版网站下载了超过 700 万本 「明知是盗版」的电子版书籍。 所以,上个月的时候,美国作家协会预计每本书或每部作品的赔偿金至少为 750 美元,但现在是 3000 美元,大概率是在删除了重复作品和无版权作品后, ...
00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
机器之心· 2025-09-06 03:14
公司背景与转型 - 公司最初以Cybever名称运营 专注于AI生成高精度3D虚拟环境技术 主要服务游戏和影视行业[3] - 2022年由Cecilia Shen和Jie Yang联合创立 团队背景源自Google X[11][13] - 2024年转型为全球首家AI原生影视工作室Utopai Studios 首年即实现1.1亿美元收入[5] 技术演进路径 - 采用程序化内容生成(PCG)技术路线 强调质量控制、拓扑完整性与工业兼容性[13] - 第一阶段建立自动生成高精度3D资产能力 支持不同光照、相机参数和天气条件 每个组合具备绝对真值[14] - 第二阶段开发空间语法规则 使AI能理解功能逻辑与空间秩序 实现结构美感与功能合理性[15][16][17] - 第三阶段部署AI Agent系统 能理解抽象创作指令并自动完成场景构建 输出完整3D预览资产[18][19][20][23] - 第四阶段形成Previz-to-Video工业闭环 解决AI视频一致性、可控性与叙事延续性问题[24] 核心竞争优势 - 系统可生成具备意图的世界 自动添加未直接要求的细节元素提升审美深度[21][22] - 技术能大幅降低制作成本 为影视制作节省数十小时及数万元人力与渲染成本[23] - 实现从前期可视化到最终成片的路径简化 导演可在几分钟内预览接近成片质量的镜头[24] 商业项目进展 - 首部作品《科尔特斯》由奥斯卡提名编剧执笔 被列为好莱坞最难拍史诗巨作之一[26] - 科幻剧集《太空计划》已预售欧洲市场 被形容为壮志凌云遇见世界大战[26] - 2024年秋季将在戛纳MIPCOM和美国AFM电影节上映作品[7] 行业影响与认知 - 成为第一家加入好莱坞公会的AI公司 未受行业抵制反而获得认可[6] - 好莱坞存在改革需求 许多剧本因制作成本和技术鸿沟无法实现[29] - 专业创作者正将生成式工具融入核心创作流程 用于延展直觉而非取代直觉[30] - 观众更关注内容质量而非是否由AI生成 区域文化差异将塑造不同内容经济[30][31] 行业发展趋势 - 内容产量爆炸式增长但质量未必提升 观众注意力向优质内容集中[31] - 传统电影公司正开发内部AI解决方案 可能引发新一轮投资与并购浪潮[31] - 竞争优势取决于专有数据、流程集成、领域专用模型及人文科学融合能力[32][33][34][35] - AI视频生成在历史复原领域具潜力 可修复被时间掩埋的内容并纠正历史遗漏[35]
任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
机器之心· 2025-09-06 03:14
技术突破 - 提出AnimaX框架 支持任意骨骼拓扑结构的高效前馈式3D动画生成 突破传统方法对固定骨骼拓扑的限制[2][8] - 创新采用视频-姿态联合扩散模型 通过共享位置编码与模态嵌入实现跨模态时空对齐 将视频运动先验迁移至3D动画[5][12][14] - 设计多视角姿态图表示法 结合Plücker射线编码与多视角注意力机制 解决多视角不一致问题[14][15] 性能优势 - 在定量评测中主体一致性达0.962 运动平滑度0.990 外观质量0.517 均显著优于对比方案[23] - 人类偏好测试显示 在动作-文本匹配度获82.9%偏好率 形体一致性73.3% 整体运动质量77.9%[24] - 生成效率大幅提升 仅需数分钟即可完成动画序列 传统方法需数十小时优化[9][11][16] 数据集与泛化能力 - 构建包含约16万条绑定骨骼的3D动画数据集 涵盖人形/动物/家具/机械等多类别[8] - 可生成自然连贯的动画 包括人形角色/动物/家具/机械结构 展现强泛化能力[6][9][16] 方法比较 - 较MotionDreamer形变场约束能力有限 避免几何不一致和时序不稳定问题[21][22] - 较Animate3D重建困难导致静态结果 通过联合建模实现稳定输出[21][22] 应用前景 - 可扩展至场景级动态建模 推动4D内容生成发展[30] - 未来可结合长时序视频生成 提升长程动画连贯性与细节保真度[30]
OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
机器之心· 2025-09-06 03:14
文章核心观点 - 大模型幻觉是AI领域根本性挑战 模型会自信地生成不真实答案 当前训练评估机制倾向于奖励猜测而非承认不确定性 [2][9][12] - OpenAI通过系统性研究揭示幻觉根源 指出评估方法设置错误激励机制是主因 需要重新设计评估指标来降低幻觉 [9][21][36] 幻觉定义与表现 - 幻觉指语言模型生成看似合理但实际错误的陈述 即使简单问题也可能出现意外错误 [6] - 测试案例显示不同聊天机器人对同一问题给出多个错误答案 如Adam Tauman Kalai博士论文标题和生日均被错误回答 [6][7] 训练评估机制缺陷 - 当前评估方法采用多项选择题模式 鼓励模型猜测而非承认不确定 猜测有概率正确而弃权必得零分 [9][10] - 标准准确度指标主导评估体系 导致开发者构建倾向于猜测的模型 错误答案比弃权答案更糟糕但评估体系未体现 [12][18] - GPT5系统卡评估显示:gpt-5-thinking-mini弃权率52% 错误率26% 而OpenAI o4-mini弃权率仅1%但错误率达75% [14] 基准测试局限性 - 主流基准测试如GPQA、MMLU-Pro等均采用二元评分 对不确定答案不予加分 形成错误二分法 [16] - 简单评估中模型准确度可接近100% 但实际使用中因信息不可用或能力限制 准确度无法达到100% [17] 幻觉产生机制 - 预训练阶段通过下一个词预测学习 缺乏真假标签标注 难以区分有效与无效语句 [25][26] - 拼写和括号等一致性错误随规模扩大消失 但任意低频事实(如宠物生日)无法仅靠模式预测 导致幻觉 [27] 常见误解与澄清 - 准确度无法达到100% 因部分现实问题本质无法回答 并非所有幻觉都能通过提高准确度消除 [29][30] - 幻觉并非不可避免 模型可选择弃权回答 小型模型更易了解自身局限性 [31][32][33] - 幻觉非神秘缺陷 其产生和奖励机制可从统计学角度理解 需要重新设计评估指标而非仅靠幻觉评估 [34][35][36] 改进方向与进展 - 应对自信错误施加更大惩罚 对恰当表达不确定性给予部分加分 类似标准化测试的负面评分机制 [20][21] - OpenAI最新模型幻觉率已降低 公司持续努力进一步降低置信错误率 [37] - 公司重组模型行为团队 原负责人启动新项目oai Labs 专注于人机协作新界面原型研究 [37]
不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
机器之心· 2025-09-05 07:12
想象一个虚拟人,他不仅能精准地对上你的口型,还能在你讲到关键点时做出恍然大悟的表情,在你讲述 悲伤故事时流露出同情的神态,甚至能根据你的话语逻辑做出有意义的手势。 这不再是科幻电影的场景。8 月底,字节跳动数字人团队推出了 OmniHuman-1.5,提出了一种全新的虚拟人 生成框架,让虚拟人真正拥有了「思考」和 「表达」的能力。 数月前 OmniHuman-1 上线时,曾引发国内外热潮。相比前作,1.5 版本有了更多突破,不仅可以根据文字 指令让虚拟人在对口型之余做出指定动作、表情,还支持在多人场景中控制发言者以外的角色做出具体动 作。据悉,新版本很快也将上线即梦 AI。 一个「会思考」的虚拟人是什么样? 传统虚拟人总感觉差了点「灵魂」,动作机械、重复,而 OmniHuman-1.5 首次将诺贝尔奖得主丹尼尔・卡 尼曼的「双系统理论」引入 AI,通过一个由多模态大语言模型(MLLM)驱动的「思考大脑」,让虚拟人 学会了深思熟虑。 在深入技术细节之前,先用最直观的方式,感受一下这个框架创造出的虚拟人,究竟有何不同: 论文链接: https://arxiv.org/abs/2508.19209 项目主页: ht ...
被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
机器之心· 2025-09-05 07:12
产品命名与用户反馈 - 谷歌将AI模型名称从Gemini 2.5 Flash Image改回用户更喜爱的Nano Banana 体现公司对用户意见的重视[1][2] - 网友建议AI模型采用水果蔬菜命名方式 认为这比传统拗口命名更有趣且易于记忆[4] AI在时尚行业的应用场景 - Nano Banana可生成明星OOTD(今日穿搭)俯拍平铺图 精准复刻服装配饰鞋子等细节 如不对称剪裁和下摆流苏设计[6][9][21] - 传统时尚博主需要从零散图片中识别单品来源并标注品牌价格 工作耗时且竞争激烈[13][15][16] - AI工具将时尚内容制作流程从耗费心力的工程简化为快速生成 极大提升效率[17][25] 技术实现与优化方案 - 通过多角度参考图和详细提示词可提高生成准确性 要求包括颜色纹理廓形精确复刻及整洁排列[24][26] - 分步操作策略:先使用Gemini 2.5识别品牌(如正确识别阿玛尼礼服和宝格丽珠宝)再生成带品牌标注的OOTD图[36][38] - 当前一次性生成带准确品牌标注的清单图成功率较低 存在单品货不对版或品牌标注错误的问题[30][35] 多功能扩展应用 - 一键换衣功能可实现明星试穿高定礼服 解决合身度与气质匹配问题 生成效果贴合度极高[43][44][45][47] - 支持设计线稿上色 通过上传线稿图和色卡可准确填充颜色 保留服装细节[49][54][56] - 将设计草图转换为时装秀成品 极大压缩传统时尚创意呈现所需的冗长流程与人力投入[57] 行业影响与未来展望 - AI生成技术让设计师更快试验灵感 造型师提前预览效果 普通人轻松尝试不同风格[58] - 工具在服装设计时尚内容创作和个人穿搭灵感发掘等领域展现巨大应用潜力[49][58]
Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
机器之心· 2025-09-05 04:31
大模型命名趋势 - OpenAI率先使用水果名称"Strawberry"命名模型引发热议[2] - 命名潮流扩展至动物和蔬菜 如Recraft的"red_panda"和谷歌的"Nano Banana"[4] - 新出现的"Carrot"模型延续了这种非正式命名趋势[5] Anycoder平台新模型 - 在Anycoder平台发现名为"Carrot"的新模型 具备超强代码能力[5][7] - 该平台同时集成了DeepSeek V3、Gemini 2.5 Pro、Grok-4、GPT-5等多个明星模型[8] - 模型演示地址为https://huggingface.co/spaces/akhaliq/anycoder[10] Carrot模型能力展示 - 能制作兔子躲避胡萝卜的游戏 实现胡萝卜作为子弹的编程效果[10] - 可生成体素宝塔花园和P5.js超粒子动画等复杂图形程序[12][14] - 知名博主AK使用该模型制作了"gemma-3-270m"聊天机器人 运行效果良好[16] 模型来源猜测 - 网友猜测可能来自谷歌 因谷歌刚发布Nano Banana图像模型[18] - 排除Kimi可能性 因Kimi刚刚发布K2 0905版本[19] - 也有猜测可能来自阿里的Qwen3系列[21]
沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
机器之心· 2025-09-05 04:31
端侧AI模型技术突破 - 华为发布专为昇腾端侧硬件打造的高性能语言模型openPangu Embedded-1B 通过软硬件协同设计显著降低推理延迟并提升资源利用率 采用多阶段训练策略增强任务表现[1] - 模型仅10亿参数但实现性能与效率高度协同 树立"小模型大能力"新标杆 成功将强大AI能力带入端侧设备[2] 性能表现与基准测试 - 模型在多个权威基准上创下10亿参数级别全新SOTA纪录 整体平均分达63.90 持平更大规模Qwen3-1.7B模型(63.69分)[3] - 数学推理能力突出 GSM8K数学基准达82.76% MATH数学题集达81.83% 大幅领先同类模型[3] - 相比上月开源版本V1 V1.1版本平均分实现8%以上大幅跃升 显示开源盘古系列加速迭代升级[5] 软硬件协同优化 - 针对昇腾Atlas硬件特性定制网络超参数 隐藏层规模与前馈网络维度匹配高效吞吐配置 确保计算单元充分利用[9] - 在Atlas 200I A2硬件上首字输出延迟仅约1.8秒 后续每词生成约0.156秒 速度优势显著[12] 创新训练方法 - 采用两阶段课程学习式微调 第一阶段专注理性推理能力 第二阶段训练快速作答 激活深层推理能力[15][23] - 引入离线On-Policy知识蒸馏方法 学生模型自主作答后教师模型针对性指导 提升准确率和泛化能力[18][24] - 采用多源奖励强化学习机制 数学代码任务使用规则奖励 复杂任务采用轻量级LLM评估 结合格式规范奖励策略[22][25] - 开发昇腾NPU集群高效并行方案 减少约30%设备空闲 通过主机-设备权重共享优化大规模强化学习运行效率[21] 技术发展前景 - 提出自适应快慢融合方案 模型可根据问题难度自动选择快速作答或深入推理 在保持精度的同时提高易答问题效率[29] - openPangu-Embedded-7B模型已应用该策略并在7B量级取得领先 升级版本即将开源[30]
多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
机器之心· 2025-09-05 04:31
生成式AI与多模态大模型持续学习研究 - 中国科学院自动化研究所联合中国科学院香港院AI中心系统研究生成式AI和多模态大模型的持续学习 提出综述、方法、Benchmark和Codebase以支持研究者和实践者 [2] 生成式AI持续学习综述 - 论文《Continual Learning for Generative AI: From LLMs to MLLMs and Beyond》系统综述生成式AI持续学习方法 涵盖大语言模型(LLMs)、多模态大语言模型(MLLMs)、视觉语言动作模型(VLA)和扩散模型 [4][5] - 研究围绕训练目标、应用场景及技术方法 方法包括架构扩展、正则化和回放策略 评估指标包括整体性能、遗忘程度和泛化能力 [8] 多模态大模型持续学习Benchmark与方法 - 提出UCIT评测基准 通过zero-shot筛选机制构建无信息泄露风险数据集 解决预训练数据重叠导致的评估失真问题 [13] - 提出HiDe-LLaVA方法 采用分层处理机制:顶层动态专家选择实现任务自适应 其余层参数融合保留跨任务共享知识 有效缓解灾难性遗忘 [13][14] - 提出联邦连续指令微调(FCIT)基准 包含同质和异质两种现实场景 通过4种实验设置和12个数据集评估非独立同分布数据和灾难性遗忘表现 [18][20] - 提出DISCO框架 结合动态知识梳理(DKO)和子空间选择激活(SSA)策略 在FCIT基准上取得最好表现 [20][21] 多模态持续学习方法创新 - 提出ModalPrompt框架 利用图像-文本双重监督构建任务特定原型提示 实现无回放数据下的知识保留 推理速度提升1.42倍 [25][27] - 提出多模态大模型持续学习基准MLLM-CL 涵盖领域持续学习(DCL)和能力持续学习(ACL)两种设置 针对IID和非IID场景评估 [30][32] - 提出MR-LoRA方法 通过领域或能力特定的LoRA模块实现参数隔离 避免任务间干扰 在DCL和ACL任务上显著优于传统方法 [32][33] - 提出LLaVA-c改进模型 通过谱感知巩固(SAC)克服新旧知识冲突 通过无监督查询正则化(UIR)防止基础模型退化 持续学习效果首次超越多任务联合训练 [35][37] 开源代码仓库与标准化平台 - 推出MCITlib开源代码仓库 集成8种主流算法 精选UCIT和DCL两个高质量基准 避免信息泄露 提供统一公平的实验环境 [39][41][42] - 代码仓库将持续更新 扩展更多模型、任务和评测维度 为多模态大模型持续学习研究提供支持 [42] 研究团队与成果 - 核心作者包括郭海洋、朱飞、曾繁虎、刘文卓、赵宏博 通讯作者为张煦尧研究员和刘成林研究员 团队长期从事人工智能研究 成果发表于CVPR、ICCV、NeurIPS等顶级会议与期刊 [2] - 多项研究已被ACL 2025、ICCV 2025、EMNLP 2025接收 相关代码及数据已全部开源 [13][21][28]