Workflow
机器之心
icon
搜索文档
视远·正心明智——机器之心2025年度AI榜单正式启动
机器之心· 2025-09-26 03:31
人工智能技术发展 - 大模型快速迭代 几乎每天都有新的突破性模型和训练方法登场[3] - GPT-4.5到GPT-5、Genie 3等模型在理解、生成、推理能力上不断突破[4] - 模型能力进步催生新应用形态 包括代码生成领域自动完成复杂程序编写和智能体领域自主完成多步骤任务[4] 中国人工智能进展 - 国产大模型性能逐步逼近甚至领先国际水平[4] - 开源生态展现强劲势头 Design Arena排行榜前15名开源AI模型全部来自中国[4] - 中国人工智能发展在2025年表现更加精彩[4] 年度评选榜单体系 - 最强技术实力企业TOP10评选标准包括长期技术研发布局、领先技术储备和人工智能技术在核心业务中的关键作用[7] - 人工智能领军企业TOP20要求企业在技术研发、落地应用和商业模式等方面构建完整运营能力[8] - 最佳大模型TOP20评选国内有代表性且实力强大的基础大模型[9] - 最佳大模型产品TOP20聚焦国内最有价值的大模型产品与应用[10] - 具身智能领军企业TOP10评选具备系统性技术布局与持续创新能力的企业[12] - ScienceAI领军企业TOP10关注人工智能与其他学科的交叉领域应用[13]
NeurIPS Spotlight|运动遮挡都不怕,0先验、一段视频精准预测相机参数
机器之心· 2025-09-26 00:32
这让作者重新思考: 有没有一种方法可以从动态场景视频准确、高效、稳定地预测相机参数,不受前景运动物体的影响,且仅用一段 RGB 视频作为监督呢? 方法概览 为了实现这一目的,他们提出了 ROS-Cam (RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes), 已被 NeurIPS 2025 接收为 Spotlight 论文 。 代码即将开源。 论文一作李放,美国伊利诺伊大学香槟分校 (UIUC) 博二学生,研究方向为 4D 视觉定位、重建/新视角合成以及理解。第二作者为美国伊利诺伊大学香槟分校博四 学生张昊。通讯作者是 Narendra Ahuja, 美国伊利诺伊大学香槟分校 Donald Biggar Willet Professor(Ming-hsuan Yang, Jia-bin Huang 博士导师)。这篇工作为作 者在博一期间完成。 研究背景 在三维重建、NeRF 训练、视频生成等任务中,相机参数是不可或缺的先验信息。传统的 SfM/SLAM 方法(如 COLMAP)在静态场景下表现优异,但在存在人车 运动、物体遮挡 ...
ChatGPT新功能Pulse,GPT-5主动给你推消息,大家玩得停不下来
机器之心· 2025-09-26 00:32
ChatGPT Pulse功能发布 - OpenAI推出ChatGPT新功能Pulse预览版 首先向Pro订阅用户开放 该功能基于智能体技术 每晚自动研究用户聊天记录 反馈及日历等关联应用 提供个性化更新 [4] - Pulse功能代表ChatGPT从完全被动转向主动服务 提供高度个性化内容 包括话题后续更新 健康晚餐创意 长期目标步骤等具体建议 [4][7] - 用户可连接Gmail和Google日历以提供更多上下文 获得更相关建议 如起草会议议程 购买礼物提醒 旅行餐厅推荐 集成功能默认关闭 可随时设置开启 [8] 技术实现与用户交互 - Pulse通过异步搜索综合用户记忆 聊天记录和直接反馈 每天清晨以主题可视化卡片形式呈现AI生成内容 含配图 支持快速浏览或查看详情 [4][14] - 用户可管理研究内容 标记有用或无用 通过点赞或点踩提供反馈 并可查看或删除反馈历史记录 人类指导将使Pulse随时间更加个性化和实用 [4][12] - 用户可主动请求ChatGPT搜索互联网内容 如本地活动综述 学习技巧或具体主题跟踪 例如AI领域论文更新 [11] 战略意义与未来方向 - Pulse是ChatGPT走向实用化的第一步 下一步目标为推广至Plus级别用户 未来可能插入广告或构建社交网络 影响新闻获取和社交媒体消费习惯 [5][17] - OpenAI工程师表示ChatGPT下一步目标是做更多有意义的事 从Pulse开始主动帮助用户实现目标 该功能只是开始 [20] - 功能经过安全检查 避免显示有害内容 目前专注于提供有用信息 包括推荐竞争对手产品如Claude和Gemini [9][18] 市场反应与用户影响 - 大量用户已收到推送 反馈显示内容不仅宽泛 且非常具体 涉及之前聊过的具体话题 滚动浏览时提供其他功能指引如优化推送或发送邮件通知 [14] - 功能促使用户更愿意将更多信息 上下文和应用程序连接到ChatGPT 以获得更好的每日推送 提升产品粘性 [15] - 被网友称为ChatGPT最大的一次尝试 OpenAI CEO山姆・奥特曼将其视为最喜爱的功能 比喻为超级私人助理 [1][2]
AI视频进入蒸汽机时代
机器之心· 2025-09-25 23:54
技术升级与核心突破 - 推出行业首个通用AI长视频生成功能,突破5秒和10秒的时长限制,理论上支持任意长度视频生成[3] - 采用流式生成技术替代传统首尾帧续写方案,用户仅需一张图片和提示词即可实现无限时视频生成,并支持实时调整提示词[4] - 引入交互式需求表达功能,允许在生成过程中暂停并修改提示词,无需等待完整推理过程结束[3][4] 性能表现与案例展示 - 生成视频实现毫秒级人物口型、表情、动作同步,中文语音细节还原度超98%[3][19] - 成功生成连贯长视频案例:小鸭子划水上岸动作流畅,水面涟漪和羽毛细节逼真;西部牛仔一镜到底场景转换丝滑;纸船漂流轨迹真实无失真[6][8][10] - 新增首尾帧功能,通过2张图片和提示词生成5秒视频,支持定格动画、季节过渡等复杂场景[11][15][16] 行业痛点与解决方案 - 解决长视频生成两大核心挑战:时长方面通过自回归扩散模型和动态缓冲区管理保障连续性与一致性;成本方面通过阶梯独立噪声构造降低平方级计算复杂度[25][26][27] - 采用历史参考帧增强策略,通过概率扰动和注意力门控机制缓解累积误差与信息漂移问题[28][30] - 引入训练指导帧和抗偏移技术,确保生成内容不偏离初始设定并保持主体一致性[32] 商业化应用前景 - 大幅降低创作门槛与成本,可应用于广告大片制作(如耳机产品展示)、影视预演、虚拟角色对话等场景[16][19][33] - 支持多角色自然对话与大师级运镜,依托海量中文语料训练实现电影级画质输出[19][33] - 推动AI视频生成从工具级片段制作向互动视频、直播等实时交互场景演进,重塑内容创作商业模式[22][37]
给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集
机器之心· 2025-09-25 23:54
多模态大语言模型几何推理研究突破 - 多模态大语言模型在视觉问答和图像描述任务中广泛应用,但现有方法依赖模板生成图像-文本对,存在泛化能力有限和视觉-文本信息不对齐问题 [1] - UIUC团队提出基于强化学习与可验证奖励(RLVR)的数据生成框架Geo-Image-Textualization,并发布首个完全对齐的高质量几何图像-文本数据集GeoReasoning-10K,包含1万对精心构建的图像与描述 [2] - 该框架具有强泛化性,训练后的模型不仅能处理几何任务,还能泛化至算术、代数、数值推理等非几何任务,甚至处理非几何图像输入 [8] 数据集与代码开源 - 研究团队已公开GeoReasoning-10K数据集及相关代码,数据集地址为https://huggingface.co/datasets/ScaleMath/GeoReasoning,代码地址为https://github.com/MachinePhoenix/GeoReasoning [3][5] - 论文标题为"Generalizable Geometric Image Caption Synthesis",论文链接为https://arxiv.org/abs/2509.15217 [5] 框架核心优势 - 生成样本由模板集字句组合而成,可以组合出任意复杂度的几何题,展现出卓越的可扩展性 [8] - 经过GeoReasoning训练过的模型在下游任务上性能超过其他同类型数据集,并且具有良好的缩放性质,体现高质量特性 [8] 实验验证结果 - 在MathVista和MathVers数学推理基准测试中,GeoReasoning-10K在相同数据量下均取得最优效果,展现出卓越的数据质量与扩展性 [12] - 使用GeoReasoning-10K微调后的Gemma3-4B模型在MMMU测评基准上显著提升多项能力 [14] - 具体样例显示模型能成功解决几何问题(如圆的角度计算)和算术问题(如车辆数量比较) [17][19] 研究意义与应用前景 - 该框架通过确保视觉和文本信息的完全对齐,不仅提升了模型在几何问题上的表现,还实现了向更广泛数学领域的泛化 [21] - 给几何图片写标题能增强AI的整体数学推理能力,为多模态AI在教育、科学计算等领域的应用铺平道路 [21]
高通祭出全球最快移动SoC!卢伟冰携全球首发小米17Pro现身
机器之心· 2025-09-25 23:54
产品发布与市场合作 - 高通在2025骁龙峰会中国会场正式发布旗舰移动SoC第五代骁龙8至尊版(骁龙8 Elite Gen 5)[1] - 小米17系列全球首发该芯片,中兴、vivo、索尼、三星等全球OEM厂商和智能手机品牌也将在旗舰产品中搭载[6][8] 制程工艺与整体性能 - 采用台积电3nm(N3P)制程工艺,整体SoC性能提升16%,整体续航延长1.8小时[3][4] - SoC峰值功耗最多降低43%,实现更强、更快、更省的性能表现[14] CPU性能突破 - 搭载自研第三代Oryon CPU,采用2个超大核+6个性能核架构,超大核主频达4.6GHz,性能核主频达3.62GHz[11][12] - CPU单核性能提升20%,多核性能提升17%,响应速度提升32%,能效提升35%[12] - Geekbench 6.4跑分显示单核超过3800分,多核超过12000分,成为全球最快移动CPU[15][17] GPU图形处理能力 - 搭载下一代Adreno GPU,主频1.2GHz,并配备18MB独立高速显存(HPM)[19] - GPU整体性能提升23%,光线追踪性能提升25%,能效提升20%[21] - 增强复杂3D场景与高帧率游戏处理能力,呈现更真实细腻画面[22] NPU与AI算力 - Hexagon NPU整体性能提升37%,每瓦特性能提升16%[27] - NPU推理速度达220 Tokens/秒,支持32K 2-bit超大上下文窗口[29] - 首次支持INT2与FP8新精度格式,并具备终端侧AI持续学习能力[30][31] - 64-bit内存虚拟化支持更大规模内存寻址,避免AI大模型性能瓶颈[30] 影像与音频技术 - 首次引入20-bit ISP,动态范围提升四倍,捕捉更多亮部和暗部细节[35] - 全球首个硬件APU编解码器提升视频处理效率,实现更低功耗与更高画质[37] - Dragon Fusion超域融合视频功能结合Night Vision 3.0技术,增强暗光和复杂环境拍摄能力[39] - 搭载骁龙音频感知技术,支持专业级录音、降风噪和音频变焦功能[39] 连接与网络性能 - 搭载AI赋能5G调制解调器,支持12.5Gbps峰值下载速度[41][43] - AI推理速度提升30%,可实时优化网络连接并保持高负载稳定性[43] - Wi-Fi的AI能力增强50%,游戏时延降低50%,提升传输效率与稳定性[44]
NeurIPS 2025 | 面向具身场景的生成式渲染器TC-Light来了,代码已开源
机器之心· 2025-09-25 09:43
TC-Light 是由中科院自动化所张兆翔教授团队研发的生成式渲染器,能够对具身训练任务中复杂和剧烈运动的长视频序列进行逼真的光照与纹理重渲染,同时具 备良好的时序一致性和低计算成本开销,使得它能够帮助减少 Sim2Real Gap 以及实现 Real2Real 的数据增强,帮助获得具身智能训练所需的海量高质量数据。 它是如何实现的呢?本文将为你揭秘 TC-Light 背后的黑科技!本工作已中稿 NeurIPS2025,论文与代码均已公开,欢迎大家试用和体验,也欢迎大家到 Project Page 体验 Video Demo。 论文题目:TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer 图 1 TC-Light 效果展示 为了推动这一问题的解决,我们提出了 TC-Light 算法,在提升视频生成模型计算效率的同时,通过两阶段在线快速优化提升输出结果的一致性,如图 1 和视频 Demo所示所示,本算法在保持重渲染真实性的同时,时序一致性和真实性相比于已有算法取得了显著提高。下面对算法细节进行详细介绍。 ...
刚刚,Meta挖走OpenAI清华校友宋飏,任超级智能实验室研究负责人
机器之心· 2025-09-25 09:43
机器之心报道 编辑:泽南 本周四午间传来消息,原 OpenAI 战略探索团队负责人宋飏(Yang Song)加入 Meta,他成为了新成立的 Meta 超级智能实验室(MSL)研究负责人。 据多方消息称,宋飏现在将向赵晟佳(Shengjia Zhao)汇报工作。赵晟佳是另一位刚刚从 OpenAI 转来的老同事,后者自 6 月宣布加入 Meta 。 Meta 的 AI 梦之队组成了? 今年 6 月起,Meta 发起了一场 AI 人才的争夺战,目标覆盖行业领先的 OpenAI,到谷歌、Anthropic 等公司的团队,给出的薪资条件极高。据说迄今为 止,顶尖研究人员至少已挖来了 11 人。 扎克伯格又从 OpenAI 挖走了一位华人科学家,而且这位称得上是「超级大脑」。 宋飏自 2022 年起加入 OpenAI。他的研究重点是构建多模态大模型、生成模型架构、优化、训练目标和数据效率的改进。此前,他在 Google Brain、 Uber ATG、微软工作和实习过。 | Yang Song | | | | | GET MY OWN PROFILE | | | --- | --- | --- | --- | --- ...
AI视频生成走向「演技生成」时代,生数科技Vidu全球发布Vidu Q2
机器之心· 2025-09-25 05:24
机器之心发布 机器之心编辑部 当 AI 视频不再只像过去那样比拼高清像素,而是开始进入 "飙演技" 阶段,AI 视频才算正式迈入内容生产的最高级形式 —— 影视级叙事新阶段。 9 月 25 日,生数科技新一代图生视频大模型 Vidu Q2 正式全球上线,打破了原有 AI 生成的表情太假,动作飘忽不定,运动幅度不够大,无法指哪打哪的 行业问题, 实现从 "视频生成" 到 "演技生成",从 "动态流畅" 到 "情感表达" 的革命性跨越,标志着 AI 视频生成技术正式从追求 "形似" 进入追求 "神 似" 的新纪元 ,将为内容创作、影视产业、广告营销等领域带来全新升级。Vidu Q2 图生视频功能不仅能胜任复杂表情变化的文戏,常见的多人打斗场景 的武戏,而且还能完美呈现大片中的炫酷特效。 据了解,相比于今年上半年发布的 Vidu Q1 模型,此次发布的 Vidu Q2 图生视频功能在极致细微表情生成、推拉运镜、语义理解、生成速度与时长选择方 面都有了大幅提升,主要有 4 大亮点: 此外,为了满足用户对于生成速度和生成质量的不同需求,Vidu Q2 图生视频分为闪电模式和电影大片模式。闪电模型下 20 秒就能生成 5 ...
首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源
机器之心· 2025-09-25 03:20
机器之心报道 编辑:泽南、冷猫 大模型的架构,要彻底进化了? 昨晚开始,AI 圈都在研究一个神奇的新物种 ——Code World Model(CWM)。 Meta 重组后的 AI 部门推出的首个重磅研究,是一个 世界模型 ,用来写代码的。 它和「传统」的大语言模型(LLM)思路不同,理论是这样的: 当人类进行计划时,我们会在脑海中想象不同行动可能带来的结果。当我们推理代码时,我们会在心中模拟其部分执行过程。当前一代的大语言模型在这方面表 现不佳,往往难以做到真正的推理和模拟。那么,一个经过显式训练的代码世界模型(Code World Model)是不是能够开启新的研究方向呢? Math-500: 96.6% AIME 2024: 76.0% Meta 刚发布的这个 CWM,是一个 320 亿参数的开放权重 LLM,以推动基于世界模型的代码生成研究。 CWM 是一个稠密的、仅解码器结构的 LLM,支持最长 131k tokens 的上下文长度。独立于其世界建模能力,CWM 在通用编程与数学任务上表现出强大性能: SWE-bench Verified(含测试时扩展):pass@1 6 5.8% LiveCode ...