量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

ToC智能体火得快，但更大的价值在企业丨中关村科金@MEET2026

量子位· 2025-12-12 05:30

文章核心观点 - AI时代的核心在于连接更强，智能体作为超级连接器，将人、数据、知识与智能编织进企业全流程，形成新的数字人力体系 [1][2][9][10] - 企业智能化是一个由场景选择、数据与知识治理、模型构建三要素持续迭代驱动的长期工程，而非一次性项目 [3][14][16][17] - 企业级智能体规模化落地的关键在于重构底座平台能力，即大模型平台、AI能力平台和AI数据平台三大核心 [5][6][17][19][20] - 在三大平台之上构建“智能体集市”，实现数百甚至上千个数字员工的协同工作，成为企业组织的新单元 [7][28] - 企业级智能体应用与ToC场景的核心差异在于对规模化、成本效率和精度的极致要求 [17][32][49] 行业趋势与本质判断 - 从互联网到AI时代是连接的进化，智能体实现了人与数据、知识、智能的更高效连接 [1][9][10][11] - 智能体为企业新增了一类“数字人力”，能连接内部资源，提升员工协同效率，并在外部助力客户连接，创造营销、客服、销售等价值 [12] - 企业智能化是一个持续变化、不断演进的过程，不同于过去固定不变的信息化、数字化项目 [16] 企业智能体落地的关键框架 - **三大核心平台**：企业用好智能体的关键在于三个平台 [17] - **大模型平台**：作为认知中枢，连接算力，兼容各类开源模型，覆盖从数据标注到上线运营的全流程，并提供智能体构建工具与模板 [6][17][19] - **AI能力平台**：作为感知系统，提供OCR、ASR、TTS等能力，需针对企业严肃场景进行极致调优，例如关键信息的ASR识别准确率需达到99%以上 [6][17][20][21][23] - **AI数据平台**：作为企业的记忆与经验沉淀系统，将感知、认知、记忆统一是实现有效落地的关键 [6][17][25][26] - **持续迭代的三要素**：企业智能体落地需在场景选择与评估、企业内部数据与知识整理、模型训练与构建三个环节循环迭代 [14][17] - **智能体集市与人机协作**：在三大平台之上构建“智能体集市”，支持数百至上千个智能体在一个人机协作平台上协同工作，形成赋能、协同、自主完成与监督等多样化人机关系 [7][28] 典型应用场景与案例 - **营销服场景**：是目前最典型、落地效果最好的场景，核心基础是全媒体、全渠道的联络中心 [35] - 应用包括线索抓取、识别与打标、外呼、客服、陪练、质检等多个销售智能环节，智能体可高效捕获线上潜在客户线索并开展互动 [35] - 没有智能体，企业很难与数亿用户进行充分沟通互动并取得良好效果 [36] - **办公与运营提效场景**：做好问答、写作、审核、问数四件事可覆盖80%-90%的价值，底层支撑是完整的智能知识库 [37] - 企业对容错率、准确性、专业性要求极高，简单搭建的系统行不通 [38] - 案例：协助中国电建财务公司梳理了数百个专业指标，精准解决办公运营需求 [38] - **垂直行业应用**： - **金融领域**：已服务超200家银行、500余家各类金融机构，在风控、消保、信贷等场景积累了大量智能体解决方案 [41] - **工业领域**：大语言模型及未来的多模态模型将推动工业智能化从局部向全局演进 [45] - 案例：与中控技术、中南大学等单位合作，为南方有色金属打造了有色金属行业垂直大模型，构建了行业与企业知识库，并应用于能耗节约、设备预测性维护、冶炼工艺优化等核心场景 [45][46] 公司定位与市场布局 - 公司定位为全球领先的企业级大模型技术与应用服务商，专注于将大模型与智能体技术应用于企业场景，助力企业实现增收、降本、提效、合规等目标 [10][47] - 公司服务了2000+各行业头部企业，沉淀了大量经过场景验证的“样板间”和智能体资产 [33] - 除了国内市场，公司正积极拓展海外市场，在中国香港、新加坡、马来西亚、泰国、印尼等地区和国家布局，服务海外直客并助力中企出海 [47][48]

智能体

大模型

Artificial Intelligence

得助大模型平台

智能体

大模型

Artificial Intelligence

得助大模型平台

跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

量子位· 2025-12-12 03:00

文章核心观点 - 扩散语言模型作为一种非自回归的生成模型架构，在理论上有望实现比主流自回归模型更快的生成速度和更低的计算成本，并具备独特的可编辑生成能力，是当前大语言模型领域一个重要的非共识技术方向[2][8][20] - 浙江大学、蚂蚁集团等机构的研究团队已将扩散语言模型扩展至千亿参数规模，并开源了LLaDA 2.0模型及配套训练框架，标志着该技术路径取得了关键里程碑[4][44] - 扩散语言模型在训练和推理层面仍处于早期发展阶段，但其独特的Scaling Law、对数据的强吸收能力以及在代码生成等任务上的潜在优势，吸引了谷歌、字节等巨头及初创公司布局，未来发展值得关注[5][15][41][56] 扩散语言模型的技术原理与特点 - **核心机制差异**：自回归模型通过“接龙”方式逐个预测下一个词，而扩散语言模型采用“完形填空”机制，通过遮盖并恢复部分词来生成内容[12][13] - **训练特性**：扩散语言模型相比自回归模型更为“data-hungry”，在计算受限情况下对数据需求更大、吸收数据更快[15][21]；与图像扩散模型类似，扩散语言模型在训练上具有持续性，可以在同一数据集上持续训练并提升效果，而自回归模型训练多个epoch后效果常趋于稳定[24][25][26] - **推理优势**：扩散架构在推理过程中可以直接修改和控制token，无需像自回归模型那样重新生成整段内容，这为实现可编辑和可控生成提供了可能[2][28] LLaDA系列模型的研发进展与开源贡献 - **发展历程**：中国人民大学团队率先开源了80亿参数的扩散语言模型LLaDA 1.0，其效果可对标LLaMA-3-8B，并在Hugging Face上获得超过20万次下载[35][36][37]；随后蚂蚁技术研究院联合多所高校接手，致力于推动该领域发展[38] - **架构演进**：团队发布了全球首个原生训练的MoE架构扩散语言模型LLaDA-MoE，总参数70亿，激活参数10亿[40]；近期发布的LLaDA 2.0，率先将扩散语言模型扩展至千亿参数体量[4][44] - **开源框架**：团队开源了首个面向扩散语言模型的训练框架，支持监督微调和直接偏好优化，并配套了推理框架，方便社区使用[31][32] 扩散语言模型的性能表现与潜在应用 - **性能表现**：在相同的计算量和性能目标下，扩散语言模型所需的参数规模可以比自回归模型更小[15][23]；在全局注意力机制支持下，扩散模型在效果上相比自回归模型具备一定优势[47] - **任务优势**：扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势，得益于并行解码能力，能同时生成多个token[49] - **生成特点**：扩散模型在文学创作等任务中展现出独特的“非共识”解码轨迹，例如先确定开头结尾框架，再反复修改润色中间内容，这种生成过程在主流自回归模型中难以见到[49][50] 行业生态与未来展望 - **行业布局**：扩散语言模型领域发展势头迅猛，已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局[5][41] - **发展挑战**：扩散语言模型的训练与推理仍处于早期发展阶段[5]；其Scaling Law与自回归模型存在差异，已验证可扩展到千亿规模，但继续向上扩展会面临新的挑战[15][56] - **未来方向**：团队发布了试验性推理引擎dInfer，旨在通过新架构与范式提升关键场景的吞吐量，目标实现五倍乃至更高的速度提升[53][54]；团队计划在未来一两个月通过ZenMux平台放出部分API，以促进社区生态成长[51]

扩散语言模型

自回归模型

Artificial Intelligence

Artificial Intelligence

LLaDA 2.0

LLaDA 1.0

LLaDA-MoE

港中文联手美团开源“视觉推理通才”！图像视频10类任务一网打尽

量子位· 2025-12-12 01:00

OneThinker团队投稿量子位 | 公众号 QbitAI 横扫31个主流基准、拿捏10类核心任务，视觉模型界的"通才"来了！香港中文大学MMLab与美团研究团队开源提出 OneThinker ——一个基于RL的统一多模态视觉推理通才模型，覆盖图像与视频两种模态下的十类核心视觉任务。在31项主流视觉任务测试中，OneThinker均表现亮眼。它不仅能在多任务训练中实现相互促进，还能在从未见过的任务上做出合理推理，初步展现了通才模型的泛化能力。 1. 无法统一建模现实复杂场景 2. 知识隔离，迁移受限从"专才模型"到"通才系统" 现实世界中的视觉数据复杂多样，往往同时包含静态图像与动态视频信息。同时，视觉任务类型也高度多样化，例如问答、定位、分割、追踪等。在这种背景下，传统的"单任务、单模态"RL思考模型架构存在以下两个根本性问题：虽然以Vision-R1、Video-R1、VLM-R1等为代表的工作，已经在图像问答、视频理解、目标检测等任务上取得显著效果。但这类RL模型大部分存在一个限制：只能处理单一模态或单一任务。模态、任务之间缺乏关联，推理能力被割裂，难以泛化应用。来看看On ...

GPT-5.2果然反超谷歌Gemini 3 Pro！北大数院校友核心贡献

量子位· 2025-12-12 01:00

GPT-5.2系列产品发布与核心定位 - OpenAI在成立十周年之际快速迭代发布GPT-5.2系列，距GPT-5.1发布仅30天，显示出公司加速产品迭代的紧迫感 [1][16] - 新版本的核心升级方向是专门强化“打工能力”，即提升在各类实际工作场景中的生产力 [1] 多模态与复杂任务处理能力 - 视觉理解能力大幅提升，能更准确地标记主板上的元件 [4] - 长文档处理能力是升级重点，在256k上下文长度的4针版MRCRv2评测中达到接近100%准确率 [30] - 能够处理超越最大上下文窗口的复杂任务，兼容简洁回复模式以支持工具密集型、长时间运行的工作流 [33] - 在需要调用Python工具的高分辨率图形界面截图推理测试中得分达到86.3%，禁用工具则得分显著降低 [37][39] 专业与高经济价值任务表现 - 在GDPval测试中，涵盖美国GDP前九大产业的44个职业领域，能完成人类需4-8小时的任务 [18] - 在人类评委打分下，GPT-5.2 Thinking相比人类专家有71%的胜率，GPT-5.2 Pro胜率更高，且速度是人类的11倍以上，成本不到人类的1% [19][20] - 在投行分析师的电子表格建模任务上，GPT-5.2 Thinking平均得分相比GPT-5.1提升9.3%，从59.1%上升到68.4%，任务包括为财富500强公司搭建三表联动模型、构建杠杆收购模型等 [21] - 评委评价其输出质量有“令人兴奋且显著的飞跃”，成果看起来像由专业公司员工完成 [23] 代码与软件开发能力 - 代码能力刷新纪录，在SWE-bench Verified上得分达到80% [25] - 在更难的SWE-Bench Pro评测上，GPT-5.2 Thinking拿下55.6%的新高，该评测涵盖Python、JavaScript、TypeScript和Go，贴近真实工业场景 [26][27] - 在前端开发和涉及3D元素的复杂UI工作方面表现明显更强 [28] 工具调用与端到端工作流 - 工具调用能力达到新高度，在Tau2-bench Telecom多轮交互电话客服场景评测上取得98.7%的成绩，在零售场景也达到82% [40][41] - 这意味着更强大的端到端工作流程能力，例如解决客户支持案例、从多系统提取数据、运行分析并生成最终输出，且步骤间故障更少 [43] 科学推理与研究辅助能力 - 公司相信GPT-5.2 Pro和GPT-5.2 Thinking是当前世界上最适合辅助科学家的模型 [44] - 在研究生水平的GPQA Diamond问答评测上，GPT-5.2 Pro拿下93.2%，GPT-5.2 Thinking达到92.4% [45] - 在专家级数学评测FrontierMath上，GPT-5.2 Thinking以40.3%的解题率创下新纪录 [47] - 研究人员使用GPT-5.2 Pro探索统计学习理论中的开放问题，模型提出的证明被作者验证并通过了同行评审 [49] 效率、成本与事实准确性 - 在ARC-AGI测试中，GPT-5.2 Pro取得90.5%的最新SOTA得分，平均任务成本仅为11.64美元，相比一年前成本为4500美元的模型，效率在一年内提高了约390倍 [12][13] - 事实准确性方面，GPT-5.2 Thinking的幻觉问题相比GPT-5.1从8.8%减少到6.2% [52] - 公司提示模型仍不完美，关键内容需要人工复核 [53] 市场竞争与团队 - GPT-5.2在ARC-AGI测试中得分超过了谷歌Gemini 3 Pro的对应版本 [14] - GPT-5.2的核心团队成员多为2024年后加入的新面孔，且多具有数学专业背景，例如来自斯坦福、伯克利、中科大、北大的数学与统计学博士 [57][58][59][61][62] - 公司近期研究进展文章统一署名OpenAI，不再附上详细贡献者列表 [55] 产品使用与商业化 - 在ChatGPT中使用新的做表格和PPT能力，需要充值Plus、Pro、Business或Enterprise套餐，并选择GPT-5.2 Thinking或Pro版本 [24] - 生成复杂内容可能需要几分钟时间 [24]

Artificial Intelligence

Long Context

Tool Call

Visual Understanding

Artificial Intelligence

GPT-5.2

Artificial Intelligence

Long Context

Tool Call

Visual Understanding

Artificial Intelligence

GPT-5.2

高通万卫星：混合AI与分布式协同是未来 | MEET2026

量子位· 2025-12-11 11:37

AI应用演进的四个阶段 - 行业将AI应用演进梳理为四个阶段：感知AI、生成式AI、智能体AI和物理AI [3][9] - 感知AI是第一阶段，包括传统的自然语言处理、语音降噪、图片识别和分割等技术，多年前已在终端侧商业化落地 [13] - 生成式AI是第二阶段，随ChatGPT兴起，基于大量数据预训练并在人类监督下完成具体任务，如文生图、聊天机器人、翻译等 [14] - 智能体AI是第三阶段，能在几乎没有人类监督的情况下进行自主行动、预测、意图理解与任务编排，产业正呈现从生成式AI向智能体AI演进的路线 [18][19] - 物理AI是第四阶段，AI能理解真实物理世界并根据物理定律做出反馈，目前尚处于研究和探索初期 [20][21][22] 终端侧AI的现状与趋势 - 终端侧AI模型尺寸正不断增大：手机可支持近100亿参数，PC支持约200亿参数，车载场景可部署200亿至600亿参数模型 [23] - 终端侧模型质量持续提升，今年初已将支持思维链和推理能力的模型完全部署在端侧 [25] - 端侧模型支持的上下文长度显著增长：从两年前的1K至2K，到去年的4K，再到今年已能支持8K至16K典型用例部署，特殊场景下已实现128K上下文窗口的端侧部署 [26][27] - 终端侧AI正从单一文字模态，向支持文本、图片、视频、音频、语音等多模态甚至全模态演进 [28] 端侧AI的优势与核心挑战 - 在端侧运行大模型的最大优势之一是个性化，能在离数据产生最近的地方做推理，有利于保护用户隐私和安全，且完全免费、无需网络连接 [31][32] - 端侧运行大模型面临三大核心挑战：内存限制约束了模型能力上限；带宽限制影响AI推理速度和用户体验；在手机等高集成度设备上对能效控制提出极致要求，功耗过高易触发温控机制 [34][35] 高通公司的端侧AI技术破局之道 - 通过量化和压缩技术应对内存限制：从8 bit、4 bit到今年实现2 bit量化压缩，使端侧支持的模型尺寸越来越大，占用内存越来越小 [37] - 采用并行解码技术应对带宽限制：先在端侧运行较小的草稿模型一次性推理出多个token，再由原始大模型校验，以提高大语言模型的token生成速率，改善用户体验 [37][40][42] - 通过先进的NPU（包括eNPU架构）和领先的异构计算系统，推动端侧AI从被动式服务向主动式、个性化服务迈进 [37] 智能体AI的构成与用例 - 智能体AI是更复合、更复杂、更主动式的AI服务，其实现需要多个基础模块：一个具有推理能力的大模型以理解用户意图；以及调用本地或云端API执行任务的能力 [45][46][47] - 智能体AI用例示例：用户通过自然语言交互，智能体理解“发布微博”意图后，可自动打开微博APP、搜索照片、根据用户偏好加滤镜并完成发布，整个过程可全部运行在端侧 [50][52] 未来AI体验：分布式协同与混合AI - 未来将实现跨设备的分布式个性化大模型推理：算力较小的设备（如智能眼镜、手表）可通过Wi-Fi或蓝牙与算力较大的设备（如手机、PC、汽车）连接，共享本地数据并将大模型推理任务转移 [54] - AI体验将向混合AI方向发展：在终端侧运行垂类、高效的模型，提供更安全、个性化的服务；在云端运行更大尺寸的模型，提供能力更强、更通用的服务 [55][57] - 公司将凭借低时延、高速且安全的连接技术，确保混合AI场景下的端云协同 [58]

张亚勤院士：基础大模型最终不超过10个，十年后机器人比人多 | MEET2026

量子位· 2025-12-11 09:00

文章核心观点新一轮人工智能是信息智能、物理智能和生物智能的融合，在规模定律驱动下，智能从模式识别“涌现”为生成式与推理式AI，并正快速演化为智能体范式[2][3][12] 以ChatGPT和DeepSeek为里程碑，AI发展正从预训练时代迈向以推理为核心的“DeepSeek时刻”，并在高效率、低成本和开源生态中加速落地[4][11][12][14] 未来5-10年，产业将进入“智能体互联网”时代，智能体将取代大部分SaaS和App，成为人机交互的默认形态，这也是通往通用人工智能（AGI）的必经之路[6][12][38][40] AI发展范式演进 - **新一轮AI的本质是三大智能融合**：即信息智能、物理智能和生物智能的融合，本质上是原子、分子和比特的融合[2][8][12] - **智能涌现的关键驱动**：在规模定律（Scaling Law）持续作用下，当参数规模、数据体量与算力跨过阈值，智能从鉴别式AI“涌现”为生成式AI，再走向以智能体为代表的新范式[3][10][11] - **两大里程碑事件**：ChatGPT通过统一表征与token化，将文本、语音、图像乃至蛋白质、点云等数据纳入同一空间，实现了从鉴别式AI到生成式AI的跨越[4][10] DeepSeek则以高效率、高性能、低价格和开源路径，将大模型从“预训练时代”推向以推理为核心的“DeepSeek时刻”[4][11][14] AI发展的五大趋势 - **趋势一：生成式AI正快速演化为智能体**：智能体是近两年AI领域最重要的创新，其任务长度在过去七个月增长了两倍，准确度已大于50%，与人类对齐[15][17][18] - **趋势二：规模定律重心转移**：规模定律在预训练阶段已放缓，更多智能发展转移至后训练、推理和智能体阶段[19] 推理的单位成本在过去一年下降了10倍，而智能体本身的算力要求一年增长了10倍，两者成本效应相互平衡[19] - **趋势三：从信息智能走向物理与生物智能**：大语言模型正走向视觉语言动作模型（VLA）[20] 无人驾驶在2024年已到达“ChatGPT时刻”，预计到2030年（DeepSeek时刻），约10%的新车将拥有L4级无人驾驶能力[20] 机器人是未来最大赛道之一，预计未来10年左右，机器人的数量将超过人类数量[21] - **趋势四：AI风险同步放大**：随着智能体的出现，AI相关的风险至少翻倍[22] - **趋势五：开源成为主流生态**：开源将成为更大、更主要的平台和生态，预计约80%的模型为开源，20%为闭源[23] 未来产业格局：智能体互联网 - **基础大模型如操作系统般收敛**：基础大模型相当于AI时代的操作系统，全球范围内最终将收敛到不超过10个，主要由中美两国引领[6][12][23][35] - **智能体取代传统软件形态**：智能体会取代今天的大部分SaaS和手机App，成为企业和个人与世界交互的默认形态[6][30] 未来的企业架构将包含GPU、大模型、数据以及由人和智能体共同构成的人力资源[25] - **形成新的产业架构与经济形态**：产业将重构为“基础模型+垂直/边缘模型+智能体网络”的新格局[12][23] 智能体不仅在形成网络，也在形成新的经济形态[25] 整个产业规模将比PC时代、移动时代大一个、两个甚至三个数量级[37] - **是通往AGI的必经之路**：智能体互联网是未来5-10年最大的发展方向，也是实现通用人工智能（AGI）的必经之路，需要新的算法体系如记忆体系、世界模型等[12][38][40] 预计未来五年，现有的自回归架构、Transformer、Diffusion等技术可能被颠覆[41] 技术应用与展望 - **医疗智能体案例**：清华大学已开发出全球首个医疗智能体无人医院，利用多智能体网络模拟三甲医院，能在两天内完成相当于医院两到三年的病例处理，且准确度更高[31][33] 智能体主要作为医生的助理，未来每位医生都可能拥有自己的智能体[34] - **AGI实现时间表**：预计需要15-20年时间，依次完成从信息智能到物理智能，再到生物智能的跨越[12][42]

量子位· 2025-12-11 06:54

编辑部发自凹非寺量子位 | 公众号 QbitAI AI热潮还在汹涌，但如果你还不知道如何参与……那为什么不来量子位呢？我们是一家以追踪AI新进展为核心的内容平台，经过8年积累，目前拥有顶流影响力，广泛且备受认可的产业资源，以及时代风口的最佳观测和学习生态位。目前，我们有三大方向岗位招聘，希望你是（或者能成为）这三个方向的内容专家：岗位均为全职，工作地点：北京中关村。岗位面向：加入我们，你可以获得：以下是岗位详情：所有岗位不同能力层级职位均在开放，欢迎结合个人履历和经验申请。 AI产业方向岗位职责： AI产业方向：关注基建层创新，包含芯片、AI Infra、云计算； AI财经方向：关注AI领域创投和财报，跟踪产业链资本动向； AI产品方向：关注AI在应用和硬件终端方向的进展。社招：覆盖编辑、主笔、主编各个层级，按能力匹配岗位；校招：应届毕业生，接受实习且可转正。参与核心采访，对话产业专家、技术大牛、撰写AI云落地案例。任职要求： AI财经商业方向岗位职责：任职要求： AI产品方向岗位职责：任职要求：站在AI浪潮之巅：第一时间接触和了解AI领域最新 ...

英伟达GPU被SpaceX送上太空！在天上训练卡帕西的NanoGPT

量子位· 2025-12-11 06:54

核心观点 - 人类首次在太空轨道上成功训练并运行了AI大模型这标志着太空计算与AI融合的重大技术突破其核心驱动力在于突破地球能源与基础设施的瓶颈为AI算力发展开辟新路径 [2][7][13] 太空AI首秀事件 - 事件由初创公司Starcloud主导通过SpaceX火箭将搭载英伟达H100芯片的Starcloud-1卫星发射升空 [6] - 在轨卫星上成功运行了谷歌的开源大模型Gemma 并获得了其回应 [4][9] - 首次在太空中直接训练了大语言模型即前OpenAI联合创始人Andrej Karpathy打造的NanoGPT 训练数据使用了莎士比亚全集 [4][9] 太空计算的发展目标与规划 - Starcloud公司的长期目标是建造基于太阳能面板的轨道数据中心规划算力达5GW 并预期其造价与运营成本将显著低于地球数据中心 [10] - 公司计划在2026年10月的下一次发射中携带更多英伟达H100芯片并将Blackwell平台送入太空 [11] - 公司CEO指出转向太空发展的核心原因是地面面临的能源限制太空在土地、制冷方面约束更少且有持续充足的太阳能供给 [12][13] 行业参与与竞争格局 - 谷歌CEO表示计划将TPU发射至太空最早的两颗卫星预计2027年初启程 [15] - 中国科研机构与企业在该领域早有布局自2019年起便开始探索太空智能计算 [16][17] - 2024年中科天算团队完成大模型在轨部署国星宇航联合之江实验室成功发射全球首个太空计算星座“三体计算星座”首批12颗卫星并于9月实现常态化商业运行 [18] - 2024年11月中科天算发布“天算计划” 提出在近地轨道建设算力达10 EOPS的万卡超级智能体集群 [19]

纯文本驱动视频编辑，清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象

量子位· 2025-12-11 06:54

LoVoRA团队投稿量子位 | 公众号 QbitAI 近年来，基于扩散的视频生成模型的最新进展极大地提高了视频编辑的真实感和可控性。然而，文字驱动的视频对象移除添加依然面临巨大挑战：不仅需要精准定位目标对象，还要同时保持背景连续性、时序一致性以及语义匹配。现有大多数方法在推理时必须依赖用户提供的掩码或参考帧来确定编辑区域，这不仅增加了使用门槛，也限制了模型在真实场景中的实用性和泛化能力。为了解决上述难题，清华&华为&中科大团队提出 LoVoRA （Learnable Object-aware Localization for Video Object Removal and Addition）——一个真正意义上文本驱动、无需掩码和参考帧的视频对象移除与添加框架。 LoVoRA 能够仅凭文本提示精准定位编辑区域，并进行时序一致、背景自然的视频编辑，无需任何人工掩码或外部控制信号。大量实验和用户评测表明，LoVoRA 在编辑质量、背景一致性、时序稳定性等指标上均优于现有基线方法。数据集构建现有的基于指令的视频编辑数据集，例如InsViE, Ditto, Senoritia, ICVE-SFT等 ...

文本驱动视频编辑

Artificial Intelligence

LoVoRA

文本驱动视频编辑

Artificial Intelligence

LoVoRA

MEET2026挤爆了，AI圈今年最该听的20+场演讲&对谈都在这

量子位· 2025-12-11 06:54

大会概况与行业共识 - 量子位主办的MEET2026智能未来大会吸引了近30位产业代表、近1500名线下观众及超过350万线上观众，反映了行业对AI未来的高度关注 [8] - 2025年AI领域呈现发展、分裂与重构的态势，迫使所有参与者明确未来方向 [4] - 行业共识认为，AI正处在下一段增长曲线的起点，从云到端、从模型到智能体（Agent）、从软到硬均存在重要机会 [5] 人工智能发展趋势与范式演进 - AI正从鉴别式走向生成式与推理式，并在高效率、低成本和开源生态中加速落地 [10] - 新一轮人工智能是信息智能、物理智能和生物智能的融合，本质上是原子、分子和比特的融合 [10] - AI行业演进被划分为四个阶段：感知AI、生成式AI、智能体AI（可自主行动）和物理AI（能理解并响应真实物理世界） [19] - 2025年被认为是“Agent元年”，智能体技术开始在各行各业验证价值 [81] - 人工智能的演进过程与生物进化相似，呈现“长期停滞+突然跃迁”的特点，开源对加速进化至关重要 [49] 大模型与AGI路径 - 未来5到10年，基础大模型将在全球范围内收敛到不超过10个，类似于操作系统 [10] - 大模型推动AI从弱人工智能迈向通用人工智能（AGI），并推动机器人进入通用具身智能时代 [16] - 通往AGI的必经之路是“智能体互联网”时代，智能体将取代大部分SaaS和App，成为默认交互形态 [10] - Scaling Law能走多远存在不确定性，但国内仍需有顶级团队探索其极限，一旦出现新的涌现现象可能打破发展饱和 [79] - 扩散语言模型架构（如LLaDA）提供了自回归模型之外的另一种路径，在相同计算量和性能目标下可能所需参数更小，并具备直接修改token等优势 [25] 智能体（Agent）的发展与应用 - 智能体的本质是可验证过程的自动化，擅长数学、代码和结构化决策，现已发展到拐点 [55] - 一个成功的智能体构建需要三个核心模块：提供决策的底层模型“大脑”、中间代码、以及作为“手和脚”的工具（tools） [22] - 认知偏差、落地断层、体验割裂是当前用户使用AI产品的三大痛点 [13] - 百度推出的超级智能体框架调度中枢GenFlow月活用户达千万级，自称是全球最大的通用智能体 [13] - 智能体将重写公司组织，重复操作的岗位将消失，取而代之的是过程架构师 [55] - 企业级智能体落地的关键在于三个平台：作为认知中枢的大模型平台、提供感知的AI能力平台、沉淀企业记忆的AI数据平台 [28] - 企业服务落地最容易的三个方向是：工程流程自动化、行业研究报告、智能化办公助手 [37] - 衡量“好用”智能体的核心标准包括：能交付相对完整的结果、具备可进化性、采用AI原生方式开发、以及具备可控性和可解释性 [92] - 当前多数智能体存在负毛利问题，完成任务的成本高于用户支付意愿，这是创业者和基础设施提供商的巨大挑战 [92] 多模态与具身智能 - 2025年往后，第三代Scaling范式的关键在多模态 [16] - 智源研究院的悟界·Emu3.5通过统一的自回归架构，将Next-Token Prediction升级为在多模态数据上的Next-State Prediction，标志着AI从语言学习迈入多模态世界学习 [16] - 具身智能应被视为独立或平行于虚拟世界语言模型、专门面向物理世界的基础模型 [67] - 当前具身大模型面临不好用、不通用、不易用的挑战，尚未达到“ChatGPT时刻” [16] - 视频是能够大规模获得的、模拟真实世界的高效载体，包含时间、空间、物理、因果关系等多种要素 [16] - 在物理场景应用中，需要解决“大脑”（大语言模型）与“小脑”（端侧快速执行模型）的双脑架构集成问题 [92] 从云端到边缘的AI部署 - 终端侧运行大模型的最大好处之一是个性化 [19] - 端侧模型能力快速提升：两年前只能运行1-2K上下文，去年达4K，今年已支持8K-16K，特殊场景下甚至可实现最长128K的端侧部署 [19] - 终端侧正从单一文字模态向支持文本、图片、视频、音频、语音等多模态甚至全模态方向演进 [19] - 端侧运行大语言模型面临内存、带宽和功耗控制等挑战，需通过量化与压缩、并行解码技术、先进NPU与异构计算架构来解决 [19] - 端侧模型的关键在于自主学习和记忆，而Transformer架构模型无法在端侧实现这一点，突破Transformer和反向传播算法是AI发展到下一台阶必须跨越的两座大山 [61] 算力、芯片与基础设施 - 商汤的算力总规模达32000P，其智算中心通过算电协同等技术，已实现年化降低7%电费，年度碳减排超3000吨，综合算效提升15% [46] - 国产芯片替代是渐进过程，大规模训练场景的替代是难点 [64] - 当前重要发展方向是混合专家模型（MoE），它能扩大参数规模而不增加激活参数，但会给系统带来通信占比提升等新挑战 [64] - 单颗芯片性能已成为AI算法发展瓶颈，需要如TC link这样的高速互联技术实现128卡间扩展，为AI算法增长提供硬件基础 [58] - Agent Infra（智能体基础设施）本质上是AI时代的操作系统，管理模型能力、工具调用与任务执行等“智能资源” [52] 行业落地与商业化 - 2025年行业更关心如何做行业落地、场景赋能和商业化变现 [37] - 大模型在千行百业中落地才能产生最大价值，其在很多场景的价值尚未真正发挥 [43] - 三类企业需要行业或私有模型：传统大型企业、有海量数据的中小型企业、颠覆行业的新兴公司 [43] - 用大模型做To B业务，最关键的是后训练或Agent化，仅调用API无法形成差异化 [43] - AI在工业制造落地是一个组合拳，需大模型融合视觉和时序模型来处理生产数据，作为大脑进行分析决策和工艺调优 [37] - 昆仑万维的Skywork Super Agents产品中，PPT模式可在五分钟内生成30页PPT，该模式被40%的日活跃用户使用 [55] - 百度文库的AI学习平台OREATE AI新版本上线一个月月活突破140万，曾登顶ProductHunt全球日榜第一 [13] - 光轮智能通过全栈自研的“测量-建模-求解”三位一体仿真解决方案，缩小仿真与现实的差距（sim2real gap），以加速世界模型与物理AI落地 [70] 自动驾驶与机器人 - L2+/L2++与纯无人的L4难度差距巨大，真正的L4公司需要至少有二、三十辆车的纯无人车队运营半年以上 [40] - 预测称，如果特斯拉不装激光雷达，三年之内其在旧金山无法达到Waymo的自动驾驶水平 [40] - 随着大模型发展，若算力等条件满足，预测8年后可能出现开车能力超越99.99%人类司机的自动驾驶“AlphaGo时刻” [40] - 未来几年内，人形机器人进入通用开放环境自主进行复杂工作几乎不可能，应立足于在特定真实场景实现“星火燎原”式的落地 [79] - 灵巧手是具身智能的核心零部件，中国在机器人与灵巧手领域优势明显，甚至是遥遥领先 [76] 数据、仿真与开源生态 - 智源研究院过去两年多开源了2200多个模型，下载量突破6.9亿次；开源近百个数据集，下载量超120万次 [16] - 扩散架构模型LLaDA相比自回归模型更为data-hungry，对数据需求更大、吸收数据更快 [25] - 模型定制化面临挑战，Amazon SageMaker AI提供的Nova Forge能力允许在基础模型训练阶段就引入自有数据进行定制，效果优于训练后再微调 [22] - 国内发展人工智能产业离不开开源生态，行业需要企业共同组建开源平台 [58] 经济影响与组织变革 - 据估算，AI在今后的十年里每年可提升全球经济增长0.5到0.7个百分点 [34] - AI改变了稀缺的概念，并可能引发人机竞争及算法间的竞争 [34] - 未来不应寻找不会被AI替代的“安全”行业，而应思考如何与AI共生 [34] - 年轻人是AI生产力释放的主力军，经验丰富的从业者需为企业创造释放AI潜力的生产关系 [73] - 给AI创业者的建议包括：在增量中找市场、在专业里找空间、在业务中找场景、在结果中找收益 [73]

Artificial Intelligence

Artificial Intelligence

百度文库

百度网盘

Previous Next