量子位
搜索文档
谷歌智能体发力:增强版Gemini Deep Research和专属API都来了
量子位· 2025-12-12 06:41
谷歌Gemini生态重大升级 - 谷歌正式发布增强版Gemini Deep Research智能体,该智能体基于Gemini 3 Pro构建,专门用于减少幻觉,在复杂信息检索与分析任务上表现领先 [3] - 该增强版智能体很快将被集成到谷歌搜索、NotebookLM、Google Finance以及升级版的Gemini App中 [3] - 此次更新不仅是Deep Research的升级,更是整个Gemini生态的一次大升级 [8] 增强版Deep Research的核心能力 - 增强版Gemini Deep Research能够实现迭代式推理,不仅能提出查询需求,还能读取和整合搜索结果,发现知识空白,然后针对性地开展新一轮搜索 [10][13] - 通过这种循环式操作,它大幅提升了网络搜索能力,能够深入网站抓取精确信息 [10] - 这种能力让该智能体在复杂研究任务中表现出色,在人类最后的考试HLE、BrowseComp、和DeepSearchQA等测试中刷新了SOTA成绩 [10] 配套发布的DeepSearchQA基准测试 - 谷歌配套推出了DeepSearchQA基准测试集,为深度搜索与研究任务提供了更全面的评估标准 [5] - 该基准测试集包含来自17个领域的900个手工设计的因果链任务,要求生成详尽的答案集合,比传统事实检索测试更能衡量智能体在多步推理与信息融合中的综合能力 [12] - 在DeepSearchQA基准测试中,Gemini Deep Research Agent的“完全正确”率为66.1%,领先于GPT-5 Pro的65.2%和GPT-5的59.4% [14] 全新发布的Interactions API - 谷歌同时发布了Interactions API,为开发者提供了与Gemini 3 Pro和Deep Research智能体交互的统一接口 [6] - 该API设计了原生接口,提供一个统一的RESTful端点,通过指定模型或智能体参数,就能与模型和智能体进行复杂上下文的交互 [16] - 该API特别适合需要多步骤推理、工具调用以及长程任务执行的场景,扩展了generate Content的核心能力,具备服务器端状态可选、可解释且可组合的数据模型等特性 [17][18]
ToC智能体火得快,但更大的价值在企业丨中关村科金@MEET2026
量子位· 2025-12-12 05:30
文章核心观点 - AI时代的核心在于连接更强,智能体作为超级连接器,将人、数据、知识与智能编织进企业全流程,形成新的数字人力体系 [1][2][9][10] - 企业智能化是一个由场景选择、数据与知识治理、模型构建三要素持续迭代驱动的长期工程,而非一次性项目 [3][14][16][17] - 企业级智能体规模化落地的关键在于重构底座平台能力,即大模型平台、AI能力平台和AI数据平台三大核心 [5][6][17][19][20] - 在三大平台之上构建“智能体集市”,实现数百甚至上千个数字员工的协同工作,成为企业组织的新单元 [7][28] - 企业级智能体应用与ToC场景的核心差异在于对规模化、成本效率和精度的极致要求 [17][32][49] 行业趋势与本质判断 - 从互联网到AI时代是连接的进化,智能体实现了人与数据、知识、智能的更高效连接 [1][9][10][11] - 智能体为企业新增了一类“数字人力”,能连接内部资源,提升员工协同效率,并在外部助力客户连接,创造营销、客服、销售等价值 [12] - 企业智能化是一个持续变化、不断演进的过程,不同于过去固定不变的信息化、数字化项目 [16] 企业智能体落地的关键框架 - **三大核心平台**:企业用好智能体的关键在于三个平台 [17] - **大模型平台**:作为认知中枢,连接算力,兼容各类开源模型,覆盖从数据标注到上线运营的全流程,并提供智能体构建工具与模板 [6][17][19] - **AI能力平台**:作为感知系统,提供OCR、ASR、TTS等能力,需针对企业严肃场景进行极致调优,例如关键信息的ASR识别准确率需达到99%以上 [6][17][20][21][23] - **AI数据平台**:作为企业的记忆与经验沉淀系统,将感知、认知、记忆统一是实现有效落地的关键 [6][17][25][26] - **持续迭代的三要素**:企业智能体落地需在场景选择与评估、企业内部数据与知识整理、模型训练与构建三个环节循环迭代 [14][17] - **智能体集市与人机协作**:在三大平台之上构建“智能体集市”,支持数百至上千个智能体在一个人机协作平台上协同工作,形成赋能、协同、自主完成与监督等多样化人机关系 [7][28] 典型应用场景与案例 - **营销服场景**:是目前最典型、落地效果最好的场景,核心基础是全媒体、全渠道的联络中心 [35] - 应用包括线索抓取、识别与打标、外呼、客服、陪练、质检等多个销售智能环节,智能体可高效捕获线上潜在客户线索并开展互动 [35] - 没有智能体,企业很难与数亿用户进行充分沟通互动并取得良好效果 [36] - **办公与运营提效场景**:做好问答、写作、审核、问数四件事可覆盖80%-90%的价值,底层支撑是完整的智能知识库 [37] - 企业对容错率、准确性、专业性要求极高,简单搭建的系统行不通 [38] - 案例:协助中国电建财务公司梳理了数百个专业指标,精准解决办公运营需求 [38] - **垂直行业应用**: - **金融领域**:已服务超200家银行、500余家各类金融机构,在风控、消保、信贷等场景积累了大量智能体解决方案 [41] - **工业领域**:大语言模型及未来的多模态模型将推动工业智能化从局部向全局演进 [45] - 案例:与中控技术、中南大学等单位合作,为南方有色金属打造了有色金属行业垂直大模型,构建了行业与企业知识库,并应用于能耗节约、设备预测性维护、冶炼工艺优化等核心场景 [45][46] 公司定位与市场布局 - 公司定位为全球领先的企业级大模型技术与应用服务商,专注于将大模型与智能体技术应用于企业场景,助力企业实现增收、降本、提效、合规等目标 [10][47] - 公司服务了2000+各行业头部企业,沉淀了大量经过场景验证的“样板间”和智能体资产 [33] - 除了国内市场,公司正积极拓展海外市场,在中国香港、新加坡、马来西亚、泰国、印尼等地区和国家布局,服务海外直客并助力中企出海 [47][48]
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026
量子位· 2025-12-12 03:00
文章核心观点 - 扩散语言模型作为一种非自回归的生成模型架构,在理论上有望实现比主流自回归模型更快的生成速度和更低的计算成本,并具备独特的可编辑生成能力,是当前大语言模型领域一个重要的非共识技术方向[2][8][20] - 浙江大学、蚂蚁集团等机构的研究团队已将扩散语言模型扩展至千亿参数规模,并开源了LLaDA 2.0模型及配套训练框架,标志着该技术路径取得了关键里程碑[4][44] - 扩散语言模型在训练和推理层面仍处于早期发展阶段,但其独特的Scaling Law、对数据的强吸收能力以及在代码生成等任务上的潜在优势,吸引了谷歌、字节等巨头及初创公司布局,未来发展值得关注[5][15][41][56] 扩散语言模型的技术原理与特点 - **核心机制差异**:自回归模型通过“接龙”方式逐个预测下一个词,而扩散语言模型采用“完形填空”机制,通过遮盖并恢复部分词来生成内容[12][13] - **训练特性**:扩散语言模型相比自回归模型更为“data-hungry”,在计算受限情况下对数据需求更大、吸收数据更快[15][21];与图像扩散模型类似,扩散语言模型在训练上具有持续性,可以在同一数据集上持续训练并提升效果,而自回归模型训练多个epoch后效果常趋于稳定[24][25][26] - **推理优势**:扩散架构在推理过程中可以直接修改和控制token,无需像自回归模型那样重新生成整段内容,这为实现可编辑和可控生成提供了可能[2][28] LLaDA系列模型的研发进展与开源贡献 - **发展历程**:中国人民大学团队率先开源了80亿参数的扩散语言模型LLaDA 1.0,其效果可对标LLaMA-3-8B,并在Hugging Face上获得超过20万次下载[35][36][37];随后蚂蚁技术研究院联合多所高校接手,致力于推动该领域发展[38] - **架构演进**:团队发布了全球首个原生训练的MoE架构扩散语言模型LLaDA-MoE,总参数70亿,激活参数10亿[40];近期发布的LLaDA 2.0,率先将扩散语言模型扩展至千亿参数体量[4][44] - **开源框架**:团队开源了首个面向扩散语言模型的训练框架,支持监督微调和直接偏好优化,并配套了推理框架,方便社区使用[31][32] 扩散语言模型的性能表现与潜在应用 - **性能表现**:在相同的计算量和性能目标下,扩散语言模型所需的参数规模可以比自回归模型更小[15][23];在全局注意力机制支持下,扩散模型在效果上相比自回归模型具备一定优势[47] - **任务优势**:扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势,得益于并行解码能力,能同时生成多个token[49] - **生成特点**:扩散模型在文学创作等任务中展现出独特的“非共识”解码轨迹,例如先确定开头结尾框架,再反复修改润色中间内容,这种生成过程在主流自回归模型中难以见到[49][50] 行业生态与未来展望 - **行业布局**:扩散语言模型领域发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局[5][41] - **发展挑战**:扩散语言模型的训练与推理仍处于早期发展阶段[5];其Scaling Law与自回归模型存在差异,已验证可扩展到千亿规模,但继续向上扩展会面临新的挑战[15][56] - **未来方向**:团队发布了试验性推理引擎dInfer,旨在通过新架构与范式提升关键场景的吞吐量,目标实现五倍乃至更高的速度提升[53][54];团队计划在未来一两个月通过ZenMux平台放出部分API,以促进社区生态成长[51]
港中文联手美团开源“视觉推理通才”!图像视频10类任务一网打尽
量子位· 2025-12-12 01:00
OneThinker团队 投稿 量子位 | 公众号 QbitAI 横扫31个主流基准、拿捏10类核心任务,视觉模型界的"通才"来了! 香港中文大学MMLab与美团研究团队开源提出 OneThinker ——一个基于RL的统一多模态视觉推理通才模型,覆盖图像与视频两种模态下 的十类核心视觉任务。 在31项主流视觉任务测试中,OneThinker均表现亮眼。它不仅能在多任务训练中实现相互促进,还能在从未见过的任务上做出合理推理,初 步展现了通才模型的泛化能力。 1. 无法统一建模现实复杂场景 2. 知识隔离,迁移受限 从"专才模型"到"通才系统" 现实世界中的视觉数据复杂多样,往往同时包含静态图像与动态视频信息。同时,视觉任务类型也高度多样化,例如问答、定位、分割、追踪 等。 在这种背景下,传统的"单任务、单模态"RL思考模型架构存在以下两个根本性问题: 虽然以Vision-R1、Video-R1、VLM-R1等为代表的工作,已经在图像问答、视频理解、目标检测等任务上取得显著效果。 但这类RL模型大部分存在一个限制: 只能处理单一模态或单一任务 。模态、任务之间缺乏关联,推理能力被割裂,难以泛化应用。 来看看On ...
GPT-5.2果然反超谷歌Gemini 3 Pro!北大数院校友核心贡献
量子位· 2025-12-12 01:00
GPT-5.2系列产品发布与核心定位 - OpenAI在成立十周年之际快速迭代发布GPT-5.2系列,距GPT-5.1发布仅30天,显示出公司加速产品迭代的紧迫感 [1][16] - 新版本的核心升级方向是专门强化“打工能力”,即提升在各类实际工作场景中的生产力 [1] 多模态与复杂任务处理能力 - 视觉理解能力大幅提升,能更准确地标记主板上的元件 [4] - 长文档处理能力是升级重点,在256k上下文长度的4针版MRCRv2评测中达到接近100%准确率 [30] - 能够处理超越最大上下文窗口的复杂任务,兼容简洁回复模式以支持工具密集型、长时间运行的工作流 [33] - 在需要调用Python工具的高分辨率图形界面截图推理测试中得分达到86.3%,禁用工具则得分显著降低 [37][39] 专业与高经济价值任务表现 - 在GDPval测试中,涵盖美国GDP前九大产业的44个职业领域,能完成人类需4-8小时的任务 [18] - 在人类评委打分下,GPT-5.2 Thinking相比人类专家有71%的胜率,GPT-5.2 Pro胜率更高,且速度是人类的11倍以上,成本不到人类的1% [19][20] - 在投行分析师的电子表格建模任务上,GPT-5.2 Thinking平均得分相比GPT-5.1提升9.3%,从59.1%上升到68.4%,任务包括为财富500强公司搭建三表联动模型、构建杠杆收购模型等 [21] - 评委评价其输出质量有“令人兴奋且显著的飞跃”,成果看起来像由专业公司员工完成 [23] 代码与软件开发能力 - 代码能力刷新纪录,在SWE-bench Verified上得分达到80% [25] - 在更难的SWE-Bench Pro评测上,GPT-5.2 Thinking拿下55.6%的新高,该评测涵盖Python、JavaScript、TypeScript和Go,贴近真实工业场景 [26][27] - 在前端开发和涉及3D元素的复杂UI工作方面表现明显更强 [28] 工具调用与端到端工作流 - 工具调用能力达到新高度,在Tau2-bench Telecom多轮交互电话客服场景评测上取得98.7%的成绩,在零售场景也达到82% [40][41] - 这意味着更强大的端到端工作流程能力,例如解决客户支持案例、从多系统提取数据、运行分析并生成最终输出,且步骤间故障更少 [43] 科学推理与研究辅助能力 - 公司相信GPT-5.2 Pro和GPT-5.2 Thinking是当前世界上最适合辅助科学家的模型 [44] - 在研究生水平的GPQA Diamond问答评测上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking达到92.4% [45] - 在专家级数学评测FrontierMath上,GPT-5.2 Thinking以40.3%的解题率创下新纪录 [47] - 研究人员使用GPT-5.2 Pro探索统计学习理论中的开放问题,模型提出的证明被作者验证并通过了同行评审 [49] 效率、成本与事实准确性 - 在ARC-AGI测试中,GPT-5.2 Pro取得90.5%的最新SOTA得分,平均任务成本仅为11.64美元,相比一年前成本为4500美元的模型,效率在一年内提高了约390倍 [12][13] - 事实准确性方面,GPT-5.2 Thinking的幻觉问题相比GPT-5.1从8.8%减少到6.2% [52] - 公司提示模型仍不完美,关键内容需要人工复核 [53] 市场竞争与团队 - GPT-5.2在ARC-AGI测试中得分超过了谷歌Gemini 3 Pro的对应版本 [14] - GPT-5.2的核心团队成员多为2024年后加入的新面孔,且多具有数学专业背景,例如来自斯坦福、伯克利、中科大、北大的数学与统计学博士 [57][58][59][61][62] - 公司近期研究进展文章统一署名OpenAI,不再附上详细贡献者列表 [55] 产品使用与商业化 - 在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或Enterprise套餐,并选择GPT-5.2 Thinking或Pro版本 [24] - 生成复杂内容可能需要几分钟时间 [24]
高通万卫星:混合AI与分布式协同是未来 | MEET2026
量子位· 2025-12-11 11:37
AI应用演进的四个阶段 - 行业将AI应用演进梳理为四个阶段:感知AI、生成式AI、智能体AI和物理AI [3][9] - 感知AI是第一阶段,包括传统的自然语言处理、语音降噪、图片识别和分割等技术,多年前已在终端侧商业化落地 [13] - 生成式AI是第二阶段,随ChatGPT兴起,基于大量数据预训练并在人类监督下完成具体任务,如文生图、聊天机器人、翻译等 [14] - 智能体AI是第三阶段,能在几乎没有人类监督的情况下进行自主行动、预测、意图理解与任务编排,产业正呈现从生成式AI向智能体AI演进的路线 [18][19] - 物理AI是第四阶段,AI能理解真实物理世界并根据物理定律做出反馈,目前尚处于研究和探索初期 [20][21][22] 终端侧AI的现状与趋势 - 终端侧AI模型尺寸正不断增大:手机可支持近100亿参数,PC支持约200亿参数,车载场景可部署200亿至600亿参数模型 [23] - 终端侧模型质量持续提升,今年初已将支持思维链和推理能力的模型完全部署在端侧 [25] - 端侧模型支持的上下文长度显著增长:从两年前的1K至2K,到去年的4K,再到今年已能支持8K至16K典型用例部署,特殊场景下已实现128K上下文窗口的端侧部署 [26][27] - 终端侧AI正从单一文字模态,向支持文本、图片、视频、音频、语音等多模态甚至全模态演进 [28] 端侧AI的优势与核心挑战 - 在端侧运行大模型的最大优势之一是个性化,能在离数据产生最近的地方做推理,有利于保护用户隐私和安全,且完全免费、无需网络连接 [31][32] - 端侧运行大模型面临三大核心挑战:内存限制约束了模型能力上限;带宽限制影响AI推理速度和用户体验;在手机等高集成度设备上对能效控制提出极致要求,功耗过高易触发温控机制 [34][35] 高通公司的端侧AI技术破局之道 - 通过量化和压缩技术应对内存限制:从8 bit、4 bit到今年实现2 bit量化压缩,使端侧支持的模型尺寸越来越大,占用内存越来越小 [37] - 采用并行解码技术应对带宽限制:先在端侧运行较小的草稿模型一次性推理出多个token,再由原始大模型校验,以提高大语言模型的token生成速率,改善用户体验 [37][40][42] - 通过先进的NPU(包括eNPU架构)和领先的异构计算系统,推动端侧AI从被动式服务向主动式、个性化服务迈进 [37] 智能体AI的构成与用例 - 智能体AI是更复合、更复杂、更主动式的AI服务,其实现需要多个基础模块:一个具有推理能力的大模型以理解用户意图;以及调用本地或云端API执行任务的能力 [45][46][47] - 智能体AI用例示例:用户通过自然语言交互,智能体理解“发布微博”意图后,可自动打开微博APP、搜索照片、根据用户偏好加滤镜并完成发布,整个过程可全部运行在端侧 [50][52] 未来AI体验:分布式协同与混合AI - 未来将实现跨设备的分布式个性化大模型推理:算力较小的设备(如智能眼镜、手表)可通过Wi-Fi或蓝牙与算力较大的设备(如手机、PC、汽车)连接,共享本地数据并将大模型推理任务转移 [54] - AI体验将向混合AI方向发展:在终端侧运行垂类、高效的模型,提供更安全、个性化的服务;在云端运行更大尺寸的模型,提供能力更强、更通用的服务 [55][57] - 公司将凭借低时延、高速且安全的连接技术,确保混合AI场景下的端云协同 [58]
张亚勤院士:基础大模型最终不超过10个,十年后机器人比人多 | MEET2026
量子位· 2025-12-11 09:00
文章核心观点 新一轮人工智能是信息智能、物理智能和生物智能的融合,在规模定律驱动下,智能从模式识别“涌现”为生成式与推理式AI,并正快速演化为智能体范式[2][3][12] 以ChatGPT和DeepSeek为里程碑,AI发展正从预训练时代迈向以推理为核心的“DeepSeek时刻”,并在高效率、低成本和开源生态中加速落地[4][11][12][14] 未来5-10年,产业将进入“智能体互联网”时代,智能体将取代大部分SaaS和App,成为人机交互的默认形态,这也是通往通用人工智能(AGI)的必经之路[6][12][38][40] AI发展范式演进 - **新一轮AI的本质是三大智能融合**:即信息智能、物理智能和生物智能的融合,本质上是原子、分子和比特的融合[2][8][12] - **智能涌现的关键驱动**:在规模定律(Scaling Law)持续作用下,当参数规模、数据体量与算力跨过阈值,智能从鉴别式AI“涌现”为生成式AI,再走向以智能体为代表的新范式[3][10][11] - **两大里程碑事件**:ChatGPT通过统一表征与token化,将文本、语音、图像乃至蛋白质、点云等数据纳入同一空间,实现了从鉴别式AI到生成式AI的跨越[4][10] DeepSeek则以高效率、高性能、低价格和开源路径,将大模型从“预训练时代”推向以推理为核心的“DeepSeek时刻”[4][11][14] AI发展的五大趋势 - **趋势一:生成式AI正快速演化为智能体**:智能体是近两年AI领域最重要的创新,其任务长度在过去七个月增长了两倍,准确度已大于50%,与人类对齐[15][17][18] - **趋势二:规模定律重心转移**:规模定律在预训练阶段已放缓,更多智能发展转移至后训练、推理和智能体阶段[19] 推理的单位成本在过去一年下降了10倍,而智能体本身的算力要求一年增长了10倍,两者成本效应相互平衡[19] - **趋势三:从信息智能走向物理与生物智能**:大语言模型正走向视觉语言动作模型(VLA)[20] 无人驾驶在2024年已到达“ChatGPT时刻”,预计到2030年(DeepSeek时刻),约10%的新车将拥有L4级无人驾驶能力[20] 机器人是未来最大赛道之一,预计未来10年左右,机器人的数量将超过人类数量[21] - **趋势四:AI风险同步放大**:随着智能体的出现,AI相关的风险至少翻倍[22] - **趋势五:开源成为主流生态**:开源将成为更大、更主要的平台和生态,预计约80%的模型为开源,20%为闭源[23] 未来产业格局:智能体互联网 - **基础大模型如操作系统般收敛**:基础大模型相当于AI时代的操作系统,全球范围内最终将收敛到不超过10个,主要由中美两国引领[6][12][23][35] - **智能体取代传统软件形态**:智能体会取代今天的大部分SaaS和手机App,成为企业和个人与世界交互的默认形态[6][30] 未来的企业架构将包含GPU、大模型、数据以及由人和智能体共同构成的人力资源[25] - **形成新的产业架构与经济形态**:产业将重构为“基础模型+垂直/边缘模型+智能体网络”的新格局[12][23] 智能体不仅在形成网络,也在形成新的经济形态[25] 整个产业规模将比PC时代、移动时代大一个、两个甚至三个数量级[37] - **是通往AGI的必经之路**:智能体互联网是未来5-10年最大的发展方向,也是实现通用人工智能(AGI)的必经之路,需要新的算法体系如记忆体系、世界模型等[12][38][40] 预计未来五年,现有的自回归架构、Transformer、Diffusion等技术可能被颠覆[41] 技术应用与展望 - **医疗智能体案例**:清华大学已开发出全球首个医疗智能体无人医院,利用多智能体网络模拟三甲医院,能在两天内完成相当于医院两到三年的病例处理,且准确度更高[31][33] 智能体主要作为医生的助理,未来每位医生都可能拥有自己的智能体[34] - **AGI实现时间表**:预计需要15-20年时间,依次完成从信息智能到物理智能,再到生物智能的跨越[12][42]
量子位编辑作者招聘
量子位· 2025-12-11 06:54
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 参与核心采访,对话产业专家、技术大牛、撰写AI云落地案例。 任职要求: AI财经商业方向 岗位职责: 任职要求: AI产品方向 岗位职责: 任职要求: 站在AI浪潮之巅 :第一时间接触和了解AI领域最新 ...
英伟达GPU被SpaceX送上太空!在天上训练卡帕西的NanoGPT
量子位· 2025-12-11 06:54
核心观点 - 人类首次在太空轨道上成功训练并运行了AI大模型 这标志着太空计算与AI融合的重大技术突破 其核心驱动力在于突破地球能源与基础设施的瓶颈 为AI算力发展开辟新路径 [2][7][13] 太空AI首秀事件 - 事件由初创公司Starcloud主导 通过SpaceX火箭将搭载英伟达H100芯片的Starcloud-1卫星发射升空 [6] - 在轨卫星上成功运行了谷歌的开源大模型Gemma 并获得了其回应 [4][9] - 首次在太空中直接训练了大语言模型 即前OpenAI联合创始人Andrej Karpathy打造的NanoGPT 训练数据使用了莎士比亚全集 [4][9] 太空计算的发展目标与规划 - Starcloud公司的长期目标是建造基于太阳能面板的轨道数据中心 规划算力达5GW 并预期其造价与运营成本将显著低于地球数据中心 [10] - 公司计划在2026年10月的下一次发射中携带更多英伟达H100芯片 并将Blackwell平台送入太空 [11] - 公司CEO指出 转向太空发展的核心原因是地面面临的能源限制 太空在土地、制冷方面约束更少 且有持续充足的太阳能供给 [12][13] 行业参与与竞争格局 - 谷歌CEO表示计划将TPU发射至太空 最早的两颗卫星预计2027年初启程 [15] - 中国科研机构与企业在该领域早有布局 自2019年起便开始探索太空智能计算 [16][17] - 2024年 中科天算团队完成大模型在轨部署 国星宇航联合之江实验室成功发射全球首个太空计算星座“三体计算星座”首批12颗卫星 并于9月实现常态化商业运行 [18] - 2024年11月 中科天算发布“天算计划” 提出在近地轨道建设算力达10 EOPS的万卡超级智能体集群 [19]
纯文本驱动视频编辑,清华&华为&中科大实现无需掩码/参考帧就能精准移除/添加对象
量子位· 2025-12-11 06:54
LoVoRA团队 投稿 量子位 | 公众号 QbitAI 近年来,基于扩散的视频生成模型的最新进展极大地提高了视频编辑的真实感和可控性。然而,文字驱动的视频对象移除添加依然面临巨大挑 战: 不仅需要精准定位目标对象,还要同时保持背景连续性、时序一致性以及语义匹配。 现有大多数方法在推理时必须依赖用户提供的掩码或参考帧来确定编辑区域,这不仅增加了使用门槛,也限制了模型在真实场景中的实用性和 泛化能力。 为了解决上述难题,清华&华为&中科大团队提出 LoVoRA (Learnable Object-aware Localization for Video Object Removal and Addition)——一个真正意义上文本驱动、无需掩码和参考帧的视频对象移除与添加框架。 LoVoRA 能够仅凭文本提示精准定位编辑区域,并进行时序一致、背景自然的视频编辑,无需任何人工掩码或外部控制信号。大量实验和用 户评测表明,LoVoRA 在编辑质量、背景一致性、时序稳定性等指标上均优于现有基线方法。 数据集构建 现有的基于指令的视频编辑数据集,例如InsViE, Ditto, Senoritia, ICVE-SFT等 ...