量子位
搜索文档
半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了
量子位· 2025-12-13 04:34
事件概述:AI辅助解决Erdős 1026数学难题 - 陶哲轩与多名数学家合作,在多种AI工具的辅助下,仅用48小时便完全解决了尘封50年的Erdős 1026数学难题[1][2][3] - 陶哲轩指出,若使用传统方法,可能需要数周或数月才能解决[5] - 此次问题的快速解决,体现了“人与人的协作”与“人与AI的协作”相结合的新趋势[46][47] 问题背景与定义 - Erdős 1026问题最早于1975年被提出,初始表述模糊[8] - 数学家Desmond Weisenberg引入最大常数c(n)进行研究,使得S(x1,…,xn) ≥ c(n) * Σxi,其中c(n)针对所有长度为n的不同实数序列[10][11] - 博弈论解释:Alice将N个硬币分为n堆,Bob选择一个单调子序列的堆并拿走其中硬币,c(n)是Bob能保证拿走的最小比例[12][13] - 通过计算得到c(n)的前几个近似值:1, 1, 2/3, 1/2, 1/2, 3/7, 2/5, 3/8, 1/3[15] 解决过程与AI工具应用 - 数学家Boris Alexeev使用Harmonic的数学AI模型“亚里士多德”,在证明助手Lean中自动构造并证明了关键不等式,将原问题转化为计算几何领域的矩形填充问题[16][17] - 数学家Koishi Chan随后给出了基于原始Erdős–Szekeres定理的替代证明,印证了AI的发现[18] - 陶哲轩将问题放入AlphaEvolve,要求其通过生成总和为10的6次方的实数序列来获取c(n)的上界,运行一小时后,AI生成了包含结构清晰潜在极值解的上界结果[18][19] - 陶哲轩利用John Cook的公开专用工具整理序列,为c(n)的值提供了猜想[21] - Boris Alexeev找到了该猜想的简洁表述:c(k²+2a+1) = k / (k²+a),其中0 ≤ a ≤ k[22] - 使用ChatGPT Pro生成1/c(n)的图像,直观显示其基本是对平方根函数的分段线性逼近[26] - 数学家Lawrence Wu结合正方形填充问题(Erdős 106)进行阐述,引入f(n)并设定c(n) ≥ 1/f(n)[28][30] - Lawrence Wu通过AI论文检索,找到一篇去年发表的论文,最终证明了猜想中的公式,从而完成了整体证明[32] AI在数学研究中的广泛应用 - 陶哲轩近期还借助Gemini 2.5 Deep Think破解了Erdős问题 367,全程只用了十分钟[34][35] - 陶哲轩利用GPT-5进行半自动化文献检索,对相关数列进行高精度计算后输入OEIS数据库检索对照,发现部分Erdős问题其实早已在既有研究中被解决[37] - 来自Harmonic的数学AI模型被曝独立证明了Erdős问题 124,微软前AI副总裁Sebastien Bubeck表示该解决方案100%由AI生成,总计耗时6小时[43][44] - Erdős问题网站公开鼓励使用AI辅助解题,但需满足公开说明、用户独立验证及评论长度合理等条件[45] - 陶哲轩表示,在Erdős问题网站上,AI辅助已经变得很常见[42] Erdős问题背景 - Erdős问题出自20世纪著名匈牙利数学家Paul Erdős,他一生合作了超500位数学家,发表了约1525篇数学论文[39] - 他提出或转述了上千道问题,被收录于erdosproblems.com网站,目前绝大多数难题依然悬而未解[39][41]
交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026
量子位· 2025-12-13 02:00
AI出现前,人类以"万物之灵"自居;但在AI之后,这个答案开始动摇。 在量子位MEET2026智能未来大会上,上海交通大学上海高级金融学院金融学教授 朱宁 发出灵魂拷问: 编辑部 整理自 MEET2026 量子位 | 公众号 QbitAI 在AI面前,人类是什么? 问题虽然留给大家思考了,但身为一名经济学家,他还是从专业角度为我们勾勒了一幅清晰而令人警醒的图景: 当算力、创意、时间这些曾被视为"稀缺"的人类核心优势逐渐被AI吞没,那么以这些稀缺性为基础构建起来的整套经济学逻辑——从资源配 置、生产结构到收入分配,无疑也将随之被撼动。 所以更保险的做法是,未来不要去想哪个行业在AI面前是安全的、完全不会被替代的,而应该更多考虑如何更好地掌握AI技术,和AI共生。 为了完整体现朱宁的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。 MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下到场参会观众近1500人,线上直播观众350万+,获得 了主流媒体的广泛关注与报道。 核心观点梳理 AI出现之后,稀缺的概念改变了 。如何在稀缺面前做出更好的选择,是 ...
中国机器人比赛应急救援,美国网友Reddit破防:我们还在给机器狗化妆拍段子
量子位· 2025-12-12 06:41
文章核心观点 - 中国在具身智能(特别是人形机器人)领域,凭借量产能力、完整的产业链和聚焦实战应用的赛事,已取得全球领先地位,引发了美国网友和行业的高度关注与焦虑 [1][3][5][9][33][40][53][56] 国际反响与对比 - 美国网友在Reddit等平台热议,对比中国机器人已在参与应急救援等实战比赛,而美国同类产品仍停留在演示和娱乐阶段,感到“破防”和落后 [1][3][5][6][8] - 国际关注度高涨,外国网友对中国具身智能发展的关注度甚至超过国内,GDPS 2025大赛的规模和实战性给其带来强烈刺激 [9][10][11][12] - 美国机器人公司(如特斯拉)在技术路径上曾受中国公司(如宇树科技)影响,例如从经典控制方法转向强化学习以提升运动能力 [30][31][33] - 硅谷行业人士(如Sunday机器人联创Tony Zhao)警示,中国公司在“硬件量产”与“AI驱动运动控制”结合的垂直整合模式上可能超越硅谷,后者若沉溺于软件优势的假设可能会输掉竞争 [34][35] 中国具身智能的领先优势:量产与实战 - 核心优势在于实现了大规模量产,例如优必选和智元机器人,这与Figure、特斯拉、1X等仍处于原型或小规模试点阶段形成鲜明对比 [36][40][41][42] - 量产(如智元机器人达成5000台交付)能暴露并解决硬件设计潜在问题,推动技术可靠性、供应链稳定性与场景适配性三大核心难题的攻克,使机器人从局限场景进入成熟的产业化部署阶段 [37][38][39] - 量产带来的规模效应将进一步推动算法和数据的标准化,形成正向循环 [41] GDPS 2025大赛作为展示窗口 - 大赛是全球开发者先锋大会暨国际具身智能技能大赛,设有机器人应急救援等实战比赛项目,首次对标世界技能大赛 [7][46] - 规模庞大,参赛队伍超过百支,涵盖复旦、交大等高校及智元、宇树、新松、开普勒等企业,设立六大赛道、17个赛项,覆盖工业、医疗等多领域 [46] - 首创“三元评审”机制(科学家、AI专家、技能大师),将人类老师-机器学生的经典设定现实化,聚焦实战能力考核 [46] - 大赛作用在于将中国已落地的技术实力摆上台面,形成训练-评估的正反馈循环,并揭示了硅谷可能回避的技术代差 [45][47][48][52] 产业链与生态支撑 - 以上海为代表的机器人产业规模已占全国三分之一,形成了以张江机器人谷为核心的密集产业链,核心部件企业集聚,实现“上下楼就是上下游”,将硬件迭代周期从“月”级缩短至“天”级 [49][50] - 发展由真实工业焊锡、消防救援、医疗康养等场景需求驱动,技术落地目的明确 [50] - 政策、场景与生态协同发力,通过开放百个核心试验场景、推出最高4000万元算力券、支持物理世界常识库建设等系统化产业政策,推动技术与商业双重突破 [50] - 完整的产业链和生态支撑使具身智能从“展示品”变为“量产品”,并赋予举办高规格赛事的底气 [49][51] 行业现状与影响 - 中国具身智能技术展示的内容(如机器人车间操作、长距离行走)在国内已是“日常”而非“作秀”,标志着产业化进入新阶段 [16][18][26][54] - 产业链持续运转,应用场景不断开拓,生态拼图日趋完整,上海是这一进程最先和最完整的呈现者 [55] - 中国在该领域的进展已达到令国际社会不得不高度重视的程度 [56]
只需三步,就能认领一台AI手机!
量子位· 2025-12-12 06:41
核心观点 - 智谱公司开源的AutoGLM项目,是一个能让手机通过自然语言指令自动执行操作(如点外卖、比价)的AI智能助理框架,实现了从“对话”到“行动”的范式转变[12][13] - 通过结合Claude Code与GLM-4.6等工具,用户现可通过简化步骤在本地或云端部署使用AutoGLM,降低了使用门槛[7][8] 产品功能与效果 - AutoGLM能够理解用户自然语言描述的任务意图,“看懂”手机屏幕并自动执行点击、输入、跳转等操作,模拟人类操作手机[13] - 具体应用场景包括:通过一句话指令在美团自动点一杯冰豆花[4][5],以及自动完成“货比三家”等复杂操作[6] 技术部署与使用 - 部署方法使用工具组合Claude Code + GLM-4.6,主要分为三步:安装ADB Keyboard并连接手机、在Claude Code中输入特定提示词、在安装过程中确认弹窗[8][9][11] - 开源后,用户可选择在本地设备上部署以完全掌控数据与流程,或在云端环境中快速体验,即开即用[14] 项目发展历程 - 智谱AutoGLM项目历时共计32个月,有三个关键发展节点[14] - 2024年10月,发布全球首个具备Phone Use能力、能自动操作手机的AI Agent[15] - 2024年11月,完成人类历史上第一个由AI全自动发出的红包,完全打通从理解意图到在真实手机上进行操作的全链路[15] - 2025年8月,发布AutoGLM2.0云机版,将系统置于云端虚拟手机中,以实现对敏感数据的严格隔离[15]
量子位编辑作者招聘
量子位· 2025-12-12 06:41
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的全职岗位招聘,工作地点位于北京中关村[2] - AI产业方向关注基建层创新,包括芯片、AI Infra、云计算[6] - AI财经方向关注AI领域创投和财报,跟踪产业链资本动向[6] - AI产品方向关注AI在应用和硬件终端方向的进展[6] - 社招岗位覆盖编辑、主笔、主编各个层级,按能力匹配[6] - 校招面向应届毕业生,接受实习且可转正[6] 岗位职责与要求 - AI产业方向岗位需跟进芯片、AI Infra、云计算等领域新进展及核心玩家动态[6] - AI产业方向需对前沿论文、开源社区、技术大会报告进行大众化解读[6] - AI产业方向需参与核心采访,对话产业专家并撰写落地案例[7] - AI产业方向任职要求包括对芯片、GPU、服务器、云计算等有基本理解[11] - AI产业方向需熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达[11] - AI财经方向岗位需聚焦创投、AI创业公司、上市公司及产业链资本动向[11] - AI财经方向需产出创投融资、财报解析、公司战略分析等稿件[11] - AI财经方向需访谈投资人、创业者及产业分析人士[11] - AI财经方向任职要求包括对数据敏感,对财报、股权结构感兴趣[11] - AI财经方向需逻辑结构强,对商业叙事敏感,并热爱对话采访[11] - AI产品方向岗位需关注AI在软件应用和硬件终端的落地[11] - AI产品方向需撰写AI应用深度评测,跟踪手机、PC、XR、车机等新品发布[11] - AI产品方向需对话AI应用创业者、产品专家及终端技术专家[11] - AI产品方向任职要求包括对智能硬件和AI终端趋势敏锐,是重度产品体验人士[11] - AI产品方向需熟悉各大终端厂商业态,并具备强逻辑和结构化表达能力[11] - 主编岗位需具备选题和带队能力及经验[6] - 主笔岗位需具备原创深度稿件能力[6] - 编辑岗位需热爱表达,喜欢挖掘信息,能用通俗语言解读AI进展[6] 员工福利与发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将各种AI新工具应用于工作,提升效率和创造力[6] - 员工可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人会由主编级编辑担任导师,提供一对一指导以加速成长[6] - 公司提供扁平、简单、开放、多劳多得能者上位的团队氛围[6] - 公司提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了
量子位· 2025-12-12 06:41
OpenAI与迪士尼战略合作的核心内容 - OpenAI与迪士尼正式达成为期三年的战略合作,迪士尼成为Sora的首个主要内容授权合作伙伴,第一年的授权具有排他性[10][11] - 作为协议的一部分,迪士尼将向OpenAI进行10亿美元的股权投资,并获得未来增持的认股权证[2][21] - 合作范围不仅限于Sora,ChatGPT Images也将获得同等授权,用户可通过简短文字生成相关IP图像[8][14] 授权IP的具体范围与限制 - Sora获得迪士尼旗下超过200个热门IP角色的授权,涵盖迪士尼经典、皮克斯、漫威及星球大战系列角色[6][12][13] - 授权范围包括角色、服装、道具、载具和标志性场景,但不包含任何真人的肖像或声音[12][15] - 部分由粉丝创作的Sora短视频未来可能在Disney+流媒体平台播出[16] 合作对OpenAI产品Sora APP的潜在影响 - Sora APP近期用户留存率数据堪忧,从上线首日(day1)的10%降至第7天(day7)的2%、第30天(day30)的1%以及第60天(day60)的0%[27] - 获得迪士尼IP授权后,Sora APP的创作素材和玩法天花板被大幅打开,有望借助IP自带的用户情感连接与热度改善用户留存与生态活跃度[30][32][33][35] - 该授权功能预计于2026年初正式上线[17] OpenAI寻求版权合规的背景与动机 - OpenAI早期面临多起版权诉讼,例如2023年底《纽约时报》起诉其未经授权使用数百万篇文章训练GPT模型[39] - 随着生成式AI内容创作普及,涉及热门IP侵权的案例增多,最出圈的争议是“斯嘉丽·约翰逊事件”,其声音相似性引发侵权质疑[40][41][42] - 今年10月Sora APP上线后,迪士尼曾致函OpenAI,明确指出未授权其使用迪士尼版权内容,并质疑其“选择退出”版权保护机制的不合理性[46][47] - 此次以股权换取版权授权的合作,被视为OpenAI在经历多次版权纠纷后,为规避法律风险、寻求合规运营的重要举措[38][48] 迪士尼的AI战略与行业影响 - 迪士尼将积极利用OpenAI的API构建新产品、工具和体验,应用范围包括Disney+流媒体平台,并为员工部署ChatGPT用于内部工作流程[22][23][24] - 迪士尼CEO鲍勃·艾格表示,与OpenAI的合作将负责任地通过生成式AI扩展故事触达范围,让粉丝以新方式与角色和故事建立联系[25] - 在OpenAI之后,迪士尼已就版权侵权问题向谷歌发出停止侵权函,指控其利用AI模型大规模侵犯迪士尼版权并进行商业化使用[48][49][50]
谷歌智能体发力:增强版Gemini Deep Research和专属API都来了
量子位· 2025-12-12 06:41
谷歌Gemini生态重大升级 - 谷歌正式发布增强版Gemini Deep Research智能体,该智能体基于Gemini 3 Pro构建,专门用于减少幻觉,在复杂信息检索与分析任务上表现领先 [3] - 该增强版智能体很快将被集成到谷歌搜索、NotebookLM、Google Finance以及升级版的Gemini App中 [3] - 此次更新不仅是Deep Research的升级,更是整个Gemini生态的一次大升级 [8] 增强版Deep Research的核心能力 - 增强版Gemini Deep Research能够实现迭代式推理,不仅能提出查询需求,还能读取和整合搜索结果,发现知识空白,然后针对性地开展新一轮搜索 [10][13] - 通过这种循环式操作,它大幅提升了网络搜索能力,能够深入网站抓取精确信息 [10] - 这种能力让该智能体在复杂研究任务中表现出色,在人类最后的考试HLE、BrowseComp、和DeepSearchQA等测试中刷新了SOTA成绩 [10] 配套发布的DeepSearchQA基准测试 - 谷歌配套推出了DeepSearchQA基准测试集,为深度搜索与研究任务提供了更全面的评估标准 [5] - 该基准测试集包含来自17个领域的900个手工设计的因果链任务,要求生成详尽的答案集合,比传统事实检索测试更能衡量智能体在多步推理与信息融合中的综合能力 [12] - 在DeepSearchQA基准测试中,Gemini Deep Research Agent的“完全正确”率为66.1%,领先于GPT-5 Pro的65.2%和GPT-5的59.4% [14] 全新发布的Interactions API - 谷歌同时发布了Interactions API,为开发者提供了与Gemini 3 Pro和Deep Research智能体交互的统一接口 [6] - 该API设计了原生接口,提供一个统一的RESTful端点,通过指定模型或智能体参数,就能与模型和智能体进行复杂上下文的交互 [16] - 该API特别适合需要多步骤推理、工具调用以及长程任务执行的场景,扩展了generate Content的核心能力,具备服务器端状态可选、可解释且可组合的数据模型等特性 [17][18]
ToC智能体火得快,但更大的价值在企业丨中关村科金@MEET2026
量子位· 2025-12-12 05:30
文章核心观点 - AI时代的核心在于连接更强,智能体作为超级连接器,将人、数据、知识与智能编织进企业全流程,形成新的数字人力体系 [1][2][9][10] - 企业智能化是一个由场景选择、数据与知识治理、模型构建三要素持续迭代驱动的长期工程,而非一次性项目 [3][14][16][17] - 企业级智能体规模化落地的关键在于重构底座平台能力,即大模型平台、AI能力平台和AI数据平台三大核心 [5][6][17][19][20] - 在三大平台之上构建“智能体集市”,实现数百甚至上千个数字员工的协同工作,成为企业组织的新单元 [7][28] - 企业级智能体应用与ToC场景的核心差异在于对规模化、成本效率和精度的极致要求 [17][32][49] 行业趋势与本质判断 - 从互联网到AI时代是连接的进化,智能体实现了人与数据、知识、智能的更高效连接 [1][9][10][11] - 智能体为企业新增了一类“数字人力”,能连接内部资源,提升员工协同效率,并在外部助力客户连接,创造营销、客服、销售等价值 [12] - 企业智能化是一个持续变化、不断演进的过程,不同于过去固定不变的信息化、数字化项目 [16] 企业智能体落地的关键框架 - **三大核心平台**:企业用好智能体的关键在于三个平台 [17] - **大模型平台**:作为认知中枢,连接算力,兼容各类开源模型,覆盖从数据标注到上线运营的全流程,并提供智能体构建工具与模板 [6][17][19] - **AI能力平台**:作为感知系统,提供OCR、ASR、TTS等能力,需针对企业严肃场景进行极致调优,例如关键信息的ASR识别准确率需达到99%以上 [6][17][20][21][23] - **AI数据平台**:作为企业的记忆与经验沉淀系统,将感知、认知、记忆统一是实现有效落地的关键 [6][17][25][26] - **持续迭代的三要素**:企业智能体落地需在场景选择与评估、企业内部数据与知识整理、模型训练与构建三个环节循环迭代 [14][17] - **智能体集市与人机协作**:在三大平台之上构建“智能体集市”,支持数百至上千个智能体在一个人机协作平台上协同工作,形成赋能、协同、自主完成与监督等多样化人机关系 [7][28] 典型应用场景与案例 - **营销服场景**:是目前最典型、落地效果最好的场景,核心基础是全媒体、全渠道的联络中心 [35] - 应用包括线索抓取、识别与打标、外呼、客服、陪练、质检等多个销售智能环节,智能体可高效捕获线上潜在客户线索并开展互动 [35] - 没有智能体,企业很难与数亿用户进行充分沟通互动并取得良好效果 [36] - **办公与运营提效场景**:做好问答、写作、审核、问数四件事可覆盖80%-90%的价值,底层支撑是完整的智能知识库 [37] - 企业对容错率、准确性、专业性要求极高,简单搭建的系统行不通 [38] - 案例:协助中国电建财务公司梳理了数百个专业指标,精准解决办公运营需求 [38] - **垂直行业应用**: - **金融领域**:已服务超200家银行、500余家各类金融机构,在风控、消保、信贷等场景积累了大量智能体解决方案 [41] - **工业领域**:大语言模型及未来的多模态模型将推动工业智能化从局部向全局演进 [45] - 案例:与中控技术、中南大学等单位合作,为南方有色金属打造了有色金属行业垂直大模型,构建了行业与企业知识库,并应用于能耗节约、设备预测性维护、冶炼工艺优化等核心场景 [45][46] 公司定位与市场布局 - 公司定位为全球领先的企业级大模型技术与应用服务商,专注于将大模型与智能体技术应用于企业场景,助力企业实现增收、降本、提效、合规等目标 [10][47] - 公司服务了2000+各行业头部企业,沉淀了大量经过场景验证的“样板间”和智能体资产 [33] - 除了国内市场,公司正积极拓展海外市场,在中国香港、新加坡、马来西亚、泰国、印尼等地区和国家布局,服务海外直客并助力中企出海 [47][48]
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026
量子位· 2025-12-12 03:00
文章核心观点 - 扩散语言模型作为一种非自回归的生成模型架构,在理论上有望实现比主流自回归模型更快的生成速度和更低的计算成本,并具备独特的可编辑生成能力,是当前大语言模型领域一个重要的非共识技术方向[2][8][20] - 浙江大学、蚂蚁集团等机构的研究团队已将扩散语言模型扩展至千亿参数规模,并开源了LLaDA 2.0模型及配套训练框架,标志着该技术路径取得了关键里程碑[4][44] - 扩散语言模型在训练和推理层面仍处于早期发展阶段,但其独特的Scaling Law、对数据的强吸收能力以及在代码生成等任务上的潜在优势,吸引了谷歌、字节等巨头及初创公司布局,未来发展值得关注[5][15][41][56] 扩散语言模型的技术原理与特点 - **核心机制差异**:自回归模型通过“接龙”方式逐个预测下一个词,而扩散语言模型采用“完形填空”机制,通过遮盖并恢复部分词来生成内容[12][13] - **训练特性**:扩散语言模型相比自回归模型更为“data-hungry”,在计算受限情况下对数据需求更大、吸收数据更快[15][21];与图像扩散模型类似,扩散语言模型在训练上具有持续性,可以在同一数据集上持续训练并提升效果,而自回归模型训练多个epoch后效果常趋于稳定[24][25][26] - **推理优势**:扩散架构在推理过程中可以直接修改和控制token,无需像自回归模型那样重新生成整段内容,这为实现可编辑和可控生成提供了可能[2][28] LLaDA系列模型的研发进展与开源贡献 - **发展历程**:中国人民大学团队率先开源了80亿参数的扩散语言模型LLaDA 1.0,其效果可对标LLaMA-3-8B,并在Hugging Face上获得超过20万次下载[35][36][37];随后蚂蚁技术研究院联合多所高校接手,致力于推动该领域发展[38] - **架构演进**:团队发布了全球首个原生训练的MoE架构扩散语言模型LLaDA-MoE,总参数70亿,激活参数10亿[40];近期发布的LLaDA 2.0,率先将扩散语言模型扩展至千亿参数体量[4][44] - **开源框架**:团队开源了首个面向扩散语言模型的训练框架,支持监督微调和直接偏好优化,并配套了推理框架,方便社区使用[31][32] 扩散语言模型的性能表现与潜在应用 - **性能表现**:在相同的计算量和性能目标下,扩散语言模型所需的参数规模可以比自回归模型更小[15][23];在全局注意力机制支持下,扩散模型在效果上相比自回归模型具备一定优势[47] - **任务优势**:扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势,得益于并行解码能力,能同时生成多个token[49] - **生成特点**:扩散模型在文学创作等任务中展现出独特的“非共识”解码轨迹,例如先确定开头结尾框架,再反复修改润色中间内容,这种生成过程在主流自回归模型中难以见到[49][50] 行业生态与未来展望 - **行业布局**:扩散语言模型领域发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局[5][41] - **发展挑战**:扩散语言模型的训练与推理仍处于早期发展阶段[5];其Scaling Law与自回归模型存在差异,已验证可扩展到千亿规模,但继续向上扩展会面临新的挑战[15][56] - **未来方向**:团队发布了试验性推理引擎dInfer,旨在通过新架构与范式提升关键场景的吞吐量,目标实现五倍乃至更高的速度提升[53][54];团队计划在未来一两个月通过ZenMux平台放出部分API,以促进社区生态成长[51]
港中文联手美团开源“视觉推理通才”!图像视频10类任务一网打尽
量子位· 2025-12-12 01:00
OneThinker团队 投稿 量子位 | 公众号 QbitAI 横扫31个主流基准、拿捏10类核心任务,视觉模型界的"通才"来了! 香港中文大学MMLab与美团研究团队开源提出 OneThinker ——一个基于RL的统一多模态视觉推理通才模型,覆盖图像与视频两种模态下 的十类核心视觉任务。 在31项主流视觉任务测试中,OneThinker均表现亮眼。它不仅能在多任务训练中实现相互促进,还能在从未见过的任务上做出合理推理,初 步展现了通才模型的泛化能力。 1. 无法统一建模现实复杂场景 2. 知识隔离,迁移受限 从"专才模型"到"通才系统" 现实世界中的视觉数据复杂多样,往往同时包含静态图像与动态视频信息。同时,视觉任务类型也高度多样化,例如问答、定位、分割、追踪 等。 在这种背景下,传统的"单任务、单模态"RL思考模型架构存在以下两个根本性问题: 虽然以Vision-R1、Video-R1、VLM-R1等为代表的工作,已经在图像问答、视频理解、目标检测等任务上取得显著效果。 但这类RL模型大部分存在一个限制: 只能处理单一模态或单一任务 。模态、任务之间缺乏关联,推理能力被割裂,难以泛化应用。 来看看On ...