Workflow
Gemini Diffusion
icon
搜索文档
开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
机器之心· 2025-08-18 03:22
技术突破与性能表现 - 上海交通大学DENG Lab与加州大学圣地亚哥分校联合推出Discrete Diffusion Forcing(D2F)技术,首次使开源扩散大语言模型(dLLMs)的生成速度显著超过同等规模的自回归(AR)模型[2] - D2F模型在GSM8K等基准测试中实现相比LLaMA3等主流AR模型高达2.5倍的吞吐量提升[2][6] - 该技术为原始dLLMs带来最高达50倍的加速,同时保持平均性能不下降[4][22] 技术瓶颈与解决方案 - 现有dLLMs存在KV缓存不兼容性问题,导致无法直接应用AR模型的KV缓存加速技术,造成巨大计算冗余[8] - 块间解码存在串行限制,要求前一个块完全解码后才能处理下一个块,极大限制了并行潜力[8] - D2F通过块级因果注意力机制重塑双向注意力,使dLLMs兼容KV缓存,大幅减少冗余计算[12] - 采用自回归-扩散混合范式,协同设计模型架构、训练方法及推理策略[11] 核心技术创新 - 引入块级自回归生成架构,块间保持因果性,有效利用KV缓存[15] - 实现块内token间并行解码和块间并行解码,最大化并行生成潜力[15] - 设计双状态解码流水线(半激活状态和全激活状态),通过动态解码窗口最大化吞吐量[15][20][21] - 集成vLLM进一步优化推理速度[15] 训练方法优化 - 采用非对称蒸馏策略,将预训练dLLMs教师模型能力高效蒸馏到D2F学生模型[18] - 引入单调递增的结构化噪声调度,训练中序列靠前块施加较小噪声,靠后块施加更大噪声[18] - 该训练方式教会模型依据部分去噪的前文预测后文,解锁块间并行能力[18] 实测性能数据 - 在GSM8K测试中D2F-LLaDA实现52.5 TPS(7.3倍于基线)和2.8秒延迟(11.5倍加速)[23] - 在MBPP测试中D2F-LLaDA达到47.6 TPS(52.9倍于基线)和1.4秒延迟(51倍加速)[23] - 在HumanEval测试中D2F-LLaDA取得81.6 TPS(29.1倍于基线)和1.6秒延迟(24.3倍加速)[23] - D2F-Dream模型在GSM8K测试中实现91.2 TPS(9.6倍于基线)和2.8秒延迟(9.6倍加速)[24] 技术影响与未来展望 - D2F成功证明AR和Diffusion并非完全对立范式,通过混合框架设计可融合AR模型缓存优势与dLLMs并行优势[28] - 该技术为开源dLLMs社区注入新活力,展现dLLMs在推理速度上的巨大潜力[27] - 团队已开源代码和模型,旨在推动并行解码技术走向成熟和实际应用[27]
AI展望:NewScaling,NewParadigm,NewTAM
华泰证券· 2025-06-10 01:43
报告核心观点 - 全球AI发展呈现模型端新架构探索、算力端需求上行与硬件设计进入新范式、应用端商业模式变革的趋势,持续看好AI产业投资主线,全球AI应用将进入业绩收获期 [1] 模型:预训练Scaling Law有望开启新起点 - 大模型技术路线从预训练到后训练发展,2018 - 2024年9月为预训练阶段,2024年9月后进入后训练阶段 [13][15] - 腾讯混元Turbo - S通过创新架构实现性能与效率平衡,Google Gemini Diffusion在文本生成上有突破,大厂在预训练参数量和数据量扩大上有尝试,大规模算力集群支持预训练探索,模型架构改进或使预训练Scaling Law开启新起点 [23][24][25] 算力:训练推理两条主线共同推动算力需求持续上行 训练端 - 后训练阶段Scaling Law成大厂共识,新Scaling路径不断涌现,新架构探索有望重启预训练阶段算力需求叙事 [33][34] - 以“星际之门”为代表的大规模算力集群进展顺利,中东版“星际之门”落地,主权AI逐步落地,台积电新产能规划预示算力需求乐观 [38][41][42] 推理端 - Agent需求增长或使推理算力提升几十至上百倍,大量工具调用和信息交互使tokens消耗量大幅提升,产品用户数量增长带动算力需求提升 [43][46][52] 算力硬件新范式 - 大模型对系统综合能力要求提高,NVLink Fusion强化英伟达硬件生态优势,国产算力加速迭代,华为云推出新服务器,高密度机架方案为性能追赶提供路径 [57][58][60] 应用:Agent进展提速,看好AI应用进入业绩收获期 Agent发展情况 - Agent可能是AI应用终极形态,目前雏形初具,但完成复杂长期任务能力有限,“任务长度”是关键衡量指标且提升速度快 [68][73][74] - MCP统一了Agent工具调用生态,促进其快速构建和发展 [79] 海外AI应用 - AI Coding是重要垂类赛道,细分垂类商业化效果好,25Q1业绩大部分超预期,头部2B软件AI产品存量客户渗透率接近10%,全年收入有望加速增长 [82][84][85] 国内AI应用 - 加速从简单环节到复杂环节产品升级,25Q1利润指标率先改善,AI商业化24年初步验证,25年有望加速复制推广,MCP有望加速产业节奏 [88][90][94] 落地节奏展望:商业模式变革有望成为共识,看好细分领域率先放量 商业模式变革 - Agent应用从交付工具转变为交付结果,按效果付费新范式有望成行业共识 [99] 细分场景放量 - 数据复杂度低、幻觉容忍度高的场景率先实现规模化商业落地,2C场景商业化进展领先,2B应用分场景和行业来看,数据复杂度和预算影响落地节奏 [103][104][110] AI + 营销/销售 - 数据丰富、可量化ROI和流程标准化驱动AI快速商业化,企业需求从单一工具向全链路智能中枢升级,市场格局分散,AI有望重塑格局 [113][114][119] 重点公司推荐 - 推荐金山办公、福昕软件、泛微网络等多家公司,均给予“买入”评级 [7]
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 02:11
挑战 next token prediction,Diffusion LLM 够格吗? - Gemini Diffusion 采用扩散架构进行文本生成,平均采样速度达1479 TPS,编码任务中可达2000 TPS,比Gemini 2.0 Flash-Lite快4-5倍 [4] - 扩散架构通过迭代去噪实现并行生成,与自回归架构不同,采用"从粗到细"的生成方法,具备并行处理能力 [6] - 扩散模型能并行优化整个序列,显著减少计算开销,有望在模拟硬件上运行从而降低能源成本 [6][7] - 此前已有Diffusion-LM、DiffuSeq、DiffusionBERT等探索,近期LLaDA系列在8B规模验证了Diffusion LLM的效果 [7][9] Diffusion LLM的潜在优势 - 并行生成机制可同时生成所有token,极大提升文本生成效率 [8] - 具备文本插值能力,可生成句子间衔接内容,提高流畅性和连贯性 [8] - 提供细粒度控制和高稳健性等优势 [8] - 本质上与自回归模型同为生成式模型,优良性质源于极大似然估计而非特定建模方式 [10] AI推理成本暴跌的影响 - AI模型训练成本与推理成本"剪刀差"将重塑行业竞争格局 [1] - 企业需平衡算力投入与商业化回报 [1] - 中国开源模型崛起对全球供应链有潜在影响 [1] - 人机协作时代需平衡劳动力结构转型与技能重塑 [1]
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 01:59
Google I/O 2025开发者大会与Gemini Diffusion - Google DeepMind推出采用扩散技术的语言模型Gemini Diffusion,提供更强控制力、创造力和文本生成速度[1] - Gemini Diffusion生成速度达到最快模型的五倍,采样速度高达每秒1479 token[2][8] - 该模型在多项基准测试中表现优异,如HumanEval(89.6%)、MBPP(76.0%)等,性能媲美更大规模的自回归模型[9] 扩散语言模型(dLLM)发展历程 - 早期探索包括斯坦福Diffusion-LM(2022)、上海AI实验室DiffuSeq(2022)和复旦大学DiffusionBERT(2022)[3] - 蚂蚁集团与人大团队推出首个8B参数扩散大模型LLaDA,性能比肩LLaMA3[4] - LLaDA成为dLLM研究基础模型,衍生出d1、LaViDa等后续模型[4][20] LLaDA模型技术特点 - 采用掩码扩散机制,通过前向加噪和反向去噪过程建模[14] - 预训练使用2.3T tokens,在MMLU(65.4%)、BBH(57.6%)等基准表现优异[19] - 1.5版本引入VRPO方法,在GSM8K(+4.7)、Math(+0.4)等任务取得进步[21][22] 扩散多模态LLM(dMLLM)进展 - 蚂蚁集团与人大推出LLaDA-V,集成视觉指令微调与掩码扩散机制[24] - 字节跳动开发MMaDA,兼具文本推理、多模态理解和文生图能力[31] - dMLLM正向蛋白质序列生成等更多模态扩展[33] 行业竞争格局 - 国内研究团队(蚂蚁、字节、人大等)在dLLM/dMLLM领域已跻身第一梯队[11] - 国际竞争者包括Google(Gemini Diffusion)、Meta(d1模型)等[6][8] - 初创公司Inception Labs推出商业级扩散模型Mercury[6] 技术发展趋势 - 扩散模型正从视觉生成扩展到语言理解和多模态交互[35] - 研究热点包括模型加速(Fast-dLLM)、推理增强(LLaDOU)等方向[6] - 量子计算与扩散模型结合(qdLLM)等创新方向正在探索[35]
AGI的不归之途
虎嗅APP· 2025-06-03 13:52
大模型与智能体进展 - 2025年上半年OpenAI o3、Gemini 2 5 pro、Grok 3 mini和Claude 4等大模型密集发布 智能体协议MCP、A2A的融合推动AGI进程加速 [3] - 硅谷研究机构METR数据显示智能体完成任务复杂程度每7个月翻倍 Claude-opus 4可连续工作7小时 初级白领岗位面临大规模替代风险 [3] - Anthropic创始人预测2026年将出现"一人独角兽公司" 智能体技术正在突破鲍莫尔病对服务业效率的限制 [3] 科技巨头战略调整 - 美国科技七雄大幅增加AI基础设施投入 同时裁撤可替代岗位 OpenAI年化收入达百亿美元 Anthropic收入半年内从10亿增至30亿美元 [4] - 中国科技巨头创始人深度参与技术变革 阿里、腾讯、字节等企业成为创新引擎 [10] - ChatGPT用户增长爆发 显示技术优势与用户体验并非完全正相关 [22] 中美AI竞争格局 - 中国DeepSeek R1 0528性能超越Gemini 2 5 pro 逼近OpenAI o3 在开源模型领域建立成本优势 [5] - 中美前沿大模型差距从ChatGPT发布时的2年缩短至2025年上半年的不足3个月 [11] - 中国在开源社区和国家级基础设施方面快速推进 形成与美国全面对标的竞争态势 [11][36] 下一代技术突破 - OpenAI计划将GPT-5打造为推理与生成统一的原生多模态模型 已陆续拆分部分功能提前发布 [17] - DeepSeek下一代模型V4/R2将采用NSA稀疏注意力机制 支持端到端训练 提升长期记忆能力 [18][19] - 文本扩散生成技术取得进展 Gemini Diffusion实现每秒1500 token输出 中国高校及企业推出LlaDA-8B等创新模型 [31][32] AGI探索新路径 - OpenAI前成员创立SSI(估值320亿)和Thinking Machines Lab(估值90亿) 探索强化学习与思维链等新范式 [24][25] - 程序合成技术被视为突破传统范式局限的关键 AlphaEvolve已展示解决复杂数学问题的能力 [29][30] - 研究显示AI"思考时长"与"思考方式"同等重要 需建立自我规划思考深度的机制 [26] 商业化与生态演进 - AI行业呈现高增长+高投入特征 中国科技大厂增加资本支出准备大规模商业化 [35] - 智能体时代商业模式可能打破"赢家通吃" 横向平台与垂直专家的融合成为关键 [35] - 变现逻辑从使用频率转向注意力、语境与控制权的争夺 地缘竞争成为核心变量 [36]
AGI的不归之途
虎嗅· 2025-06-02 23:53
大模型技术进展 - 2025年上半年OpenAI o3、Gemini 2 5 pro、Grok 3 mini和Claude 4等前沿大模型密集发布 智能体MCP、A2A等协议推动应用加速发展 [1] - 智能体完成任务复杂程度每7个月翻倍 Claude-opus 4可连续工作7小时 正从初级白领工作开始逐步接管更多人类任务 [1][2] - 中国DeepSeek R1 0528性能超越Gemini 2 5 pro并逼近OpenAI o3 在缺乏算力基础上通过后训练实现性能跃升 且具有开源和成本优势 [3] - 中国在开源领域确立优势 通义千问2024年9月超越Llama 3 DeepSeek R1 2025年初赶上o1 Llama 4推出未改变中企领跑格局 [4] - GPT-5将整合推理与生成功能 成为原生多模态模型 OpenAI已逐步拆分发布其部分功能 可能受DeepSeek竞争压力影响 [16] 行业竞争格局 - OpenAI年化收入达百亿美元 Anthropic半年内从10亿增至30亿美元 AI应用在编程、设计、医疗等领域初现规模产出 [2] - 美国科技七雄和中国阿里、腾讯等巨头创始人深度参与AI革命 中国响应速度明显快于1995年互联网时代 [8][9] - 中美前沿大模型差距从ChatGPT发布时的两年缩短至不足三个月 中国已建立全面对标的竞争态势 [10] - ChatGPT用户增长爆发显示技术优势不等于应用体验优势 开源模型如何打造杀手级应用成为中国AI创新者挑战 [22] - AI商业化将呈现高增长+高投入态势 中国科技大厂增加资本支出准备放手一搏 [35] 技术突破方向 - DeepSeek下一代模型可能采用原生多模态架构 聚焦代码、数学和自然语言 已探索数学证明模型Prover和多模态模型Janus [17] - DeepSeek研发NSA稀疏注意力机制和BSBR技术 支持端到端训练和长期记忆检索 提升代码生成和多轮互动能力 [18] - 程序合成技术成为AGI新探索方向 可通过少量示例实现问题泛化 谷歌AlphaEvolve已展示其在数学解题中的潜力 [27][28] - 文本扩散生成技术取得进展 Gemini Diffusion达每秒1500token 中国多所高校和企业推出相关模型探索技术边界 [30][31] 地缘政治影响 - AI领导力可能带来地缘政治领导力 中国在开源社区和国家级基础设施方面快速推进 形成与美国差异化优势 [9][39] - 全球AI竞争核心是美中战略博弈 两国都将AI视为经济杠杆和地缘政治影响力来源 [40] - ChatGPT主要用户来自亚洲人口大国 美国比中国更依赖全球市场 [11]
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 11:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]
又一巨头推出其最强大模型,赶超OpenAI和谷歌
财富FORTUNE· 2025-05-26 13:06
Anthropic发布新一代AI模型Claude Opus 4和Claude Sonnet 4 - Anthropic在首届开发者大会上发布最新AI模型Claude Opus 4和Claude Sonnet 4,估值超610亿美元 [1] - Opus 4被描述为"全球最佳编码模型",能在涉及数千步骤的长期任务中保持稳定性能,可分析数千个数据源并执行复杂操作 [1] - 在基准测试中,Anthropic的两款模型击败了OpenAI最新模型,谷歌的Gemini Diffusion表现落后 [1] 新模型的技术突破 - Opus 4实现"自主编码近七小时",完成复杂项目部署 [4] - 模型从"助手"升级为"代理",能更精准执行指令并提升记忆能力,采用类似文件系统的机制追踪进度 [4] - 两款模型可在推理与工具调用间切换,支持同步使用多种工具如网页搜索和代码测试 [5] 行业竞争与安全标准 - Anthropic视AI发展为"向巅峰进发的竞赛",强调以安全方式推动技术进步 [5] - Claude 4 Opus采用严格安全协议,遵循《负责任扩展政策》(RSP),确保不部署可能引发灾难性风险的模型 [5] - 新模型按ASL-3标准推出,强化防范滥用措施,但无需最高等级ASL-4保护 [6] 模型透明度与行业对比 - Anthropic将同步发布Opus 4和Sonnet 4的模型卡片,提供能力及安全评估详情 [7] - OpenAI和谷歌近期因延迟或简化模型卡片发布受到批评 [7]
谷歌 I/O 大会:AI 从技术前沿到商业生态的验证
华泰证券· 2025-05-25 13:25
报告行业投资评级 - 增持(维持) [6] 报告的核心观点 - 谷歌 I/O 大会对行业启示为 AI 搜索触发场景更浅层、Gemini 应用及模型覆盖率向好、生态整合力加强、商业化路径加快 [1] - 谷歌本次 I/O 大会核心是在搜索生态中让 AI 触发场景更浅层广泛,以重新夺回市场份额 [2] - 谷歌以 Gemini 为核心推进 AI 原生及 Agent 项目并融入应用生态,证明其具备从 AI 研究前沿落实到场景的工作链条 [3] - 谷歌凭借多模态和推理能力提升基础模型,支持 Veo 3 和 Imagen 4 的 Flow 或在内容创作者中初见商业化成效 [4] 根据相关目录分别进行总结 AI 搜索 - Al Mode 全面上线美国用户,支持个性化搜索结果、复杂数据可视化、购物体验整合等功能,管理层认为其将成搜索领域下一代交互范式 [1][2] - Al Overviews 覆盖 200 多个国家和地区,支持 40 多种语言,新增多种语言支持 [7] - Google Lens 年内使用次数超千亿次,同比增长 65%,引入 Search Live 可对话和读取摄像头内容 [2][7] 基础模型 - Gemini 2.5 Pro 支持原生音频输出,嵌入多个 AI IDE 工具,推出增强推理模式 Deep Think,引入 LeamLM 模型 [4][7] - Gemini 2.5 Flash Preview 在编程和复杂推理任务上表现更强,针对速度和效率优化 [7] - Veo 3 支持原生音频生成,在多方面实现突破,新增角色和摄像机控制功能,已在部分平台提供 [4][7] - Imagen 4 支持 2K 分辨率及高保真图像生成,升级版速度提升 10 倍,适配多场景,排版和文本渲染能力优化 [4][7] - Gemini Diffusion 生成速度为 2.5 Flash 的 5 倍,具备并行生成及迭代修正能力 [4][7] - Lyria RealTime 是实验性交互式音乐生成模型,可通过 Gemini API 或 Google AI Studio 使用 [7] AI Agent - Gemini Live(Project Astra)源自 Deepmind 团队,具备多种能力,将在 Android 和 iOS 全面上线,未来在无障碍应用场景扩展 [3][7] - Project Marina 是通用 Agent 交互系统,计算机使用能力已引入相关平台,预计 Q3 广泛向开发者推出,Gemini 将引入 Agent Mode,仍在试验阶段 [3][7] - Beam(Project Starline)是 AI 驱动的 3D 视频通话平台,预计今年向测试用户交付,核心技术将下沉至 Google Meet [3][7] Android XR - 谷歌与三星等合作打造智能眼镜,集成 Gemini 后具备多种功能 [4][7] - 展示两款基于 Android XR 的第三方设备,分别为三星的 Project Moohan 和 Xreal 的 Project Aura [4][7]
比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性
机器之心· 2025-05-22 08:46
核心观点 - 大型语言模型在多模态任务中面临架构统一性与后训练方法的挑战,传统自回归架构存在跨模态协同效率低下问题 [1] - Gemini Diffusion首次验证扩散模型在文本建模领域的潜力 [1] - MMaDA作为首个系统性探索扩散架构的多模态基础模型,通过三项核心技术突破实现文本推理、多模态理解与图像生成的统一建模 [1] 模型性能 - 文本推理:MMLU准确率68.4%,超越LLaMA-3-8B、Qwen2-7B、LLaDA-8B [7] - 多模态理解:POPE(86.1 vs 85.9)、VQAv2(76.7 vs 78.5)与专用模型持平 [7] - 图像生成:CLIP Score达32.46,较SDXL、Janus提升显著,文化知识生成任务准确率提升56% [7] 技术突破 - 统一扩散架构:将文本与图像生成统一到扩散框架中,消除传统混合架构复杂性 [15] - 混合长链思维微调:解决复杂任务冷启动问题,提出跨模态混合CoT微调策略 [15] - 统一推理格式:定义特殊标记结构强制模型输出跨模态推理步骤 [18] - 统一策略梯度优化:UniGRPO算法使奖励值稳定上升,收敛速度提升40% [19][21] 开源信息 - 已开源训练、推理、MMaDA-8B-Base权重和线上Demo [4] - 后续将开源MMaDA-8B-MixCoT和MMaDA-8B-Max权重 [4] - 论文、代码、模型和Demo地址已公开 [6] 跨任务协同 - 在混合训练阶段(130K-200K步),文本推理与图像生成指标同步上升 [9] - 扩散模型无需额外微调即可泛化到补全与外推任务 [11] - 支持文本补全、视觉问答补全和图像补全三类跨模态任务 [14]