图像生成模型
搜索文档
前OpenAI创始人称:大模型将从“堆芯片”转向“拼研究”
阿尔法工场研究院· 2025-11-27 00:07
AI行业发展模式转变 - 行业此前聚焦于通过海量芯片部署或获取大规模训练数据来实现算力扩张 [3] - 通过堆算力提升AI智能水平的模式已经逼近极限 [2][6] - 科技企业已投入数千亿美元采购GPU并建设数据中心以提升AI工具性能 [5] 对算力扩张路径的质疑 - OpenAI联合创始人伊利亚·苏茨克维尔对“算力扩张是AI进步核心路径”的传统共识提出质疑 [5] - 过去约五年间,算力扩张模式确实产出了具有影响力的成果,对企业而言是一种简单且风险极低的资源投入方式 [6] - 数据是有限的,而各类机构已拥有海量算力,单纯将规模扩大100倍并不会带来彻底改变 [6] 未来发展方向 - 行业需要重返研究时代,但这次有了强大的计算机加持 [4][5][6] - 需要找到高效利用现有算力的有效途径,研究将起到关键作用 [4][6][7] - 研究重点应转向让模型具备与人类相当的泛化能力,即仅通过少量信息或示例就能完成学习的能力 [7] - 算力仍是研究的必要条件,并在所有主流机构遵循同一范式时可能成为核心差异化优势之一 [6]
美国科技股创六个月来最大涨幅
观察者网· 2025-11-25 00:25
"股市对政策预期转变反应热烈,"Visdom投资集团的迈克·齐格蒙特表示,"当前整体环境对多头极为有 利。市场消息面温和,政策制定者表态支持市场,关于关税的讨论则已悄然平息。" 在此之前,由于不少投资者担忧市场对人工智能相关企业估值过高,以科技股为代表的美股市场在上周 经历了剧烈震荡。标普500指数较10月底创下的历史高点下跌2.7%,许多投资者选择削减对此前经历了 暴涨的科技股的持仓。 本文系观察者网独家稿件,未经授权,不得转载。 据英国《金融时报》当地时间24日报道,由于市场对美联储下月会进行降息的预期不断增强,许多投资 者选择在近期抛售股票后又在价格低位再次买入。受此影响,美国科技股当天创下了六个月来的最大单 日涨幅。纳斯达克综合指数上涨2.7%,基准标普500指数上涨1.6%。 市场各股中,芯片制造商博通股价大涨11.1%,谷歌母公司Alphabet股价攀升6.3%创历史新高,其新推 出的图像生成模型获得积极评价。马斯克旗下特斯拉股价上涨6.8%。 美联储理事克里斯托弗·沃勒当天也表态支持12月降息,称通胀上升证据不足且劳动力市场"持续疲 软",这被投资者们普遍视为积极信号。此前,纽约联储主席约翰·威 ...
受降息预期推动,美国科技股创六个月来最大涨幅反弹
搜狐财经· 2025-11-25 00:18
市场整体表现 - 纳斯达克综合指数单日上涨2.7%,创下六个月来最大单日涨幅 [1] - 标普500指数单日上涨1.6% [1] - 市场此前经历剧烈震荡,标普500指数较10月底历史高点下跌2.7% [1] 主要公司表现 - 芯片制造商博通股价单日大幅上涨11.1% [1] - 谷歌母公司Alphabet股价单日攀升6.3%,创下历史新高 [1] - 特斯拉股价单日上涨6.8% [1] 市场驱动因素 - 投资者对美联储下月降息的预期不断增强,推动市场情绪转向积极 [1] - 美联储理事表态支持12月降息,称通胀上升证据不足且劳动力市场持续疲软 [1] - 纽约联储主席已暗示支持美联储在下月会议上降息25个基点 [1] - 谷歌新推出的图像生成模型获得积极评价,对公司股价形成支撑 [1] - 投资者此前因担忧人工智能相关企业估值过高而削减科技股持仓 [1]
Diffusion Model扩散模型一文尽览!
自动驾驶之心· 2025-09-13 16:04
扩散模型数学原理 朗之万采样与扩散模型基础 - 扩散模型本质是通过神经网络学习解常微分方程/随机微分方程的过程,核心是从随机噪声逐步生成目标数据分布[3] - 图像生成任务可视为从高维概率分布采样,朗之万采样通过分数函数(概率密度梯度)将随机噪声推向高概率区域[11] - 噪声项在朗之万采样中必不可少:无噪声会导致收敛到局部极大值(模式搜索),有噪声才能确保采样多样性并探索多模态分布[11][14][26] - 网络负责生成宏观结构和方向,噪声提供高频细节和纹理,两者结合产生真实感图像[11][26] 分数匹配与训练目标 - 通过高斯核密度估计(KDE)将离散分布连续化,获得可求梯度的分数函数:∇ₓlog pσ(x) = (μ_w(x) - x)/σ² [41][46][53] - 训练目标分为分数匹配和噪声预测两种等价形式:分数匹配直接预测梯度,噪声预测则估计添加的噪声,关系为 sθ(x_t, t) ≈ -(1/σ_t) · εθ(x_t, t) [64][65][66] - 方差爆炸(VE)和方差保持(VP)是两种主流噪声调度策略:VE让方差随时间递增最终变为高斯噪声,VP保持总方差不变[69][70] Flow Matching 框架 - Flow Matching 直接学习速度场而非分数函数,通过构造确定性流将先验分布传输到数据分布[144][145] - MeanFlow 学习平均速度场而非瞬时速度场,可实现一步生成(1-NFE),推理公式为 z₀ = z₁ - uθ(z₁, 0, 1) [105][107][111] - Rectified Flow 通过重流(reflow)技术拉直轨迹,使ODE可用单步欧拉求解,提升推理效率[94][97][98] - 与扩散模型对比:Flow Matching 不依赖高斯先验和边界分数,支持任意可采样分布[144][145] 分类器自由引导(CFG) - CFG 通过线性组合有条件和无条件预测增强控制效果:ū_t(x|y) = (1-w)u_t(x|∅) + wu_t(x|y),其中 w > 1 为引导尺度[179][183][184] - 训练时以概率 η 替换条件 y 为空集 ∅,统一学习有条件和无条件速度场[184][189] - 推导基于贝叶斯规则:∇log p(x|y) = ∇log p(x) + ∇log p(y|x),引导项放大分类器梯度[177][181][193] 概率流ODE统一框架 - 概率流ODE构建确定性生成路径:dX_t = [f(X_t,t) - ½g(t)²∇log p_t(X_t)] dt,其分布演化与SDE一致[148][158][164] - 分数匹配(SDE/ODE)和Flow Matching属同一家族,前者学分数再转速度,后者直接学速度场[148][151] - 扩散模型依赖高斯先验的原因:线性高斯SDE有闭式解,梯度易计算,且边界分数已知(∇log p₀(x) = -x)[133][134][143] 技术实现与优化 - 实现涉及雅可比向量积(JVP)计算,框架如Jax和Torch提供原生支持[115][122] - 损失函数设计避免EMA和stop_gradient,理论保证收敛性且训练稳定[120][121][125] - 采样效率通过平均速度场和直线轨迹优化,减少推理步数[98][105][111] 注:本文仅涉及扩散模型数学原理及算法框架,未包含风险提示、免责声明、评级规则等无关内容[3]
AI输出“偏见”,人类能否信任它的“三观”?
科技日报· 2025-07-17 01:25
AI偏见问题现状 - 大语言模型(LLM)传播全球刻板印象,包括性别歧视、文化偏见和语言不平等,并以看似权威的方式输出[1] - AI模型对刻板印象的再现具有差异化特征,在英语、阿拉伯语、西班牙语、印地语等语言环境中均表现出偏见[2] - 图像生成模型在输入"非洲村庄"时输出"茅草屋""赤脚孩童"等刻板印象图像,输入"欧洲科学家"时则清一色为白人男性形象[2] AI偏见的表现形式 - 语言模型有时会用伪科学或伪历史为刻板印象辩护,面对不常见刻板印象时会调动其他偏见进行回应[3] - 当关于刻板印象的提示是正面时,模型表现更差,更容易将偏见误当作客观事实表达[3] - AI系统在处理低资源语言(如斯瓦希里语、菲律宾语、马拉地语等)时表现远不及主流高资源语言,容易产生负面刻板印象[4] AI偏见的根源 - 当前大多数训练数据以英语和西方文化为核心,缺乏对非主流语言及其文化背景的深入理解[4] - 全球约有7000种语言,但只有不到5%在互联网中得到有效代表,导致AI研发在数据、人才、资源和权利方面存在结构性不公[4] - 最受欢迎的聊天机器人大多由美国公司开发,训练数据以英语为主,深受西方文化偏见影响[5] 解决AI偏见的措施 - 斯坦福大学建议加强对低资源语言与文化的AI投资,建立本地语言语料库,让AI能真正理解这些语言背后的语义与文化背景[6] - Hugging Face团队开发的SHADES数据集成为多家公司检测和纠正AI模型文化偏见的重要工具[6] - 欧盟《AI法案》要求"高风险"AI系统必须在投放前后进行合规评估,包括对非歧视性与基本权利影响的审查[6]