Workflow
预训练
icon
搜索文档
离开OpenAI后,苏茨克维1.5小时长谈:AGI最快5年实现
36氪· 2025-11-27 05:43
当前AI发展阶段的评估 - AI技术已实现但经济影响尚不显著,投资巨大但日常体验未发生根本改变[3] - 模型在评估测试中表现出色但实际应用效果和经济贡献存在明显滞后[4] - 模型能力存在"锯齿状"落差,常犯循环性低级错误,泛化能力差[5][6] AI模型训练与性能瓶颈 - 单纯堆数据与算力的"规模化"路径已见顶,预训练数据即将耗尽[5][17] - 强化学习训练使模型过于专注和狭隘,缺乏"意识"导致基础任务表现不佳[4] - 训练环境设计变量过多,可能无意中优化评估目标而忽视实际应用需求[6] - 模型像"应试专家",通过海量题目填鸭式训练成为答题高手但难以灵活应用知识[7] 价值函数与AI学习效率 - 价值函数被类比为AI的"情绪系统",可引导AI更高效、鲁棒地学习[5][14] - 价值函数能提供中间步骤反馈,加快学习过程,而非仅依赖最终结果评估[14] - 人类拥有内在价值感知,能快速自我纠正,而模型缺乏此类机制[25] - 情绪作为相对简单的价值函数机制,在进化中硬编码且至今有效服务人类[16] 行业发展阶段与范式转变 - 行业从2020-2025年的"规模化时代"回归到"研究时代",但拥有更强大计算资源[18] - 规模化"吸走了房间里的所有氧气",导致创新想法稀缺,公司数量远超新想法数量[28] - 强化学习正成为新的规模化目标,其计算投入可能已超过预训练[19] - 研究所需计算资源并非绝对最大规模,像Transformer最初仅在8-64个GPU上训练[29] SSI公司战略与差异化 - SSI已筹集30亿美元资金,专注于研究"直通超级智能"路径[5][30] - 公司不急于商业化,专注研究,与其他公司将资源用于推理和产品开发形成对比[30][32] - 采用不同的技术方法,主要区别在于技术路径,认为最终策略会逐渐收敛[52][53] - 计划可能调整,考虑渐进式部署,让AI在全球发挥作用并影响世界[33][34] 泛化能力与样本效率 - 模型泛化能力远差于人类,是当前最根本的问题之一[20][21] - 人类样本效率高可能与进化赋予的视觉、听觉和运动等先验知识有关[21][22] - 人类在语言、数学和编程领域的学习优势表明存在更高效的基础学习机制[23] - 人类学习更具无监督特性,所需数据样本少,过程更灵活和鲁棒[24][25] 超级智能发展路径与影响 - 人类级别AGI预计在5到20年内实现[5][55] - 超级智能可能表现为"超级智能的15岁少年",非常聪明但知识有限,通过部署持续学习[36] - 达到关键点后,广泛部署将引发快速经济增长,不同国家政策将导致增长差异[37][38] - 可能出现多个超级智能体,而非单一系统,形成专业化分工[58][59] AI对齐与安全策略 - 倡导构建"关心有情生命的AI",认为这比对仅关心人类更为稳健[41][45] - 随着AI能力提升,行业处理安全问题的方式将发生变化,公司会变得更加警觉[40][41] - 对齐策略最终会趋同,包括可靠沟通、确保最早超级智能是对齐的等目标[53][57] - 长期均衡可能通过人类与AI融合实现,例如通过改进版Neuralink成为半AI生物[47] 模型多样化与自我博弈 - 当前模型同质化严重,主要因预训练数据相似,强化学习是分化开始[61][62] - 自我博弈可通过计算而非数据创建模型,激励方法多样性[62][63] - 智能体间竞争自然促使差异化思考,是打破"模型同质化"的路径之一[5][63] - 完全复制相同思维收益递减,真正需要的是具有不同想法的智能体[60] 研究方法与理念 - 好研究应兼具简洁、优雅与对大脑机制的正确借鉴[5][64] - 研究需要"自上而下的信念",在实验结果与信念相悖时坚持方向[66] - AI应该具有特定"美学",思考人类本质但必须以正确方式理解[64] - 分布式表示、从经验中学习等概念受到大脑运作方式的启发[65]
llya最新判断:Scaling Laws逼近极限,AI暴力美学终结
36氪· 2025-11-26 08:46
AI行业技术路径转向 - 规模化法则正在接近极限,强化学习的算力消耗巨大但并不能算作真正的扩展,扩展与浪费算力之间的界线变得模糊[1] - 行业正在从"规模驱动"重新回到"研究驱动",科研需要正确的问题和新的方法而非绝对最多的算力[2] - 预训练提供了一套可复用配方:准备足够的数据、算力和能撑住规模的模型结构,性能就会持续上升,但预训练终究会耗尽数据[27] 模型性能与泛化能力 - 当前模型在评估中表现出色但经济影响滞后,存在评估性能与实际现实世界性能之间的脱节[11] - 模型更像投入一万小时练习的算法竞赛选手,虽然训练良好但未必能推广到其他领域[14][15] - 人类学习速度快不是因为预装大量知识,而是因为进化内置了强大的通用学习机制[3][33] - 人类样本效率高的可能解释是进化赋予了我们少量但最有用的信息,对于视觉、听觉和运动能力有强大的先验[33] 公司战略与竞争格局 - 即使创新放缓,各公司依旧会取得显著进展并获得高额收入,差异化可能变得更难但"停滞"并不意味着"衰落"[2] - 规模化扼杀了所有创新空间,导致每个人都开始做同样的事情,公司数量远超创意数量[39] - SSI已经筹集了30亿美元,真正区别在于算力使用方式而非绝对规模,资源需要集中投入重要方向[42][44] - 随着人工智能能力提升,公司在战略协调方面会趋同,OpenAI和Anthropic已经在AI安全方面合作[63][78] 超级智能与社会影响 - 当AI足够强时,许多今天不存在的社会行为会出现,可能带来"全民高收入"并极大提升生产力[3][70] - 真正的风险在于人类可能逐渐从参与者变成旁观者,保持主体性的答案是与AI建立更深层耦合[3][71] - 超级智能最令人担忧的不是意图而是力量,即便目标是善意的,人类仍可能不喜欢实现目标的方式[3][67] - 如果模型被限定在某些领域,它们一样可以极其强大,可以拥有许多功能狭窄的超级智能[3][80] 技术方法与研究重点 - 价值函数能够提高强化学习效率,让系统在中途就能发出预警而不是等到终局才知道失败[22][31] - 预训练的主要优势是数据量庞大且无需费心考虑应该使用哪些数据,试图捕捉人们将世界投射到文本的过程[16] - 研究品味来自对简单而清晰信念的坚持,人工智能应该符合大脑的本质结构但要以正确方式理解大脑[4] - 自博弈提供了一种仅使用计算资源而无需数据即可创建模型的方法,如果数据是最终瓶颈则非常有趣[83] 学习机制与进化启示 - 人类的价值判断情感是演化出来的底层代码,这种情感关键点是社会中正常运转的基石[24] - 进化赋予了我们高度抽象的社交欲望,让我们强烈在意别人看法并渴望获得社会认可,尽管这些现象从进化时间尺度看极其新近[72] - 人类具备一种对"好"与"坏"的内在感知能力,这种普遍感知在人类身上极其强大且稳定可靠[36] - 五岁孩子接触到的信息量非常有限,但认知能力已经足以胜任某些工作,表明人类拥有强大的通用学习机制[33]
Ilya重磅发声:Scaling时代终结,自曝不再感受AGI
36氪· 2025-11-26 06:54
当前AI技术路线评估 - 当前模型持续改进但无法实现AGI,现有技术路线后劲不足[3] - 真正可行的AGI系统架构至今尚未掌握构建方法[3] - 模型泛化能力远逊于人类,即使使用所有编程竞赛题目训练仍无法形成真正的解题直觉[3] - 评测结果与现实应用出现明显脱节,评估分数光鲜但实际性能滞后[5][8] - RL训练最终演变为对评估指标的过度优化,真正的奖励机制黑客是设计基准测试的科研人员[3][6] Scaling Law与预训练瓶颈 - 预训练时代已终结,行业正从Scaling时代走向研究时代[1][13][14] - 预训练最大突破是Scaling配方好用,但数据有限总有用光之时[12] - Scaling把行业创新空气吸干,导致公司数量远远多于点子数量[15] - 未来创新将回归小而美实验,类似AlexNet用两张GPU、Transformer用8-64块GPU的模式[16][18] - 已见证从预训练Scaling切换到RL Scaling,但RL非常烧算力且效率低[15] 模型泛化能力与学习机制 - 人类学习能力来自自进化硬编码的价值函数,情绪是决策系统一部分而非噪音[10] - 当前AI的价值函数训练方式脆弱粗糙,还不是内置的[11] - 预训练优势在于数据量大且无需刻意挑选,具有天然高度真实性[8] - RL训练让模型目标变得单一狭隘,削弱全局感知能力[5] - 模型在基础任务上表现不佳,如在修复bug时会反复犯同样错误[5] AGI/ASI发展路径与影响 - ASI可能在5-20年内降临,实现人类级别学习能力后变得超越人类[3][51] - 超级智能不是完成形态心智,而是能够学会做每一项工作的心智[29][30] - 部署将包含通过试错学习时期,是过程而非直接投放最终成品[29] - 一旦实现这种学习算法,可能会迎来一波快速的经济增长[32] - AGI与AI的本质区别在于力量,当力量很大时会发生难以想象的事情[38][40] 行业趋势与安全考量 - 随着AI变得更强大,政府和公众会产生做点什么的愿望,公司将更加充满危机感[43][44] - 竞争激烈的公司开始在AI安全方面合作,OpenAI和Anthropic已迈出第一步[44] - 构建稳健对齐、专门关爱有感知生命的AI比仅关爱人类生命的AI更容易[48][49] - 渐进主义将是任何AGI计划与生俱来的组成部分,逐步发布可分散冲击力[19]
The Information:承认谷歌超越!奥特曼内部信曝光:OpenAI领先优势缩小,预警“艰难时刻”到来
美股IPO· 2025-11-21 11:42
公司竞争态势 - OpenAI首席执行官在内部备忘录中承认,谷歌在人工智能领域的最新进展可能给公司带来一些暂时的经济逆风 [1][3] - 谷歌本周推出的Gemini模型在自动化网站和产品设计相关任务以及编程方面表现出色,而编程能力是AI公司最重要的收入驱动因素之一 [3] - 成立仅四年的Anthropic今年通过向开发者和企业销售AI所产生的收入可能超过OpenAI [4] - 尽管ChatGPT在使用量和收入上仍显著领先谷歌的Gemini聊天机器人,但差距正在缩小 [4][9] 技术挑战与应对 - 谷歌在AI预训练领域取得突破,该领域是开发大语言模型的第一阶段,而OpenAI一度难以在此取得进展 [5][7] - OpenAI在推出GPT-5模型前发现,预训练期间对模型所做的调整在模型规模增长后停止作用,表明需要解决预训练问题以赶上谷歌 [7] - 这些挑战促使OpenAI更多地转向一种名为推理模型的新型AI,该模型使用更多处理能力来产生更好的答案 [6] - OpenAI计划在未来几个月推出代号为Shallotpeat的新大语言模型,旨在修复在预训练过程中遇到的bug [7] 财务状况与资本压力 - OpenAI是历史上增长最快的企业之一,从2022年几乎零收入增长到今年预计的130亿美元 [9] - 公司在追求人类级别AI的过程中,预计未来几年将消耗超过1000亿美元,同时需要花费数千亿美元租用服务器,可能需要筹集同等规模的额外资本 [9] - 谷歌估值3.5万亿美元,仅在过去四个季度就产生了超过700亿美元的自由现金流,财务实力雄厚 [9] - OpenAI与谷歌等成熟企业之间的财务差距促使公开市场投资者质疑其收入增长是否足以消除对未来现金消耗的担忧 [10] 长期战略与定位 - OpenAI首席执行官表示希望专注于技术上非常雄心勃勃的押注,即使这意味着公司在当前体制下会暂时落后 [1][11] - 公司的长期押注包括在使用AI生成数据训练新AI方面取得进展,以及后训练技术如强化学习 [11] - 公司致力于同时成为最好的研究实验室、最好的AI基础设施公司和最好的AI平台/产品公司,并专注于实现超级智能 [11] - 公司首席执行官强调需要顶住短期竞争压力,并认为公司已积累足够实力来承受竞争对手推出的优秀模型 [11]
OpenAI元老Karpathy 泼了盆冷水:智能体离“能干活”,还差十年
36氪· 2025-10-21 12:42
智能体发展时间框架 - 智能体距离真正成熟还需要十年时间,而非明年爆发 [2] - 当前智能体如Claude、Codex尚不成熟,缺乏多模态能力、持续学习能力和完整认知结构,无法胜任实际工作 [2] - 智能体发展的核心瓶颈在于认知组件不完整,需要系统性工程突破而非单纯计算力提升 [2] AI训练范式与架构革新 - 强化学习存在根本缺陷,其试错学习机制与人类学习方式背道而驰 [11] - 未来AI的关键方向是去知识化,保留核心算法让模型具备自我成长能力 [4] - 需要重建认知结构,当前Transformer仅相当于大脑皮层,缺乏情绪、空间记忆等关键组件 [4] - 真正的智能体需要突破上下文窗口限制,构建长期记忆系统 [4] - 未来认知核心可能仅需十亿参数,关键在于从低质量数据中提取高质量认知结构 [34][35][36] 代码生成能力现状 - 大语言模型在代码生成上存在显著认知缺陷,远未达到自动化AI工程程度 [6] - 模型在结构化、精细化工程设计上表现无力,容易产生幻觉 [7] - LLM训练于常规代码,倾向于防御性编程,无法理解用户架构意图 [7] - 模型有效应用场景包括语言翻译、非关键任务编程和自动补全加速 [9] - 当前LLM编程工具是连续演化的结果,而非突破性革命 [10] AGI落地路径与经济影响 - AGI定义为能完成任何经济价值任务且不逊于人类的系统,但首先应用于数字知识型工作 [38] - AGI将渐进式嵌入经济,不会瞬间颠覆世界,预计占GDP的2% [39][50] - 未来工作模式将是80%由Agent执行加20%人类监督的滑动式自主性 [40] - 代码是LLM最理想的落地沙盒,因其高度结构化、基础设施完备且经济回报明确 [42][43][44] - 部署路径从最结构化任务开始,逐步向上下游迁移,最终重构工作定义 [48][49] 人类学习机制与AI启示 - 人类学习通过思考、发问和讨论构建结构性理解,而非简单预测下一个token [22] - 模型存在悄无声息的崩溃现象,缺乏认知多样性,丧失探索能力 [26] - 做梦可能是进化出的反过拟合机制,通过随机游走维持认知灵活性 [28][29] - 人类记忆差是学习能力的前提,迫使抽象和模式提取,而模型记忆过多缺乏抽象 [32] - 未来AI需要构建梦境机制维持高熵状态,避免陷入死亡回路 [30][31] 自动驾驶技术挑战 - 自动驾驶是不能出错的AI任务,需要将错误概率压到接近零,而非功能完善80%就能上线 [59] - 当前最大障碍是常识推理,涉及社会理解而不仅是计算机视觉任务 [60] - 大语言模型是概率引擎而非保障引擎,不能承诺永远不出错 [61] - 自动驾驶需要全社会协同系统,包括监管、基础设施和伦理判断 [61] - 落地过程将是缓慢、渐进、区域化的系统替代,从高速公路物流开始扩展 [62][63] 智能演化与文化传承 - 人类智能是极端罕见的生物现象,智能不是演化必然终点 [51][52] - 人类独特性在于通过语言、模仿和教育跨代复制知识,绕开基因瓶颈 [53][54][56] - AI训练是为了让其成为文化的下一个节点,扩展文明操作系统 [57][58] - 文化复制可在一天内完成更新,相比基因演化的百万年是一大捷径 [55]
喝点VC|YC对谈Anthropic预训练负责人:预训练团队也要考虑推理问题,如何平衡预训练和后训练仍在早期探索阶段
Z Potentials· 2025-10-16 03:03
预训练核心策略 - 预训练的核心目标是推动损失函数下降,这是模型开发中持续追求的唯一目标[5] - 自回归语言建模(预测下一个词)已成为主流预训练方法,其优势在于能从互联网海量无标签数据中自动生成密集的学习信号,并且其损失函数能直接反映模型生成文本的核心能力[8][9] - 扩展定律表明,模型性能(损失值下降)与计算资源、数据量或模型参数的增加之间存在可预测的幂律关系,这构成了技术商业正反馈循环的基础:更好的模型带来产品收入,进而投入更多算力训练更优模型[9][10] - 在模型架构选择上,只要不出现极端配置错误,持续增加算力对模型性能的提升作用远大于超参数微调带来的边际效益[11][13] 大规模工程挑战 - 大规模模型训练面临复杂的工程难题,需要将计算任务在成千上万个GPU上进行分布式并行,涉及数据并行、流水线并行和模型并行等多种模式的极致优化[18][19] - 硬件层面的极限调试至关重要,包括需要理解芯片的物理布局、机房网络延迟,甚至通过聚类算法来推测和解决由硬件故障或连接问题导致的训练瓶颈[17][28] - 随着算力规模从单个机房扩展到整个园区,系统可靠性面临严峻挑战,最小的硬件故障(如单块GPU损坏、供电波动或电容不足)都可能导致耗时数月的训练任务崩溃[28][29] - 技术栈的复杂性要求团队具备全栈调试能力,问题可能出现在从高级机器学习动态到底层网络协议或芯片架构的任何层面,而能跨越多层级进行问题诊断的人才非常稀缺[66] 数据与评估瓶颈 - 高质量数据的可用性是一个核心挑战,尽管互联网数据量巨大,但其有用部分的规模增长可能慢于算力增长,且数据的质量与数量需要权衡[35][36] - 使用AI模型生成的数据来训练新模型存在根本性风险:新模型只会学习到原始模型的分布,如果原始分布存在错误,新模型将无法接近真实知识,这可能导致性能瓶颈或模式崩塌[43][44] - 损失函数仍然是评估预训练效果最直接有效的指标,理想的评估标准应同时满足三点:反映真实关心目标、低噪声、快速易用,其中明确“真实关心目标”是最困难的部分[47][48] - 对于AGI级别的评估,需要设计能捕捉复杂智能行为的任务(如模拟医生与患者的长时间对话),但这类评估通常噪声高、执行慢,难以直接用于快速迭代[50] 对齐与组织管理 - AI对齐的核心问题是让模型的目标与人类目标一致,尤其是在模型比人类更聪明时,当前主要通过后训练(如强化学习)快速迭代调整模型行为,而非在预训练阶段直接嵌入[51][56] - 在组织设计上,需要避免因团队分工(如预训练团队与后训练团队)而导致科学决策被团队本位主义绑架,应保持合作以共同产出最优模型[34][35] - 团队构成以工程能力为核心,最需要的是能解决极难工程问题、实现大规模系统正确性的工程师,而非仅专注于发表论文的研究人员[67][68] - 预训练团队需要与推理团队紧密合作,在模型设计阶段就考虑推理效率,避免模型过于庞大或引入不必要的通信步骤影响最终用户体验和服务的经济性[70][71][73] 未来发展方向 - 当前AI研究最大的瓶颈之一是计算资源受限,而非算法突破,这限制了模型训练和实验迭代的速度[5][74] - 未来可能出现范式转变,例如向强化学习倾斜更多算力,但最令人担忧的风险是难以察觉的代码错误,这些细微的bug可能使耗时数月的训练任务失效且难以排查[62][63] - 对于创业公司,机会在于利用当前模型智能,专注于能快速落地的具体应用,但需避免构建过于复杂的中间层(脚手架),因为下一代更强大的模型可能使其变得多余[76] - 行业存在对专业化工具和服务的需求,例如能精确检测芯片计算错误的服务,或能帮助快速扩展AI团队、管理组织问题的解决方案[77]
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 04:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
迎接AI——理性看待变革,积极布局未来
创业邦· 2025-07-07 10:27
AI技术发展现状与趋势 - 大模型进入能力边界与不确定性并存阶段,单纯追逐参数规模意义有限,需与产品深度融合创造可持续场景价值[1][5] - 模型核心能力源自预训练而非后训练,高质量训练数据已大部分耗尽,模型解析能力提升将趋于平稳[6][7] - 模型不具备真正智能且存在"幻觉"问题,需理解其不确定性特点才能有效融入产品[5] - 模型结构化数据处理能力增强,可能替代传统数据库功能[10] AI应用落地实践 - APUS在代码生成领域实现70%代码由模型生成,旧代码维护33%由模型辅助完成[11] - 设计团队规模缩减85%,AI可基于爆量素材日生成数千个同类素材[12] - 圣经类产品升级为多媒体形式并引入AI牧师功能,覆盖美国10%人口[13] - 医疗大模型已在三甲医院应用,累计服务超100万人,实现初步诊断与分诊[14] - 开发具备情报分析能力的Agent系统,应用于商业与政治情报领域[15] 企业AI战略与组织变革 - 企业常见误区是高估AI短期价值而低估长期潜力,需围绕"为什么做-做什么-怎么做"构建战略路径[19] - AI不仅是生产资料更是生产力,需重新定义生产关系以适配新型生产力[23] - 组织需培养复合型AI项目负责人,需同时理解AI原理、知识流转机制和业务细节[22] - 生产力释放后需重新规划人员技能方向和组织架构,如客服岗位裁减80%后团队结构调整[23] CEO实施AI的建议 - 从上而下定义AI应用场景,从公司P&L价值和长期战略角度思考[26] - 从下而上推动文化变革,通过细微效率提升促进组织对AI的理解[26] - 从后往前做建设,以终为始明确场景再倒推技术需求[26] - 避免在大模型主航道上构建壁垒,否则会被快速迭代的技术碾压[27] - CEO需明确适合引入AI的业务环节,避免空喊口号[27] - 面对AI要巧思而非硬来,发挥人类创造力找到适配应用方式[28] 行业展望 - AI将如同移动互联网深刻影响每家企业业务形态,需全力以赴拥抱[29] - 全球大模型企业已从两年前的众多竞争者缩减至不超过10家具备持续发展能力[27]
硅谷模型大厂变化:对预训练和Capex的影响?
2025-07-02 15:49
纪要涉及的行业和公司 - **行业**:AI 行业、大模型领域 - **公司**:Meta、OpenAI、谷歌、Anthropic、Deepseek、Amazon、微软、Xia、Oracle 纪要提到的核心观点和论据 - **硅谷模型大厂变化及影响**:Meta 积极挖角,收购 Skill AI 并加速集群建设,推动下一代模型发展;OpenAI 核心团队成员流失,促使其加快发展;2025 年下半年科技公司回归预训练阶段,Meta 侧重数据,谷歌优化架构,OpenAI 坚持大集群战略;近期硅谷变化加快全球大模型 AI 演绎节奏,美国将进入新一轮大模型迭代,中美大模型差距或重新拉大,创新将扩散到应用端和端侧 [1][2][29] - **美国 AI 领域军备竞赛特点**:竞争激烈程度超预期,Meta 挖人加速进程,提前增加 AI 算力需求;OpenAI 计划 2027 年完成百万卡集群并签 300 亿美元订单,Meta 可能成第三家拥有百万卡集群企业,AI 产业链成投资重点 [3] - **Meta 相关情况** - **挖人背景**:LLAMA4 模型表现不佳,为提升竞争力推动下一代大模型发展并强化全球市场地位 [6] - **模型优化侧重点**:利用庞大社交数据优势,采用小参数模型降低运行成本,通过开源策略力图在开源领域保持最强位置,但 Deepseek 在通缩方面更出色,Meta 推出新架构效果不理想 [8] - **丢失开源第一宝座后措施**:扎克伯格焦虑,采取换人和重新设计模型架构措施,通过收购和挖人加强团队实力,挖人集中在多模态处理等核心领域 [9] - **数据方面**:拥有庞大用户数据,但需引入技术筛选有效信息,收购 Skill AI 解决此问题 [14] - **AI 领域布局**:AI 部门更名 MSL,由 Alex 王任首席 AI 主管,乐坤阳是重要人物 [14] - **发展历程**:可追溯到 2013 年,成立 FAIR 部门后更名 MSL,早期集中于视觉技术,招募乐坤阳主导 [15] - **技术团队实力**:目前缺乏大模型专家,但扎克伯格有管理和技术吸收能力,未来需挖掘更多人才提升竞争力 [19] - **大模型领域战略**:招聘大量人才弥补技术不足,花费几亿美金,预计加快集群建设,推动美国进入下一代模型预训练阶段 [26] - **数据策略**:收购 Skill AI 筛选有效数据弥补参数量小的问题,需提高数据质量并结合其他变量优化,加快集群建设提供计算资源支持 [31] - **其他公司情况** - **OpenAI**:O1 模型核心团队成员流失,采取大集群战略,预计 2027 年实现百万卡目标,2027 年与 Oracle 签 300 亿美元订单用于建设星际之门百万卡集群 [12][33][34] - **谷歌**:明确自身定位,暂时不进行大型模型训练,专注优化模型架构 [27][29] - **Xia**:计划 2026 年底完成百万卡集群,目前已达 35 万卡,今年底预计超 50 万卡 [33] - **马斯克**:融资约 100 亿美金用于购买卡片和建设数据中心 [30] - **模型相关情况** - **GROK4 模型**:训练集群预计达 30 万张卡,相比 GROK3 提升幅度不明显 [37] - **GPT5 模型**:是上一代架构,侧重模型参数量及算法优化创新点,今年四季度前后可能展示能力 [37] 其他重要但可能被忽略的内容 - **AI 人才薪酬**:AI 人才薪酬大幅上涨,顶尖人才年薪高达一亿美元,显示科技公司对 AI 人才争夺白热化 [1] - **Palm 模型**:基于 Pathways 架构,是大语言模型第二代,定义了未来 AGI 发展方向,后演变成 Gemini 模型 [13] - **AI 产业演化路径**:过去十年从 CNN 到 RNN,再到 Transformer 架构,部分业内人士认为大语言模型不是通往 AGI 的正确路径 [21] - **全球大模型迭代公司表现**:OpenAI、Anthropic、XAI 在第一阶段竞争存活进入第二轮,第二轮更注重技术实力和创新能力,OpenAI 和 XAI 被认为是“卷王”,Anthropic 较为收敛 [22] - **创始人作用**:OpenAI、XAI 和 Meta 创始人处于领导位置,决策果断、目标明确,推动公司发展 [23] - **下一代模型训练准备**:需要充分人力资源和强大算力支持,关注 CAPEX 资本开支,算力是关键瓶颈 [39] - **新一轮 AI 创新产业影响**:从算力链开始扩散,调整推理需求、训练需求和创新节奏,影响公司发展节奏和相互关系,需调整策略适应行业动态 [40]
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
量子位· 2025-06-11 08:07
端到端多模态GUI智能体框架GUI-Reflection 核心观点 - 南洋理工大学MMLab团队提出GUI-Reflection框架,通过"反思与纠错"机制系统性提升多模态GUI智能体的任务执行能力,模拟人类"犯错→反思→重试"的认知闭环[1][6][27] - 框架覆盖预训练、离线监督微调、在线训练三阶段,分别实现反思能力认知启发、行为习得与交互强化[6][11][12] - 实验证明引入反思机制后,8B参数模型在AndroidWorld基准任务成功率提升至34.5%,接近闭源大模型水平[19][22] 技术实现 1 GUI预训练阶段 - 首创GUI-Reflection Task Suite任务套件,分解反思行为为三类核心任务:动作验证(Action Verification)、动作回滚(Action Reversal)、基于错误的再尝试(Mistake-Informed Reattempt)[7][14] - 预训练模型在反思任务中表现显著提升,8B参数模型Action Verification准确率达87.56%,超越Gemini-2.5-Pro的88.22%[16][17] 2 离线监督微调阶段 - 设计自动化数据管道,通过目标扰动生成错误行为(修改原始任务目标)和行为插入模拟失误(向成功轨迹插入无效操作)构建带错轨迹[8][9] - 无需人工标注实现"反思注入",使模型在ScreenSpotv2任务中第三次尝试准确率提升3.62个百分点[17][10] 3 在线训练阶段 - 搭建分布式安卓模拟环境,覆盖11个APP和215个任务模板,支持高并发交互[12] - 采用迭代式反思反馈调优算法,模型通过多轮训练逐步提升容错率,InternVL3-8B模型第三次尝试准确率较初始提升3.71个百分点[17][18] 性能表现 - 在相同8B参数规模下,引入反思机制的GUI-Pretrain-Ref模型较基线GUI-Pretrain模型在Action Reversal任务准确率提升53.1个百分点(93.81% vs 40.71%)[17] - 结合在线反思调优后,模型任务成功率从基线14.58%提升至34.72%,增幅达137%[19] - 在端到端模型对比中,GUI-Reflection-8B以34.5%成功率超越Aguvis-72B(26.1%)和OS-Gensis-8B(16.9%)[22] 行业意义 - 突破当前GUI智能体依赖完美离线演示数据的局限,首次实现持续自我优化的能力[1][20] - 验证小规模模型通过系统化反思机制设计可达到商用级性能,为开源生态提供新范式[16][19] - 建立多模态GUI智能体标准化评估体系,包含动作验证、回滚等量化指标[14][17]