大语言模型

搜索文档
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
量子位· 2025-07-11 04:00
强化学习与奖励模型 - 强化学习已成为AI迈向AGI进程中的关键技术节点,改变了大语言模型的后训练范式 [1] - 奖励模型的设计与训练是制约后训练效果和模型能力提升的瓶颈,缺乏系统性的预训练和扩展方法 [2] - 传统奖励模型基于绝对偏好,难以灵活应对不同定制化场景 [7] POLAR新范式 - POLAR是一种与绝对偏好解耦的奖励建模新范式,具备可扩展性和强泛化能力 [3] - POLAR根据参考答案为模型输出打分,可灵活适配不同风格的定制化需求 [5][7] - POLAR能处理开放问题和闭式问题,提供细粒度的偏好区分 [11] - POLAR完美契合强化微调框架(RFT),使通用场景应用成为可能 [14] POLAR训练方法 - POLAR通过对比学习衡量训练策略与目标策略之间的距离作为奖励信号 [21] - 预训练阶段使用自动化合成数据构建,从131个Base LLM和53个Chat LLM中采样 [22] - POLAR-1.8B使用0.94T Token预训练数据,POLAR-7B使用3.6T Token [23] - 预训练后使用少量偏好数据对齐人类偏好 [23][24] POLAR性能表现 - POLAR展现出Scaling效应,验证集损失随模型参数和计算量增加呈幂律关系下降 [28][29] - POLAR-1.8B在STEM任务中超越最佳基线24.9个百分点,POLAR-7B超越26.2个百分点 [32] - POLAR-1.8B仅1.8B参数即可与27B和72B参数的奖励模型相当 [32] - POLAR-7B微调的Llama-3.1-8B在所有基准测试中平均提升9.0% [34]
是的,LeCun要向28岁的Alexandr Wang汇报!这是Meta新AI团队的一些独家内部消息
机器之心· 2025-07-11 02:43
Meta AI部门重组与人才战略 - Meta近期展开大规模AI人才招募行动,以高达1亿至2亿美元天价挖角竞争对手(如苹果AI团队负责人庞若鸣)[3][4] - 新成立由Scale AI前CEO Alexandr Wang领导的「超级智能实验室」(MSL),整合原GenAI团队并赋予高管自主招募权[5][22] - 挖人行动重点针对OpenAI等竞争对手,力度空前导致对方CEO公开回应[3] FAIR与GenAI/MSL的架构差异 - FAIR(基础AI研究院)保持独立研究性质,600人团队专注长期开源研究,与GenAI/MSL的GPU资源、数据/代码完全隔离[8][12][14] - FAIR仅拥有GenAI部门5%的GPU资源且使用不同云服务商,Llama1团队因商业化成功被剥离至GenAI[14][15] - 图灵奖得主Yann LeCun向Alexandr Wang汇报属架构调整,FAIR自2022年起已多次变更上级部门(如Reality Labs、CPO)[10][11] 内部动荡与文化挑战 - GenAI和FAIR部门将面临裁员,MSL高薪招聘加剧内部资源竞争[21][22] - 员工抱怨公司文化侵蚀:2000人Llama团队目标模糊,GenAI同时承担多项冲突任务导致资源分散[25] - 技术声誉受Llama4「刷榜」争议影响,外部引入人才留存率低,内部流传文章批评组织失调[25] 研究方向与未来展望 - MSL研究方向未完全明确,但将整合原GenAI团队(负责Llama模型、Meta AI助手等产品级LLM)[16][21] - 扎克伯格改革力度激进,成效需待下一代大模型发布验证[23] - 生成式AI浪潮下FAIR学者(如田渊栋)转投GenAI部门,基础研究与应用开发界限模糊化[18]
7月19日,相聚北京!一起聊聊ACL 2025爆点研究
机器之心· 2025-07-10 08:35
AI领域发展动态 - 2025年AI领域持续高速发展,技术更新节奏极快,每隔几周甚至几天就有新突破[1][3][4] - 行业呈现"跟不上就会掉队"的竞争态势,从业者需频繁跟踪arXiv、GitHub等平台的前沿研究[5] - ACL 2025总投稿数达8000多篇创历史新高,反映NLP领域研究热度持续攀升[6] ACL 2025会议亮点 - 会议设置Keynote、论文分享、圆桌对话、Poster交流及企业展位等丰富环节[6] - 上午Keynote由哈工大车万翔教授主讲ACL 2025趋势及展望,分析NLP研究重点与演化方向[9][15][17] - 下午Keynote由上海交大刘鹏飞副教授探讨大模型强化学习与复杂推理的突破与应用[11][19] - 圆桌对话聚焦"上下文工程"的价值探讨,吸引行业高度关注[11] 重要研究成果 - 清华大学邱寒团队研究LLMs内在自我修正机制的潜在问题[9] - 北京大学团队探索语言模型对齐抵抗现象的数据证据[9] - 南京大学程紫峰提出无需训练的Token Prepending方法提升句子嵌入质量[12] - 哈工大团队开发Token Recycling技术加速大模型推理[12] - 清华团队研发APB技术通过跨GPU传递压缩上下文块加速长上下文推理[12] 行业活动与合作 - 机器之心联合举办多场顶级学术会议活动,包括ICLR、CVPR、NeurIPS等[25] - 活动提供企业展台等合作形式,助力合作伙伴吸纳人才和品牌建设[26] - 会议通过机器之心视频号和黄大年茶思屋科技网站进行双平台直播[21][23]
图书编辑要趁早转行吗?
虎嗅· 2025-07-10 07:47
行业现状与挑战 - 出版行业正面临前所未有的生态更迭和范式革命,而非周期性波动 [2] - 生成式人工智能以颠覆性力量冲击传统出版模式,核心业务价值被解构 [3][7] - 行业从"手艺"向"历史名词"演变,从业者普遍存在身份认同危机 [2][11] 消费端变革 - 读者行为发生根本性转变:从系统化阅读转向即时问答式知识获取 [4][7] - 大语言模型成为"全知图书馆",提供24小时在线的知识服务,替代传统图书功能 [6][7] - 严肃出版物的社会影响力持续衰减,可能沦为小众文化符号 [14] 生产端异化 - 编辑流程全面渗透AI应用:选题策划(生成20个选题)、文字润色、营销文案创作均实现自动化 [9][10] - 从业者陷入"共谋"困境:主动使用AI工具提升效率,同时加速自身职业价值贬值 [11][12] - 传统核心能力(需求挖掘、作者匹配、文本鉴赏)正被AI系统性超越 [12] 商业模式失效 - 内容分发权力结构转移:从深度图文作者→短视频博主→AI生成内容 [17] - 传统"优质内容为王"方法论崩溃,注意力获取成本飙升 [18] - 图书品类在流量平台中的商业价值持续下降,渠道资源加速流失 [17] 转型路径探索 - 必须重构能力模型:聚焦AI无法替代的审美判断、深度作者关系、人性洞察等稀缺资源 [23] - 需要彻底放弃过时的爆款逻辑,建立基于AI协作的新工作范式 [22][23] - 行业转型窗口期有限,被动等待将导致系统性淘汰 [24][27] 行业数据指标 - 典型工作场景效率提升:选题生成(20个/次)、文案创作(5种风格/次)实现秒级响应 [9][10] - 内容消费时长对比:传统深度文章(10分钟) vs 短视频内容(15秒) [17] - 流量转化率断崖:头部渠道图书佣金远低于快消品(口红/零食) [17]
马斯克xAI发布Grok 4:训练算力提升100倍,多项测试中领先第二名一倍
凤凰网· 2025-07-10 06:20
技术升级 - xAI发布新一代大语言模型Grok 4及多智能体协作版本Grok 4 Heavy,训练算力投入相比前代提升100倍[1] - Grok 4在HLE基准测试中解决25%博士级难题,Grok 4 Heavy版本提升至超过50%[1] - 模型演进过程中每代产品训练算力实现数量级提升,Grok 4强化推理和自我纠错能力[1] 技术架构 - Grok 4基于第六代基础模型构建,第七代模型将改善视觉理解能力[2] - 支持256K上下文长度的API接口,在商业场景测试中净资产收益率达竞争对手两倍[2] - 在GPQA、AIME等推理测试中领先,Grok 4 Heavy在Live Coding Bench获满分[2] 功能增强 - 工具使用能力整合进训练过程,可完成黑洞可视化、体育预测等复杂任务[2] - 语音交互延迟降低50%,新增高自然度语音选项[3] - 正在开发编程模型,计划启动视频生成模型训练,预计使用超10万张H200显卡[3] 商业化进展 - 推出Super Grok Heavy订阅服务,包含Grok 4和Grok 4 Heavy双版本[3] - API发布加速企业级应用落地,展现复杂商业环境应用潜力[2][3] 行业展望 - 传统考试测试意义减弱,现实应用效果将成为AI智能评判标准[3] - 预计Grok可能在年底或明年初实现有用技术发现,甚至发现新物理学知识[3] - 多智能体协作创新为AI技术实际应用开辟新可能性[1][3]
马斯克发布Grok 4:叫板GPT-5,首席科学家却临阵离职
凤凰网· 2025-07-10 05:31
公司动态 - xAI团队推出最新大语言模型Grok 4,目标直接对标OpenAI的GPT-5和Anthropic的Claude 4 Opus等顶尖模型 [1] - Grok 4依托Colossus超级计算机训练,旨在实现科学家级别的推理能力和更强的文本生成 [1] - xAI首席科学家Igor Babuschkin在发布会前几小时突然辞职,引发外界对公司未来的质疑 [1] - Grok旧版本因输出种族主义内容引发巨大争议,公司面临信誉危机 [2] 产品功能 - Grok 4具备多模态能力,可处理文本和图像,未来可能支持视频处理 [2] - 推出Grok 4 Code,专注于代码编写与调试,优化语音交互功能以提供更自然流畅的对话体验 [2] - 通过DeepSearch工具实现实时联网搜索,深度整合X平台数据以提供最新信息 [2] - 强化对网络文化、俚语和"梗图"的理解力,力求成为最"接地气"的AI助手 [2] 行业对比 - xAI选择押注个性、速度和更少限制的发展路径,与OpenAI和谷歌等巨头将可靠性与安全性放在首位的策略形成鲜明对比 [3] - 公司定位为对抗"觉醒派"AI(如ChatGPT和Gemini)的挑战者,但面临产品安全测试和防护措施不足的质疑 [2]
扩散语言模型写代码!速度比自回归快10倍
量子位· 2025-07-10 03:19
核心观点 - Inception Labs推出基于扩散技术的商业级大语言模型Mercury,突破传统自回归模型限制,实现高质量代码生成且速度更快[1][2][8] - Mercury采用"从噪声到结构化输出"的扩散生成方式,能一次性预测所有方向token,生成速度比传统工具快10倍[2][8][9] - 模型保留Transformer架构,兼容现有大模型优化技术,在H100 GPU上实现1109 tokens/秒吞吐量[6][7][9][13] - 具备动态纠错能力,通过双向注意力机制和语法树嵌入减少代码错误,支持函数级参数自动校正[4][20][21][22] 技术架构 - **扩散生成流程**:训练阶段正向加噪,推理阶段反向去噪,每次迭代并行修改多个token[11][14] - **并行化文本生成**:单次前向传播预测多token,H100 GPU上Mercury Coder Mini/Small分别达1109/737 tokens/秒[13][9] - **动态去噪调度**:自适应调整去噪步数,平衡精度与效率[17] - **混合精度量化**:内存占用减少30%,通过残差补偿维持输出质量[18] 性能表现 - **基准测试**:在Copilot Arena将响应时间压缩至其他工具1/4,硬件资源占用减少60%[15] - **速度对比**:Mercury Coder Mini延迟0.25秒排名第一,显著低于DeepSeek V2.5(2.07秒)和Claude 3.5 Sonnet(1.46秒)[16] - **多语言支持**:Mercury Coder Small在CPP/Java/TS等语言平均准确率76.2,优于多数开源模型[23] 行业影响 - **CI/CD瓶颈**:模型生成速度远超测试环节,需解决计算资源投入与预算限制的矛盾[24][26][28] - **团队背景**:创始团队包括扩散模型共同发明人及Meta/OpenAI/NVIDIA前成员,具备顶尖学术与工业界经验[29][30][34]
「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式
机器之心· 2025-07-09 07:10
世界模型的局限性批判 - 当前大语言模型(LLM)通过预测下一个单词生成输出,接近人类智力水平,但与真正的AGI仍有明显差距 [2][3] - 人类能力包含具体技能和深度复杂能力的区分,而AI系统尚不能完成所有基于相同认知架构的任务 [3][5] - 研究者提出构建世界模型的五个关键维度:数据准备、通用表征空间、推理架构、目标函数和决策系统应用 [7] PAN世界模型架构 - PAN采用分层、多级和混合连续/离散表示,结合生成式和自监督学习框架 [8] - PAN将发布27B参数的第一版,成为首个可运行的通用世界模拟器 [9] - PAN设计原则包括:多模态数据、混合表示、分层生成建模、生成损失和强化学习应用 [37] 对世界模型五个维度的批判 数据维度 - 感官数据量虽大但信息冗余度高,而文本是人类经验的高度压缩和抽象形式 [16][17] - 通用AI需要融合视频、文本、音频等多模态数据,单一模态会导致关键信息缺失 [18] 表示维度 - 仅用连续嵌入表示世界状态脆弱且难以应对噪声,离散符号序列更具稳健性 [19][20] - 最佳路径是混合表示,结合离散符号的稳健性和连续嵌入的感官细节捕捉能力 [23] 架构维度 - 编码器-编码器架构在功能上仍是自回归的,未能解决误差累积问题 [25] - 分层生成式潜在预测(GLP)架构能确保模型与真实数据挂钩,实现更鲁棒的推理 [27] 目标维度 - 潜在空间重构损失存在"平凡解崩溃"风险,需依赖复杂正则化项 [29] - 数据空间生成式重构目标提供稳定可靠的监督信号,避免崩溃问题 [30] 用途维度 - 模型预测控制(MPC)计算开销大,难以应对快速变化环境和长时程规划 [33] - 强化学习(RL)将计算成本转移到训练时,支持更具战略性的长远规划 [35] PAN模型的优势与应用 - PAN通过分层世界观实现数据处理效率,利用LLM促进跨模态泛化能力 [39] - PAN作为内部沙盒用于模拟、实验和预见未来,支持更高效的规划方式 [40][42] - 世界模型应模拟现实世界中所有可能性,当前范式仍处于原始阶段 [41]
还在为AI数据发愁?张文涛和鄂维南院士团队推出Data-centric AI系统
机器之心· 2025-07-08 09:41
大模型数据治理现状 - 大模型发展由大型科技公司主导,其优势在于规模庞大且高质量的数据资源,但原始数据及处理工具通常不公开[1] - 学术界在大模型数据准备方面面临挑战,训练数据清洗与构建缺乏系统化工具支持,现有工具如Hadoop和Spark尚未有效集成最新大语言模型智能算子[1] DataFlow系统概述 - 张文涛和鄂维南院士团队提出以数据为中心的AI系统DataFlow,实现100余个基于规则、本地大模型或大模型API的数据治理算子[2] - 系统构建8条预设数据处理流水线,支持大规模嘈杂数据清洗、强推理数据合成、RAG数据提取等主流治理需求[2] - 全面支持文本模态数据治理,可提升大语言模型在通用领域推理能力和特定领域性能,多模态版本正在开发中[4] DataFlow技术架构 - 框架分为算子层和流水线层,通过数据管理类实现读写管理,大模型后端类支持算子调用大模型[7] - 支持两种大模型后端:本地GPU部署推理服务和使用API请求服务商[11] - 设计Agent for DataFlow模块,实现自动编排算子、编写新算子和解决数据分析任务[7] 数据处理流水线功能 - 通用文本数据处理流水线通过去重、改写和过滤算子实现删除冗余字符、提取有效信息[13] - 强推理数据合成流水线支持问题处理、答案生成与处理、数据去重三方面算子[18][19][20] - Text2SQL流水线包含数据过滤、难度分类、Schema处理、知识生成等步骤[23][26] - Agentic RAG流程包含片段遴选、构造问答对、质量评估等算子[27] 系统应用效果 - 通用文本数据处理后数据在多个评估维度有提升[14] - 合成数据训练模型在Spider和Bird基准测试中提升3-10.1%[25] - Agent自动化流程包含Planning Agent、Task Dispatcher等6个组件[30] 部署与使用 - 已部署在PyPi,支持pip install一键安装,采用PyTorch风格算子组织方式[31] - 提供代码和前端两种使用方式,前端支持无代码拖拽式Pipeline搭建[34] - 开源项目包含详细文档和教程,支持社区贡献完善[32][36]
美科技巨头角逐五角大楼大单,向AI要营收 | 企服国际观察
钛媒体APP· 2025-07-08 03:43
政府与科技公司合作 - OpenAI与美国国防部签署2亿美元为期一年的合同,开发AI工具应对国家安全挑战[2] - Palantir 2024年与美国国防部签署更大合同扩展Project Maven项目,政府业务占收入60%[2] - Snowflake以10亿美元获得美国国防部授权,提供数据云迁移服务[3] 云计算与AI军事应用 - 微软将OpenAI GPT-4引入美国国防部,Azure产品获政府分类级别批准[4] - OpenAI Sora模型被美国陆军用于战场模拟训练[4] - OpenAI与Anduril Industries合作开发反无人机系统,合同价值1亿美元[5] 竞争对手动态 - Anthropic与Palantir和亚马逊合作,向国防机构提供Claude 3模型[5] - 马斯克xAI与微软合作分销Grok大模型[5] - OpenAI、甲骨文、软银共同投建5000亿美元"星际之门"数据中心项目[5] 数据标注与测试 - Scale AI与美国国防部合作开发大语言模型评估测试方法,合同价值数百万美元[6] - Scale AI 2020年首次与军方合作,拿下9100万美元数据集开发合同[6] 政府市场潜力 - AI巨头积极游说放宽监管,追求短期利润[7] - 高盛预测生成式AI未来10年推动全球GDP增长7万亿美元[7] - 达龙·阿西莫格鲁指出仅20%任务可被AI取代或增强[8] 国防预算与AI投资 - 美国海军陆战队发布《人工智能战略》,2025-2027年数字化改革时间表[9] - 2026财年国防预算中2亿美元用于AI投资,1.5亿美元用于业务系统更新[9] - 特朗普政府推动1万亿美元国防预算,创历史新高[10] 成本控制与云整合 - 美国陆军计划简化云合同以控制成本[10] - Oracle通过JWCC合同为美国陆军提供固定价格云服务[10] 政策与原则转变 - OpenAI删除禁止技术用于军事用途的条款[11] - 谷歌删除限制AI技术用于军事用途的原则[11] - Meta、OpenAI高管宣誓就任陆军预备役军官[12]