Workflow
大型语言模型
icon
搜索文档
Copilot强塞马斯克Grok新模型,遭开发者集体“抵抗”!GitHub内部工程师曝:我们是被“胁迫”的
搜狐财经· 2025-08-30 06:49
合作与产品整合 - GitHub将xAI的Grok Code Fast 1大型语言模型整合到Copilot平台中 作为可选的公开预览版面向Visual Studio Code用户开放 覆盖Pro、Pro+、商业版和企业版套餐 [1][2] - 该模型专为代理编码任务设计 提供可见的推理轨迹功能 帮助程序员在复杂项目中实现更快迭代 免费访问权限有效期至2025年9月2日太平洋夏令时间下午2点 [2] - 个人付费用户可通过模型选择器直接启用 商业版和企业版需由管理员在Copilot设置中启用策略 个人版用户还支持通过自带密钥方式使用xAI API密钥访问模型 [2][3] 安全与合规争议 - GitHub内部工程师Eric Bailey举报称该模型推出时安全审查仓促 工程团队在胁迫环境下推进工作 完全违背公司价值观 [4] - GitHub官方回应否认审查流程存在捷径 强调所有合作模型均通过基于微软负责任AI标准的内部审查 包括自动化评估和由GitHub与微软专家组成红队的人工测试 [4] - 该模型目前仍处于可选参与的预览阶段 团队持续进行研究和优化 [4] 开发者社区反应 - 大量开发者在GitHub平台发起讨论 要求撤销与xAI的合作 认为此举违背GitHub及微软重视多元化的价值观 [5] - 部分开发者表示考虑迁移至Codeberg或sourcehut等替代平台 前员工David Celis公开批评支持Grok的行为无礼且不必要 [6] - 少数开发者认为合作能带来独特价值 xAI专注于可解释和透明的人工智能技术 与GitHub赋能开发者的使命高度契合 期待整合可视化模型决策过程等功能 [6]
美股异动 | 部分机器人概念股盘中冲高 Serve Robotics(SERV.US)大涨超15%
智通财经· 2025-08-27 14:50
机器人概念股表现 - Serve Robotics股价大涨超15% [1] - Richtech Robotics股价涨近14% [1] - iRobot股价涨超3% [1] 英伟达技术突破 - Jetson Thor采用Blackwell GPU和128GB内存 提供2070 FP4 TFLOPS AI算力 [1] - 算力性能达到前代Jetson Orin的7.5倍 [1] - 新技术使机器人能即时处理庞大感测数据与大型语言模型 [1] - 实现高阶人形机器人真正的视觉认知 思考与行动能力 [1]
TrendForce:预计人形机器人芯片市场规模有望于2028年突破4800万美元
智通财经· 2025-08-26 07:49
英伟达Jetson Thor芯片性能提升 - 英伟达新推出的Jetson Thor芯片提供2070 FP4 TFLOPS AI算力 是前代Jetson Orin的7.5倍 [1] - 该芯片配备Blackwell GPU和128 GB记忆体 能够即时处理庞大感测数据与大型语言模型 [1] - 芯片性能提升使高阶人形机器人具备真正的视觉识别 思考与行动能力 [1] 人形机器人芯片市场规模预测 - 人形机器人芯片市场规模有望于2028年突破4800万美元 [1] - 全球人形机器人需待2032年前后稳定走入家庭 才能真正放量突破10万台 [4] - Agility Robotics Boston Dynamics Amazon等厂商陆续采用与建置生态圈推动市场发展 [1] 芯片价格与成本考量 - Jetson Thor开发套件价格达3499美元 较前代Jetson Orin的1499美元大幅提高 [4] - 短中期执行单纯作业的厂商较倾向采用平价芯片 [4] - 英伟达可能通过软硬件绑定优势推出配套软件平台 以提升高算力成本的价值 [4] 人形机器人发展阶段 - 短期发展以试点补位为主 中期进入制造与服务规模化 长期普及至家庭日常场景 [4] - 各国人形机器人发展依技术与目的有所不同 [4] - 高阶SoC在长期普及阶段的效用更加关键 [4]
大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
机器之心· 2025-08-13 00:52
核心观点 - 几何平均策略优化(GMPO)通过优化几何平均奖励解决了组相对策略优化(GRPO)在训练过程中的不稳定性问题,策略更新更稳定且探索能力更强 [2][11][22] - GMPO在语言任务和多模态推理任务中表现优于GRPO,Pass@1准确率提升1.4% [26][27] - GMPO通过token级裁切和更宽的裁切范围设计,平衡了训练稳定性与探索性 [17][18][20] GRPO面临的挑战 - GRPO优化算术平均奖励,对异常值敏感,易产生极端重要性采样比率导致策略更新不稳定 [9] - GRPO的剪切操作未完全解决稳定性问题,且过度限制模型更新幅度影响泛化能力 [9] GMPO原理与优势 - GMPO优化几何平均奖励,抑制极端值影响,训练目标公式见原文 [11] - GMPO梯度受几何平均加权,相比GRPO更鲁棒 [14] - GMPO优势包括:更稳定策略更新、更高奖励、减少过拟合风险、更高熵值支持持续探索 [22][23] 关键设计 - token级裁切比序列级裁切更稳定,避免丢失有价值梯度信号 [17] - 裁切范围设为(e−0.4,e0.4),显著大于GRPO和DAPO以鼓励探索 [20] 实验验证 - 语言任务:在AIME24、AMC等5个数学推理基准测试中表现优异 [25] - 多模态任务:Geometry3K基准上Pass@1准确率54.7%,较GRPO提升1.4% [26][27]
马斯克宣布Grok 4 在限定时间内对所有用户免费开放
搜狐财经· 2025-08-11 09:15
公司动态 - xAI公司宣布大型语言模型Grok 4将在限定时间内向所有用户免费开放 [1] - 免费使用期限被描述为"有限"但未明确说明结束时间 [3]
GPT-5来了,微软抢先接入:一键生成网页、博士级智能,所有用户免费使用;马斯克不服
搜狐财经· 2025-08-08 04:45
产品发布与性能 - OpenAI推出大型语言模型GPT-5,距离GPT-4发布已过去两年半,公司称其为"世界上最好的模型"并免费提供给用户[1] - GPT-5采用集成模型架构,能自动选择推理深度,无需用户切换模式,对话体验如同与博士级专家交流[3] - 新模型在编码、数学、写作、健康、视觉感知等领域表现卓越,是统一的智能系统,能自动判断响应速度[5] - GPT-5在SWE-bench Verified测试中首次尝试准确率达74.9%,高于GPT-4o的30.8%和o3模型的69.1%[10] - 在HealthBench Hard Hallucinations测试中,GPT-5的错误信息率仅1.6%,远低于GPT-4o的15.8%和o3的12.9%[17] - 启用网络搜索后,GPT-5响应中包含事实错误的可能性比GPT-4o低45%,比o3模型低80%[18] 商业模式与定价 - GPT-5面向所有用户开放,免费用户每天可使用数小时,Plus用户额度更高,Pro会员可访问扩展推理能力的Pro版本[5] - 开发者API定价为每百万token输入1.25美元,输出10美元,价格低于GPT-4o和Claude Opus 4.1,仅为后者的1/15[5] - 微软在发布当日宣布将GPT-5整合至Microsoft 365 Copilot、GitHub Copilot等全线产品中[22] 技术突破与创新 - GPT-5在编程能力上实现突破,能凭单提示创建响应式网站、App和游戏,设计选择更优[10] - 新模型具备"氛围编码"能力,演示中几分钟内生成两个不同法语学习App[15] - 引入"安全补全"训练方法,使模型能更细致地处理敏感问题,减少过度拒绝[20] - 推出四种可选聊天预设性格(愤世嫉俗者、机器人、倾听者、书呆子),可调整交互风格[21] 行业竞争与评价 - 在SWE-bench测试中表现略优于Claude Opus 4.1(74.5%)和Gemini 2.5 Pro(59.6%)[13] - 但在Humanity's Last Exam测试中,GPT-5 Pro得分42%,略低于Grok 4 Heavy的44.4%[13] - 马斯克公开质疑GPT-5性能,称其在ARC-AGI-2测试中未击败Grok 4[3][26] - 有研究员认为GPT-5仅为"渐进式优化",因缩放定律放缓和高质量数据枯竭导致性能提升有限[29] 资本动态与战略 - OpenAI近期获得83亿美元新资本,估值达3000亿美元,投资者包括黑石集团等机构[30] - GPT-5发布将巩固公司技术领先地位,提振投资者信心,助力估值增长和股票二次出售[31]
闪迪联手SK海力士,发力新型HBM
半导体行业观察· 2025-08-08 01:47
HBF技术合作与标准化 - Sandisk与SK海力士合作标准化高带宽闪存(HBF),旨在通过NAND堆叠与TSV连接技术实现GPU快速访问,速度比SSD快几个数量级[1] - HBF技术目标为提供与HBM相当的带宽(1.2TBps),同时以相似成本实现8-16倍容量(最高768GB),并保持非易失性存储特性[4][6] - 双方签署谅解备忘录(MoU)推动技术规范标准化,SK海力士将自主研发生产HBF,Sandisk强调多供应商市场对保障供应链的重要性[3][4] 技术优势与行业影响 - HBF采用类似HBM的封装结构,首次实现闪存与DRAM级带宽融合,可显著降低AI工作负载的能耗与发热问题[6][8] - 相比HBM3E的48GB容量,HBF潜在容量提升8-16倍,而SK海力士PCIe Gen5 SSD带宽仅为HBM3E的1/86(14GBps vs 1.2TBps)[3][6] - 该技术契合边缘计算趋势,能解决AI数据中心冷却预算极限问题,适用于手持设备至服务器全场景部署[5][6] 商业化进程与生态建设 - Sandisk计划2026年下半年推出HBF样品,2027年初上市首批AI推理设备,技术已获2025闪存峰会"最具创新技术"奖[5][9] - 成立技术顾问委员会推动跨行业标准制定,采用BiCS NAND与CBA晶圆键合技术,可能涉及与Kioxia的CMOS工艺合作[9][10] - 行业推测SK海力士与Nvidia的现有合作关系可能加速HBF采用,三星等厂商也在开发类似技术如PBSSD和HBM4[8][9] 技术架构创新 - HBF通过NAND替代部分DRAM堆栈,牺牲延迟换取容量优势,相比传统HBM节省恒定功耗需求[6][8] - 架构灵感来源于"闪存中的LLM"研究论文,通过SSD作为额外内存层缓解DRAM压力的思路[8] - 可能推动DRAM、闪存与新型持久内存的异构堆栈共存,为超大规模计算提供HBM成本替代方案[10]
GPT-5来了,免费向所有用户开放
第一财经· 2025-08-08 00:19
GPT-5发布 - OpenAI推出迄今最先进的大型语言模型GPT-5,历经两年多研发并多次推迟后终于面世 [2] - GPT-5采用集成模型架构,可根据任务自动选择推理深度,无需用户切换模式,未来一周内向所有用户分批开放 [2] - 首席执行官山姆·奥尔特曼形容与GPT-5对话"像与博士级专家交流",并强调其"氛围编程"能力可生成可运行软件应用程序 [2][4] 技术升级 - GPT-5在速度、直觉与推理能力上全面提升,首次采用"测试时间计算"技术,面对复杂问题时主动延长计算时间以提高准确性 [4] - 现场演示显示GPT-5能根据简单文本提示独立完成从界面设计到逻辑功能的软件开发 [4] - 下一阶段将显著提升语音模式的自然度与智能化水平,使语音交互更贴近真实对话 [4] 商业策略 - OpenAI将GPT-5免费提供给大部分用户,包括免费版、Plus版、Pro版和团队版,企业与教育用户下周获得接入权限 [4] - 公司估值从3000亿美元跃升至5000亿美元,正在进行股权出售和内部股权转让谈判 [5] - 强调GPT-5在企业级场景的实力,包括软件开发、写作、健康咨询和金融分析等专业任务 [4] 行业背景 - 全球科技巨头在AI基础设施上竞相加码,Alphabet、Meta、亚马逊及微软今年AI数据中心资本支出预计接近4000亿美元 [7] - 经济学作家指出当前消费者对AI的支出热情高于企业端,如何转化消费者热度为企业级营收是OpenAI未来盈利能力的关键 [8] 技术瓶颈 - 训练GPT-5面临数据与算力瓶颈,高质量人类文本数据接近极限,模型规模扩大导致训练周期延长和硬件故障风险增加 [8] - 前首席科学家提到算力增长但数据供给速度跟不上,团队需数月才能评估一次训练的最终效果 [8] - 奥尔特曼认为全球AI基础设施投资"远远不足",并称GPT-5是迈向更强大、更通用AI的重要一步 [8]
谈谈AI 项目中需要关注的基本数据质量能力
36氪· 2025-08-01 10:43
人工智能与数据管理行业发展趋势 - 人工智能行业从实验阶段转向战略实施 重点转向构建能提供可观投资回报率和商业价值的数据与人工智能解决方案 [1] - 大型语言模型正迅速商品化 通过API和开源版本日益普及 但人工智能创新步伐并未放缓 [1] 企业数据竞争护城河 - 企业最具防御力的竞争护城河在于专有数据资产 其战略优势取决于数据质量 可靠性 上下文丰富度和安全性 [2] - 数据具有动态特性 在流经复杂工作流程时可能因上游数据模式变更 新字段引入或业务逻辑修改导致质量下降 [2] 数据质量框架核心要素 - 全面数据质量框架需确保数据准确性 完整性 一致性 相关性 及时性和可访问性 这是数据驱动决策成功的基石 [3] - 高质量数据能减少代价高昂的错误和错误预测 最小化返工 降低风险并节省资源 [3] - 数据质量是业务必要条件 能提升客户满意度 推动创新 并成为成功企业与失败企业的差异化因素 [3] 数据质量框架组成结构 - 综合框架包含数据发现 剖析分类 数据目录 质量规则 可观测性 血缘分析和治理政策管理七大层级 [4][5] - 集成方法利用元数据确保实时可信洞察 统一组织数据管理实践 打破数据孤岛 促进跨部门协作 [5] 数据发现层 - 数据发现提供所有数据资产的全面概述 包括来源 格式 质量和关系 确保仅使用准确可靠的高质量数据 [6] - 现代数据发现利用大型语言模型发现隐藏关系 评估数据适用性 并涵盖合成数据以填补真实数据空白 [7] - 发现工具需通过原生连接器或开放标准(ODBC/JDBC)及API(RESTful/SOAP/GraphQL)连接数据源 支持实时元数据提取 [7] 数据剖析与分类 - 数据剖析使用算法评估数据质量维度 帮助了解数据特征(唯一性 基数 值范围 敏感度)并识别异常 [8] - 剖析可按需或定时运行 支持与Apache Airflow等编排引擎集成实现自动化 减少人工干预和错误 [9] - 数据分类通过标签改进数据管理使用和治理 LLM利用语义理解显著改进传统关键词分类方法 [10][11] - 分类精度衡量模型正向预测准确度(减少误报) 召回率衡量识别所有相关正实例的能力(确保完整性) [12][13] 数据目录与语义层 - 数据目录集中数据发现 加强治理 提升数据素养 提供数据资产全面视图 包含技术 操作和业务三类元数据 [15][17][18] - 技术元数据描述数据结构与存储细节 操作元数据关注使用性能与生命周期 业务元数据提供业务上下文(语义层) [15][17][18] - LLM可自动生成业务描述 支持自然语言语义搜索 业务术语表映射底层技术元数据 按层次组织术语 [18] - 数据目录发展为数据资产市场 支持组合新数据产品 实现数据货币化 并作为协作工作空间允许注释评级 [19] 数据质量规则 - 数据质量规则确保数据准确性 一致性 完整性和可靠性 传统手动规则难以应对快速变化的数据动态 [20] - 机器学习算法(标准差 Z分数 随机森林 编辑距离)用于统计分析 识别异常值 检测重复项和预测管道故障 [20][21] 数据可观测性 - 数据可观测性监控数据管道健康状况 确保数据流动不降低质量 可靠性或成本效益 包含监控 分析 警报和事件管理 [22][25][26][27][28] - 监控聚焦关键指标(数据漂移 数据量 质量 SLA 资源使用) 分析识别隐藏模式故障 警报智能管理避免疲劳 [25][26][27] - 事件管理支持根本原因分析和跨部门协作补救 反馈循环推动系统持续演进 AI提升可观测性 through语义理解和规则自动生成 [28][29] 血缘与影响分析 - 血缘分析追踪数据从源头到目的地的路径 提供数据使用方式洞察 易于识别解决错误和不一致 [30] - 沿袭应适用物理层(模式 表 列) 包含转换逻辑 叠加质量规则帮助业务用户识别质量控制点 [32] - AI可自动推断预测数据沿袭 快速识别来源和影响 Open Lineage开放标准有望简化元数据双向共享 [32][33] 治理与政策管理 - 治理政策管理涉及数据政策 商业术语政策 利益相关者管理政策和流程政策 确保数据使用者遵守约定 [34][35][36] - 数据访问策略检测敏感数据位置 根据安全隐私要求分类 执行最小化原则 通过RBAC ABAC等技术实施控制 [36][37] - 数据目录作为策略管理中央存储库 底层系统负责执行 安全领域还包括MFA 防火墙 IDPS等广泛措施 [37][38] 数据治理重要性 - 良好治理需求增长因更多人员访问更多数据用于更多业务用例 缺乏可信数据将导致AI输出糟糕 浪费资源并削弱领导层信心 [39] - 规范方法可加速AI开发部署 提高方案准确性性能 包括质量透明度 检索增强生成和建立对AI输出信任 [40]
ACL首届博士论文奖公布,华人学者李曼玲获荣誉提名
机器之心· 2025-07-29 09:58
ACL计算语言学博士论文奖 - 获奖者Sewon Min的博士论文《重新思考大型语言模型中的数据使用》对大型语言模型的行为和能力提供了关键见解,特别是在上下文学习方面[2][4] - 论文提出非参数语言模型概念,通过检索训练数据提高模型准确性和可更新性,并开发了首个广泛应用的神经检索模型[16] - 研究探讨了负责任数据使用的新途径,如分离许可文本和版权文本的不同处理方式[18] 获奖者学术背景 - Sewon Min本科毕业于首尔大学,2024年获华盛顿大学博士学位,现任加州大学伯克利分校助理教授[6] - Google Scholar显示其论文总被引量达13,821次,h-index为35,i10-index为45[7] - 代表作《Dense Passage Retrieval for Open-Domain Question Answering》被引4,605次,是2020年EMNLP会议论文[7] 提名论文1:多模态知识获取 - 李曼玲论文提出以事件为中心的多模态知识获取方法,实现从实体中心到事件中心的范式转换[27] - 开发CLIP-Event模型解决跨模态对齐难题,首次实现零样本多模态事件抽取(M2E2)[31] - 构建事件图谱结构支持全球事件推理与预测,并开发多媒体事件知识图谱[33][34] 提名论文2:人机协作心理健康 - Ashish Sharma研究显示AI反馈机制使300名在线互助者共情表达能力显著提升[49] - 在15,531名用户试验中,人机协作的认知重构工具有效缓解负面情绪[51] - 开发计算框架BOLT评估LLM作为治疗师的行为表现,并设计临床试验评估AI心理干预[52] 提名论文3:跨语言语义解析 - Thomas Sherborne研究如何将语义解析器从英语高效适配到新语言,解决数据稀缺问题[62] - 提出四种跨语言对齐策略:集成机器翻译源、零样本解析器、元学习算法和潜变量模型[64] - 证明通过最少目标语言数据样本组合可实现准确跨语言语义解析[65] 研究者职业发展 - 李曼玲现任西北大学助理教授,领导机器学习与语言实验室开展多模态AI研究[41] - Ashish Sharma加入微软应用研究院担任高级应用科学家,负责人机协作系统优化[54] - Thomas Sherborne加入AI创企Cohere,专注大语言模型企业应用开发[66]