Grok 4

搜索文档
忍无可忍,无须再忍:马斯克第六次起诉
36氪· 2025-09-29 01:35
"忍无可忍,无须再忍,"马斯克这样在X平台上怒斥自己亲手创办的友商,第N次提起诉讼。 上周,马斯克旗下的人工智能创业公司xAI在加州北区联邦法院提起诉讼,指控行业巨头OpenAI系统性 有预谋地挖角其员工,非法窃取商业机密。 这已经是过去一年半时间,马斯克对OpenAI发起的第六次诉讼大战,诉讼从加州法庭升级到联邦法 庭,指控也一次比一次严重,从最初的合同违约到不公平竞争到涉嫌垄断再到窃取商业机密。 这究竟是愤愤不平要说法,还是打击竞对的场外招?又或者这两者皆有之,还有待法院给出裁决。但可 以肯定的是,两家公司的竞争已经进入了白热化,也不限于产品与商战领域,未来还会有更多的诉讼交 锋。 指控窃取商业机密 这一次,xAI指控OpenAI有预谋地挖角自己的核心员工,包括多位掌握Grok大模型源代码以及数据中心 战略计划的员工,这些技术可能让OpenAI获得巨大的产品竞争优势,同时节省数十亿美元的数据中心 运营成本。 xAI在诉讼文件中声称,OpenAI存在"令人深感不安的模式"和"战略性行动",故意诱导这些员工违反保 密协议,试图获取xAI的源代码、数据中心启动的运营优势、技术进步和战略业务计划。以在激烈的先 进 ...
忍无可忍,无须再忍:马斯克第六次起诉!|硅谷观察
新浪科技· 2025-09-28 23:17
硅谷观察/郑峻 xAI在诉讼文件中声称,OpenAI存在"令人深感不安的模式"和"战略性行动",故意诱导这些员工违反保 密协议,试图获取xAI的源代码、数据中心启动的运营优势、技术进步和战略业务计划。以在激烈的先 进AI开发竞争中谋求不公平优势。 马斯克对这起诉讼的评论是:忍无可忍,无须再忍。他在自己的X平台上解释说,"我们已经向他们发 送了多封警告函,但他们继续在欺骗作弊。在尝试其他所有方法没有结果之后,诉讼是我们唯一的选 择。" 这已经是过去一年半时间,马斯克对OpenAI发起的第六次诉讼大战,诉讼从加州法庭升级到联邦法 庭,指控也一次比一次严重,从最初的合同违约到不公平竞争到涉嫌垄断再到窃取商业机密。 这究竟是愤愤不平要说法,还是打击竞对的场外招?又或者这两者皆有之,还有待法院给出裁决。但可 以肯定的是,两家公司的竞争已经进入了白热化,也不限于产品与商战领域,未来还会有更多的诉讼交 锋。 指控窃取商业机密 这一次,xAI指控OpenAI有预谋地挖角自己的核心员工,包括多位掌握Grok大模型源代码以及数据中心 战略计划的员工,这些技术可能让OpenAI获得巨大的产品竞争优势,同时节省数十亿美元的数据中心 ...
HLE“人类最后考试”首次突破60分,Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
36氪· 2025-09-28 12:05
在HLE("人类最后考试")的专家校验子集上,首次有系统突破60分大关! 就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的Eigen-1多智能 体系统实现了历史性突破—— 下面详细展开—— 技术创新:三大支柱撑起60分突破 当AI开始挑战人类知识的终极边界,一场前所未有的较量正在上演。 当大模型在MMLU、GPQA等传统基准上纷纷"卷到90分"时,这些测试逐渐失去了区分力。为了追踪AI在科学推理前沿的真实进展,Center for AI Safety与 Scale AI联合推出了"人类最后的考试"(Humanity's Last Exam,HLE)—— 最令人振奋的是,这一成就并非依赖闭源超大模型,而是完全基于开源的DeepSeek V3.1搭建。 涵盖数学、自然科学、工程学、人文社科等百余领域共3000道博士级难题,被视为AI知识推理的终极试炼。 而HLE Bio/Chem Gold则是HLE的黄金标准子集,包含149道经过领域专家人工审核和纠正的题目。 在HLE Bio/Chem Gold测试集上,Pass@1准确率达到4 ...
HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
量子位· 2025-09-28 11:54
Eigen-1团队 投稿 量子位 | 公众号 QbitAI 在HLE("人类最后考试")的专家校验子集上,首次有系统突破60分大关! 就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的 Eigen-1多智能体系统 实现了历史性突破—— 在HLE Bio/Chem Gold测试集上,Pass@1准确率达到48.3%,Pass@5准确率更是飙升至61.74%,首次跨越60分大关。这一成绩远超谷歌 Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)。 相比原始HLE数据集,这个子集排除了可能存在歧义或错误答案的问题,确保了标签的准确性和可靠性,因此成为评估AI科学推理能力最可信 的基准。 最令人振奋的是,这一成就并非依赖闭源超大模型,而是 完全基于开源的DeepSeek V3.1搭建 。 在这个开源底座上,研究团队通过叠加Monitor-based RAG(隐式知识增强)、HSR(分层解法修复)、QAIR(质量感知迭代推理)三大创 新机制,实现了质的飞跃。 下面详细展开—— ...
关系缓和 美政府同意使用马斯克旗下人工智能模型
搜狐财经· 2025-09-27 10:20
据《财富》杂志的报道,为了能够增加人工智能工具的使用,优化政府工作流程,但同时避免某个企业"一家独大",美国联邦总务管理局已经与谷歌母公司 字母表、ChatGPT的所属公司OpenAI以及人工智能企业Anthropic等公司签订类似协议。 (央视财经《第一时间》)当地时间25日,美国政府宣布与马斯克旗下的xAI签订一项协议,令联邦机构能够以超低价格使用其开发的人工智能工具。 25日,负责政府技术采购的美国联邦总务管理局发布公告,称与马斯克旗下的xAI签订协议。每个联邦机构象征性地支付42美分,就能够在未来18个月里, 使用Grok 4以及Grok 4快速版人工智能模型。 在马斯克今年5月底离开特朗普政府后,与特朗普的关系迅速恶化,但近期又有了缓和的迹象。马斯克表示期待继续与特朗普总统及其团队合作,快速在政 府各领域部署AI。 转载请注明央视财经 编辑:潘煦 在价格方面,OpenAI和Anthropic同意收取1美元费用,谷歌则是收取47美分。9月22日,美国联邦总务管理局宣布,正在与脸书母公司Meta合作、免费使用 其人工智能模型。分析认为,这些人工智能企业希望通过与联邦政府合作,来为其在人工智能竞赛中争取官 ...
OpenAI研究大模型对GDP贡献,三大行业已能代替人类,并自曝不敌Claude
机器之心· 2025-09-27 06:13
GDPval评估方法 - OpenAI推出名为GDPval的新评估方法 用于跟踪模型在具有经济价值的现实世界任务上的表现[1] - 该方法以国内生产总值(GDP)作为关键经济指标 从对GDP贡献最大的行业中的关键职业中提取任务[3] - GDPval是首个版本 涵盖从对美国GDP贡献最大的9个行业中甄选出的44个职业 如软件开发人员 律师 注册护士和机械工程师等[16] 评估结果与模型表现 - 在GDPval黄金数据集的220项任务中 前沿模型已接近行业专家的工作质量[3][4] - Claude Opus 4.1是该数据集中表现最佳的模型 在49%的任务中被评为优于或与行业专家相当[9] - GPT-5在准确性方面更为出色 从2024年春季的GPT-4o到2025年夏季的GPT-5 性能提高了一倍多[9][10] - 前沿模型完成GDPval任务的速度比行业专家快约100倍 成本也低100倍[13] - AI在政府部门 零售和批发上的能力已经达到或超越人类水平[7] 评估体系设计 - GDPval全套评估包含1320项专业任务 黄金开源评估包含220项任务[18] - 每项任务均由平均拥有超过14年相关领域从业经验的专业人士设计并审核[18] - 每项任务基于真实工作成果 如法律摘要 工程蓝图 客户支持对话或护理计划 经过至少5轮审查[18] - 任务附带参考文件和上下文 预期交付成果涵盖文档 幻灯片 图表 电子表格和多媒体[19] 评估方法 - 通过专家评分员在盲评下比较AI和人类的交付成果 给出"更好" "相当"或"更差"的排名[21] - 任务编写者制定详细评分标准确保一致性和透明度[21] - OpenAI开发了"自动评分员"作为辅助工具 但目前可靠性不如专家评分员[21] 未来发展与影响 - OpenAI计划继续扩展GDPval 涵盖更多职业 行业和任务类型 提高交互性[22] - 模型能够比专家更快 更低成本地完成重复性 明确规定的任务[21] - 人工智能可以处理日常任务 让人们将更多时间投入到创造性和判断性较强的工作中[21] - 人工智能补充工人可以转化为显著的经济增长[21]
Gemini灵魂人物加盟xAI,马斯克亲自夹道欢迎!
量子位· 2025-09-26 09:12
核心观点 - 前谷歌DeepMind资深研究员Dustin Tran加入xAI 其作为Gemini系列核心开发者将助力xAI技术发展 马斯克亲自欢迎体现其重要性[1][4][6][8] - Tran在谷歌期间主导多项突破性AI项目 包括Gemini系列开发及早期TensorFlow等框架构建 其学术论文引用超2.4万次[11][15][18][25] - Tran加入xAI主要因算力资源(数十万张GB200芯片)、数据策略及马斯克企业理念三大优势 预计将加速Grok系列模型迭代[29][30][31][33][35] 人才流动与行业影响 - 顶级AI研究员从谷歌流向xAI 反映头部科技公司人才竞争加剧 核心人才对技术路线具有决定性影响[4][27] - Tran在谷歌8年期间主导关键项目转型 包括100天内基于LaMDA开发Bard(Gemini前身) 并最终推动Gemini系列实现技术反超[12][13][15][16] - 其早期参与OpenAI Dota 2 AI项目 具备多平台经验 跨公司技术积累可能促进xAI技术融合创新[19][21] 技术成就与里程碑 - Tran团队开发的Gemini 1.5 Pro在LMArena霸榜超一年 帮助谷歌重新确立AI领域竞争力[15] - 其2016年发表的校准度量论文开创深度学习评估基准 论文引用671次 直接影响LLM可信度评估标准[23][24] - 参与构建TensorFlow、Vision Transformer(参数量达220亿)等基础框架 相关论文引用超700次[18] 公司战略与资源对比 - xAI算力优势显著 Tran称人均芯片数量远超谷歌 且数十万张GB200芯片尚未完全部署[29][30] - xAI数据策略聚焦RL与后训练规模化 结合专业数据标注团队扩张 预示训练方法升级[31][32] - 马斯克强调"一阶导数和二阶导数"理念 公司发展加速度被视作核心竞争优势[35] 行业竞争动态 - OpenAI被指曾通过提前发布囤积点子抢占头条 但当前创新储备可能见底[37] - 谷歌在GPT-3.5发布后启动"红色警报" 反映头部企业对技术迭代速度的危机响应机制[12] - Gemini系列成功扭转谷歌市场预期 股价曾因Bard发布单日蒸发近千亿美元[14][15][16]
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己
量子位· 2025-09-26 04:56
新基准GDPval的提出与设计 - 提出GDPval基准用于衡量AI模型在真实世界具有经济价值任务上的表现[1] - 基准覆盖对美国GDP贡献最大的9个行业中的44种职业 这些职业年均创收合计达3万亿美元[2] - 任务基于平均拥有14年经验的行业专家的代表性工作设计而成[2][18] 测试方法与数据构建 - 筛选对美国GDP贡献超5%的9个行业 再挑选各行业贡献工资总额最多且以数字任务为主的职业[14] - 通过GPT-4o对任务按数字/非数字分类 若60%以上为数字任务则纳入[14] - 最终筛选44个职业 年创收合计3万亿美元[15] - 每个GDPval任务包含需求和交付成果两部分 行业专家对照O*NET任务分类设计[20] - 通过平均完成时间×时薪计算每个任务的经济价值[23] - 最终包含1320项任务 每个任务获得至少3次平均5次的人工审核[23] 模型性能评估结果 - Claude Opus 4.1成为表现最佳模型 47.6%产出被评定媲美人类专家成果[4] - GPT-5以38.8%的成绩位居第二[6] - GPT-4o与人类相比只有12.4%获胜或平局[6] - OpenAI各代模型在GDPval上的表现大致呈线性提升[32] - GPT-5在准确性方面优势显著 Claude在文件处理上表现更佳[33] 性能提升方法与经济价值 - 增加推理努力 提供更多任务背景 优化提示词与智能体辅助框架能显著提升模型性能[38] - 将AI模型与人类监督结合 在完成任务时有望比单独人类专家更经济高效[35] - 多种使用模式都能帮人类节省成本和时间[36] 开源与自动评分 - 开源包含220项任务的优质子集[9] - 开发实验性自动评分器 与人类专家评分的一致性达66% 仅比人类间评分一致性低5%[27] 局限性与发展计划 - 数据集规模有限仅44种职业 聚焦计算机上完成的知识工作[40] - 任务为精准指定的一次性任务 缺乏交互性 自动评分器存在不足 评估成本高[40] - 计划在未来迭代版本中拓展覆盖范围 增强真实性与交互性 纳入更多场景细节[41]
关系回暖?外媒:特朗普与马斯克“再联手”,为美联邦机构推出“政府版Grok”
环球网· 2025-09-26 02:22
【环球网报道 记者 张倩】据美国福克斯新闻网、英国《独立报》等媒体报道,美国总务管理局25日宣布将与美国知名企业家马斯克旗下人工智能 公司xAI合作,使美国联邦机构能够以迄今最低价格和最长期限使用该公司的人工智能(AI)模型Grok。《独立报》就此事评论称,美国总统特朗 普与马斯克的关系似乎正在回暖,二人又再度联手。 报道称,特朗普和马斯克之间的敌意似乎已逐渐成为过去。马斯克25日在给福克斯新闻网的声明中表示,"感谢特朗普总统及其政府,xAI的前沿人 工智能如今向所有联邦机构开放。""我们期待继续与特朗普总统及其团队合作,加速在政府各部门部署人工智能,造福国家。" 特朗普与马斯克自今年6月以来曾爆发激烈冲突,距今不到4个月。据了解,双方曾围绕"大而美"税收和支出法案等问题产生严重分歧,大打"口水 仗"。不过,特朗普9月初在播客节目中评价马斯克"是个好人","我过去欣赏他……现在依然如此"。9月21日,在美国知名保守派活动人士、特朗普 政治盟友查理·柯克的追悼会上,特朗普与马斯克曾被拍到握手,马斯克当天还在社交平台上分享了自己与特朗普"同框"的画面。 《独立报》称,美国总务管理局当天在一份新闻稿中宣布,与马斯克 ...
Nvidia砸千亿美元助力OpenAI,马斯克狂飙造全球最大AI集群 | Jinqiu Select
锦秋集· 2025-09-23 04:44
当基础能力持续进步时,创业的关键在于找到新的应用场景和差异化路径。也许是某个高频的行业环节,也许是某种全新的交互方式,也可能是模型与硬件、人与人 的结合。初创公司同样需要在自己的条件下,找到独特而极致的打法。 今天,AI领域迎来一桩惊天动地的消息:Nvidia 宣布将向 OpenAI 投入高达 1000 亿美元 的战略投资,携手打造至少 10 吉瓦(gigawatts)的数据中心基础设施,用于 支撑下一代模型的训练与部署。 这一动作,标志着模型层玩家的AI 战争从算法、产品层面,真正迈入了"基础设施+算力"的硬核较量阶段。 与此同时,另一边的 Elon Musk 正以一种近乎"超现实"的速度布局算力版图:xAI 正在孟菲斯、密西西比等地加速建设 Colossus 系列 AI 集群,目标是在最短时间内实 现数百兆瓦甚至接近吉瓦级别的集群能力。电站、涡轮机、跨州供电 ──这些支撑算力的根基,都在高强度投入中被快速铺设。 模型层大玩家依然在坚定地押注模型,资本、算力、速度也成为顶级玩家已经形成了难以撼动的护城河。 对大量非模型层的AI创业者来说,这无疑都是好消息。 无论是OpenAI的超大规模训练,还是xAI的集群 ...