Workflow
大语言模型
icon
搜索文档
正面硬刚谷歌和OpenAI!马斯克旗下xAI突然出手
第一财经· 2025-11-18 08:06
文章核心观点 - xAI公司在谷歌发布新模型前夕抢先推出Grok 4 1模型 该模型在大模型竞技场文本排行榜上位居首位并在对话智能和情感理解方面树立新标准[3][5] - 新模型相比前代在用户偏好选择概率上提升至64 78% 并且在情感智能和创意写作能力方面有显著进步[5][7] - 模型性能提升的关键在于幻觉率大幅降低 从12 09%下降到4 22% 减少近三倍[8] 模型性能与排名 - Grok 4 1 Thinking版本以1483的Elo分数位居大模型竞技场文本排行榜首位 非推理模式以1465 Elo分数排名第二[5] - 在EQ-Bench3情感智能测试中 Grok 4 1的推理模式和非推理模式位居榜单前两名[6] 情感智能与交互能力 - 新模型能够更敏锐地感知细微意图 个性更加一致 同时保留前代产品的智能和可靠性[6] - 官方案例显示Grok 4 1对情绪类提示的回应更具同理心和细节 文笔也更丰富[6][7] 创意写作与表达能力 - 在创意写作任务中 Grok 4 1展现出更强的文学表达和戏剧张力 相比前代模型的常规叙述有明显提升[7] 技术优化与基础设施 - 公司沿用Grok 4的大规模强化学习基础设施 并开发新方法利用智能推理模型作为奖励模型 以优化风格和个性等不可直接验证的奖励信号[9]
人工智能系列谈丨AI时代的机遇与挑战:从科技创新到行业应用
新华社· 2025-11-18 06:34
文章核心观点 - 人工智能发展进入“下半场”,重心从技术突破转向产业落地和场景赋能 [2][5] - 2025年是“AI+”行动全面铺开的关键年,政策提供强劲支持 [2] - 企业拥抱AI需遵循识别、定义、执行、适配的四步方法论 [8][9] AI发展历程与现状 - 人工智能历经70余年发展,从1956年达特茅斯会议提出概念,经历专家系统、机器学习到深度学习的根本转变 [3] - 2017年Transformer架构的提出奠定了当代大模型的理论基础 [5] - 大模型发展存在两大关键限制:庞大的训练成本和上下文窗口对性能的影响 [5] AI下半场的核心趋势 - 第一大趋势:模型推理调用频率与能源消耗将快速超越训练阶段,能源需求重心转移 [6] - 第二大趋势:行业发展重心从训练侧转向推理侧,模型参数规模从千亿级拓展至万亿级 [6] - 第三大趋势:AI需求从对话交互升级为解决现实问题,智能体应用普及率目标到2027年超70% [7] - 第四大趋势:多模态模型快速发展,语音、图像、视频等数据是AI深入认知世界的关键 [7] 企业应用AI的方法论 - 第一步是识别:精准定位业务场景痛点,利用大模型在语言及泛翻译类任务上的原生能力快速落地 [8] - 第二步是定义:清晰界定AI落地的核心价值,建立可量化的衡量标准 [8] - 第三步是快速推进落地执行,将规划转化为实际成果 [8] - 第四步是适配新型工具,重构生产关系,推动AI数字人与人类员工高效协同 [9] AI与人类的比较 - 人脑具备持续学习能力,而大模型的学习与使用过程分离,参数权重固定后不会动态更新 [10] - 人脑能耗极低,仅需约20瓦电力,训练GPT-4的电力消耗高达20-25兆瓦,是人脑能耗的100万倍 [11] - 关于AI是否具备共情能力、自主意识及创造力等命题仍需持续探索 [12]
正面硬刚谷歌和OpenAI!马斯克xAI发布Grok 4.1,智商情商双在线
第一财经· 2025-11-18 05:35
模型发布与市场定位 - xAI在谷歌发布新一代Gemini模型前夕突然发布最新模型Grok 4 1,目前在大模型竞技场(LMArena)的文本排行榜上居首位[1] - 此次更新正值OpenAI刚刚更新产品线、谷歌也即将发布新作之际,大模型之争愈演愈烈[5] 核心性能提升 - 与此前的线上生产模型相比,Grok 4 1在对比评估中有64 78%的概率被用户偏好选择[2] - 模型幻觉率从12 09%下降到4 22%,减少近三倍[4] - 公司表示新模型在对话智能、情感理解和现实世界的实用性方面树立了新标准,用户应会注意到速度和质量都有所提升[1] 情感智能与交互能力 - Grok 4 1更新的一个重要方向是情感智能,与OpenAI的GPT-5 1迭代方向一致,旨在实现更富有人情味的交互体验[2] - 在EQ-Bench3测试中,Grok 4 1的推理模式和非推理模式位居榜单前两名,该测试用于评估主动情绪智能,包括情绪理解、洞察力、同理心以及人际交往技能[2] - 新模型能够更敏锐地感知细微意图,更易于沟通,个性更加一致,对情绪类提示的回复更丰富和细节,带有更真实的同理心[2] 创意与表达能力 - 在创意写作上,Grok 4 1展示了模型能力的显著提升,其生成的社交媒体帖子明显更具文学表达和戏剧张力[3] - 官方案例显示,让模型以Grok的视角写一篇关于发现自己有意识的帖子,新版本输出相比前一代模型的常规叙述有显著改善[3][4] 技术实现方法 - 为实现提升,公司沿用了Grok 4的大规模强化学习基础设施,并将其应用于优化模型的风格、个性、实用性和一致性[5] - 公司开发了新方法,能够利用前沿的智能推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果[5]
马斯克抢先谷歌一步放大招,Grok 4.1登顶LMArena,创意写作直逼GPT-5.1
AI前线· 2025-11-18 05:34
产品发布与定位 - xAI于2025年11月17日发布新一代大语言模型Grok 4.1,包含标准版Grok 4.1和增强推理变体Grok 4.1 Thinking两个版本[10] - 两个版本基于同一底层模型,仅推理配置不同,Grok 4.1 Thinking通过使用"思考令牌"进行链式推理,特别适合处理复杂数学、编程或多步问题[10] - 新产品对所有人免费开放,提供官网、X平台以及iOS和安卓移动APP版本[2] 性能表现与基准测试 - 在LMArena大模型盲测平台,Grok 4.1 Thinking以1483 Elo分数排名第一,比第二名Gemini 2.5 Pro高出31分[4][6] - 标准版Grok 4.1以1465 Elo分数位列第二,超越其他厂商的推理模型,显示其底层能力稳定性[5][11] - 在EQ-Bench情商测试中,Grok 4.1获得1586 Elo高分,比上一代提升超过100点,在情绪理解和共情能力上表现突出[16] - 在Creative Writing v3创意写作测试中,Grok 4.1得分跃升至1722 Elo,较上一版提升近600分,叙事节奏和创造性有质感跃升[20] 技术升级与核心改进 - 引入大规模强化学习系统,并使用前沿推理模型作为奖励模型,带来更稳定的风格输出和更可靠的事实判断[12] - 幻觉率从12.09%显著下降至4.22%,降幅接近三倍,在事实准确性方面取得关键突破[13] - FActScore指标从9.89降至2.97,在涉及检索和引用外部事实的场景中能给出更基于证据的回答[15] - 上下文窗口扩展至256K tokens,Fast模式下可达200万,在长文档理解和持续协作中保持高连贯度[26] 用户体验与市场反馈 - 在为期两周的静默发布测试中,Grok 4.1的回答有64.78%的概率被用户选为"更好",显示真实用户偏好[26] - 响应速率明显提升,回答既精准又"有人味儿",在交互体验上有显著改进[2][24] - 在实测中展现出较强的推理能力,能成功找出复杂逻辑题的多组解[31] - 具备图像生成和根据图像一键生成视频的能力,扩展了应用场景[37][39]
刚刚,马斯克Grok 4.1低调发布!通用能力碾压其他一切模型
机器之心· 2025-11-17 23:40
| | | 就在刚刚,xAI 宣布,Grok 4.1 已经向所有用户开放,可以在 Grok 官网、X 以及 iOS 和 Android 应用中使用。 此次, Grok 4.1 将在真实世界可用性方面带来显著提升,尤其是在创造力、情感互动和协作交互方面表现出色 。Grok 4.1 对细微意图的感知能力更强,与用户对 话更加吸引人,整体人格也更连贯,同时完全保留了前代模型强大的智能与可靠性。 Grok 4.1 将立即在 Auto 模式中推送,并可在模型选择器中手动选择。 上宣传一波自家模型。 为实现这些提升,xAI 在支撑 Grok 4 的同一套大规模强化学习基础设施上进一步优化了模型的风格、个性、助人性和对齐性。并且,为了优化这些不可直接验证 的奖励信号,xAI 开发了全新的方法,能够利用前沿的智能体式推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果。 与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。 马斯克在 x 接下来看 Grok 4.1 的能力特征。 SOTA 通用能力 Grok 4.1 在盲测的人类偏好评估中树立了全新的标杆。 在 LMArena ...
人工智能时代 哪些能力不能丢?(师说)
人民日报· 2025-11-17 22:15
正如这名同学所言,生成式人工智能正改变传统的以知识积累和传递为中心的教学模式。大学里,生成 式人工智能工具触手可及,大家的学习方式也在改变。不过,教育不能把最基本的丢掉。人工智能时 代,一些关键的能力素养值得重视。 学生提问:如今,在学习中遇到问题可以问人工智能,写作业也可以用人工智能辅助查询信息。人工智 能时代,学习还重要吗?应注重哪些能力素质的培养? 系统学习和继承人类知识依然重要。认知是人类智能的重要表现,其基石是规范化的知识。基于规范化 知识,方能形成对学习对象的整体性理解、系统化分类,建立科学的认知框架。解决当前基础科学、工 程技术、人文社科等领域的复杂问题,需要同学们具备宽广、体系化的知识,而这很难仅通过与大语言 模型的交互问答而习得:大模型虽能"写"出优美诗篇,却无法创造语料之外的全新表达,更替代不了沉 浸式阅读等带来的思维沉淀与情感共鸣;若使用不当,还可能陷入"信息茧房"。同学们仍需注重基础知 识的积累与整合,并积极拓宽视野、掌握跨学科的知识和技能。 教育中,被放在重要位置的应该是独立思考和判断能力的培养。教育的目标绝非培养像机器一样思考的 人,而是培养能善用机器以更好地思考、创造、关怀他人的 ...
AI会取代人类客服吗
第一财经· 2025-11-17 12:03
大模型在电商客服领域的应用潜力 - 智能客服的Agent化有潜力将客服对话升级为购物的重要入口,补足行动短板 [1] - 对话是LLM最成功和最广泛应用的形态,与客服、社交、金融顾问等商业场景天然匹配 [1] - 电商客服是大模型率先落地的优势场景之一 [1] 大模型带来的能力升级 - 大模型大幅提升了对用户复杂、模糊表达的理解能力,具备长上下文记忆和情绪识别功能 [2] - 模型能理解文字、语音、图片、视频等多模态输入,并生成自然流畅的个性化回复 [2] - 例如在跑鞋推荐场景中,大模型能准确理解"支撑性"和"缓震性"等关键需求,结合600元预算给出专业建议 [3] - 基于大模型的智能客服单次对话成本约为0.2元,测算为人工客服成本的15%,且未来成本有进一步下降空间 [3] 当前落地挑战与局限性 - 随机抽样的50家淘宝商户中,启用大模型的不足30% [4] - 商家需要构建和维护准确、动态的知识库,包括商品详情、售后政策、促销规则等超细粒度信息 [4] - 大模型部署需要与订单系统、仓库系统、物流API、CRM等跨系统深度集成 [4] - Agent技术在垂直场景的准确性、稳定性和灵活性有限,复杂任务多依靠工作流编排 [5][6] - 现阶段大模型落地集中在售前场景,售后环节如退换货、投诉处理等仍依赖人工或传统系统 [6] 未来发展方向与价值重塑 - 智能客服Agent化有望实现从被动响应到情境感知、主动预测和需求挖掘的转变 [7] - 通过综合用户画像、历史对话、偏好与行为数据,智能客服可主动预测客户需求,在购物决策环节提前介入 [7] - 用户有望在一次对话中完成从选品、下单到售后服务的全流程,体验从碎片化走向连续化 [8] - 客服价值定位将从成本中心转变为承载用户关系与交易机会的核心触点,成为电商平台的关键基础设施 [8] 行业应用拓展与风险考量 - 电商客服因市场规模庞大、数据丰富,成为大模型落地的先驱领域 [9] - OpenAI与沃尔玛合作推出的"代理式购物系统"体现了对话的入口属性,用户可直接在ChatGPT内完成商品搜索、选购与结账 [9] - 在金融、医疗、法律等高风险领域,错误回复可能导致严重后果,可能长期保持人与AI配合的工作模式 [9]
微软研究院路保同:用向量检索重塑模型注意力——Attention
36氪· 2025-11-17 08:02
技术核心与创新点 - 提出一种免训练、用于超长上下文推理的动态稀疏注意力方案Retrieval Attention,核心观点是每个Query实际上只需要和一小部分Key进行强交互即可,注意力本身是天然稀疏的[1][3] - 核心创新在于将向量检索机制引入注意力计算路径,通过近似最近邻检索找出对当前Query最相关的少量Key(如只找前1%),实现真正意义上的动态稀疏化[3][7] - 在系统架构上提出CPU-GPU协同的双路注意力机制:GPU负责保留少量"可预测"的局部KV缓存,而CPU以检索方式动态调用大规模KV存储,两路计算独立并行,最终融合结果[7][22] - 整个机制无需对模型进行重新训练,以可插拔模块形式接入现有Transformer,仅修改注意力层的前向逻辑,即可在不牺牲精度的前提下显著加速长上下文推理[8] 性能表现与基准测试 - 实测在RTX4090(24GB)上,8B级模型可在128K上下文下稳定生成,每token耗时约0.188秒,且与全注意力精度几乎一致[5] - 后续工作RetroInfer在A100 GPU上相比于全注意力实现了4.5倍的解码吞吐,并在1M token上下文时相比于其它GPU-CPU稀疏注意力系统实现了10.5倍的吞吐[5] - 在128K上下文长度下,Retrieval Attention的每token延迟为0.188秒,显著优于Full attention的43.927秒,且在不同上下文长度下延迟增长平缓[6] - 该方法通过极低的扫描比例(约1–3%)实现高召回率,使显存占用降至原来的约1/10,同时几乎不损失精度[7][22] 研究背景与设计思路 - 研究思路源于数据库管理系统与机器学习在底层资源有限情况下高效组织信息的共通问题,将传统数据库的"检索"逻辑迁移到模型层面[9][11] - 核心是将数据库中成熟的向量检索方法移植到语言模型推理过程中,让模型在生成时只访问"最相关"的信息,通过系统层设计让模型更高效利用已有记忆[11][14] - 将注意力机制理解为动态的信息检索系统,模型每生成一个新token都需要在已有语义空间里"查询"最相关信息,这与数据库执行查询请求的过程相似[18][19] - 研究目标是让模型的注意力机制变得更像一个"可控的数据库",使模型能主动查询、筛选、调用真正需要的信息,而非被动遍历全部上下文[20][21] 行业影响与未来方向 - 该项研究让模型具备了真正的"长时记忆"能力,使其能在极大范围内保持语义一致性,从"局部理解者"转变为"系统性推理者"[30][31] - 未来大模型推理框架不应再是"GPU-only",而应是一种充分利用CPU内存优势的混合架构,让更便宜、更可扩展的系统也能实现接近主流GPU集群的性能[28] - 长期看可能会推动重新理解"知识"的组织方式,未来可能出现具备自主知识管理能力的AI系统,能长期保留信息、持续学习,实现真正的可扩展性[32] - 动态注意力与系统优化未来可能会融合,形成一种既能主动学习、又能自我管理"记忆"的新型注意力体系[29]
AI芯片霸主英伟达(NVDA.US)再临大考,华尔街押注“超预期+上调指引“
智通财经· 2025-11-17 04:07
核心财务预测与业绩 - 公司将于11月19日盘后公布2026财年第三季度财报,预计调整后每股收益为1.26美元,营收预计为552.8亿美元,较去年同期增长超过55% [1] - 市场预计数据中心业务第三季度营收为480.4亿美元,同比增长56.1% [2] - 市场预计游戏业务第三季度营收为47.1亿美元,同比增长43.7% [2] - 市场预计专业可视化业务第三季度营收为6.789亿美元,同比增长39.7% [3] - 市场预计汽车业务第三季度营收为6.248亿美元,同比增长39.1% [3] 各业务板块驱动因素 - 数据中心业务是核心增长引擎,受益于混合工作模式与云端解决方案采用率提高,以及超大规模需求增长和推理市场采用率提高 [2] - 数据中心业务增长主要受基于Blackwell架构的GPU需求推动,大型云服务和消费互联网公司对生成式AI和大语言模型的芯片需求强劲 [2] - 游戏业务连续九个季度中有七个季度同比改善,因渠道库存恢复正常,且游戏产品在大多数地区需求强劲 [2] - 专业可视化业务营收已连续八个季度增长 [3] - 汽车业务趋势改善,受益于对自动驾驶和AI智能座舱解决方案的投资增加 [3] 生成式AI的行业机遇与公司地位 - 公司是生成式AI浪潮的最大赢家,其营收增长受开发生成式AI模型所需芯片的强劲需求推动 [4] - 公司主导生成式AI芯片市场,其芯片在营销、广告、客户服务、教育、内容创作、医疗保健、汽车、能源与公用事业及视频游戏开发等多个行业得到应用 [4] - 全球生成式AI市场规模预计到2032年将达到9676.5亿美元,2024年至2032年期间的复合年增长率预计为39.6% [4] - 生成式AI的复杂性需要巨大计算能力,促使企业升级网络基础设施,公司的AI芯片(如A100, H100, B100, B200, B300, GB200, GB300)是构建和运行强大AI应用的首选 [6] - 随着生成式AI革命展开,公司的先进芯片预计将推动其营收和市场地位大幅增长 [6] 华尔街观点与市场预期 - 华尔街分析师一致看好公司,认为其受益于GPU领域主导地位及向AI、数据中心和自动驾驶汽车的战略扩张,强大的产品组合和AI领导地位构成引人注目的投资机会 [7] - 杰富瑞和韦德布什的分析师预计公司将“超预期并上调指引” [7] - 韦德布什分析师指出第三季度超大规模资本支出普遍超预期,且大型超大规模企业普遍预计未来支出将增加以支持AI计划,维持目标价210美元 [7] - 来自微软、Alphabet和亚马逊等“超大规模企业”的支出增长,大部分似乎最终流向公司,因公司提供了AI服务器价值中不成比例的部分 [7] - 美国银行分析师保持目标价275美元,预计公司高管将向投资者保证其满足需求的能力 [8] - 奥本海默分析师上调公司目标价,称其为AI领域“最有可能获胜的单一公司” [8]
大行评级丨野村:芯片短缺将持续对腾讯云业务造成较大影响 仍维持“买入”评级
格隆汇· 2025-11-17 02:55
腾讯第三季度业绩 - 公司第三季度整体业绩表现稳固 [1] - 管理层下调2025财年资本支出指引,预期将低于此前指引的占全年收入低双位数百分比,但预料仍高于去年770亿元人民币的水平 [1] AI芯片供应与云业务影响 - 公司目前正面临AI芯片供应限制 [1] - 芯片短缺将持续对腾讯云业务造成较大影响,阻碍其业务发展,因计算能力是目前企业用户部署大型语言模型最高需求的服务之一 [1] - 管理层预期旗下两大最具价值的AI资产元宝及混元大型模型均未受供应短缺影响 [1] 同业比较与投资评级 - 相对于同业字节跳动及阿里,腾讯过去几年对AI基础设施和大语言模型的投资可能不足 [1] - 研究机构维持对公司"买入"评级,目标价从757港元上调至775港元 [1]