大语言模型
搜索文档
指望创作者自觉没戏,抖音也开始用AI治理AI谣言
36氪· 2025-09-25 00:05
行业背景与挑战 - 生成式人工智能和大语言模型在2023年底走红后,从业者预言AI将成为互联网虚假内容的“制造机” [1] - 不到两年时间,“AI污染互联网”已成为诸多网友的共识 [1] - AI生成内容与人类创作的界限模糊,其表达能力与人类极为接近,导致辨别困难 [8] - 互联网内容平台对AIGC持矛盾态度:既希望其实现内容多元化以丰富生态,又不愿看到低质量内容污染平台 [5] 平台治理措施 - 抖音上线“AI抖音求真”功能,当用户浏览易产生误解的内容或搜索谣言信息时,可获知完整信息和辟谣内容 [3] - 该功能依托抖音训练的“谣言治理大模型”和“资讯大模型”,以及专门的辟谣运营团队 [3] - 平台实现了精准定义“内容误导性”、“公共价值”、“可证伪”等谣言特征的能力,能主动审查达到一定热度的内容 [3] - 通过提取视频信息、分析主旨、联网搜索,完成对内容是否为谣言的风险判断 [3] - 抖音已将大模型技术应用于谣言治理,自7月以来平台谣言曝光量下降67% [3] 技术方案的局限性 - “AI抖音求真”并非万灵药,可能存在不准确、覆盖面不够完整的情况 [5] - 该功能对于以往存在的谣言类型有效,但对“新鲜事”和“新花样”可能力有未逮 [10] - 其效能主要依托于“谣言治理大模型”的迭代速度,需要跟上AI虚假内容的发展 [10] - 如果权威媒体没有报道相关内容,该功能只能给出“存疑”的判断 [10] - 此招在短时间内只能做到“治标不治本” [8] 创作者生态与平台政策 - 在百模大战初期,抖音、快手、知乎等内容平台已要求创作者主动添加“内容由AI生成”的声明 [5] - 但创作者普遍担心打上AI生成标签会导致作品被限流 [5] - 流量分成政策依然存在,使得当年做“内容农场”的人现在转向做“AI农场”以牟利 [8] - 平台无法取消流量分成,因为这会极大打击正常创作者的积极性 [8]
长盈精密:广发基金、融通基金等多家机构于9月23日调研我司
搜狐财经· 2025-09-24 09:41
公司业务结构 - 主营业务为消费类电子及新能源行业精密零组件制造 消费类电子业务占总营收70% 新能源业务占30% [2] - 已形成消费电子和新能源双支柱+人工智能的发展格局 [2] 财务业绩表现 - 2025年上半年实现营收86.40亿元 同比增长12.33% [2][10] - 扣非净利润2.88亿元 同比增长32.18% [2][10] - 第二季度单季度营收42.45亿元 同比增长13.14% 单季度扣非净利润1.2亿元 同比增长31.25% [10] - 毛利率18.75% 负债率59.04% [10] 业务板块表现 - 消费类电子业务实现营收53.04亿元 保持平稳增长 [2] - 新能源业务实现营收29.39亿元 较去年同期增长37.09% [2] - 海外人形机器人零件实现收入超过3500万元 2024年全年仅为1011万元 [2] 研发投入与产能建设 - 研发费用增长较快 主要为消费类电子大客户重要项目量产做准备 [4] - 拓展I眼镜类产品种类 为北美客户提供电池钢壳、塑胶橡胶类产品 [4] - 越南基地一期工厂已投产 墨西哥第一工厂2022年投产 第二工厂将于今年四季度投产 [5] - 欧洲匈牙利工厂在筹建中 国内深圳机器人智能制造产业园预计四季度投入使用 [5] 人形机器人业务进展 - 累计交付人形机器人结构件产品价值超过8000万元 [6] - 供应料号超过400个 项目集中在灵巧手传动件 逐步扩展至大尺寸传动件 [6][7] - 产品精密度超过普通消费电子产品 具备金属和非金属材料加工能力 [6][7] 核心竞争力 - 模具部门超过2000人 15年以上资深工程师约500人 10年以上超过1000人 [8] - 具备一站式金属、非金属加工能力 能为客户提供设计优化和降本建议 [8] 业务发展规划 - 消费类电子业务利润率水平不错 新能源业务三年内将继续保持增长 [9] - 人形机器人业务被视为业绩增长第三极 未来市场空间巨大 [9] 机构关注与预测 - 最近90天内共有5家机构给出评级 买入评级3家 增持评级2家 [11] - 机构目标均价为28.0元 [11] - 近3个月融资净流入7.26亿元 融券净流入2069.76万元 [13]
创业板大涨,阿里巴巴飙涨超8%,半导体爆发霸屏A股
21世纪经济报道· 2025-09-24 07:34
A股市场表现 - 9月24日A股主要指数全线上涨 创业板指涨2.28%至3185.57点 沪指涨0.83%至3853.64点 深成指涨1.80%至13356.14点[2] - 科创50指数表现突出 大涨3.49%至1456.47点 中证500指数涨1.99%至7323.71点[3] - 全市场4457只个股上涨 成交额2.35万亿元 较前日缩量1713亿元[2][3] 板块涨幅情况 - 半导体产业链领涨 未合体材料板块涨7.57% 半导体设备涨6.26% 晶圆产业涨6.02%[4] - 中芯国际产业链涨5.89% 国家大基金持股涨4.55% 先进封装涨4.72%[4] - 存储芯片和光刻机板块涨幅居前 存储器涨4.19% 光刻机涨3.57%[2][4] - 新能源板块表现强劲 BC电池涨5.11% 动力电池涨3.65% 锂电电解液涨4.00%[4] 阿里巴巴AI技术突破 - 阿里巴巴发布通义旗舰模型Qwen3-Max 预训练数据量达36T tokens 总参数超过万亿 在Chatbot Arena排行榜位列第三[5][6] - 模型在AIME 25和HMMT数学推理测试中获得满分100分 为国内首次实现[6] - 公司公布"集成电路组件和芯片封装结构"专利 能有效提升数据访问效率[6] 资本市场反应 - 阿里巴巴港股股价涨8.85%至173.5港元/股 创2021年10月以来新高 总市值达3.3万亿港元[5] - 凯西伍德旗下ETF四年来首次买入阿里巴巴 合计买入价值1630万美元股份[7] - A股半导体设备板块大幅拉升 长川科技实现20cm2连板 多只半导体设备ETF封死涨停[7] 机构观点 - 华龙证券认为"云+AI"将成为阿里巴巴第二增长曲线 AI业务收入占比提升将带来估值提升[7] - 中信建投证券看好阿里全栈AI布局 建议关注国产芯片链企业和isv厂商等生态圈玩家[8] - 机构看好AI在医疗、教育、市场营销等垂直场景的创收机会 以及AI-coding和多模态生成的降本效果[8]
【有本好书送给你】人类在被大语言模型“反向图灵测试”
重阳投资· 2025-09-24 07:32
公众号专栏定位 - 专栏定位为读书交流栏目,通过书评、书单或书摘的形式与读者互动 [4] - 每期设置交流主题,鼓励读者通过留言参与互动 [5] - 根据留言质量精选优质好书送出,鼓励原创内容 [6] 推荐书籍信息 - 本期推荐书籍为《大语言模型》,作者特伦斯·谢诺夫斯基,由中信出版集团于2025年7月出版 [8][10] - 互动话题为"结合本书,谈谈你对大语言模型的认识",留言时间为2024年9月24日至2025年10月8日 [10] 大语言模型的发展与影响 - 深度学习算法在20世纪80年代被发明时,计算机性能仅为今日的百万分之一 [10] - 到21世纪10年代,深度学习在图像识别、语音识别和语言翻译等经典难题上取得突破,并与强化学习结合取得显著成就(如2017年AlphaGo击败围棋世界冠军) [11] - 自OpenAI于2022年11月推出ChatGPT以来,大语言模型的快速发展引发世界关注,公众反应喜忧参半 [11] 大语言模型的智能本质探讨 - 大语言模型在处理和提取海量文本数据方面已超越人类能力,但在是否真正理解内容方面存在争议 [12] - 在实际交互中,大语言模型表现出反向图灵测试的特性,其智能表现与对话者的思维水平和提示质量正相关 [13] - 大语言模型展现出通用人工智能的潜力,其实现形式与早期设想不同,并表现出超预期的社交智能 [14] 关于智能标准的重新审视 - 专家对大语言模型智能的认知分歧凸显传统认知框架的局限性,需要重新审视"智能"、"理解"等核心概念 [20] - 大语言模型的出现为理解智能本质提供契机,可能催生新的概念框架,类似于17世纪物理学的变革 [21] - 通过研究大语言模型,可能会发现关于语言智能的基本原理,这些原理可推广到社会智能、机械智能等其他形式 [21] 思维与语言关系的哲学思考 - 关于语言与思维孰先孰后存在两种主要观点:语言决定论认为语言决定思维,思维优先论认为思维独立于语言存在 [24][25] - 大多数学者认为语言与思维是在复杂互动中相互塑造的关系 [25] - 著名语言学家诺姆·乔姆斯基提出人类思维的三个层次:现象描述、预测推断和因果解释,而研究发现ChatGPT已能成功应对该思维测试 [26] 书籍内容概述 - 书籍将深入探讨大语言模型的原理与应用,包括Transformer等核心技术 [28] - 内容涵盖大语言模型在医疗、法律、教育、编程、艺术等领域的广泛应用和深远影响 [28] - 书籍旨在帮助读者在智能革命中把握机遇,理解智能、思维与意识的本质 [28] 作者背景 - 作者特伦斯·谢诺夫斯基是美国四院院士,创办了《神经计算》期刊并担任主编 [29][30][31] - 担任神经信息处理系统大会基金会主席,目前是索尔克生物研究所弗朗西斯·克里克讲席教授 [32][33] - 与图灵奖得主杰弗里·辛顿共同发明了玻尔兹曼机,为深度学习奠定基础 [34]
2025年9月荐书 | 三力协同 资本重估
第一财经· 2025-09-24 06:34
宏观投资环境 - 低利率环境持续,政府债务成本被经济增长动态稀释,为财政扩张提供自我偿付空间 [1][14] - 全球资本再配置推动风险溢价与治理溢价重估,资产边界随产业链地理重构而外移 [1] - 货币政策逼近零下限后,公共投资应主动补位,通过提升潜在产出率抬高中性利率 [14] 技术变革与投资机会 - 生成式人工智能可将非结构化文本即时转化为可计算因子,显著降低信息摩擦与策略开发门槛 [1] - 人工智能发展推动人类从石油驱动经济步入电力驱动经济时代,电力重要性将等同于过去的石油 [5] - 机器人普及将推动聚醚酮、镁合金、钛合金、碳纤维、钕铁硼磁材等高性能材料需求激增 [5] 资产配置与投资策略 - 全球资产轮动遵循货币、资源、人口、科技线索,资本流向等于财富流向 [3] - 在美元周期、地缘博弈与产业变迁中锁定稀缺标的,利用ETF等低门槛工具构建确定性组合 [3] - 投资需看清趋势转换过程中产生的巨大机会,原有力量与新生力量的重叠使转换过程显得模糊 [5][6] 金融科技应用 - 大语言模型是自然语言处理组成部分,可跨越计算机科学与语言学,用于理解和生成人类语言 [10] - 金融行业对高效处理大量自然语言数据需求增长,但中文的含蓄多义特性对机器处理构成挑战 [11] - 大模型技术可应用于投研、风控、监管等十二大金融场景,从文本中提炼金融决策信息 [9]
Plaud正式进入中国大陆市场:同步发售三款产品
环球网· 2025-09-24 02:09
公司市场与产品发布 - Plaud公司宣布正式进入中国大陆市场并同步推出三款产品:Plaud Note Pro、Plaud Note以及可穿戴式产品Plaud NotePin [1] - 升级后的Plaud NotePin S将在国内进行首发 [1] Plaud Note Pro产品特性 - 产品采用全新人机交互方式实现人与AI的实时协同 多模态输入中的“一键标记”功能可实时将重要信息同步给大模型以实现人与大语言模型的实时对齐 [3] - 智能双录音模式通过算法自动识别通话或面对面对话场景 无需手动切换以实现无缝录音体验 [1][3] - 产品采用4个全向MEMS麦克风阵列设计和AI声学波束成型技术 可在最远5米范围内进行专业录音棚级音频捕捉 [3] - 产品机身厚度为2.99毫米 重量为30克 尺寸如银行卡般大小 [3] - 单次充电可支持最长50小时的连续录音 足以应对一周的工作需求 [3] Plaud Intelligence平台升级 - 平台核心升级包括可捕捉音频、文本、图片并支持“一键标记”功能以获取更丰富的上下文信息并生成更全面的摘要 [4] - 通过优化整合DeepSeek R1、千问、豆包等大模型来深挖对话价值并将细节转化为深度见解 [4] - 平台可区分不同说话人并支持112种语言的转写 [4] - 可从全球3000多个模板中优选覆盖不同行业和领域的专业模板并根据使用者角色和习惯进行智能推荐 [4] - 新增基于完整上下文的深度问答功能 所有答案信息来源可追溯 并新增智能建议追问、跨文件查询及精彩回答一键保存成新笔记等功能 [4] 产品支持与用户体验 - Plaud旗下所有产品均支持Plaud Intelligence平台 相关功能可通过支持iOS和Android的Plaud APP及网页端实现 [5] - 新版本将采用全新设计界面以简化多模态交互操作并确保在所有智能功能间实现无缝切换 [5]
网络基础设施如何支撑大模型应用?北京大学刘古月课题组5大方向研究,相关论文入选ACM SIGCOMM 2025
AI前线· 2025-09-23 06:37
研究团队与行业背景 - 北京大学刘古月课题组在智能计算时代聚焦于网络体系结构、运维智能化和安全防护研究 [2] - 业界迫切需要更高带宽、更低成本、更智能化和更安全的网络基础设施以支撑大语言模型训练等多样化场景 [2] - 课题组在ACM SIGCOMM 2025共有5篇论文入选(4篇长文+1篇短文),成为全球发文数量最多的高校课题组,会议投稿461篇录用74篇,录取率16.1% [2] InfiniteHBD:大语言模型数据中心高带宽域架构 - 提出收发器中心高带宽域架构,首次将光路交换嵌入收发器内部,突破大模型训练中可扩展性与动态通信瓶颈 [4][6][7] - 支持可重构的点到多点通信与可变规模环形拓扑,兼顾灵活扩展性、节点级故障隔离与高效带宽利用 [7] - 实验结果显示成本仅为NVL-72的31%,GPU浪费率几乎为零(比NVL-72和TPUv4低10倍以上),在7%节点故障率下仍保持接近零的跨ToR流量,模型FLOPs利用率较NVIDIA DGX提升3.37倍 [8] DNSLogzip:DNS日志高效压缩方法 - 针对海量DNS日志实现高效无损压缩,大幅降低存储与运营成本 [2][11] - 通过模块化压缩架构充分利用DNS日志的行间与行内特性去除冗余 [11] - 在生产环境中部署可将存储成本降低约三分之二,每个DNS服务节点每月节省高达16.3万美元 [12] BiAn:基于大模型的网络故障定位 - 借助大模型实现生产网络的智能化故障定位,能够处理监控数据并生成带有详细解释的故障设备排序 [13] - 部署10个月后将根因定位时间缩短20.5%(高风险故障事件缩短55.2%),定位准确率相比基线方法提升9.2% [14] MixNet:可重构光电混合网络 - 提出运行时可重构光电混合网络,支持分布式MoE训练的动态通信,是首个支持拓扑重配置的系统 [6][15][17] - 通过光交换增强现有电互连,在32块A100 GPU上实现支持训练期间拓扑重配置的MoE模型训练 [18] - 在100Gbps和400Gbps链路带宽下,四个代表性MoE模型的网络成本效率(性能/美元)分别提升1.2倍到1.5倍和1.9倍到2.3倍 [18] Mazu:加密流量异常检测系统 - 基于可编程交换机实现高速加密流量异常检测,采用双平面特征提取模型在接近线速下获取流量特征 [19][22] - 已在两家ISP投入生产两年,保护超过千万台服务器,成功阻止10余起重大攻击,检测准确率约90% [22] 技术应用与产业合作 - 五项成果从架构、数据、运维、安全四个维度形成完整技术闭环,共同推动新一代网络系统高效、可靠与智能化发展 [3] - 团队与华为、腾讯、阿里巴巴、京东等知名企业和研究机构携手开展项目合作,推动科研成果在产业中的转化与落地 [23]
Grok: xAI引领Agent加速落地:计算机行业深度研究报告
华创证券· 2025-09-23 03:41
报告行业投资评级 - 计算机行业评级为"推荐(维持)" [3] 报告核心观点 - Grok系列模型由xAI公司开发 通过快速迭代实现多模态与智能体能力突破 最新版本Grok-4在学术测试和多场景应用中建立技术壁垒 [6][8][29] - 海外大模型(OpenAI GPT-5、Google Gemini 2.5 Pro、Anthropic Claude 4)与国产模型(Kimi K2、DeepSeek-V3.1、阿里Qwen3)形成多极竞争格局 国产模型以成本效率优势(如Kimi K2输入成本仅为GPT-4.1的1/3)实现性能追平 [6][8][73] - AI Agent商业化落地加速 推动企业级服务与行业场景应用需求增长 涵盖办公、编程、金融、教育、医疗等细分领域 [6][8][83] 模型技术迭代与性能 Grok系列演进 - Grok-1(2024年3月):开源MoE架构 3140亿参数 在HumanEval编码测试达63.2% MMLU任务达73% 优于ChatGPT-3.5 [13][14][15] - Grok-1.5V(2024年4月):新增图像理解功能 在Mathvista测试准确率52.8% TextVQA达78.1% [17][18] - Grok-2(2024年8月):整合实时检索与图像生成 在MATH测试追平GPT-4o DocVQA测试领先同期模型 [19][21] - Grok-3(2025年2月):参数规模2.7万亿 引入Think分步推理和DeepSearch联网检索 在AIME、GPQA测试超越GPT-4o等旗舰模型 [20][24][25] - Grok-4(2025年7月):上下文窗口256K tokens 计算资源投入较Grok-2增加100倍 在HLE测试以44.4%准确率刷新纪录 在AIME、SAT、GRE测试超越GPT-4o等模型 [29][30][35] 海外大模型进展 - OpenAI GPT-5:在SWE-bench Verified测试达74.9% Aider Polyglot测试达88% [59][61] - Anthropic Claude 4:在SWE-bench Verified测试中Claude Sonnet 4达80.2% Claude Opus 4达79.4% 超越GPT-4.1和Gemini 2.5 Pro [64][66] - Google Gemini 2.5 Pro:在LiveCodeBench测试达74.2% Aider Polyglot达82.2% 多模态与推理能力领先 [68][71] 国产模型突破 - Kimi K2:在SWE-bench Multilingual和Tau2测试接近Claude 4 输入成本仅为GPT-4.1的1/3 [73][77] - DeepSeek-V3.1:通过Post-Training优化增强Agent能力 工具调用效率提升 [6][74][76] - 阿里Qwen3 Coder:编码基准测试媲美Claude Sonnet 4 中文语义任务保持优势 [79][80] 算力与生态布局 - xAI计划五年内实现5000万块H100等效算力规模 支撑Grok系列迭代 [30][50][53] - 国产模型累计备案服务439款 登记应用233款 商业化进程加速 [6][73] 投资应用方向 企业级服务 - 办公:金山办公、合合信息、福昕软件、三六零 [6][84] - 编程:卓易信息、普元信息 [6][84] - ERP:金蝶国际、用友网络 [6][84] - 多模态:万兴科技、美图公司、虹软科技、当虹科技 [6][84] 行业场景 - 金融:大智慧、同花顺、恒生电子、京北方、宇信科技 [6][84] - 教育:科大讯飞、视源股份、新开普、佳发教育 [6][84] - 医疗:阿里健康、卫宁健康、讯飞医疗科技 [6][84] - 工业:华大九天、中控技术、中望软件、索辰科技 [6][84] [6][8][83][84]
8点1氪丨英伟达拟向OpenAI投资至多1000亿美元;万豪酒店承认拖鞋循环多次使用;“最快女护士”张水华发文道歉
36氪· 2025-09-23 00:04
人工智能与科技合作 - OpenAI与英伟达宣布合作伙伴关系意向书 英伟达将逐步向OpenAI投资至多1000亿美元用于支持数据中心及相关基础设施建设 双方合作将为OpenAI的下一代人工智能基础设施部署至少10吉瓦的英伟达系统 首批吉瓦级系统将于2026年下半年部署[3] - OpenAI已就具体项目与国内供应链展开合作 产业链人士证实相关合作正在进行中[2][16] - 美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking 该模型是国内首个兼具深度思考与工具调用能力的大语言模型 在逻辑数学代码智能体等多领域推理任务中达到全球开源模型最先进水平[25] - DeepSeek线上模型升级至DeepSeek-V3.1-Terminus版本 针对语言一致性和Agent能力进行改进 缓解中英文混杂及异常字符问题 优化Code Agent与Search Agent表现[24] - OpenAI将推出若干计算密集型新功能 部分功能初期仅面向Pro订阅用户开放 部分新产品将收取额外费用[24] - Meta为Facebook Dating接入人工智能约会助手 通过Meet Cute功能基于算法每周为用户推荐惊喜匹配对象[24] 半导体与硬件投资 - 小米旗下基金入股旗芯微半导体 该公司为汽车控制器芯片研发商 注册资本增至1546.39万元[13] - 英伟达股价涨超3%创历史新高 美股三大指数集体收涨 纳指涨0.7% 道指涨0.14% 标普500指数涨0.44%[7] - 硅谷灵巧手创业公司TetherIA.ai完成数百万美元天使轮融资 由经纬创投领投 奇绩创坛跟投 资金用于团队扩充及初代产品研发推进[22] 新能源汽车与电池 - 比亚迪李云飞回应巴菲特清仓比亚迪股份 表示股票投资有买就有卖是正常现象 伯克希尔于2022年8月开始陆续减持 去年6月持股已低于5%[12] - 天赐材料向港交所提交上市申请书 联席保荐人为摩根大通中信证券和广发证券[19] - 新能源航空器研发制造商零重力飞机工业完成近亿元A++轮战略融资 由云时资本和盐城黄海汇创科泰低空经济产业投资基金联合投资 资金用于推进适航认证及产品研发量产[23] 消费与零售动态 - 太二酸菜鱼等多款预制菜在山姆会员店上架 包括太二酸菜鱼每份119.9元 松鼠桂鱼每份129.9元 九毛九西北菜卤牛腱拌凉皮每份69.9元[2][9][10] - 百果园拟筹约3亿元还债 通过配售2.795亿股H股 配售价每股1.17港元 公司半年亏损超3亿 一年关店超1600家[2][10] - 转转集团宣布逐步关停自由市场业务 未来全力聚焦官方验业务模式[14] - 山寨美心月饼售价60至80元 仅为正品官方定价368元的20% 采用无痕发货模式 生产源头多数位于广东[10][11] 企业资本运作 - 大洋电机向港交所提交上市申请书 联席保荐人为华泰国际和花旗[18] - 浩博医药完成6300万美元B2轮融资 由启明创投携手产业投资机构共同领投 资金用于推进核心产品AHB-137临床试验及商业化布局[20] - 沃庭科技完成数千万元天使轮融资 资金用于技术研发投入和产业布局完善[21] 企业回应与声明 - 贵州茅台否认下调今年业绩目标 公司证券部表示上半年已按计划完成目标进度[2][15] - 罗永浩回应债务问题 称作为被执行人冻结股权总额约为1758万元 表示五年前已还清法律强制个人偿还的债务 后续主动偿还公司债务[2][9] - 抖音电商货架场GMV同比增长49% 过去一年超过511万名新电商作者和536万新商家通过平台获得收入 平均每天有125万场电商直播开播[15] 行业监管与法律 - 美国寻求拆分谷歌数字广告业务 法官裁定谷歌部分数字广告技术构成非法垄断 认为其行为抑制市场竞争损害在线出版商利益[16] - 外交部发言人表示希望美方为中国企业到美国投资提供开放公平非歧视的营商环境 尊重企业符合市场规则的商业谈判[11]
GPT-5编程测评大反转,表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
36氪· 2025-09-22 11:39
行业基准测试 - Scale AI推出全新软件工程基准SWE-BENCH PRO 旨在通过更严格的测试标准评估大语言模型在实际开发场景中的能力[4] - 新基准包含1865个问题 覆盖商业应用 B2B服务和开发者工具的多元化代码库 包括731个公共集问题 276个商业集问题和858个保留集问题[7] - 测试设计采用human in the loop模式 每个问题都经过人工增强 包含问题陈述 需求说明及接口信息 并在容器化环境中进行评估[8][9][10] 模型性能表现 - 在SWE-BENCH PRO测试中 主流大语言模型解决率普遍低于25% 其中GPT-5以23.3%的解决率位列第一 Claude Opus 4.1以22.7%居次 Gemini 2.5 Pro Preview以13.5%排名第三[1][13] - 若仅统计已提交任务 GPT-5准确率达63% 显著高于Claude Opus 4.1的31% 显示其在擅长领域的稳定性[3] - 在商业集测试中 最优模型得分仍低于20% 表明当前模型处理真实商业场景问题的能力有限[13] 技术细节分析 - 测试结果显示编程语言难度影响显著 Go和Python语言上部分模型解决率超过30% 而JavaScript和TypeScript表现波动较大 介于0%至30%之间[15] - 不同代码库解决率差异明显 部分代码库解决率低于10% 另一些超过50%[15] - 模型失败模式各异 Claude Opus 4.1主要因语义理解不足失败(错误解答35.9% 语法错误24.2%) GPT-5未回答率高达63.1% Claude Sonnet 4存在35.6%的上下文溢出问题[16][17] 测试方法论 - SWE-BENCH PRO针对SWE-Bench-Verified的缺陷进行改进 使用全新题目避免数据污染 并排除1-10行代码的琐碎编辑 专注于需要大量多文件修改的复杂任务[4][7] - 测试通过fail2pass和pass2pass双验证机制确保质量 fail2pass测试经过人工筛选 偶尔失败的测试会运行三次以保证结果稳定性[10] - 基准采用分集策略 公共集在HuggingFace发布 商业集和保留集保持私有 商业集测试结果公开 保留集用于验证模型过拟合情况[7]