Workflow
DeepSeek V3.1
icon
搜索文档
HLE“人类最后考试”首次突破60分,Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
36氪· 2025-09-28 12:05
在HLE("人类最后考试")的专家校验子集上,首次有系统突破60分大关! 就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的Eigen-1多智能 体系统实现了历史性突破—— 下面详细展开—— 技术创新:三大支柱撑起60分突破 当AI开始挑战人类知识的终极边界,一场前所未有的较量正在上演。 当大模型在MMLU、GPQA等传统基准上纷纷"卷到90分"时,这些测试逐渐失去了区分力。为了追踪AI在科学推理前沿的真实进展,Center for AI Safety与 Scale AI联合推出了"人类最后的考试"(Humanity's Last Exam,HLE)—— 最令人振奋的是,这一成就并非依赖闭源超大模型,而是完全基于开源的DeepSeek V3.1搭建。 涵盖数学、自然科学、工程学、人文社科等百余领域共3000道博士级难题,被视为AI知识推理的终极试炼。 而HLE Bio/Chem Gold则是HLE的黄金标准子集,包含149道经过领域专家人工审核和纠正的题目。 在HLE Bio/Chem Gold测试集上,Pass@1准确率达到4 ...
HLE“人类最后考试”首次突破60分!Eigen-1基于DeepSeek V3.1显著领先Grok4、GPT-5
量子位· 2025-09-28 11:54
Eigen-1团队 投稿 量子位 | 公众号 QbitAI 在HLE("人类最后考试")的专家校验子集上,首次有系统突破60分大关! 就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的 Eigen-1多智能体系统 实现了历史性突破—— 在HLE Bio/Chem Gold测试集上,Pass@1准确率达到48.3%,Pass@5准确率更是飙升至61.74%,首次跨越60分大关。这一成绩远超谷歌 Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)。 相比原始HLE数据集,这个子集排除了可能存在歧义或错误答案的问题,确保了标签的准确性和可靠性,因此成为评估AI科学推理能力最可信 的基准。 最令人振奋的是,这一成就并非依赖闭源超大模型,而是 完全基于开源的DeepSeek V3.1搭建 。 在这个开源底座上,研究团队通过叠加Monitor-based RAG(隐式知识增强)、HSR(分层解法修复)、QAIR(质量感知迭代推理)三大创 新机制,实现了质的飞跃。 下面详细展开—— ...
2025人工智能产业十大关键词
机器人圈· 2025-09-26 09:29
文章核心观点 人工智能技术、应用、生态三维共振 智能原生新世界加速形成[1] 基础超级模型 - 2024年底至2025年8月大模型综合能力提升超过30% 集成思考与非思考模式[3] - 头部模型GPT-5/Grok4/DeepSeek V3.1/Claude Opus 4.1/Qwen3-235B-A22B展现三大特征:自主选择处理模式、理解推理数学能力提升、内置代码与工具调用能力[3][4] - 技术采用路由融合与面向智能体的强化学习 显著增强真实业务场景表现[6] - 对用户产生三方面影响:使用门槛降低、工作流工具调用精准度提升、训练数据供应需求变化[6] 自主性更强的智能体 - 方升智能体基准测试显示当前智能体可自主完成复杂任务但能力仍有提升空间[9] - 通信协议成为交互桥梁 Anthropic的MCP与谷歌A2A协议实现互补协同[12] - 智能体任务处理长度每7个月翻一番 未来可完成人类数天至数周任务量[12] - 产品形态逐步清晰 成为消费端与企业端数字员工初级形态[10] 走向实训的具身智能 - 本体从实验室走向真实赛场与训练场 推进行业场景试点验证[15] - 蔚来世界模型NWM在Banyan榕车型全量推送 强化追尾预防与障碍物识别[15] - 智元机器人GO-1端到端VLA模型实现擦桌子/倒水任务 Figure AI Helix支持物流分拣等技能[16] - 面临三大挑战:高质量数据缺口需百万小时机器人数据、模型泛化难、软硬协同控制不稳定[18] 萌芽中的世界模型 - 被视为通向AGI的核心路径 需具备四大核心能力:数据生成/动作解释/环境交互/场景重建[21] - 技术路线百花齐放:大模型增强/大模型+物理引擎融合/物理世界表征探索[22] - 面临定义争议/技术路线不清晰/应用范围局限三大挑战 目前仅自动驾驶领域有规模应用[22] - 参考技术包括Sora/Marble/JEPA/Genie3/Cosmos/HunyuanWorld等[22] AI正在重塑软件 - AI深度渗透软件开发全生命周期 开发测试环节保持高比例应用[25] - AI研发工具从Copilot向Pilot演进 2025年密集发布AI IDE与智能体工具[25] - 软件交互方式变革 对话/多模态/具身智能交互成为主流[25] - 商业模式重构 从订阅模式转向按Token消耗量计费的定量模式[28] 开放智算生态 - 2025年形成多层次开源开放生态 涵盖开源框架/通信库/算子库/计算平台/互联协议[30] - 国产硬件性能显著提升 DeepSeek R1模型部署精度与规模基本持平英伟达系统[30] - 软硬件协同优化案例:DeepSeek对英伟达硬件提改进建议 智谱GLM4.5基于昇腾环境微调[32] 面向行业的高质量数据集 - 行业数据集质量问题成为垂类模型落地核心瓶颈 内容密集性问题占比82.50%[35] - 需建立新型数据供应链 包括三大训练数据集:交互轨迹/偏好对齐/基准评测[38] - 三大原生基础数据集:基础支撑/过程埋点/外部交互[38] 开源成为标配 - 全球性能前25大模型中我国开源模型占9席 Huggingface累计下载量突破3亿次[40] - 基于国产开源模型的微调模型占比从2024年初10%大幅上升至2025年7月45%[40] - 国内AI开源社区托管模型38万个/数据集5.3万个 活跃开发者2.2万人占全球18.7%[42] - 商业模式采用"开源免费+高阶服务收费"策略 推动云服务与芯片需求增长[42] 缓解模型幻觉 - OpenAI理论研究确认幻觉是LLM统计学习必然产物 方升测试显示推理模型幻觉率维持在10%以上[44] - 大参数模型幻觉问题明显 72b参数模型幻觉率超过14%[44] - 供给侧采取四维措施:数据过滤筛查/双向自回归训练/不确定性评估/对比增强解码[46] - 用户侧四层应对:测试选型/领域数据微调/推理约束提示/输出双重核验[46] 人工智能国际公共产品 - 人工智能被纳入12个全球多边机制核心议题 中国/沙特/印尼/美国/俄罗斯国际合作活跃[49] - 产业界通过生态基建/工具赋能/服务模式创新推动全球化发展[51] - 面临跨境合规认证复杂/ESG评估体系模糊/数据跨境流动受限等挑战[51]
高盛:A股水牛的十大问题
搜狐财经· 2025-09-25 10:14
1月底的"DeepSeek时刻"可以说启动了中国股市的广泛上升趋势。2月的民营企业座谈会、4月底开始的关系缓和,以及其他行业特定和流动性因素(如2季 度HIBOR压缩、香港IPO市场复苏、创纪录的南向资金流入)都为MSCI中国年初至今35%的涨幅做出了贡献。 虽然A股在上半年大部分时间落后于离岸市场,双重上市股票的A-H溢价一度降至6年低点(30%),但A股在2季度末开始追赶。沪深300自4月低点飙升 26%,推动指数年初至今涨幅达到15%。 从宏观角度看,市场对政策聚焦/执行加强的预期,特别是围绕合理化供给、改善商品和服务定价环境、缓解企业间无利可图竞争的预期,可能有助于提 振通胀预期,从而引发金融市场的再通胀交易。确实,10年期国债收益率自7月1日以来上升16个基点,表现逊于国内股票16%,同期债券向股票的资金轮 动明显。 其次,实体经济(以高盛中国活动指数为代表)与金融经济(基于本地市场股票回报)之间的分化似乎是全球现象。中国和美国的宏观市场相关性目前处 于5年低点,大多数发达和新兴市场的市值占GDP比率升至历史新高,市盈率重估贡献了后时代MSCI全球指数约70%的涨幅。这些表明"流动性"而非周期 性宏 ...
科技核心资产月报:产业趋势延续,重视内部高低切-20250918
中银国际· 2025-09-18 00:23
核心观点 - 科技无需悲观 AI行情配置重视高低切 短期调整无碍长期上行趋势 反而贡献产业链内部高低切配置机会[1][2][9] - AI产业趋势正在形成 成为市场行情重要主线 海外算力景气度持续验证 国产算力形成从产业突破到业绩初步兑现的产业闭环[2][9] - 2025年4月9日至9月5日 海外算力收盘价涨幅达221% 而同期国产算力 AI端侧 AI应用收盘价涨幅仅为57% 47% 27% 国产算力 AI端侧 AI应用等仍具备较高配置性价比[9] AI产业链各环节景气度与交易趋势跟踪 海外算力 - 北美四大云厂商资本开支强劲 2025年二季度达862亿美元 同比高达81.43%[26] - 谷歌全年资本开支上调至850亿美元 微软智能云收入增长26% Meta和亚马逊资本开支同比增幅分别达102.3%和91.4%[26] - 英伟达2025年Q2以来市值一路攀升 2025年7月突破4万亿美元 GB300出货在即 液冷 高端PCB 光模块 铜连接 服务器代工等产业链环节均有望受益[27][28] AI应用 - 大模型Tokens消耗量加速增长 2025年4月Gemini大模型月度推理量升至480T 较一年前9.7T增长50倍 2025年Q2谷歌每月处理Token数量从480万亿增长至980万亿[31] - 海外及港股AI编程 AI广告 AI多模态等部分垂类赛道商业模式逐渐落地 AI工具类Tokens消耗2024年12月-2025年5月增长4.4倍 其中AI搜索增长10倍 AI编程增长8.4倍[32] - Anthropic年化收入突破30亿美元 Cursor的ARR超过5亿美元 快手可灵AI收入规模达1.5亿元 美图上半年经调整净利润同比增长约65%-72%[35] AI产业链投资风格 - AI产业链风格从中小市值转向机构审美的中大市值 8月1日-8月15日 总市值1000亿以上个股涨幅中位数达9.39% 显著高于50亿以下个股的2.50%[37] - 关注AI产业链内景气趋势向好 具备资金共识的重点个股 重点关注国产芯片 信创服务器 IDC及算力租赁 先进制造等产业链环节中的中大市值个股[41] 医药行业 - 2025年上半年中国创新药License out总金额接近660亿美元 赶超2024全年BD交易总额640.8亿美元[44] - 2025年一类创新药获批数量达48种 是2018年的5倍以上 2025年中报创新药归母净利润增速达到13.4%[44][45] - 2025年4月11日至8月29日创新药化学药涨幅达62% 但内部分化明显 CRO 医疗器械等涨幅仍较为有限[46] 新消费行业 - 2024年以来新兴消费景气趋势验证加速 行业营收增长呈现上行趋势 性价比消费 娱乐经济 户外运动均具备较优投资机会[50] - 泡泡玛特2025年1月1日至9月1日涨幅达245.42% 丸美股份涨幅26.96% 万辰集团涨幅155.79%[53] 高端制造 军工 - 八月军工行业累计涨幅9.3% 位居28个一级行业第11位 进入8月中旬后相对收益有所减弱[54] - 伴随93阅兵结束 重大事件带来的预期兑现交易或贡献更好布局机会[54] 机器人 - 特斯拉公布新阶梯式薪酬方案 最多授予马斯克额外4.237亿股特斯拉股权[2] - 盈利目标调整后EBITDA从500亿美元起步 最高目标为4000亿美元 接近当前24倍 产品目标包括累计交付100万台机器人[2]
OpenAI发布GPT-5-Codex:独立编码7小时,能动态调整资源,token消耗更少
Founder Park· 2025-09-16 03:24
产品发布与定位 - OpenAI发布专用于编程任务的新模型GPT-5-Codex,属于GPT-5的特殊版本,专为智能体编程重新设计 [3][4] - 该模型具备双模特长,不仅响应速度快且可靠性高,小任务几乎即时响应,大任务可持续执行数小时 [5][6] - 内部测试显示可连续7小时完成大规模重构任务 [7] 性能表现与效率提升 - 在SWE-bench验证和代码重构任务上,GPT-5-Codex准确率达51.3%,显著超过GPT-5-high的33.9% [9][10] - 后10%用户请求中token消耗量比GPT-5减少93.7%,前10%高复杂度请求中思考耗时达到两倍 [12][13] - 代码审查能力增强,不正确评论从13.7%降至4.4%,高影响力评论从39.4%提升至52.4%,平均每个PR评论数从1.32降至0.93 [16][18] 技术架构与设计理念 - 模型采用动态调整资源机制,根据不同任务复杂度自适应分配计算资源 [9][12] - 提出"Harness"概念,强调模型与外部环境(工具、IDE、终端等)的集成框架重要性,确保模型可执行实际任务 [23][28][34] - 延迟控制低于1.5秒,支持多模式交互包括终端、IDE编辑、GitHub及Cursor集成 [30][32] 内部工具与生态建设 - 内部孵化工具包括10x(终端异步执行工具)、Agents.md(项目环境说明文件)和Code Review Agent(PR审查工具) [36][37][39][40] - Code Review Agent在内部试点中实现数十个PR审查且几乎零bug发布 [41][42] - 编程智能体市场竞品包括Cursor、Claude Code CLI、Gemini CLI及国内腾讯CodeBuddy、阿里Qwen3-Coder、字节TRAE等 [50][51][52] 行业趋势与战略方向 - 编程领域正向"AI写大部分代码+人类监督架构"模式演进,开发者角色转向战略设计与创意指挥 [43][44] - 2025年被视为智能体之年,编程智能体成为行业竞争焦点,国内外厂商均加速布局同类产品 [49][53] - OpenAI通过GPT-5-Codex正式加入编程智能体市场竞争,但面临Cursor、Claude Code等已建立认知的产品挑战 [45][54]
用户退订、封锁中国,Claude Code亲手送出的“泼天富贵”,腾讯CodeBuddy来接了?
AI前线· 2025-09-13 05:33
Claude Code 近期表现下滑 - 开发者Ahmad列举Claude多项问题 包括Claude Code没有opus 4 周用量限制不透明 下架相关代码仓库 否认模型质量下降 保存所有对话和代码5年用于训练 并建议取消订阅[2] - 有开发者表示Claude Code正在走下坡路 模型质量从上个月开始变得糟糕透顶 与两年前GPT-3的痛苦体验几乎没区别[2] - 作为AI编程工具的黑马 Claude Code曾倍受开发者追捧 但最近表现让很多全球开发者失望[2] AI编程工具竞争格局 - AI编程工具竞争进入深水区 各家在产品补全速度 上下文感知 智能体协作上不断拉锯 模型层面博弈激烈 出现全球范围"准入门槛"和"封锁线"[3] - 工具之争已不是单纯产品对比 而是与模型生态 合规和市场战略深度绑定[3] - 国产代码模型加速发力 DeepSeek V3.1在国际开发者社区引发热议 在aider编程基准测试中取得71.6%成绩 成为新的非推理类SOTA 比Claude Opus 4高出1个百分点 还便宜68倍[3] CodeBuddy产品演进 - CodeBuddy IDE率先完成DeepSeek V3.1接入并开启公测 让开发者体验最新国产模型在真实场景中的能力 团队根据反馈在不到三周内完成优化[6] - CodeBuddy增加新的产品形态CLI"CodeBuddy Code" 是国内乃至全球少数同时支持IDE插件 独立IDE CLI三种形态的AI编程工具[7] - CodeBuddy Code是终端原生AI CLI 通过npm install即可安装 让习惯命令行的开发者在熟悉环境中获得AI辅助 内置文件编辑 命令运行和提交创建等功能[8] - CodeBuddy Code具备自然语言开发 智能代码库分析与集成 内置完整工具链 多场景任务自动化 灵活扩展AI团队能力等五大核心产品能力[9] - CodeBuddy IDE开启公测 国内版支持DeepSeek 国际版支持GPT与Gemini等主流模型 可同时在IDE和CLI消耗Pro模型额度[9] - IDE版本针对AI编程领域痛点进行整体优化 结合新的Agent设计提高生成质量与稳定性 与腾讯生态融合更深入 尤其是CloudBase EdgeOne Pages等能力[9] - 国产模型突破与国产工具 云平台 应用生态联动 形成贯通的"模型—工具—生态"链路[10] CodeBuddy发展历程 - 腾讯内部调研发现开发者多达30%时间被消耗在重复性和手动任务上[13] - 2018年前没有AI时开始探索 依赖于IDE自身通过规则判定交付[13] - 几年开始落地立项做工具 加速并提高软件开发质量 使用不同研发阶段 先在主流IDE中做快速安装插件[15] - 2022年AI云爆发后通过AI写代码提升编码速度 做了代码补全能力[15] - 2023年 2024年智能体Agent进入视野 在更多产品形态中应用 通过简单对话完成项目工程理解 知识库检索 自然语言生成完整代码[15] - 2024年 2025年在插件形态推出Craft软件开发智能体 以Agent形态完成智能体开发协同 开启和企业 个人的互联[16] - 2025年Q2季度发布CodeBuddy IDE国际版 在产设研和规约编码上基于海外模型做出成效 插件版本接入国内模型和混元模型[16] - 近期发布CLI在腾讯内部"吃过狗粮" 更灵活嵌入研发流水线 支持批量代码生成 自动化任务执行以及跨项目重构[17] - 产品演进经历关键转折 从代码补全插件开始 随着AI技术成熟 开发者需求从"代码补全"转向"全栈应用开发"与"流程自动化"[19] CodeBuddy产品定位与技术优势 - IDE插件 独立IDE和CLI面向不同用户和场景 交互性强 依赖上下文的任务放IDE 批量 自动化任务 异步完成工程任务的放CLI 依赖于本地主流IDE的开发者采用插件形态[20][23] - 在代码补全方面支持NES和补全缓存 快速提供更精准 可靠的补全建议[20] - 在复杂重构和大规模代码迁移场景下 CLI优势更明显 内置"全仓记忆"机制 让智能体快速记住之前的总结 工程描述等[20] - 相比传统研发 新时代AI辅助编码大大降低编码阶段时间 成为开发者很强粘性工具[21] - CodeBuddy是面向企业级复杂项目的工程智能体平台 结合全仓感知 任务级自定义Agents和本地化场景优化 提供在海外工具难以复制的价值[21] - 国内企业有严格数据安全 代码隐私和云端合规要求 CodeBuddy可以本地化部署 支持私有模型接入 兼顾国内主流IDE和国产代码托管平台生态[21] - 按照客户体量和安全要求差异 分为个人版和企业SaaS版 企业VPC专享版和私有化订阅版等多种版本 形成清晰商业模式[22] - 建设大模型新范式研效生态体系 企业客户依托伙伴生态利用CodeBuddy完成旧系统改造 流水线智能化升级和企业内部泛开发者大规模推广落地[22] - 从单一IDE插件到多平台兼容 从最初单一海外模型到接入国内模型和Hunyuan模型 从工具型到CLI提效的流程型能力[23] - 不只是"替代Copilot或Claude Code" 而是在工程级智能体 全局上下文感知 自然语言闭环执行以及本地化合规等层面形成技术壁垒和差异化价值[24] - 核心用户群是产设研群体 CodeBuddy不是追求"最快" 而是追求"工程质量" 在此基础上尽可能做到快[24] - 未来AI编程工具竞争不会只看生成速度 而是看谁能在百万行级真实项目里让开发者少踩坑 少返工 持续维护[24] 用户规模与商业模式 - 目前拥有百万级用户 有1/4左右是非技术用户 企业客户占了40%[25] - 不会走Cursor"单一大模型 + 涨价"的路 从设计之初就考虑商业可持续性 采用分层商业模式[27] - 个人用户用低成本模型保证体验 团队和付费用户在需要时调用高性能模型 企业用户可选择企业私有化的开源模型 做到成本和价值解耦[27] - 探索订阅制和企业套餐 提供固定额度和团队管理能力 内置实时消耗反馈和预算上限管控[28] - 尝试智能模式切换 根据任务复杂度选择合适模型 降低不必要token消耗 实现可预测 可管理的使用体验[28] 技术实现与创新 - 针对混元+DeepSeek双模型场景 在小程序上做优化 结合小程序知识库强化 在小程序上default+DeepSeek下做到比较好还原度[27] - 在上下文支持 稳定性 代码生成的稳健程度上 和Claude模型有一定差距[27] - 采用压缩 + 外部存储的混合策略 通过即时上下文压缩使对话或编辑历史在本地/临时内存中做轻量压缩 保证模型快速处理当前任务[31] - 类似"流式摘要" 保留核心任务意图和最新代码片段[32] - CodeBuddy CLI结合CDE很好异步执行 拉起环境 启动CLI 生成到执行程序 合并到主线 过程中有冲突则解决 有运行失败则反思修正[32] - 在Cloud Studio产品上落地类似能力 给教师端提供作业批改Background Agent 当学生提交作业时主动触发进行作业批改[32] - 单体代理和多代理协作要解决的问题场景不一样 都是要深度探索 不断迭代的领域[33] - 自动探索适合结构清晰 规则明确 风险可控的任务 人工介入涉及高风险 不可逆或者结果多样化的场景[34] - Rules本质是硬性约束或操作规范 确保安全与一致性 Plan Mode本质是多步策略执行 指导AI按步骤完成复杂任务 Spec-driven本质是以功能或产品规格为导向 生成符合需求的代码[35] - CodeBuddy通过规则引导 上下文感知和审查 将YOLO模式和SOLO模式融合 让开发者在自由与规范间自如切换[33] - MCP是"最小 可信 可组合"的工具集合 能够支撑CodeBuddy核心功能 同时降低复杂性和潜在风险[40] 生产力提升与企业管理 - CodeBuddy生产力提升体现在开发周期缩短 低级bug减少 新人快速上手[47] - 平均效率提升30–40% Bug数量下降约20–30% 新人上手速度提升约40%[47] - 从个体到团队 关注点从研发效能层面 代码审查层面 变更管理层面有所不同[49] - 研发效能层面从单个开发者效率到团队治理效率 更注重规则化 分级审查 自动化监控等[49] - 代码审查层面从"逐行检查"到同时关注"架构和策略一致性"[49] - 变更管理层面从"人工把控"到注重"自动化 + 风险可视化 + 分级合并"[49] 团队建设与未来发展 - 团队核心是一批兼具工程能力与产品思维的"多面手"[48] - 最看重驾驭AI的思维和能力 从业务视角定义问题 用架构思维拆解任务 并引导AI高效执行[48] - 不再单纯强调工程背景或AI理论 更关注业务洞察 提示词工程和人机协作素养[48] - 针对研发流程招聘垂直领域专业性人才 如质量领域 设计领域 结合背景知识和AI能力打造垂类产品和能力[50] - 目标是解决人机交互和自动化问题 基于插件和IDE产品形态增强人机交互体验 提供产设研统一协作平台 通过CLI产品形态集成到研发流程中提升自动化运作效率[51] - 作为AI应用 应用层技术上都拉不开差距 可以在用户体验上 生态链接上取得优势[52] - 未来两年最想打赢的"第一场硬仗"是让生产力走出CODING圈子 覆盖更多场景 用户和客户[53]
你的AI越来越蠢?因为它学会见人下菜碟了
创业邦· 2025-09-12 03:14
文章核心观点 - AI模型在升级过程中出现计算能力下降现象 但实际是行业为提升效率和降低成本而采用的"自适应计算"策略 通过路由机制让模型根据问题复杂度动态分配计算资源 [6][13][22] - 该技术使主要AI公司的token消耗降低20%-80% 显著减少运算成本 但可能影响用户体验和模型性能一致性 [13][15][28] 行业技术趋势 - OpenAI在GPT-5中采用感知路由器机制 先由轻量级模型评估提示词复杂度 再决定是否调用深度计算模型 使输出token数减少50%-80% [13][22][24] - 美团LongCat模型采用"零计算专家"架构 通过Top-k Router将token分类分配给不同专业能力的神经网络 简单token由低功耗专家处理 [10][26][28] - DeepSeek V3.1和Gemini 2.5 flash均实现类似动态计算分配机制 行业普遍转向"按需计算"模式 [11][12][13] 性能与成本影响 - token消耗量显著下降:OpenAI减少50%-80% DeepSeek降低20%-50% 大幅降低计算成本 [13][15] - 以ChatGPT为例 每日耗电超过50万度 token节省相当于上万户家庭日用电量 [18][19] - 模型响应速度提升 但可能牺牲复杂问题处理能力 LongCat在幽默解析等复杂认知任务上表现不如DeepSeek [28][30] 用户体验问题 - 路由机制存在误判风险 GPT-5曾出现过度简化现象 连"blueberry有几个b"等基础问题都出错 [28] - 用户失去模型选择权 OpenAI强制切换至新模型引发不满 最终被迫为Pro用户重新开放旧模型访问 [29] - 可通过添加"深度思考"等提示词触发深度计算 但多次使用后可能失效 需要等待系统恢复 [34][35] 技术实现原理 - 感知路由器通过数百万道题目的训练 学习将提示词匹配到最优计算模型 通过预测分与标准答案的误差微调参数 [22] - 零计算专家机制将提示词拆分为token后 由路由器根据重要性分配计算资源 无关token交由低功耗专家处理 [26][28] - 技术仍处于发展阶段 存在调试不足问题 OpenAI在发布时路由模型未完全优化 [29][35]
Claude断供,国产AI编程工具顶上
21世纪经济报道· 2025-09-11 14:05
Anthropic对华断供事件 - AI独角兽Anthropic全面禁止由中国实体持股超50%企业使用其服务[1] - 旗下产品Claude Code年化收入约5亿美元 每周处理近两亿行代码[1] 国产AI编程工具发展现状 - 腾讯发布AI CLI工具CodeBuddy Code并开启公测 支持插件/IDE/CLI三种形态[1] - CodeBuddy实现自然语言驱动全流程开发运维 覆盖产品规划至运维自动化[1] - 腾讯内部超90%工程师使用该工具 整体编码时间平均缩短40%以上[2] - DeepSeek V3.1于8月在AI编程领域表现突出 引发国际开发者社区热议[1] 行业影响与趋势 - Claude Code断供事件加速国产AI编程工具技术进化进程[1] - 事件凸显过度依赖海外AI服务风险 推动国内自主可控生态建设[2] - 腾讯、DeepSeek、阿里等企业均在AI编程赛道布局[1]
你的AI越来越蠢?因为它学会见人下菜碟了
36氪· 2025-09-11 02:55
大伙有没有感觉,现在各家的AI,好像越来越蠢了? 事情是这样的,前几天我心一狠,给 OpenAI 充了个200刀的会员,想着试试现在的 ChatGPT 强到啥程度了。 结果,我给他丢了个算术题,求解 5.9 = x+5.11,哥们直接给我算崩了。。 | 《这题真是幼儿园级别》? | | --- | | 堂堂200刀人工智能,还不如我20块的计算器啊? | 但,我记得GPT-4刚出那会儿,我还让它算过高数啊?难道模型升级还会砍智力吗?于是我给它丢了个微寄分过去。 结果,哥们还会换元法,一通操作下来,看着还真没啥问题,评论区的大学生可以验验真假。 $$\begin{array}{c}1\\ (t^{3}+1)(1+t^{2})=\frac{1/6}{t+1}+\frac{-\frac{2}{3}t+\frac{1}{3}}{t^{2}-t+1}+\frac{\frac{1}{2}t+\frac{1}{2}}{t^{2}+1}\end{array}$$ $$\int\frac{dt}{1+t^{2}}=\arctan t,\quad\int\frac{dt}{t+1}=\ln|t+1|,$$ $$\int\frac ...