量子位

搜索文档
腾讯版“Claude Code”来了!AI编程L4时代is coming
量子位· 2025-09-10 08:01
腾讯CodeBuddy产品发布 - 腾讯于9月9日发布AI CLI工具CodeBuddy Code并开启CodeBuddy IDE公测 国内版无限制免费使用 国际版测试期间赠送Pro模型体验额度 [1][2] - CodeBuddy产品矩阵包含IDE、CLI及插件三种形态 成为业内首个同时支持三种形态的AI编程工具 [3][8] - CLI工具基于npm安装 定位专业工程师使用 支持自然语言驱动开发运维全生命周期 [3][23] 产品定位与市场竞争 - 产品被视为"腾讯版Claude Code" 在Claude近期事件导致开发者弃用背景下适时推出 [4][6] - 国内版集成DeepSeek免费使用 可满足多数运维场景需求 [6] - 演示案例显示工具能自主完成需求理解、分支创建、编程及提交全流程无需人工编码 [7] AI编程行业发展趋势 - 行业正经历范式级变革 从单文件补全发展到项目级开发与多智能体协作 [9][10] - AI编程能力划分为五个层次:L1文档补全至L5多智能体团队协作 当前向L4级AI软件工程师演进 [11][13][16] - CLI形态成为下一代AI编程底层基础设施 深度嵌入企业开发流程 [11][14][19] 企业级应用价值 - CLI模式特别适合企业级团队 支持多模块自动化及CI/CD集成 覆盖软件全生命周期 [19][26] - 腾讯内部超90%工程师使用CodeBuddy 编码时间缩短40%以上 AI生成代码占比超50% [20] - AI代码生成占比从35%提升至50% 代码评审贡献从12%增至35% 预计未来将超90% [20][21] 技术特性与创新 - 采用文档驱动开发模式 通过CodeBuddy.md文件实现可追踪的智能工作空间 [24][27] - 具备语义化上下文压缩与长期记忆能力 支持项目记忆、用户记忆和全局记忆三级体系 [28][29] - 通过MCP协议扩展外部知识源 例如Context7可获取最新软件文档 [31][32] 工作流与实战应用 - 典型工作流包含项目初始化、智能架构设计、MCP配置、性能优化及安全部署 [35][36] - 支持自然语言指令触发多智能体协作 例如电商订单系统开发 [26][27] - 未来将集成沙盒运行、权限控制及审计机制确保企业级安全 [36] 行业意义与发展方向 - 代表企业级AI编程新方向:CLI驱动、多智能体协作及文档化上下文管理 [37][39] - 推动开发者角色从代码执行者向AI协作架构师升级 [37] - 不仅是工具迭代 更是软件工程思维的范式级变革 [38]
快慢思考不用二选一!华为开源7B模型实现自由切,精度不变思维链减近50%
量子位· 2025-09-10 08:01
模型核心创新 - 华为发布openPangu-Embedded-7B-v1.1开源模型 参数规模7B 突破性实现快思考与慢思考模式的双重思维引擎自由切换 填补开源领域空白 [1][3] - 模型通过渐进式微调策略和快慢思考自适应模式 支持手动切换或根据问题难度自动转换思维模式 简单问题秒答复杂任务深思熟虑 [3][4][15] - 在CMMLU等基准测试中保持精度的同时 平均思维链长度缩短近50% 响应效率实现翻倍提升 [4][18] 训练策略突破 - 采用渐进式微调策略 模拟人类进阶学习过程 通过三阶段迭代训练:合理选题保持适度挑战→归纳总结稳固知识→持续提升扩展能力边界 [5][8][9][10] - 快慢自适应机制采用两阶段课程学习:第一阶段通过数据构造教会模型区分快慢思维 第二阶段通过数据质量驱动策略让模型自主学会切换 [11][13][14] - 训练方案从数学任务扩展到一般任务 实现从外部信号驱动到内部能力驱动的隐式切换蜕变 [11][14] 性能表现数据 - 相较前代v1版本 新模型在通用 数学 代码等数据集全面超越历史成绩 数学难题数据集AIME24从71.57提升至79.38 AIME25从58.24提升至70.00 [16][17] - 自适应模式下复杂任务准确率与纯慢思考模式基本持平 CMMLU准确率72.94vs72.18 C-Eval准确率84.92vs83.33 精度未牺牲 [17][19] - 效率提升显著:CMMLU任务思维链长度从2574缩短至1338 降幅48% C-Eval任务从2484缩短至1723 降幅31% [19] 边缘AI部署优化 - 同步推出专为边缘部署优化的openPangu-Embedded-1B轻量模型 仅十亿参数 针对华为昇腾端侧AI硬件架构优化 [20][21] - 1B模型整体平均成绩领先同规模模型 追平Qwen3-1.7B水平 MMLU达65.08 GSM8K达82.76 MATH-500达81.83 [22][23] - 通过多阶段训练策略全面挖掘模型潜力 实现小体量大能量 体现出色参数级性能比 [21][22] 行业意义 - 为当前大模型领域带来新思路 在效率与精度间找到平衡点 展现国产大模型创新活力 [23][24] - 具备快慢思考特性的模型有望在更多实际应用场景发挥价值 尤其适合资源受限的边缘部署场景 [24][25]
首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽
量子位· 2025-09-10 08:01
FDABench团队 投稿 量子位 | 公众号 QbitAI 数据智能体到底好不好用?测评一下就知道了! 南洋理工大学、新加坡国立大学携手华为 开源 推出 首个专门针对数据智能体(Data Agents)异构混合数据分析的综合性基准测试 FDABench 。 该基准横跨50+数据领域、设置了多种难度等级和任务类型,还独创了 Agent-Expert协作框架 ,确保测试用例质量和数据一致性,同时支 持Data Agent、RAG、语义算子以及四种典型Data Agent工作流模式。 团队使用FDABench对各种数据智能体系统进行了评估,发现每个系统在响应质量、准确性、延迟和token成本方面都表现出独特的优势。 下面详细来看。 将 数据库、 PDF、视频、音频异构数据源一网打尽 面对数据驱动决策的需求日益增长,这催生了对能够整合结构化和非结构化数据进行分析的数据智能体的迫切需求。 △ Data Agent 样例 为应对这些挑战,团队提出了 FDABench ,这是首个专门为评估多源数据分析场景中的智能体而设计的数据智能体基准。 首先,由于难以设计出能评估智能体在多源分析任务中各项能力的测试用例,全面的数据智能 ...
英伟达新GPU,超长上下文/视频生成专用
量子位· 2025-09-10 01:28
henry 发自 凹非寺 量子位 | 公众号 QbitAI 老黄对token密集型任务下手了。 刚刚,在AI Infra Summit上,英伟达宣布推出专为处理 百万token 级别的代码生成和 生成式视频 应用的全新GPU—— NVIDIA Rubin CPX GPU 。 老黄表示:Rubin CPX是 首款 为超大上下文AI量身定制的CUDA GPU,可以让模型"一口气"推理数百万token。 而且,RubinCPX还能让你越用越省钱:每投资 1亿 美元,就能获得 50亿 美元的token收益。 (50倍,你就赚吧,老黄说的) 对于"老黄画的饼", Cursor 、 Runway 、 Magic 等行业大佬也表示RubinCPX将分别在 代码生产力 、 生成式影像创作 、以及 大模型 自主代理 上带来突破。 那么好了好了,这GPU到底什么来头? 首款专为超大上下文AI打造的CUDA GPU Rubin CPX基于NVIDIA Rubin架构,采用单片设计,内置NVFP4计算资源,主打AI推理的高性能和高能效。 它的性能提升,主要体现在以下几个方面: 在这里,我们可以简单地拿A100来对比一下。 在算力方面 ...
Claude用户退订潮!被指高峰期偷换缩水模型,工程师列9大罪状呼吁全网退订
量子位· 2025-09-10 01:28
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 点赞者就2000多,用实际行动退订的也不少。 退订者中有最高价 20倍Max套餐 的重度用户。 原本在开发者社区口碑甚好,甚至 Claude Code单产品年化收入估算达到5亿美元 的Anthropic,到底因何犯了众怒? 工程师Ahmad Osman细数几大罪状: 就这甚至还没列完,可想而知这位开发者有多愤怒了。 Claude出现大危机,不是因为最近的某些骚操作,而是 产品本身就出了问题 。 已经有AI工程师带头呼吁大家退订(这里PoS指Piece of Shit,也就是一坨 )。 评论区有人补充,最糟糕的是模型悄悄变差,而你白白浪费了一小时才能意识到,没有哪个专业的开发环境是不能固定版本的。 好,现在骂也骂了退也退了,活还是得干,总不能退回到古法手工写代码吧。 那么以后用啥? 有很多人集中转投去了隔壁 OpenAI Codex ,甚至惊动了奥特曼本曼。 OpenAI Codex强势崛起 如果你在前几天打开美国贴吧Reddit的Claude Code吧,就会发现怎么全是讨论OpenAI Codex的,都要怀疑是不是走错门了。 在白天高峰时段,用到的是缩水 ...
库克挤爆牙膏!5999元iPhone17上高刷,新款耳机能测心率+同传
量子位· 2025-09-09 20:23
iPhone 17系列产品升级 - 标准版iPhone 17首次配备120Hz ProMotion自适应高刷屏 此前仅限Pro机型 [13][17] - 全系搭载A19芯片 采用3nm工艺 6核CPU+5核GPU 性能较A18提升20% [20][21] - 影像系统升级为4800万像素融合式双摄 主摄融合2倍长焦 前置升级1800万像素Center Stage摄像头 传感器面积是前代2倍 [23][24][27][28] - 电池续航达30小时视频播放 支持快充 20分钟充至50%电量 [34] - 新增前后摄像头同步双拍功能 [35] - 价格区间为5999元至9999元 [12][22] iPhone 17 Air创新设计 - 机身厚度仅5.6毫米 重165克 采用钛金属材质 成为史上最薄iPhone [37][42] - 搭载A19 Pro芯片 CPU性能为当前手机最快 GPU峰值算力是A18 Pro的3倍 [42][44] - 首次配备自研无线连接芯片N1 支持WiFi-7和蓝牙6标准 [45] - 采用C1X基带 速度比C1快2倍 能耗低30% [47] - 全球仅支持eSIM 国行版本仅兼容联通网络 [55][56] - 电池续航增加4小时视频播放 配合MagSafe充电宝可达40小时 [57][63] iPhone 17 Pro/Pro Max专业特性 - 采用铝金属一体成型设计 散热效率达前代钛金属机型的20倍 [68][69] - 搭载6核CPU+6核GPU的A19 Pro芯片 [71] - 续航达33小时 Pro Max达39小时视频播放 [72] - 影像系统配备4800万像素三摄融合镜头 支持8倍光学变焦 [74][77][78] - 支持ProRes视频拍摄 最高4K60fps 支持ProRAW格式 [76][80] AirPods Pro 3功能升级 - 主动降噪效果达前代2倍 具备IP57防水性能 [86][87] - 新增机器学习加持的心率传感功能 可监测心率和卡路里 [87][88] - 支持实时同声传译 双设备互联时可实现直接翻译 [90][91][93] - 降噪模式续航6-8小时 通透模式达10小时 [95] - 定价1899元 [96] Apple Watch系列创新 - Series 11支持5G通信 国内三大运营商全兼容 续航提升至24小时 [102][103][117] - 新增高血压通知功能 通过光学传感器数据分析血管反应 [106][108][110] - 新增睡眠质量评分系统 跟踪睡眠时长 规律等指标 [113][115] - 屏幕抗刮能力提升2倍 [100] - SE 3起售价1999元 支持手腕温度传感和睡眠呼吸暂停检测 快充速度是前代2倍 [119][125][127] - Ultra 3配备卫星通信功能 续航达42小时 采用OLED+LTPO3技术 拥有最大屏幕 [128][130] 整体产品战略 - 新品设计以设计为核心 镜头模组告别"浴霸"造型 [3][4] - 全系产品强调AI能力 A19芯片神经网络引擎专门为Apple Intelligence优化 [20][23] - 苹果首次将发布会全程使用iPhone 17 Pro拍摄 [81]
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
量子位· 2025-09-09 20:23
核心观点 - Transformer发明者Ashish Vaswani认为闭源人工智能阻碍科学探索 商业化导向使OpenAI等厂商忽视基础研究[1][2][27] - Vaswani通过三次职业转型最终创立Essential AI 全面转向开源基础研究 目标成为"西方世界的DeepSeek"[5][6][26] - 开源模式通过交叉补贴实现可持续性 免费提供基座模型 通过销售训练数据和产品实现盈利反哺社区[55][56][57] 行业现状分析 - Scaling Law面临边际收益递减 AI独角兽产品化倾向明显[3][37] - Anthropic开发浏览器 OpenAI派出产品经理探索商业模式[38] - 产业界垄断生产要素但受投资人压力 难以持续投入创新[41][42][43] 公司战略转型 - Essential AI原从事财务分析自动化业务 2025年初全面转向基础研究[16][17] - 转型获得董事会和资方支持 AMD称需要更开放的替代方案[19][20] - 2025年4月发表《Rethinking Reflection in Pre-Training》论文 提出预训练阶段反思能力新观点[31][32] 技术发展方向 - 预训练技术突破可能大幅降低训练成本 利好开源社区[33][34] - 开源模式通过社区协作克服资源匮乏问题[49][51] - 参考互联网交叉补贴模式 构建开源生态实现商业闭环[53][54][58] 市场机遇 - 开源AI可应用于教育医疗等大众场景 偏远地区孩子能获得优质课程 小诊所可进行准确诊断[28][29] - 闭源模式面临巨大成本压力 开源生态可能产生更高投资回报率[59][60][61] 学术背景 - Vaswani论文总引用量达232,152次 其中2020年后引用222,306次[63] - 《Attention Is All You Need》单篇引用量达202,626次[63] - 两位博士生导师均为华人学者 南加州大学蒋伟教授与黄亮教授[64][65][68]
人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”
量子位· 2025-09-09 12:20
AI视觉识别能力局限 - 多机构研究团队发现主流AI模型在识别"看得见但读不懂"文字时表现极差 包括OpenAI GPT-5/GPT-4o 谷歌Gemini Anthropic Claude及国内Qwen LLaVA等模型均出现严重识别失败 [2] - 实验采用100条四字成语进行汉字横切/竖切/斜切后拼接 人类识别无压力但AI几乎全错 [4][6] - 英文测试选用100个八字母单词 用红绿双色渲染叠加后人类可自动分离颜色 AI模型同样无法正确识别 [9][10] 模型性能数据表现 - GPT-4o在基础提示/上下文提示/详细提示三种模式下的严格匹配率分别为0.0%/0.0%/0.7% 平均匹配率仅11.1%/5.2%/7.7% [7] - Claude-opus-4-1模型在详细提示模式下严格匹配率最高达5.2% 平均匹配率14.7% 但仍远低于人类100%的识别水平 [7] - 国内Qwen2-vl-7b模型平均匹配率相对较高 在基础提示模式下达24.4% 但严格匹配率仍为0% [7] - LLaVA系列模型表现最差 所有模式平均匹配率均低于0.6% 严格匹配率全部为0% [7] 技术缺陷根源分析 - AI识别依赖模式匹配而非结构理解 缺乏符号分割与组合机制 将文字视为"图片模式"处理 [23][25] - 人类依赖结构先验知识 理解汉字偏旁部首和英文字母组合规则 具备多重感知与推理能力 [24][29] - 文字稍作扰动即导致AI系统崩溃 尽管人类仍能正常识别 [26] 实际应用影响领域 - 教育领域AI无法正确识别非标准文本 影响教学辅助工具效果 [30] - 历史文献与科学笔记整理中 AI缺乏从残缺文字恢复含义的能力 [30] - 安全场景存在被攻击者利用识别盲点绕过AI审查的风险 [30] 技术发展路径 - 需重新思考视觉语言模型如何整合视觉与文本 可能需新的训练数据或分割结构先验 [28] - 需要全新的多模态融合方式提升AI识别韧性 使其接近人类综合推理能力 [28][29]
文心X1.1发布!这三大能力突出,一手实测在此
量子位· 2025-09-09 12:20
西风 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,百度深度思考模型升级上线了! 升级后的文心 大模型X1 .1 ,在 事实性、指令遵循、智能体 等能力上均有显著提升。 官方展示了其在智能客服场景复杂长程任务中的应用,在System Prompt中输入用户的问题后,文心X1.1借助模型本身智能体能力,即可自 动拆分复杂任务,调用不同工具逐步规划执行,且严格遵循服务流程和业务规则。 再用它编写python脚本,让25个彩色粒子在真空圆柱形容器里弹跳、留轨迹,还要带容器旋转和场景缩放。 效果丝滑,粒子全程守规矩没出界: 用HTML动 画整活归并排序,排序过程动态可视化,算法步骤一目了然: 最新开源思考模型ERNIE-4.5-21B-A3B-Thinking 发布,该模型在ERNIE-4.5-21B-A3B基础上训练而来,在内容创作、逻辑推理、数学计 算、代码生成与工具调用等多个任务中表现卓越。 此外,百度发布了 ERNIEKit文心大模型开发套件 ,提供更加便捷的模型后训练方案,仅 需 4张GPU即可对ERNIE-4.5-300B-A47B模型进 行高效调优 ,进一步降低开发者将模型 落地到实际应用的门槛 ...
一致性对标Nano Banana,国产Vidu Q1同时支持7张参考 | 实测
量子位· 2025-09-09 12:20
核心观点 - AI生图赛道竞争激烈 Vidu推出Q1参考生图模型 支持7张参考图生成 在主体一致性和功能多样性方面表现突出 直接对标谷歌Nano Banana等头部产品 [1][48][68] 技术能力 - 支持同时使用7张参考图生成图像 远超同类产品1-3张的限制 [1][65][66] - 在多人、多场景、多次生成情况下仍能保持人物/主体面貌特征不跑偏 [66] - 主体一致性能力评分达到全场最佳水平 [69] - 测试数据全面超越Flux Kontext 直接对标谷歌Nano Banana [68] 功能特性 - 支持通过简单自然语言描述进行操作 [6] - 最多可一次生成4张图片 支持选择不同宽高比 [77] - 目前提供1080p分辨率输出 [77] - 支持上传参考图片后拖动调整和更改提示词 [73] - 可通过输入@符号选择图片 [74] - 支持创建主体功能 可输入常用数据 三视图效果更佳 [76] 应用场景 - 能够将各种违和元素组合成和谐画面 [14] - 支持时尚大片制作和在线试衣功能 [23][28][34] - 可实现跨画风、跨次元的自然画面融合 [46] - 支持手办生成和设计稿转3D立体效果 [49][59] - 具备经典的主体替换功能 [63] - 支持多人合照生成 如少年漫主角齐聚场景 [42] 用户体验 - 操作简单 只需放置参考图即可查看生成结果是否符合预期 [22] - 提供高度可操作性 用户可通过创意实现万物合成 [14][15] - 现已全球同步上线 用户可通过实测地址体验产品 [79]