DeepConf

搜索文档
【AI产业跟踪-海外】首个 Agent 浏览器Fellou CE发布,微软推出14B数学推理Agent rStar2-Agent
国泰海通证券· 2025-09-17 12:17
报告行业投资评级 - 报告未明确提供行业投资评级 [1] 报告核心观点 - AI 产业持续高速发展 欧洲 AI 初创公司 Mistral AI 估值达 100 亿欧元 成为欧洲最具价值的 AI 公司 [4] - 微软年度 AI 资本支出升至 1200 亿美元 较上年增长近 40% 是 2023 年的四倍 [5] - Agent 技术取得突破 Fellou CE 在复杂写入任务中成功率 72% 领先全球同类产品 [6] - 轻量级推理框架 DeepConf 将数学推理准确率从 97.0% 提升至 99.9% 同时减少 85% 计算消耗 [10] AI 行业动态 - ASML 注资 13 亿欧元入股 Mistral AI 本轮融资总额 17 亿欧元 [4] - 微软与 Nebius 达成 174 亿美元五年算力协议 合同总价值或达 194 亿美元 [5] AI 应用资讯 - Fellou CE 为首个 Agent 浏览器 支持跨应用自动执行与多模态内容转换 [6] - 平台提供免费 Deep Search 和 Visual Report 功能 建立统一记忆层实现动态关联 [6] AI 大模型资讯 - 微软推出 14B 参数数学推理 Agent rStar2-Agent 采用 GRPO-RoC 算法与分阶段训练 [7] - 模型仅用 510 步 RL 训练(一周内)达到前沿水平 响应效率超越大规模模型 [7] 科技前沿 - NVIDIA 发布 Rubin CPX GPU 配备 128GB GDDR7 显存 峰值算力 30 PFlops [8] - Rubin 架构搭配 Vera CPU 及 CX9 NIC 网卡 单机算力最高达 8 EFlops [9] - AMD 发布 MI450 计划 目标在训练和推理全方位超越 NVIDIA GPU [9] - Meta 提出 REFRAG 框架 实现 RAG 模型首字生成延迟最高加速 30 倍 [11] - 英伟达发布 UDR 系统 支持用户用自然语言自定义研究工作流 [12]
Z Tech|对话Meta FAIR研究科学家:利用Confidence动态过滤,告别低效推理
Z Potentials· 2025-09-05 02:27
DeepConf方法核心创新 - 利用大型语言模型内部置信度信号动态过滤低质量推理轨迹 实现推理效率与性能双重提升 [1] - 无需额外模型训练或超参数调优 可无缝集成现有服务框架 [8] - 分为离线和在线两种操作模式 适应不同推理场景需求 [8] 技术实现机制 - 采用组置信度、底部10%组置信度及尾部置信度作为核心评估指标 [8] - 在推理过程中或生成后实施动态过滤机制 [1] - 在线模式下相比全并行推理最多减少84.7%生成Token [10] 性能表现数据 - 离线模式DeepConf@512在GPT-OSS-120B模型上达到99.9%准确率 显著超越传统多数投票97.0%的基准 [10] - 在AIME2025等多个推理基准测试中均表现优异 [10] - 在线模式下在减少生成Token的同时实现准确率提升 [10] 研究人员背景 - Jiawei Zhao为Meta FAIR研究科学家 拥有加州理工学院博士学位 专注大型语言模型优化方法 [5] - Yichao Fu为加州大学圣地亚哥分校博士生 聚焦LLM推理优化与系统优化 [8] - 团队在NeurIPS 2024、ICML 2024等顶级会议发表多项相关研究成果 [8][12] 相关技术研究 - GaLore方法利用梯度低秩结构显著节省内存和计算资源 发表于ICML 2024 [12] - Mini-Sequence Transformers针对长序列训练进行中间内存优化 发表于NeurIPS 2024 [12] - HeadInfer通过head-wise offloading实现内存高效推理 S²FT为模型微调策略 均发表于NeurIPS 2024 [12]
比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次
36氪· 2025-08-25 03:50
核心技术创新 - 提出DeepConf方法 通过实时监控推理路径置信度动态淘汰低置信度路径并加权投票高置信度路径 实现准确率与效率的平衡 [1][8][9] - 在AIME 2025数学竞赛中首次实现开源模型无需外部工具即达到99.9%准确率 较基线97%提升2.9个百分点 [2][19] - 生成token数量削减84.7% 显著提升推理效率 [4][21] 性能表现 - 在5个模型×5个数据集上实现普适性增益 准确率平均提升约10% [10][19] - 在线模式下token节省33%-85% 其中GPT-OSS-120B模型在AIME 2025基准测试中减少85% token消耗仍保持97.9%准确率 [10][21] - 支持从8B到120B的各类开源模型 无需额外训练或超参数微调 [10][21] 工作模式 - 离线模式:根据置信度筛选已完成推理路径 按质量加权投票 在AIME 2025达到99.9%准确率 [14][19][31] - 在线模式:实时监控置信度 低于阈值立即停止生成 在AIME 2025基准测试中减少85% token消耗 [14][21][31] - 两种模式均通过滑动窗口评估局部置信度 结合整体趋势和最差步骤进行综合评分 [15][16] 算法机制 - 采用置信度加权多数投票机制 高置信度路径具有更高投票权重 公式为$V(a)=\chi_{t}\cdot I(\text{answer}(t)=a)$ [29][30] - 通过离线预热设定停止阈值s 在线生成时动态终止低于阈值路径 [35][36][37] - 自适应采样根据问题难度调整推理路径数量 一致性指标β<τ时继续生成 [38] 实际应用 - 在vLLM中仅需约50行代码即可集成 部署便捷 [10] - 以HMMT 25数学竞赛第11题为例 通过置信度轨迹筛选最终得出答案29 [6][11] - 支持并行思考 在保持高质量推理的同时显著降低计算成本 [6][13]
腾讯研究院AI速递 20250825
腾讯研究院· 2025-08-24 16:01
开源大模型进展 - xAI开源Grok-2模型权重和架构 采用MoE架构拥有9050亿总参数 推理时激活1360亿参数 支持128k上下文长度 商业使用限于年收入低于100万美元的公司 模型体积超500GB 需8张显存大于40GB的GPU部署[1] - Grok-3将在6个月后开源[1] AI推理优化技术 - Meta AI与加州大学提出DeepConf置信度筛选方法 通过实时监控置信度对推理路径动态筛选和加权投票 使开源模型在AIME 2025达到99.9%准确率 减少85% token消耗 无需外部工具[2] - 提供离线和在线两种工作模式 可直接应用于现有模型无需额外训练 在vLLM中仅需约50行代码集成[2] 企业战略调整 - OpenAI CEO Sam Altman将日常运营移交应用业务CEO Fidji Simo 本人专注筹集万亿级资金和超级计算项目[3] - Simo具有Facebook增长期和Instacart上市经验 将负责ChatGPT等消费级应用商业化 产品线可能扩展至浏览器 最快今年秋季在ChatGPT购物搜索引入联盟链接变现[3] 芯片技术突破 - DeepSeek V3.1使用UE8M0 FP8参数精度 引发寒武纪等国产芯片概念股涨近14%[4] - UE8M0 FP8为微缩块格式 全部8比特分配给指数位无符号位 大幅提高带宽效率和性能 与下一代国产芯片协同优化 让相同硬件运行更大模型 提高国产芯片性价比 多家厂商已联合验证该格式[4] 产业合作动态 - Meta与Midjourney合作获得AI图像和视频生成技术使用许可 将整合到未来AI模型中 开发与OpenAI Sora竞争的产品[5] - Midjourney成立于2022年未接受外部融资 年收入预计2亿美元 今年6月发布首款AI视频模型V1[5] 企业AI应用强制推广 - Coinbase CEO强制要求所有工程师试用GitHub Copilot和Cursor AI工具 对未按要求行动且无合理理由的员工直接开除[6] - 开发者社区对强制推广AI工具存在分歧 部分支持提升效率 部分担忧损害工作品质[6] 生物科技跨界合作 - OpenAI与Retro Biosciences合作开发GPT-4b micro模型 设计全新蛋白质 使细胞重编程技术效率提升50倍[7] - AI设计的RetroSOX和RetroKLF蛋白质命中率分别超30%和50% 不仅加速细胞重编程 还降低DNA损伤水平 为细胞疗法和抗衰老技术开辟新路径[7] 产品开发方法论 - Claude Code采用内部原型测试流程 工程师直接用Claude Code快速做功能原型 内部推广反响热烈后正式发布[8] - 小团队开发者倾向使用自动接受模式开启多个Claude并行处理任务 大企业偏爱先探索代码库制定详细计划[8] - 通过CLAUDE.md文件、自定义斜杠命令和钩子实现高度定制 配套SDK能在30分钟内搭建功能强大的代理原型[8] 平台竞争格局 - AI应用生成平台走向专业化与差异化发展 各平台在细分领域互补共存 形成多元格局[9] - 平台呈现三大类别:Prototyping原型设计、Personal software个人软件和Production apps生产应用 针对不同用户层级[9] - 超七成用户保持单一平台忠诚度 21%高级用户使用多个互补平台 未来各品牌将走向更深层次专业化[9] AI能耗透明度 - 谷歌发布首份AI能耗报告 显示中位Gemini提示词消耗0.24瓦时电力 相当于微波炉运行一秒 碳排放量为0.03克二氧化碳[10] - 能耗构成:AI芯片(TPU)占58% 主机CPU和内存占25% 备用设备占10% 数据中心开销占8%[10] - Gemini能耗一年内下降33倍 每个提示词消耗约0.26毫升水 为科技公司首次发布透明AI能耗评估数据[10]