Workflow
一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元
机器之心·2025-08-02 00:55

公司概况 - Deep Cogito是一家鲜为人知的AI初创公司,总部位于旧金山,由前谷歌员工创立,近期开源了四款混合推理模型[2] - 公司于2025年4月正式走出隐身状态,此前已默默耕耘一年多时间,早期发布的基于Llama 3.2训练的模型已展现出颇具前景的表现[8][9] - 联合创始人兼CEO Drishan Arora曾是谷歌大语言模型核心工程师,公司长期目标是构建能像AlphaGo那样通过迭代不断自我提升的模型[10] 技术突破 - 核心方法是迭代蒸馏与增强(IDA),不依赖手工提示词或静态教师模型,而是利用模型自身不断演化的洞察力引导训练[3] - 最大规模的671B MoE模型是全球最强大的开源模型之一,性能接近DeepSeek v3、DeepSeek R1等闭源前沿模型[3] - 推理链比DeepSeek R1缩短60%,训练总成本不足350万美元(含合成数据生成和1000+次实验)[6] - 通过将推理步骤蒸馏回模型参数,使模型拥有更强的智能先验,而非依赖延长推理链条[11][15] 模型性能 - 671B MoE模型在MMLU基准测试达87.6%,较Deepseek-v3 671B提升1.6个百分点;GPQA-Diamond测试达69.7%,提升14.65个百分点[36] - 70B稠密模型在MMLU-Pro基准达75.65%,较Llama 3.3 70B高5.38个百分点;GPQA-Diamond测试达55.05%,提升6.06个百分点[32] - 405B稠密模型在Simple QA基准达37.29%,较Llama 3.1 405B提升19.05个百分点[35] - 109B MoE模型在MMLU基准达91.6%,较Llama 4 109B高6.53个百分点;MGSM测试达92.52%,提升6.14个百分点[33] 创新特性 - 展现出未经专门训练的多模态涌现能力,能对图像进行复杂逻辑推理(如分析鸭子与狮子图片的构图/色彩/情感等)[21][27] - 采用类似AlphaGo的两步循环机制:推理时计算+策略迭代优化,实现智能闭环提升[26] - 模型提供标准LLM模式和自我反思模式,后者在多项基准测试中表现更优(如70B模型MMLU-Pro推理模式达81.33%)[32] 商业化进展 - 模型已开源并在Huggingface发布,支持通过Together AI/Baseten/RunPod等平台API调用,或使用Unsloth本地运行[7] - 当前发布的是8个模型中的4个,包含2款中型(70B/109B)和2款大型(405B/671B)模型[14]