新浪微博发布其首个开源大模型 VibeThinker-1.5B
搜狐财经·2025-11-13 21:18

新闻核心观点 - 新浪微博发布首个开源大模型VibeThinker-1 5B,提出“小模型也可以有大智慧”的理念,挑战了业界依赖巨量参数实现高性能的传统观念 [1][2] 模型性能表现 - 模型参数量为1 5B(15亿),远低于业界主流超过1T(万亿)参数的模型规模 [2] - 在AIME24、AIME25、HMMT25三个高难度数学测试集上,其表现超越了参数量超其400倍的DeepSeek-R1-0120版本(671B),并与456B的MiniMax-M1效果接近或相当 [2][5] - 在LiveCodeBench v6编程算法题测试集中,成绩追平了参数量数十倍于己的模型,如Mistral AI的Magistral-Medium-2506版本 [2] - 具体数学测试成绩为:AIME 2024得分80 3,AIME 2025得分74 4,HMMT得分5 [5] 技术创新与训练方法 - 性能提升源于创新的“频谱到信号原理”(SSP)训练方法 [2] - SSP方法在学习阶段鼓励模型发散探索所有可能的解题路径,而非仅关注正确率;随后通过强化学习进行高效策略优化,精准锁定正确路径 [5] - 该理念证明了实现高性能不再主要依赖推高参数量,而可通过巧妙的算法设计达成 [2] 成本与效率优势 - 模型的单次“后训练”成本不足8000美元 [6] - 对比DeepSeek-R1和MiniMax-M1的后训练成本分别为29万美元及53万美元,成本降低了几十倍 [6] 行业影响与开源意义 - 模型开源旨在为全球计算资源有限的中型企业及高校研究团队提供高性价比的研发新路径 [6] - 此举使得更多机构可以训练最前沿的大模型,降低了技术门槛,对业界技术进步至关重要 [6]