开源大语言模型
搜索文档
开源首次追平GPT-5!DeepSeek-V3.2:推理与效率兼得
自动驾驶之心· 2025-12-18 09:35
DeepSeek-V3.2 与其同类模型的基准测试结果。 开源模型的三大痛点 要理解DeepSeek-V3.2的突破性,首先需要正视当前开源模型普遍面临的三大核心困境。 从 架构层面 看,传统开源模型大多依赖 标准注意力机制(vanilla attention) ,这种机制在处理长序列文本时,计算复杂度会随序列长度的平方增长 (O(L²)),不仅导致推理速度缓慢,更限制了模型在长上下文场景中的部署与后续训练优化。 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 在 大语言模型 (LLM)的发展赛道上,闭源与开源阵营的实力差距曾一度呈现扩大态势。随着OpenAI等巨头持续加码算力与数据投入,其闭源模型在 复杂推 理、工具使用 等核心能力上不断突破;而开源社区虽不乏创新尝试,但受限于架构效率、训练资源等多重因素,在高端任务场景中始终难以望其项背。这种不 平衡的发展格局,让业界对开源模型的上限充满疑虑——开源LLM是否注定只能成为闭源模型的"简化版替代品"? 面对这一趋势,DeepSeek团队并未止步,而是通过系统性技术创新,推出了 DeepSeek-V3.2 。这款兼顾计算效 ...
OpenAI时隔六年再开源
财经网· 2025-08-06 03:37
公司动态 - 公司于8月6日凌晨发布两款开源大语言模型GPT-oss-120b和GPT-oss-20b [1] - 此次发布是公司自2019年开源GPT-2以来首次推出新的开源大语言模型 [1] - 公司原计划于3月发布新的开源模型,但该计划推迟至8月 [1] - 两款新模型均采用宽松的Apache2.0许可证发布,企业在商用前无需付费或获得许可 [1] - 公司首席执行官将GPT-oss称为重大突破,是最先进的开放权重推理模型 [1] 产品与技术 - 新产品GPT-oss具有与o4-mini相当的强大现实世界性能 [1] - 新产品可以在用户自己的电脑或手机的较小版本上本地运行 [1] 行业背景 - 今年1月DeepSeek引发开源潮后,公司首席执行官曾表示公司在开源技术方面站在了历史的错误一边 [1]
速递|10亿美金挑战DeepSeek,红杉、光速资本押注,Reflection AI开源模型守塔
Z Potentials· 2025-08-05 02:59
Reflection AI融资与业务发展 - 成立仅一年的初创公司Reflection AI正洽谈融资逾10亿美元 用于开发开源大语言模型 与中国DeepSeek 法国Mistral及美国Meta竞争 [1] - 已从Lightspeed Venture Partners 红杉资本和CRV等投资方筹集1.3亿美元风险资本 上一轮估值达5.45亿美元 [1] - 由前Google DeepMind研究人员联合创办 总部位于纽约 将部分资金用于成本高昂的新AI模型开发 [1] - 联合创始人表示有机会将公司打造为美国领先的开源AI模型提供商 中国DeepSeek等AI模型的流行催化了美国公司投入开源领域 [1] 开源AI模型行业动态 - 在热门AI模型排行榜LMArena上 排名前30的开源模型没有一款来自美国开发商 [3] - Meta在开发者发现其最新模型未达预期后 已开始大规模招聘以重整AI业务 并讨论开发闭源AI模型 [2] - OpenAI首席执行官Sam Altman表示 公司计划在今年夏季发布自己的开源模型 [4] Reflection AI产品与市场策略 - 开发名为Asimov的编程助手 通过分析企业数据生成相关代码 上月启动预览版并开始从企业客户处获得少量收入 [3] - 由于中国市场对AI模型需求激增 创始人正将业务扩展至开源AI模型开发 [3] - 开源模型成本更低且灵活性更高 能够访问底层训练数据和代码 企业可针对特定业务流程微调AI模型 [3][4] AI模型训练成本 - OpenAI预计今年将花费超过70亿美元用于模型训练 到2026年这一数字将接近170亿美元 [5] 行业竞争格局 - 许多美国公司出于数据安全考虑无法使用DeepSeek或其他中国AI企业的模型 [4] - 开源模型与专有模型相比具有微调优势 这种操作在专有AI模型上无法实现 [4]