通义千问(Qwen)系列

搜索文档
OpenAI时隔六年再开源,国内大模型竞争格局添变数
36氪· 2025-08-06 07:50
文章核心观点 - OpenAI时隔六年再次发布开源大语言模型gpt-oss-120b和gpt-oss-20b 此举释放技术普惠信号 可能改变国内大模型竞争格局 [1][4][5] 模型技术规格 - gpt-oss-120b总参数量1170亿 激活参数51亿 支持单个80GB GPU运行 适用于生产环境和高推理需求场景 [2] - gpt-oss-20b总参数量210亿 激活参数36亿 支持16GB GPU运行 适用于低延迟和本地化场景 [2] - 两款模型均采用Transformer架构与专家混合设计 使用分组多查询注意力机制和旋转位置编码 原生支持128k上下文长度 [2] - 训练数据聚焦STEM 编程和通用知识领域 使用o200k_harmony分词器 该分词器是GPT-4o所用分词器的超集 [2] 模型特性与许可 - 采用Apache 2.0许可证 允许免费商用和参数级微调 无copyleft限制或专利风险 [3] - 支持可配置推理强度 完整思维链访问和参数级微调功能 [3] - 具备智能体能力 支持原生函数调用 网页浏览 Python代码执行和结构化输出 [3] - 支持本地离线运行 满足金融 医疗等受监管行业的数据隐私要求 [3] 开源策略背景 - 模型属于开放权重类型 不提供训练数据和完整训练代码 [4] - 开源行为可能是对全球AI市场竞争压力的回应 旨在吸引开发者完善生态系统 [4] 国内开源生态现状 - 腾讯8月开源四款轻量级模型(0.5B至7B) 支持256K长上下文和双脑协作架构 [7] - 百度6月开源ERNIE-4.5系列(0.3B至47B) 在C-Eval基准测试中超越GPT-4 [7] - 阿里巴巴7月推出Qwen3推理模型 支持256K上下文 8月推出图像生成模型Qwen-Image [7] - 智谱AI8月开源GLM-4.5(355B MoE)及轻量版GLM-4.5-Air(106B) API成本低至0.8元/百万tokens [8] - 7月单月16家机构共开源31个模型及工具 覆盖全模态场景 [10] 行业影响分析 - 为国内企业提供学习先进技术架构和训练方式的契机 [10] - OpenAI的知名度可能吸引部分国内开发者与用户资源 [10] - 国内企业需要加强本地化优势以应对竞争 [10]
中国AI模型全面爆发,AI大模型技术体系综合开源影响力榜单重磅发布!
AI科技大本营· 2025-04-18 05:53
大模型技术体系概述 - 大模型不仅是单一程序,而是由模型、数据、系统、评测平台等多要素构成的"技术共同体",需依赖大规模高质量数据、先进模型架构、训练策略及底层系统能力[1] - 开源大模型正崛起为AI普惠化的重要力量,但需解决选型难题并理解不同技术体系的优劣势[1] 榜单评估框架 - 评估覆盖模型、数据、系统、评测四大维度,设置53项核心指标,包括模型使用量、模态覆盖度、芯片适配数量、贡献者活跃度等[4] - 数据采集覆盖全球17个主流开源平台的11673个链接,统计周期为2025年1-4月,采用标准化方法确保可比性[6] - 模型指标筛选标准:仅统计月下载量>50的Transformer架构模型,排除参数量<500M的语言模型[7][8] - 系统指标侧重异构训练支持、芯片厂商接入、生命周期管理能力[11] - 评测平台指标要求公开可查且持续更新,排除临时性榜单[11] 分榜单核心发现 百亿参数大语言模型 - DeepSeek表现突出,R1模型以954万次下载量居首,前十名中独占四席[12] - 百亿级模型因性能与成本平衡成为产业焦点,国内机构加速追赶[12] 模型分榜单 - Meta连续四个月蝉联榜首,阿里巴巴稳居第二,DeepSeek凭借V3/R1等新模型跃居第四[16] - 评估维度包括下载量、开源数量、多模态覆盖(语言/视觉/语音等)及社区活跃度[15] 数据分榜单 - Ai2凭借C4数据集登顶,该数据集是多个主流语言模型的训练基础[19][20] - Google在语音数据集表现突出,Hugging Face通过FineWeb保持活跃[23] - 国内BAAI布局CCI语言数据集和Infinity多模态数据集,上海AI Lab聚焦视觉/多模态领域[24] - 多模态数据加速发展,具身感知类交互数据集受关注[25] 系统分榜单 - 智源研究院在通信库和AI编译器领域差异化领先,百度/华为跻身十强[26] - 六家机构覆盖四项关键技术:智源、百度、华为、Google、OpenAI、微软[26] - Meta和Google在算子库和并行训练框架上优势显著[26] 评测平台分榜单 - 上海AI Lab、Hugging Face、智源研究院领跑,Hugging Face评测模型达4576个[29] - BAAI的FlagEval平台评测覆盖能力紧随Hugging Face[29] 综合影响力总榜 - Meta因LLaMA系列模型和PyTorch生态位居第一,Google凭借Gemma 3和TensorFlow/JAX工具链排名第二[35][36] - 四家中国机构进入Top 10:BAAI(第三)、阿里巴巴(第四)、DeepSeek(第九)、上海AI Lab[32][36] - BAAI打造FlagOpen开源体系,目标成为大模型领域的"Linux"[36] - DeepSeek通过MoE架构创新和完整开源策略快速崛起[36] - OpenAI因"有限开源"策略排名第十,早期开放的GPT-2/Whisper仍被广泛应用[36] 行业动态与未来方向 - 多模态技术扩展推动评估体系优化,将引入动态权重调整机制适应具身智能等新趋势[37] - 《人工智能大模型技术体系开源影响力评估方法》白皮书将于2025年5月发布[37] - 评估框架已在GitHub/GitCode开源,鼓励生态共建[38]