Workflow
大模型开源
icon
搜索文档
刚刚,华为发布!
中国基金报· 2025-06-30 04:05
华为开源盘古大模型 - 华为首次开源盘古大模型核心能力,包括70亿参数稠密模型和720亿参数混合专家模型[2][3] - 开源内容包括盘古Pro MoE 72B模型权重、基础推理代码以及基于昇腾的超大规模MoE模型推理代码[4] - 盘古7B相关模型权重与推理代码将于近期上线开源平台[4] - 盘古Pro MoE是昇腾原生分组混合专家模型,总参数量720亿,激活参数量160亿[4] - 盘古Pro MoE在昇腾800I A2上实现单卡1148 tokens/s推理吞吐性能,可提升至1528 tokens/s[5] - 盘古7B是灵活切换快慢思考的高效模型,实现快速响应和高质量推理的灵活切换[6] - 盘古Embedded 7B在多个复杂推理基准测试中表现优于Qwen3-8B和GLM4-9B等规模相近的领先模型[7] 盘古大模型技术优势 - 昇腾NPU支持盘古Pro MoE大规模并行训练,在千亿内总参数模型中处于领先地位[6] - 华为构建了支持超大规模集群和MoE模型的昇腾全流程高效训练系统[6] - 华为推出参数规模高达7180亿的盘古Ultra MoE模型,是全流程在昇腾AI计算平台训练的准万亿MoE模型[6] - 盘古Pro MoE在昇腾300I Duo推理服务器上实现极具性价比的模型推理方案[5] 国内大模型开源趋势 - 大模型开源加速技术创新、降低研发成本、促进知识共享[9] - 2025年国产大模型开源消息接连不断,涵盖自然语言处理、计算机视觉、多模态等多个领域[9] - 华为云发布盘古大模型5.5,在复杂推理能力、工具调用等评测中得分处于业界第一梯队[9] - 国内头部大模型厂商以算法升级促进模型性能提升,大模型价格比DeepSeek-R1降低约60%-80%[10]
华为缘何开源盘古大模型?
钛媒体APP· 2025-06-30 03:23
华为开源盘古大模型 - 公司正式开源盘古70亿参数的稠密模型和盘古Pro MoE 720亿参数的混合专家模型 盘古7B相关模型权重与推理代码将于近期上线开源平台 [2] - 盘古Pro MoE 72B模型权重和基础推理代码已上线开源平台 基于昇腾的超大规模MoE模型推理代码也已上线 [2] - 70亿参数稠密模型参数量适中 性能均衡 部署门槛较低 适用于智能客服 知识库等多种场景 [2] - 720亿参数混合专家模型具有稀疏激活 动态路由和多专家协作特性 更适合处理复杂任务 [2] 开源战略与生态建设 - 公司选择两款用量较多的模型进行开源试验 未来可能继续开源更多模型 [3] - 开源基于昇腾的模型推理技术 旨在优化国产AI基础设施适配性 提升开发者调用体验 [3] - 盘古大模型加昇腾推理技术的开源 开放了国产AI技术栈 类比DeepSeek的开源策略 [3] - 公司推出基于CloudMatrix 384超节点架构的新一代昇腾AI云服务 并发布盘古大模型5.5 [3] 技术闭环与商业价值 - 盘古大模型从训练到推理深度依赖昇腾芯片 通过技术普惠和生态友好策略将硬件嵌入AI产业链 [4] - 开发者使用盘古模型需依赖昇腾芯片算力 企业落地应用需采购昇腾服务器或云服务 [4] - 开源大量推理技术旨在扩大盘古模型调用量和落地市场 形成从模型到硬件再到场景的闭环 [4] - 政企客户推动自主创新时 昇腾加开源盘古的组合更具竞争力 [4]
百度正式开源文心大模型4.5系列模型
第一财经· 2025-06-30 03:12
百度文心大模型4.5系列开源 - 百度于6月30日正式开源文心大模型4.5系列模型 [1] - 开源系列包含10款模型 涵盖47B和3B激活参数的混合专家(MoE)模型以及0.3B参数的稠密型模型 [1] - 开源内容包括预训练权重和推理代码 [1] - 模型可在飞桨星河社区 HuggingFace等平台下载部署 [1] - 开源模型API服务可通过百度智能云千帆大模型平台使用 [1]
腾讯,大动作!
中国基金报· 2025-06-27 15:00
腾讯混元开源混合推理模型 - 腾讯混元开源首款混合推理MoE模型Hunyuan-A13B,总参数80B,激活参数13B,效果比肩同等架构领先开源模型且推理速度更快[3][4] - 该模型为业界首个13B级别开源MoE混合推理模型,在Agent工具调用和长文理解表现突出,支持快/慢思考双模式[4][5] - 模型对开发者友好,仅需1张中低端GPU卡即可部署,吞吐量达前沿开源模型的2倍以上[5] - 已融入主流推理框架生态,支持多种量化格式,日均请求超1.3亿次,400+业务调用[5] - 此次开源是继混元Large后的重要升级,参数更小但性能大幅提升,未来将推出0.5B-32B多尺寸模型[6][10] 行业开源趋势 - 2024年大模型开源成行业"必选项",全球科技巨头3月以来密集发布超10款开源模型[8] - 国内字节跳动、阿里、百度等企业加速开源,如阿里推出自主搜索AI Agent WebAgent,字节开源多模态模型BAGEL(70亿活跃参数)[9] - 开源模型通过提供预训练代码降低企业开发成本,超50%全球企业已采用开源AI技术[9][10] - 开源模型性能持续突破,Hugging Face榜单频繁刷新,企业转向"轻量化集成"开发模式[8][10] 技术细节与生态 - Hunyuan-A13B集合腾讯预训练/后训练创新技术,支持Github/Huggingface下载及腾讯云API接入[4][5] - 模型在权威测试集表现优异,多模态基础模型及插件模型将陆续开源[4][10] - 行业开源案例包括WebAgent的端到端检索能力、BAGEL的多模态理解性能(优于Qwen2.5-VL等)[9]
腾讯公司公关总监张军:腾讯混元大模型将持续开源,接下来会有多个尺寸的模型进入开源大家庭。
快讯· 2025-05-21 02:25
腾讯混元大模型开源计划 - 腾讯混元大模型将持续开源 [1] - 公司将推出多个尺寸的模型加入开源大家庭 [1]
DeepSeek和李飞飞之后,英伟达也看上阿里千问?
新浪科技· 2025-05-13 07:01
阿里通义千问大模型生态 核心观点 - 阿里通义千问大模型成为全球开源生态的核心标杆,吸引英伟达、DeepSeek、李飞飞团队等顶级机构合作,衍生模型超10万,下载量超3亿,HuggingFace占比超30% [2][4][6] - 千问3性能全面超越OpenAI、DeepSeek等闭源模型,成本仅为竞品1/3至1/20,同时提供全模态、全尺寸开源选项 [8][9][11] - 阿里宣布未来三年投入3800亿元加码AI基础设施,推动千问成为Agent开发标准,并整合淘宝、高德等业务场景加速落地 [16][17][18] 技术性能与成本优势 - 千问3在AIME25测评获81.5分(开源纪录)、LiveCodeBench突破70分超越Grok3、ArenaHard以95.6分领先OpenAI-o1 [8][9] - 英伟达基于千问2.5开发的OCR-Qwen-32B-Instruct模型在LiveCodeBench pass@1测试达61.8%,超越OpenAI闭源模型 [4][5] - 部署成本为竞品1/3,推理成本不到DeepSeek-R1三成,Claude3.7的二十分之一 [9][11] 开源生态布局 - 提供200多款开源模型覆盖文本、视觉、语音等全模态,尺寸从0.5B至235B全覆盖,支持119种语言 [11][12][13] - 千问3获SGLang、vLLM、苹果MXL等主流平台适配,英特尔、高通等芯片厂商连夜接入,形成事实上的行业标准 [15] - HuggingFace开源榜单前十均为千问衍生模型,魔搭社区推出MCP广场加速Agent应用创新 [6][15][17] 战略投入与行业影响 - 阿里三年3800亿元投资聚焦云与AI硬件,计划将AI融入所有业务环节 [16] - 千问3原生支持MCP协议,BFCL评测70.8分超越Gemini2.5-Pro,降低Agent开发门槛 [17] - 淘宝、高德等业务场景为模型提供实战训练场,AI Agent Store计划开放生态伙伴能力 [18]
访清华孙茂松:中国“强音”推大模型开源,全球大模型文化正在扭转
环球网资讯· 2025-04-30 08:51
中国大模型开源浪潮 - 中国科技公司在大模型领域掀起开源浪潮,向全球发出"强音",技术获得国际认可并扭转全球大模型文化 [1] - DeepSeek和通义千问系列开源产品推动国际大模型开源路线,突破技术垄断,促进技术平权,提升AI普惠性 [1] - 阿里通义已开源200余个模型,全球下载量超3亿次,衍生模型数超10万个,超越美国Llama成为全球第一开源模型 [2] 技术性能与国际认可 - 在国际学术研究中,许多论文基于千问模型,同等尺寸下千问小模型性能优于LLaMA [1] - 以DeepSeek、Qwen为代表的中国开源模型实现参数权重、推理逻辑和工具链条全开源,打开AI商用新局面 [2] - DeepSeek在人工智能反馈强化学习方面是开源大模型中走得最远的,将人类反馈变为人工智能反馈 [2] 小模型的价值与意义 - 小模型可降低应用成本,拓展普及度,同时帮助高校科研机构应对资源约束的研究挑战 [2] - 大模型发展越好,越能衍生优秀小模型,而小模型研究也能为大模型发展提供重要启发 [2] AI for Science前沿领域 - AI for Science成为重要突破口,大模型对复杂系统的处理能力远超传统方法 [3] - AI for Science定位为启发人类科研工作者,弥补人类思考不足或成百倍、千倍提高效率 [3] 未来发展挑战 - 中国AI领域在并驾齐驱后将面临更高层次能力考验,需提出更深刻学术思想和根本性解决方案 [4] - 需在保持技术创新的同时,注重"从0到1"原创性思想的培育和激发 [4]
(经济观察)中国大模型密集开源 影响几何?
中国新闻网· 2025-03-25 16:39
(经济观察)中国大模型密集开源 影响几何? 中新社北京3月25日电(记者夏宾)今年以来,中国大模型开源的消息一个接一个。 阿里云通义千问从除夕夜开源全新的视觉模型Qwen2.5-VL,再到本月初发布并开源了全新推理模 型QwQ-32B,在开源当日就登顶全球主流AI开源社区Hugging Face的趋势榜。 四是AI大模型能力提升显著,从"可用"进入"高可用"时刻,用户、应用由此进入爆发性增长时刻。 据中国工信部官方消息,目前,中国已成为全球开源参与者数量排名第二、增长速度最快的国家。 另有数据显示,阿里通义开源模型的衍生模型数量已突破10万个,成为全球最大的开源模型族群。 中国大模型密集开源,影响几何? 中国科学院院士梅宏曾表示,大语言模型在未来需要像互联网一样,走向开源,由全世界共同维护 一个开放共享的基础模型,尽力保证其与人类知识的同步。否则,任何一个机构所掌控的基础模型都难 以让其他机构用户放心地上传应用数据,也就很难产生足以满足各行各业业务需求的大量应用。 DeepSeek(深度求索)达成过"开源周",其在2月末连续五天发布五个代码库,并于近日继续开源上 线了升级后的DeepSeek-V3模型。 阶跃 ...
与 00 后开源者聊 DeepSeek 开源周:一直开源最强模型,可能是不想赚钱,也可能是想推动更大变化丨开源对话#2
晚点LatePost· 2025-02-27 14:03
开源策略与趋势 - DeepSeek宣布"开源周"计划,连续5天开源5个代码库,包括训练与推理工具,比技术报告和模型权重更深度[5] - 开源正成为行业趋势,部分原闭源公司开始发布首批开源模型,OpenAI CEO称"不开源是站在历史错误一边"[5] - DeepSeek通过详细技术报告(如V3达50多页)建立行业声誉,V3作为基座模型涵盖预训练、微调等完整流程[13][15][17] 开源技术层次 - 大模型开源分为四个层次:技术报告、模型权重(HuggingFace发布)、推理框架(如vLLM)、训练框架(如字节Verl)[19][26] - vLLM推理框架GitHub星数近4万,有840多位贡献者,基于PagedAttention论文优化[20][25] - 训练框架开源较少,因涉及复杂代码规范,字节开源的Verl框架支持强化学习算法如PPO和分布式策略[26][27] 工程优化与效率 - DeepSeek创新聚焦效率提升:V3采用多令牌预测、FP8低精度训练、优化流水线并行减少闲置计算单元[40] - FlashMLA开源项目实现算子层优化,类似FlashAttention通过GPU指令重组提升矩阵运算效率[45][46][48] - 工程实现难度高,如在线训练需同时处理生成与模型更新,对底层框架能力要求极高[49][50][51] 商业考量与行业影响 - 开源策略差异源于商业模式:非盈利机构Ai2开源最强模型+数据集,商业公司可能保留核心模型[54][56] - 开源可能重构行业生态,成为技术标准,但未来AI能力极强时开源最强模型或引发滥用风险[55][59] - 公司转向开源需额外投入:代码规范(如阿里代码规约)、适配外部框架(如ESFT适配耗时一周多)[36][34][35] 社区与开发者价值 - GitHub社区活跃度可通过星数(vLLM近4万)、Issues数(数千)、PR数(数百)衡量[20][25] - 开源项目需持续维护,如DeepSeek计划整合5个库功能并修复潜在bug[52] - 开发者诉求多样,包括支持FP8精度、NPU芯片适配等,反映实际应用场景需求[52]
对谈 98 年就做开源的章文嵩:要像维基百科那样,开源共建大模型数据集丨开源对话#1
晚点LatePost· 2025-02-27 14:03
大模型开源趋势与行业影响 - DeepSeek重塑全球大模型格局,扭转行业对开源的理解,推动百度、MiniMax、阶跃星辰等公司转向开源[2][3] - DeepSeek计划开源5个训练、推理相关的代码库,超越多数公司仅开放模型权重的做法[4] - 开源大模型通过降低创新成本、建立生态可能形成"事实标准",如DeepSeek模型推理成本低推动生态自然形成[5][17] 开源数据集与模型性能 - 激进主张认为真正的大模型开源需包含训练数据集,类似维基百科由非营利机构牵头共建[6][9] - 开源模型串接(Llama/Mistral/Qwen)评测表现优于GPT-4o近10个百分点,证明开源数据集潜力[10][11] - 模型能力核心依赖训练数据质量,建议采用GPL类传染性许可证强制商业公司回馈数据集[13][14] 开源商业化路径 - DeepSeek未融资使其能专注技术追求,但未来需探索开源生态商业化如Red Hat的订阅服务模式[23][24] - 开源成功案例显示商业化可通过API服务、技术支持实现,生态需允许其他玩家盈利[28][39] - 中国开源受限于企业定制化需求强、软件采购方强势,但工程师规模全球第二[25][26] 公司开源策略差异 - Meta因错过云计算选择开源AI构建生态,阿里开源驱动因素包括技术品牌建设与云计算业务协同[29][30] - 阿里通过开源委员会流程化管理,将开源贡献纳入职级评审,推动外部贡献者占比提升[35] - 字节闭源、阿里部分开源、DeepSeek全开源的分化源于商业化路径选择差异[28] 开源生态建设经验 - 阿里早期开源tair缓存系统提升技术声誉,工程师因代码公开更注重质量[34] - 开源虽可能被竞品利用(如京东使用阿里开源软件),但能积累不可复制的数据资产与人才吸引力[38] - 中国大模型开源将持续,需多方共建生态形成正反馈,类似Linux成功模式[27][37] 技术演进与行业竞争 - OpenAI闭源因商业化压力难以回头,其有限开源o3-mini模型被视作挽回关注度的举措[19][21] - 芯片禁运背景下,DeepSeek开源策略为中国大模型发展提供关键路径启示[18] - 未来行业可能并存开源非营利巨头与闭源商业巨头,中等规模玩家共存[39]