大模型开源

搜索文档
手机端也能流畅运行,腾讯混元宣布开源四款小尺寸模型
观察者网· 2025-08-04 11:23
开源模型发布 - 公司于8月4日宣布开源四款小尺寸模型 参数规模分别为0.5B 1.8B 4B和7B [1] - 新模型适用于笔记本电脑 手机 智能座舱和智能家居等低功耗场景 [1] - 模型支持垂直领域低成本微调 [1] 模型技术特性 - Hunyuan-4B模型最大输入32K 总参数4B 激活参数4B 最大输出32K [2] - Hunyuan-7B模型最大输入16K 总参数7B 激活参数7B 最大输出32K [2] - 所有模型均支持256K超长上下文窗口 [2] - 模型兼容SGLang vLLM和TensorRT-LLM等主流推理框架 [8] 性能表现 - 四款模型在语言理解 数学和推理领域实测得分均达到领先水平 [3] - 7B模型知识密度显著高于同尺寸模型 专业领域接近更大模型效果 [2] - 4B模型适合实时响应场景 推理性能与准确性双优 [2] 部署与应用能力 - 模型已上线Github和Huggingface等开源社区 [2] - 获得Arm 高通 Intel和联发科技等消费级终端芯片平台部署支持 [2] - 模型具备双脑协作能力:快脑处理简单问题 慢脑处理复杂任务 [9] - 拥有强大Agent能力 可深度搜索资料 自动生成Excel分析 全流程旅行规划 [9]
腾讯混元将有多款模型开源
第一财经· 2025-07-27 03:46
腾讯开源大模型生态布局 - 腾讯云副总裁吴运声指出国内模型开源趋势加速大模型生态建设 [1] - 公司发布并开源混元3D世界模型1.0 支持创建可漫游3D虚拟环境 [1] - 计划开源端侧混合推理大语言模型系列 包含0.5B/1.8B/4B/7B参数规模 [1] - 后续开源计划覆盖多模态理解模型与游戏视觉模型 [1] 技术产品矩阵 - 混元3D世界模型1.0定位为3D内容生成基础设施 [1] - 端侧推理模型针对边缘计算场景设计 参数规模梯度化 [1] - 技术路线覆盖从底层推理到上层应用的完整链条 [1] 行业动态 - 国内大模型开源呈现爆发式增长态势 [1] - 企业级3D内容生成需求推动相关技术迭代 [1] - 边缘计算场景催生轻量化模型需求 [1]
对话袁千| 从奥运到大模型开源,阿里云如何抢占全球市场?
第一财经· 2025-07-14 14:30
阿里云国际业务战略与进展 - 阿里云国际业务已进入"黄金中年"阶段,2024年是其全球化十周年,公司将其定位为"战略级投入"[1][2] - 目前在全球29个地域运营89个可用区,服务500万客户,海外市场规模5年增长超20倍[2][3] - 2024年已在墨西哥、泰国、韩国、马来西亚、菲律宾新建数据中心,加快打造覆盖全球的云计算网络[3][5] 客户拓展与服务能力 - 已合作国际奥委会、宝马、SAP、LVMH等200多家全球企业,头部客户考察周期长达2-3年[3][6] - 支撑印尼GoPay在2000万用户零感知情况下完成迁移,展示技术能力[7] - 聚焦互联网、金融、零售、制造、媒体、文旅六大行业,积累数字化服务能力[8] AI战略与产品优势 - 采取"云+AI"一体化发展战略,预测未来3-5年将迎来高速发展期[9] - 通义大模型已开源200多个模型,衍生模型超14万个,是全球最大开源模型体系之一[10] - 支持赫力昂开发AI营养助手,将咨询响应时间从几十分钟缩短至几分钟[10] 全球市场布局 - 亚洲为重点市场,在印尼、日本、新加坡等已具备三数据中心能力,韩国、菲律宾为双数据中心[12] - 拉美市场数字化处于蓬勃成长期,中东、欧洲也看到新机会[13] - 本地化团队占比60%-80%,通义千问支持119种语言,与120所海外高校合作[14] 未来发展规划 - 未来3-5年将重点投入AI战略和海外数据中心能力扩展[15] - 四大突破方向:全球基础设施覆盖、本地生态建设、合规认证(现有150多项)、"云+AI"协同[15] - 将持续加大基础设施、AI能力、本地服务体系三方面投入[15]
“百模大战”生变 巨头集体转向开源
中国经营报· 2025-07-04 20:46
行业趋势转变 - 大模型行业正从"参数竞赛"转向"生态共建",模型本身不再是护城河,生态体系成为竞争核心 [2] - 开源成为平台战争入场券,厂商比拼"产业落地能力"而非"参数数值",工程能力和行业经验更具主导权 [2] - 国际技术潮流推动开源趋势,海外厂商如OpenAI、Meta等率先开源,迫使国内厂商加速响应以避免生态落后 [4] 巨头开源动态 - 华为开源盘古70亿参数稠密模型、720亿参数MoE架构的盘古Pro MoE(激活参数160亿),并优化昇腾平台推理技术 [2][3] - 百度同步开源文心大模型4.5系列10款模型,涵盖47亿/3亿参数MoE模型及0.3亿参数稠密模型,实现预训练权重和推理代码完全开源 [3][4] - 腾讯、智谱、月之暗面等厂商此前已开源大模型,阿里巴巴通过魔搭社区构建开源生态 [2][4] 开源驱动因素 - DeepSeek等开源模型成功提升行业标准,迫使闭源厂商重新评估商业模式,加入开源以提升影响力和话语权 [5] - 技术成熟降低开源风险:百亿级参数模型工程化能力趋成熟,MoE架构优化性能与资源利用率 [5] - 开源降低企业试错成本,提供"即插即用"基座,华为/百度通过昇腾、昆仑芯等软硬协同建立本土化新标准 [5] 商业逻辑与生态价值 - 开源是"牺牲边际利润换取生态控制权"的战略,闭源适合标准化服务,开源适合打造平台级入口与开发者网络 [6] - 中小企业可基于开源模型快速开发垂直应用(如医疗、教育),绕过研发高成本;开发者通过微调推动技术落地 [6] - 云服务商(阿里云、华为昇腾)和硬件厂商受益,开源模型拉动算力需求并强化技术优势 [6] 行业竞争与洗牌 - 开源潮将加速行业洗牌,技术门槛降低吸引新玩家,厂商需提升技术实力和服务质量以保持优势 [7] - 仅依赖参数优势的厂商可能边缘化,具备底座能力(硬件/框架)和开放生态策略(快速更新/高社区参与度)的厂商将胜出 [8]
刚刚,神秘模型火了!网友:是OpenAI要开源?
机器之心· 2025-07-02 10:40
OpenRouter上新神秘模型Cypher Alpha - OpenRouter平台上线名为Cypher Alpha的神秘模型 支持100万token上下文且免费使用 具备推理能力 [2][8] - 该模型为通用型 支持长上下文任务和代码生成 主要用于收集用户反馈 [8][9] - 模型提供商信息未公开 但工具调用ID格式与OpenAI相似 引发行业猜测 [6][7][10] 模型性能测试结果 - 网友测试显示 模型在编码测试中全部通过 推理测试通过率4/5 语言测试全部通过 适合开发者等群体使用 [18] - 实际测试发现模型对提示词要求较高 部分问题回答错误 性能仍需优化 [20][21] - 测试排除Grok系列可能性 因基础语言题回答错误率高于Grok3 [15] 行业猜测与潜在影响 - 命名方式与Optimus Alpha相似 行业普遍猜测可能来自OpenAI 或是GPT-5测试版本 [6][7][11] - 部分观点认为可能是OpenAI开源模型的早期测试版本 [8] - 免费策略和百万token支持显示大模型行业竞争加剧 长上下文成为技术突破方向 [2][8][9]
赛道Hyper | 百度开源ERNIE 4.5:策略是什么?
华尔街见闻· 2025-07-01 09:39
百度开源文心大模型4.5系列 - 公司正式开源文心大模型4.5系列(ERNIE 4.5),涵盖10款不同参数规模的模型,包括47B(470亿)、3B(30亿)激活参数的混合专家(MoE)模型及0.3B(3亿)参数的稠密型模型,预训练权重与推理代码均完全开放 [1] - 模型已可在飞桨星河社区、HuggingFace等平台下载,百度智能云千帆大模型平台同步提供API服务 [1] - 开源动作延续科技领域"开放协作"传统,为大模型技术落地提供新可能性 [2] 模型技术架构与特点 - 10款模型形成从0.3B到47B参数的梯度覆盖,囊括基础文本模型和视觉多模态模型(VLM) [3] - 除0.3B模型外均采用异构多模态MoE架构,通过"分而治之"策略提升性能 [3] - 异构MoE架构包含文本专家、视觉专家和共享专家三类FFN专家,通过门控网络动态选择最优专家组合 [4][5][6] - 原生多模态能力优化体现在模态融合而非技术堆砌,文本任务性能稳定基础上增强多模态处理能力 [4] 开发者生态与工具支持 - 配套开发工具链包括ERNIEKit训练工具和FastDeploy推理部署工具,降低开发者使用门槛 [7] - 开源遵循"技术-用户-数据"正向循环逻辑,开发者二次开发产生的数据反哺模型迭代 [8] - 飞桨平台与文心模型形成"双层开源"结构,开发者参与协同优化增强生态粘性 [9][10] - 采用Apache 2.0协议平衡共享与权益保护,允许商业使用但需保留原作者信息 [11] 开源战略与行业影响 - 开源是一种"分布式研发"策略,全球开发者智慧纳入创新体系降低整体研发成本 [12][13] - 提供"标准化基础上的差异化创新"路径,基础模型统一减少重复研发浪费 [13][14] - 开源模式使技术能力可验证,开发者可追溯模型决策逻辑链条 [15] - 全量开源向全球开发者递出技术名片,助力国产技术融入全球创新网络 [16]
大模型如何发展这条路,任正非李彦宏都想“开”了
第一财经· 2025-06-30 10:40
行业趋势 - AI行业进入应用为王时代,开源成为推动技术进步和产业发展的重要力量 [1][2] - 开源趋势已明确,从去年讨论开闭源路线之争到今年多家公司用事实说明开源的价值 [1] - 开源模型竞赛激烈,阿里通义团队已开源200多款模型,保持高度投入 [6] 公司战略 - 百度战略转变:从李彦宏坚持闭源到全面开源文心大模型4.5系列,包含10款模型如47B/3B MoE模型和0.3B稠密模型 [1][3] - 华为战略转变:从内部权衡到加入开源大军,开源盘古70B稠密模型和720B MoE模型 [1][3] - 开源背后动机:百度聚焦应用未来,华为旨在追赶英伟达CUDA生态 [8] 技术细节 - 百度文心4.5系列创新多模态异构模型结构,在多个基准测试中达到SOTA水平,优于OpenAI o1 [4] - 华为盘古Pro MoE 720B模型通过动态激活专家网络实现"以小打大",性能媲美千亿级模型 [6] - 阿里通义千问Qwen衍生模型突破13万,全球下载量超3亿,HuggingFace占比超30% [6] 商业考量 - 开源目标:通过提供算力服务、企业级解决方案和API接口实现商业闭环 [7] - 成本优势:大模型推理成本每年递减90%,公司已将成本降到足够低水平 [7] - 竞争挑战:开源可能导致二次开发产品与公司内部业务竞争 [8] 市场影响 - 开源加速AI在千行百业应用,推动产业创新 [7] - 业界对英伟达依赖或转向多元化选择,延伸至训练场景全链条能力重构 [8] - To B项目成败关键仍是产品能力、交付能力和客户需求理解,但开源力量不可忽视 [9]
华为大模型也加入开源大军了
华尔街见闻· 2025-06-30 10:16
华为开源盘古大模型 - 公司首次开源盘古大模型 包括70亿参数的稠密模型和720亿参数的混合专家模型(MoE) 以及基于昇腾的模型推理技术 [3] - 盘古70亿参数模型采用双系统框架 具备快慢思考能力 在昇腾NPU上优化部署 在AIME GPQA等基准测试中超越Qwen3-8B GLM4-9B等同量级模型 [3] - 盘古Pro MoE 720亿参数模型引入分组机制 解决传统MoE架构负载不均衡问题 提升训练效率和推理性能 [4] 开源与闭源战略转变 - 行业出现从闭源向开源转变趋势 百度宣布文心大模型4.5系列将于6月30日起全面开源 OpenAI也表示将重新制定开源战略 [5] - 开源模式可借助全球开发者力量加速研发迭代 形成"开源生态+闭源核心"的混合模式可能成为主流 [4][5] - 开源有助于吸引开发者 加速技术普及 形成良性循环 闭源则依靠技术壁垒快速盈利 [4][5] 昇腾生态战略 - 公司开源盘古大模型是昇腾生态战略的关键举措 旨在推动AI技术应用与创新 [3] - 基于CloudMatrix 384超节点的新一代昇腾AI云服务上线 单卡推理吞吐量达2300 Tokens/s 提升近4倍 [8] - 超节点架构支持384个专家并行推理 算力有效使用率提升50%以上 为大模型应用提供强大算力支持 [8] - 开源盘古大模型本质是为昇腾生态引流 形成"模型-应用-硬件"的生态闭环 [7][9] 行业影响 - 开源大模型可加速AI在千行百业的应用与价值创造 [3] - DeepSeek的开源成功冲击了OpenAI等厂商的市场地位 彰显开源价值 [4] - 2025年是开源模型快速进步的一年 公司加入开源大军有助于在全球AI竞争中占据主动 [10]
从文心开源谈起,论大模型发展新生态
AI科技大本营· 2025-06-30 09:52
百度开源文心4.5系列模型 - 公司正式开源ERNIE 4.5系列模型,包括47B和3B参数的MoE模型以及0.3B参数的稠密模型,实现预训练权重和推理代码完全开源 [1] - 开源模型国内下载地址已公布,标志着公司在开放生态、开发工具、模型训练方法及长文本能力等方面的全面进化 [1] - 文心团队创新性提出多模态异构模型结构,通过跨模态参数共享机制实现知识融合,同时保留单一模态专用参数空间,显著增强多模态理解能力 [1] - 此次开源面向全球开发者,提供从模型能力到训练方式再到部署支持的完整交付,旨在打造国际开发者可用的国产大模型代表 [1] 行业专家深度解读 - CSDN邀请AI行业知名专家范凯、北京智源人工智能研究院郑靖舒及Boolan首席技术顾问李沫南,围绕文心大模型开源及行业发展趋势进行深度解读 [2][3][4] - 范凯为AI+Web3领域超级个体,拥有8年AI研发及14年CTO经验,曾任职CSDN&丁香园CTO [2] - 郑靖舒专注于评测体系构建与工具研发,主导智源大模型评测体系产品化,参与国内外评测标准制定 [3] - 李沫南作为资深大模型技术专家,将主持此次直播讨论 [4] 行业热点议题 - 深度解读文心开源事件,分析公司技术底牌展示对行业的影响 [5] - 探讨AI技术从实验室走向实际应用的路径及行业逻辑变化 [5] - 讨论大模型价格战终局可能性及免费模式的可行性 [5] - 评估公司在AI生态战争中的全栈技术布局优势 [5]
华为首个开源大模型来了!Pro MoE 720亿参数,4000颗昇腾训练
华尔街见闻· 2025-06-30 07:27
华为盘古大模型开源 - 公司首次开源盘古大模型核心能力,包括70亿参数稠密模型和720亿参数混合专家模型(盘古Pro MoE),同时开放基于昇腾的模型推理技术 [1] - 盘古Pro MoE在昇腾800I A2上实现单卡1148 tokens/s推理吞吐,通过投机加速技术可提升至1528 tokens/s,优于同等规模稠密模型 [3][11] - 开源组件包括盘古Pro MoE 72B模型权重、基础推理代码及昇腾超大规模MoE推理代码,盘古7B相关资源将于近期上线 [4] 模型架构与技术特性 - 盘古Pro MoE基于MoGE架构构建,总参数量720亿,激活参数量160亿,针对昇腾硬件优化,在昇腾300I Duo服务器上提供高性价比推理方案 [4][11] - 引入"快思考"和"慢思考"双系统,简单问题快速响应,复杂问题深度推理,专家选择采用分组机制实现跨设备负载均衡 [9] - 预训练使用4000个昇腾NPU处理13万亿tokens语料,后训练通过SFT和RL增强推理能力,采用检查点合并优化模型 [11] 性能表现与基准测试 - 在千亿参数内模型中处于领先地位,MMLU-PRO英文基准显著超越Qwen3-32B、GLM-Z1-32B等主流稠密模型及Llama4-Scout MoE模型 [12] - 中文领域C-Eval(EM)得分91.1超越Qwen3-32B(89.2),CLUEWSC(EM)94.7微幅领先Qwen3-32B(94.6) [14][15] - 代码生成MBPP+(Pass@1)达80.2接近Qwen3-32B(82.0),数学推理MATH-500得分96.8超越Qwen3-32B(96.6) [15] 行业影响与生态整合 - 公司形成昇腾NPU芯片、MindSpore框架、盘古模型的垂直整合体系,被媒体评价为"工业奇迹",提供英伟达之外的替代方案 [18] - 国产大模型开源浪潮加速,MiniMax、阿里巴巴等厂商推动模型价格下降60%-80%,华为开源有望进一步促进行业应用普及 [20] - SuperCLUE测评显示盘古72B在开源榜排名第五(58.75分),超越Qwen3-14B/8B,仅次于DeepSeek和Qwen3-32B/235B [17]