GLM系列模型

搜索文档
“清华系”VS“阿里系”:中国大模型创业的“隐形门派”之争
36氪· 2025-09-04 10:47
中国大模型行业格局演变 - 中国大模型赛道从"百模大战"转向应用生态落地 竞争从巨头与创业公司对垒演化为以技术传承、人才网络和资本图谱为纽带的"隐形门派"博弈 [1] - 清华系(智谱、月之暗面)与阿里系(通义系出走创业者)成为国内AI产业两股最主要新生力量 共同定义行业未来走向 [1] 清华系技术源流与特征 - 技术轨迹起源于清华大学计算机系知识工程实验室(KEG) 唐杰教授团队数十年深耕知识图谱、图神经网络与预训练模型领域 [1] - 智谱为KEG实验室嫡传弟子 北京智谱华章科技有限公司CEO张鹏为清华计算机系博士 坚持GLM架构差异化技术路线 [3] - 月之暗面创始人杨植麟为Transformer-XL与XLNet核心作者 团队兼具清华学派理论深度与硅谷创新节奏 2023年10月发布Kimi智能助手支持20万汉字上下文 2024年3月开启200万字上下文内测 [5] 阿里系产业根基与战略 - 阿里自2017年设立达摩院将AI作为战略方向 通义系列大模型投入海量数据、一流算力集群和复杂商业应用场景 [7] - 2021年推出M6多模态模型 2023年4月发布通义千问(Qwen)系列 迭代至Qwen-3版本 参数量级覆盖0.6B-235B 通过钉钉、淘宝形成"模型+平台+业务"一体化战略闭环 [7] - 阿里系创业者携带独特商业基因 如前阿里副总裁贾扬青创办Lepton I专攻AI架构与GPU云服务 前蚂蚁首席AI科学家漆远创办无限光年深耕金融场景应用 [9] 技术路线分野 - 清华系呈现理论驱动创新特质 智谱GLM系列迭代至GLM-4.5坚持模型结构探索 月之暗面聚焦长文本技术突破 [10] - 阿里系偏向场景驱动工程 围绕业务需求优化模型部署策略 强调推理成本、产品化效率及产业适配能力 擅长构建高可靠AI中台系统 [12] 创业风格与资源获取 - 清华系创始人多为学者或研究员 人才网络围绕清华校友圈构建 智谱融资获国家级基金和产业资本 月之暗面吸引红杉、小红书及阿里等顶级投资方 [13] - 阿里系创始人为实战型将才 决策迭代速度快 依托阿里校友生态 擅长讲述明确商业回报故事吸引财务投资者 [13] 竞合关系分析 - 双方争夺顶尖AI人才、GPU算力和企业级服务市场 深层竞争在于下一代AI应用范式定义权 [14] - 阿里通过战略投资同时布局月之暗面与智谱 形成生态位战略 既保障自研技术又对冲创新风险 [16] - 全行业共同依赖上游芯片供应商和云服务平台 竞争客观上共同教育市场并催熟产业链 [16] 行业发展趋势 - 未来竞争是理论驱动与场景驱动两种路径融合能力的比拼 清华系需加速技术商业化转化 阿里系需构建更深技术护城河 [17] - 最终可能催生兼具理论深度与商业敏锐度的新一代AI企业 推动中国科技产业向长期主义与系统能力回归 [17]
智谱 GLM-4.5 团队深夜爆料:上下文要扩、小模型在路上,还承诺尽快发新模型!
AI前线· 2025-08-29 08:25
技术发展重点 - 扩展上下文长度是GLM-4.5未来研发重点 目前正在推进相关工作[6][9] - 防幻觉能力源于有效的RLHF流程 显著降低幻觉发生几率[6][11] - 架构选择GQA而非MLA 因MLA在解码阶段计算量更大且可能成为性能瓶颈[6][12] - 权重初始化采用标准差0.02的正态分布 注意力块和MLP输出层权重额外进行1/sqrt(2.0*num_layers)缩放[12] - 未来重点发展MoE模型并发布更小参数版本 稠密模型将专注于边缘设备场景[6][31] - 下一代模型优先提升推理 编程和智能体能力[6][50] 模型参数规模策略 - 前沿实验室模型参数规模已达万亿级别 但实际部署会精简成更小版本[14] - 活跃参数量在代码写作等现实任务中很重要 需根据设计任务决定[25] - 大规模模型在智能体任务和知识储备上更具优势[27] - 计划训练规模与gpt-oss-20b相当的较小MoE模型[28] - 小模型在封闭领域有效但在复杂领域难与大模型媲美[29] - 稠密模型聚焦小规模和边缘设备 目前无大于32B稠密模型计划[31] 多模态与架构探索 - 有多模态模型但未达SOTA水平 GLM-4.5V刚发布未来会提升[22] - 构建全模态模型技术复杂 目前专注LLM和VLM[23] - 探索文本扩散模型但未发现超越自回归Transformer架构的可能[24] - 图像生成功能无法增加大模型智能 厂商探索动力不足[24] - 高效注意力机制随上下文变长越来越重要 线性注意力对超参数更敏感[40] - 非文本模态转换为离散分词可能无法实现最佳性能[41] 数据工程与训练 - 预训练数据规模取决于数据过滤流程 算力资源和项目截止时间[13] - 最大差异在于原始训练token总量和数据工程技巧[34] - 更细致的数据工程是关键 包括丰富数据源 强大解析器和更好分类器[35] - 使用BF16精度训练 发布FP8量化版本且量化几乎不影响准确率[33] - 考虑扩展至MXFP4但FP4精度训练可能带来风险[33] 开源策略与行业定位 - 开源权重让更多人以喜欢方式使用模型 2022年发布首个开源大模型GLM-130B[36] - 开放权重模型与商业模型主要差距在于算力和数据资源[36] - 开源模型与商业模型差距将继续缩小 甚至有望在某些领域反超[36] - 中国开源权重模型落后闭源模型但差距正在缩小[53] - 许多有价值创新来自开源社区 如GLM-4.5训练使用的"slime"框架[53] 推理技术优化 - 推理模型可运用更多算力资源但会带来更严重延迟[17] - 理想情况应整合推理和非推理模式到同一模型中[18] - 缩短CoT长度是待办事项 可能加入与CoT长度反比的奖励信号[18] - GLM-4.5-Air已包含MTP层加速推理[19] - 已向vLLM和SGLang提交PR实现MTP 欢迎开发者适配ollama和llamacpp[20] 应用工具开发 - PPT生成器目前支持PDF导出 内部有PPTX导出测试版[45] - PPT生成结合搜索和HTML页面整理工具 模型具备内部化能力[46] - 推荐Open Code+GLM-4.5或Claude Code+GLM-4.5组合[47] - 将推出月度订阅套餐在Claude Code上订阅GLM-4.5[47] - AutoGLM是中国市场独立产品 高需求可能推出国际版[48]
国产开源大模型霸榜Design Arena,前十五名全数上榜展现强劲实力
搜狐财经· 2025-08-25 15:25
国内开源大模型在Design Arena平台表现 - 在Design Arena平台开源模型排名前15位全部由中国国产模型占据 其中DeepSeek-R1-0528位居榜首 智谱GLM-4.5和阿里Qwen 3 Coder 480B分列二三位[1][2] - 具体排名数据显示:DeepSeek-V3.1以1258分位列第9位 胜率58.3% 阿里Qwen3 Coder 30B A3B Instruct以1258分位列第10位 胜率58.3% GLM 4 32B以1237分位列第11位 胜率55.3%[3] - 开源模型前15名中 阿里贡献6款模型 DeepSeek贡献5款 智谱贡献3款 Kimi的K2模型占据1席[3] 国内开源大模型生态发展 - 7月国内AI社区开源成果显著 Hugging Face平台收录包括阿里、智谱、昆仑万维等厂商的33款开源大模型[4] - Interconnects机构汇总国内19家顶尖开源模型实验室 涵盖DeepSeek、Qwen、Moonshot AI(Kimi)、智谱(Z.AI)等知名机构及新兴学术实验室[4] - 国产开源大模型集群式崛起重塑全球AI版图 Qwen和DeepSeek等模型已能与闭源顶尖模型抗衡 推动应用端公司转向模型调优和应用优化[4] 技术评测机制特点 - Design Arena采用基于Elo Rating等级分制度的众包评测机制 用户通过投票对模型生成回答进行评分 确保排名公正性和动态性[2] - 该平台评测数据量较大 例如Kimi K2模型获得1231分 基于798胜/668负对战记录 胜率54.4% 总对战次数达1466次[3]
创业大街,又热闹起来了
投中网· 2025-08-01 06:38
海淀区科技创新生态 - 海淀区作为科技创新源头,吸引了大量外地招商人员和顶级独角兽创始人关注,每月约两万名招商人员活跃在该区域[2] - 从1992年北大科技园建立到2000年后中关村智造大街崛起,形成了高校实验室、企业研发中心和咖啡馆密集交织的创新生态[2] - 海淀区以占北京市2.6%的土地创造了全市超四分之一的GDP,承载了全国70%以上的AI企业和80%以上的AI全球顶尖学者[3] AI产业发展现状 - 海淀区已成为"中关村人工智能大模型产业集聚区"核心,人工智能企业超过100家,截至2025年6月备案大模型89款,占全国三分之一[3] - AI应用创业热潮使中关村创业大街重新活跃,模型侧和应用端创新均汇聚于海淀[4] - 国内大模型创业爆发潮中,智谱、百川、月之暗面等企业迅速崛起,其中智谱已启动IPO流程[8] AI技术发展历程 - 基于规则和逻辑推理的人工智能阶段,海淀区承担了源头研究、系统试点和国家工程平台角色,中科院自动化所和清华大学是重要研究机构[6] - 深度学习引领的感知智能阶段,商汤、旷视等"CV四小龙"核心研发团队与海淀区深度关联[7] - 通用人工智能与大模型时代,海淀区在2023年7月已集聚约50家大模型企业,发布35个大模型,数量居全国第一[8] 产学研融合优势 - 海淀区拥有37所高校,覆盖北京全部985/211,聚集了中国科学院自动化所、微软亚洲研究院等顶级科研机构[9] - 高校与行业领军企业合作密切,如清华大学与优必选合作设立的北京研究所为具身智能产业输送了大量科研人才[9] - 具身智能行业明星公司如银河通用、星动纪元等均具有"清华系"背景[9] 源头创新支持体系 - 海淀区通过算力、数据、模型、场景、人才和资本六大要素打造AI应用创新生态[12] - 北京人工智能公共算力平台2024年上线,一期3500P算力,年底扩至1万P,并形成全国首个"市-区-企"三级算力网[12] - 海淀区发布首批"AI全景赋能开放场景"榜单,涵盖政务、医疗等10个核心场景,政府做"首席甲方"[13] 资本与政策支持 - 海淀区设立覆盖科技企业全成长周期的基金组合,中关村科学城科技成长系列基金总规模达200亿元[14] - 对技术创新性强的大模型给予最高1000万元算力补贴,并实施"AI人才特区20条"政策[13][14] - 2023年有38家机器人公司和79家人工智能公司搬到北京,其中54家人工智能公司入驻海淀[15]
OpenAI最新点名的中国竞争对手,不是DeepSeek
观察者网· 2025-06-29 10:29
开源大模型与智能体趋势 - 开源大模型和智能体成为AI领域新焦点,以DeepSeek和Manus为代表 [1] - AI六小虎热度下滑,部分观点认为其陷入发展瓶颈 [1] OpenAI对中国AI企业的评价 - OpenAI点名智谱为中国大模型领域新锐代表,称其取得"显著进展" [1][3] - 智谱被视为中国打造独立自主AI生态的重要力量 [3] - OpenAI内部分析师认为智谱的"中国版OpenAI本土化产品"在欧美进入前取得进展 [4] 智谱的国际化战略 - 智谱响应"一带一路"和"数字丝绸之路"战略,向越南、印尼、马来西亚等国家输出基础设施和技术支持 [4] - 展示"负责任、透明且易于审计"的中国AI方案,合作对象包括阿联酋、沙特和肯尼亚等 [4] - 智谱董事长刘德兵表示公司致力于推动国产大模型技术出海,帮助共建国家构建自主大模型 [6] OpenAI与智谱的竞争关系 - CNBC评论称OpenAI将智谱视为威胁 [5] - OpenAI与阿联酋达成"星际之门阿联酋"项目合作,计划在亚太推广类似模式 [5] - 智谱被美国商务部列入实体清单后,OpenAI仍点名其出海进展 [5] 智谱的产品与资本动态 - 智谱开发GLM系列模型,产品矩阵包括智谱清言、CodeGeeX和CogVLM [5] - 公司于2024年启动上市辅导流程 [5]
每周一问大模型 | 基模“五强”谁最水,谁最强?
搜狐财经· 2025-05-19 07:26
中国基础大模型五强竞争格局 - 字节跳动、阿里巴巴、阶跃星辰、智谱AI和DeepSeek被列为国产基础大模型领域的核心力量,形成"基模五强"竞争格局 [1] 阿里巴巴 - 综合实力最强,通义千问模型在MMLU、CMMLU等权威评测中排名靠前,Qwen-72B能与GPT-4正面抗衡 [47][53] - 开源生态领先,Qwen系列在Hugging Face上持续维护,下载量超3亿次,社区活跃度高 [47][64] - 商业化能力突出,通过阿里云"百炼平台"服务超29万家企业,API调用量高 [61] - 资金投入巨大,近三年AI战略投入达3800亿元人民币,未来三年计划继续投入3800亿元 [39][61] - 技术布局全面,覆盖文本、图像、视频、语音等多模态领域 [64] 字节跳动 - 生态整合能力强,依托抖音、今日头条等平台,将AI嵌入内容推荐、协同办公等场景 [61] - C端落地领先,豆包APP日活跃用户数高,月活超1亿,产品交互体验优于竞品 [50][61] - 资金投入充足,2025年拨出超1500亿元战略支出,张一鸣亲自推动AI战略 [39][61] - 多模态能力覆盖电商、医疗、教育等场景,视频生成工具"即梦"在电商直播、虚拟偶像场景落地 [9][61] - 技术团队强大,整合光年之外、零一万物等团队,吸纳吴永辉等技术大牛 [39][61] DeepSeek - 技术突破显著,DeepSeek-R1在代码能力上超过Gemini 2.5,推理性能接近甚至超越其他模型 [39] - 极致性价比,训练成本仅为行业头部1/10,API定价低至OpenAI的1/30 [24][61] - 工程创新突出,通过降秩KV矩阵、混合专家架构优化计算效率 [24] - 开源策略获得开发者青睐,DeepSeek-Coder等模型性能极强,在GitHub社区影响力迅速上升 [39][47] - 在LMSYS Org榜单中数学、代码生成任务排名第一 [24] 阶跃星辰 - 多模态技术领先,发布22款基座模型,其中16款为多模态模型,覆盖文本、图像、视频、语音、音乐等 [11][24][39] - 视频生成技术突出,Step-Video-T2V为全球参数量最大、性能最优的开源视频生成模型 [61] - 商业化增长迅速,2024年多模态API调用量增长45倍,聚焦智能体与终端结合 [13] - 获得头部客户,在智能终端领域与OPPO、吉利、智元机器人等合作 [13][24] - 融资顺利,B轮融资数亿美元,有上海国有资本等强力支持 [39] 智谱AI - 政企市场优势明显,中标32个政府及企业项目,金额达1.29亿元,覆盖金融、医疗、政务等20余行业 [14][24] - 学术背景深厚,背靠清华大学,GLM系列模型在中文问答、代码生成等领域表现优异 [14][21] - 商业化收入增长显著,年增长超100%,是首个启动IPO的大模型公司 [14] - 技术布局全面,构建基座模型、推理模型、多模态模型全栈产品体系 [24] - 开源策略启动较晚,计划2025年启动,生态建设落后于阿里巴巴 [12] 未来竞争焦点 - 智能上限竞争,聚焦模型推理能力、长链思维链突破,如DeepSeek的RL机制、阶跃的多模态融合 [15][23] - 多模态与智能体落地,多模态能力是AGI基础,智能体落地将决定技术溢出价值 [23] - 商业化路径验证,需要持续验证开源生态、垂类场景、性价比策略的市场接受度 [23] - 成本控制关键,DeepSeek的工程优化、阿里的算力基建将是规模化决胜关键 [15] - 技术架构突破,阶跃星辰需要解决多模态理解与生成一体化架构难题 [11][13] 行业竞争排名 - 综合实力排名:阿里巴巴最强,字节跳动次之,DeepSeek和阶跃星辰最具潜力,智谱AI相对短板 [15][44][64] - 技术专长排名:DeepSeek在数理推理领域领先,阶跃星辰在多模态技术突出,阿里巴巴在开源生态领先 [20][33][44] - 商业化能力排名:阿里巴巴和字节跳动商业化成熟度最高,智谱AI在政企市场有优势,DeepSeek商业化路径待验证 [15][22][61]
第一家大模型公司被列入实体清单,智谱回应:对业务无实质影响
IPO早知道· 2025-01-16 02:21
美国商务部将智谱列入实体清单 - 美国商务部工业和安全局(BIS)于2025年1月15日晚间将中国头部大模型企业智谱旗下多个实体列入实体清单 [2] - 智谱第一时间发布声明表示强烈反对 认为该决定缺乏事实依据 [3] 智谱的技术发展历程 - 智谱由清华大学成果转化而来 是中国最早的大模型企业 自2020年开始投入研发GLM预训练架构 [3] - 2022年发布并开源GLM-130B中英双语千亿级超大规模预训练模型 [3] - 2023年推出千亿基座对话模型ChatGLM [3] - 2024年推出新一代基座大模型GLM-4和GLM-4-Plus 对标世界先进水平 [3] 智谱的业务布局 - 基于自主原创GLM系列模型 以Model as a Service(MaaS)为理念构建开放平台bigmodel.cn 持续为千行百业提供人工智能服务 [3] - C端产品智谱清言已服务数千万中国用户 推动国产AI助手应用 [3] 智谱的应对措施 - 公司表示掌握全链路大模型核心技术 被列入实体清单不会对业务产生实质影响 [4] - 将继续专注为用户和伙伴提供世界一流的大模型技术、产品和服务 [4] - 坚持最高安全标准和公平、透明、可持续原则 推动人工智能技术发展 [4]