Workflow
CogVideoX
icon
搜索文档
Manus被收购,智谱也定了8天后上市
搜狐财经· 2025-12-30 04:12
港股IPO进程与募资详情 - 智谱于12月30日正式启动港股招股,招股期至2026年1月5日,计划于2026年1月8日以股票代码“2513”在香港联交所主板挂牌上市[2] - 公司拟全球发售3741.95万股H股,其中香港公开发售187.1万股,国际发售3554.85万股,每股发行价定为116.20港元[3] - 扣除发行费用后,预计募资规模约43亿港元,对应的IPO市值预计将超过511亿港元[3] - 基石投资者阵容亮眼,合计拟认购29.8亿港元,占本次发行规模近七成,包括JinYi Capital、高毅资产、泰康人寿、广发基金等11家机构[4] 公司估值与市场定位 - 智谱在私募市场的累计融资额已达83.44亿元,最新估值为243.77亿元[3] - 此次IPO市值预计超过511亿港元,意味着公司市值相较私募市场估值几乎实现翻倍[3] - 公司被市场视为“全球大模型第一股”的有力竞争者,其港股上市是在当前港股科技资产整体承压背景下,为高投入的大模型竞赛寻找可持续资金支持的关键举措[5][10] 财务表现与行业竞争格局 - 2024年上半年,公司收入为1.91亿元,期内亏损高达23.58亿元,AI研发成本高达15.95亿元[7] - 2024年AI大模型创业阵营“六小虎”出现分化,两家退出基座模型竞争,智谱与MiniMax、月之暗面、阶跃星辰四家仍留在大模型竞争牌桌[7] - 与专注to C的MiniMax不同,智谱主要专注企业级方案(to B),已落地金融服务、互联网、智能设备、医疗等行业[7] - 公司曾于今年4月在证监会北京监管局开启A股上市辅导备案,但截至12月12日未收到进一步意见,因此转向港股[9] 技术体系与模型迭代 - 公司技术体系以GLM为核心,覆盖文本、多模态与面向应用的模型服务[11] - GLM是基于Transformer的大语言模型建模范式,结合自回归生成与掩码预测,由智谱与清华大学相关研究团队提出并持续迭代[11] - 重要发展节点包括:2021年发布中国首个专有预训练大模型框架GLM并推出MaaS平台;2022年发布并开源千亿参数模型GLM-130B;2024年1月上线GLM-4[11] - 2025年7月开源GLM-4.5,登顶Hugging Face热门榜全球第一;同年9月发布并开源强化编码能力的GLM-4.6;12月推出最新旗舰模型GLM-4.7[12] 模型性能与基准测试 - GLM-4.7在多项基准测试中表现优异,与GPT-5、Claude Sonnet 4.5、Gemini 3.0 Pro、DeepSeek-V3.2、Kimi K2 Thinking等国际主流模型相比表现出色[14] - 核心编码能力显著提升:SWE-bench达73.8%(较GLM-4.6提升5.8个百分点),SWE-bench Multilingual达66.7%(提升12.9个百分点)[15] - 复杂推理能力提升:在HLE基准测试中取得42.8%的成绩,相比GLM-4.6提升12.4个百分点[15] - 工具调用与智能体能力增强:在BrowseComp网页浏览任务中展现出更强实际操作能力[15] - 公司还发布了多模态模型,包括CogView、GLM-4.5V、CogVideoX等,并在AI Agent方面以AutoGLM为核心模型,并于12月将其核心模型全面开源[16][17] 商业化路径与客户基础 - 公司主要提供从算力、API接口到MaaS的服务,支持本地和云端两种部署模式[11] - 从2021年开始布局MaaS商业模式,平台提供语言、多模态、智能体和代码四类核心模型能力,并提供模型微调、部署及智能体开发的一体化工具链[17] - 截至2025年6月30日,公司模型已为超过8000家机构客户提供支持;截至最后实际可行日期,已为约8000万台设备提供支持[17]
智谱定档大模型第一股,1月8日挂牌上市,IPO预募资43亿港元
量子位· 2025-12-30 03:57
IPO核心信息 - 智谱AI正式启动港股IPO招股,股票代码2513,预计于2026年1月8日在港交所主板挂牌上市[2][8] - 本次IPO全球发售37,419,500股H股,其中香港发售1,871,000股,国际发售35,548,500股[6][10] - 发售价定为每股116.20港元,预计募资总额约43亿港元,上市后市值预计超过511亿港元[3][9][11] - 招股期为2025年12月30日至2026年1月5日[9] 发行与投资者结构 - 本次IPO引入11家基石投资者,包括上海高毅、广发基金、泰康人寿等,合计拟认购约29.8亿港元,占发售股份比例接近七成[14] - 独家保荐人、整体协调人为OCICC FEATE,联席全球协调人包括国泰君安国际、招商证券国际等多家机构[6] - 募资用途方面,约70%的资金将用于研发,约10%将用于优化MaaS平台[16] 公司定位与技术实力 - 智谱AI被誉为“中国版OpenAI”,是中国最早开启大语言模型研发的公司,定位为国内AGI的引领者[7][17] - 公司最新旗舰模型GLM-4.7在权威评测Artificial Analysis Intelligence Index中以68分综合成绩位列开源模型与国产模型双料榜首[18] - 在Code Arena编码评估中,GLM-4.7位列开源第一、国产第一,超过GPT-5.2[19] - 公司已构建覆盖文本、图像、视频、语音的多模态模型矩阵,并更新了支持硬件设备接入的AutoGLM 2.0[20] 商业化与市场表现 - 智谱AI通过MaaS模式实现商业化,是国内少数通过此模式实现内部造血的初创公司[25] - 国内MaaS平台已汇聚超过270万企业与应用开发者,中国前十大互联网公司中已有9家接入其模型[26] - 全球范围内,GLM-4.5和GLM-4.6在OpenRouter上调用量长期位居全球前十,付费API收入超过所有国产模型之和,平台用户规模超过290万[26] - 公司GLM大模型已赋能全球12000家企业客户、超过8000万台终端用户设备及超过4500万名开发者[26] 财务业绩 - 公司营收连续三年翻倍增长,2022年至2024年收入分别为5740万元、1.245亿元和3.124亿元,年复合增长率达130%[27] - 2025年上半年收入进一步提升至1.91亿元,同比增长高达325%[27] - 毛利率表现亮眼,过去三年始终维持在50%以上,高于AI行业约40%的普遍水平,2022年至2024年毛利率分别为54.6%、64.6%和56.3%,2025年上半年为50%[31][32] 研发投入与资本背景 - 公司研发费用高昂且持续攀升,2022年至2024年及2025年上半年分别为8440万元、5.289亿元、21.954亿元和15.947亿元[35] - 最高峰时研发投入达到当期收入的八倍[36] - 公司拥有顶尖的清华技术班底,核心团队源自清华大学计算机系知识工程实验室,CEO张鹏、首席科学家唐杰等均为核心人物[41][46][53] - 成立以来已完成超过8轮融资,累计融资规模超过83亿元人民币,投资方包括美团、蚂蚁、阿里、腾讯、小米、红杉、高瓴等众多明星产业资本与一线机构[12][56] - IPO前最新投后估值已达243.8亿元人民币[57] 行业背景 - 根据弗若斯特沙利文数据,2024年中国大语言模型市场规模已达53亿元人民币,其中机构客户贡献约47亿元,占比近九成[59]
AAAI 2026|教会视频扩散模型「理解科学现象」:从初始帧生成整个物理演化
机器之心· 2025-11-15 01:37
文章核心观点 - 研究团队提出了一种全新的视频扩散模型框架,旨在解决现有模型在生成科学现象视频时违背物理规律的问题 [2][3] - 该方法的核心创新在于让模型学习“潜在科学知识”,从而能从单帧初始图像推演出符合物理直觉的动态演化过程,实现了从“视觉生成”到“科学生成”的转变 [3][4][19] - 在流体模拟和真实台风观测数据上的实验表明,该方法在数值精度和物理一致性指标上均显著优于主流视频生成模型 [13][16][18] 方法介绍 - 方法框架分为三个核心步骤:潜在知识提取、伪语言提示生成、知识引导视频生成 [8] - 潜在知识提取模块结合了静态知识(通过Masked Autoencoder提取初始条件)和动态知识(通过光流预测网络捕捉运动趋势) [9] - 通过四元数网络将提取的视觉和科学知识特征投影为伪语言提示嵌入,以克服科学领域难以用文字精确提示的局限 [10] - 采用LoRA(Low-Rank Adaptation)方式将伪语言提示注入Stable Video Diffusion或CogVideoX等基础模型进行轻量微调,实现知识引导下的视频生成 [11] 模型结果 - 在四种典型流体模拟场景(瑞利-贝纳德对流、圆柱绕流、溃坝流、深水爆炸)和四个真实台风事件(202001、202009、202102、202204)上进行了评估 [13] - 定性结果显示,新方法生成的流体场和台风演化视频在结构连贯性和物理合理性(如旋转方向、能量分布)上远优于传统模型 [16] - 定量评估结合了传统指标(RMSE, SSIM)和六项物理一致性指标(如流函数误差、涡度判据误差),新模型在所有指标上均显著领先 [17][18][21] - 具体数据表明,在流体模拟任务中,Q-Criterion误差降低了一个数量级;在台风预测任务中,SSIM提升超过10%,RMSE降低20%以上 [18]
妙笔生维:线稿驱动的三维场景视频自由编辑
机器之心· 2025-08-19 02:43
三维场景视频编辑技术发展 - 移动摄影设备普及推动三维场景视频编辑需求增长 用户可通过手机或相机快速获取多视角视频 但高效自由编辑这些内容仍是关键挑战 包括添加新物体、去除元素或替换已有部分等能力 在VR、AR和短视频创作中应用前景广泛[2] - 现有经典方法局限在于仅支持预定义三维模型库 限制用户个性化创意表达 且难以处理光影融合和阴影生成等照片级真实感需求 移除物体后的空缺区域填补也缺乏最优解决方案[3] Sketch3DVE技术创新 - 提出基于线稿的三维场景视频编辑方法 用户通过简单线稿即可重塑视频内容 支持个性化添加、移除或替换对象 技术论文发表于SIGGRAPH 2025并入选Video Trailer[3][6] - 支持单张静态图片编辑 用户可先指定虚拟相机路径生成动态视频 再进行任意编辑 突破传统静态图像处理限制[5] - 采用DUSt3R三维重建算法分析场景 输出点云和相机参数 通过深度图对齐和反投影技术实现三维几何一致性 构建基于点云引导的视频生成模型 融合编辑帧、多视角视频和原始视频信息[13][14] 行业技术对比 - 现有视频生成模型分为两类:直接输入相机参数控制视角 或从单图像构建显式三维表示(如NeRF) 但均无法处理含大幅度相机运动的真实视频编辑[8] - 早期视频编辑方法基于Stable Diffusion逐帧处理 新方法利用视频模型提取运动特征 但主要擅长外观编辑 几何结构层面效果较差 难以处理大视角变化场景[9] - 线稿交互方式已广泛应用于内容生成 VIRES和SketchVideo等现有方法面向通用场景 无法保持三维几何一致性 Sketch3DVE填补该技术空白[9][12] 应用效果展示 - 支持首帧线稿标记编辑区域 生成添加/删除/替换物体的高质量结果 新物体具有三维一致性[16] - 可处理含阴影和反射的复杂场景 通过真实视频数据集训练生成合理编辑效果[17] - 支持颜色笔画指定外观 生成自然真实的三维场景编辑 也兼容图像补全方法直接编辑首帧[18][19] - 相比传统模型插入方法 解决了个性化定制不足、渲染失真和物体去除难题 降低专业软件使用门槛[20][22]
AI生成视频总不符合物理规律?匹兹堡大学团队新作PhyT2V:不重训练模型也能让物理真实度狂飙2.3倍!
机器之心· 2025-05-19 04:03
文本生成视频技术发展 - 当前T2V技术正从视觉质量与模型规模扩展阶段转向物理一致性与现实合理性推理驱动阶段 [2] - 物理规律作为建模现实世界的基本知识体系,是高质量视频生成的关键约束 [2] - 主流模型如Sora、Pika、CogVideoX已能生成复杂逼真场景,但在物理规则遵守方面存在显著不足 [5] PhyT2V框架核心机制 - 通过LLM引导的链式推理与迭代自我修正机制优化文本提示,增强现有T2V模型的物理一致性 [3] - 采用三步流程:1)识别物理规则与对象 2)检测提示与视频语义不匹配 3)生成修正提示 [12][13][14] - 无需模型重训练或额外数据,支持3-4轮迭代即可显著提升效果,改进在最初两轮最明显 [14][23] 技术优势与实验表现 - 在CogVideoX-5B模型上实现PC指标2.2倍提升、SA指标2.3倍提升 [23] - 跨模型测试显示对CogVideoX-2B/OpenSora/VideoCrafter均有显著增强效果 [17][21][22] - 在固体力学、流体交互、光学现象等物理场景中表现优异,尤其擅长分布外场景 [18][20] 行业应用价值 - 框架可即插即用适配不同架构T2V模型,落地门槛极低 [3][18] - 突破传统数据驱动方法的泛化瓶颈,通过知识嵌入实现物理规则遵守 [7][10] - 为构建理解物理世界的T2V模型提供新路径,推动技术商业化进程 [26]
ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」
机器之心· 2025-05-07 07:37
AI视频生成技术发展 - AI视频生成技术进入快速爆发阶段,扩散模型展现出接近现实的生成效果,但速度瓶颈成为大规模应用的主要障碍 [1] - 当前主流视频生成模型(如Wan 2.1、HunyuanVideo)在单张H100 GPU上生成5秒720p视频需耗时30分钟以上,其中3D Full Attention模块占推理时间的80%以上 [1][6] Sparse VideoGen解决方案 - 加州伯克利和MIT研究者提出无需重新训练模型的加速方法Sparse VideoGen,通过挖掘注意力机制的空间与时间稀疏性,将推理时间减半 [2][4] - 该方法支持Wan 2.1、HunyuanVideo、CogVideoX等开源模型,适用于T2V和I2V任务,代码已开源并被ICML 2025收录 [4][8] 扩散式视频生成的性能瓶颈 - 基于Transformer的Video Diffusion Transformers(DiTs)在建模长时空依赖方面优势显著,但3D Full Attention带来巨大计算负担 [6] - Attention计算复杂度随分辨率和帧数呈二次增长,远高于普通图像生成模型 [6] Sparse VideoGen核心技术 - 识别Attention Map中的空间稀疏性(Spatial Head)和时间稀疏性(Temporal Head),分别负责局部空间一致性和跨帧时间一致性 [9][10][11][12] - 采用动态自适应稀疏策略,通过在线稀疏模式优化方法(Online Profiling)选择最优稀疏模式,仅需0.1%的Token采样即可实现精准预测 [15][16][17] 算子层优化 - 引入硬件友好的布局转换方法,将帧为主存储改为token为主存储,优化Temporal Head的内存访问模式 [20] - 定制化优化QK-Norm和RoPE模块,QK-Norm平均加速比达7.4倍,RoPE平均加速比达14.5倍 [21] 实验成果 - Sparse VideoGen在H100上使HunyuanVideo推理时间从30分钟降至15分钟,Wan 2.1从30分钟降至20分钟,PSNR稳定在29dB以上 [23] - 该方法展示视频生成模型可通过结构理解+自适应稀疏性实现性能突破,而非单纯扩大模型规模 [24]
智谱与生数科技达成战略合作:推进国产大模型的技术创新与产业落地
IPO早知道· 2025-04-27 12:38
清华系两家明星AI公司战略合作 - 智谱与生数科技达成战略合作 基于大语言模型和多模态生成模型技术优势 在联合研发、产品联动、解决方案整合、行业协同等多方面强强联合 [2] - 合作内容包括智谱MaaS平台接入生数科技Vidu API 融合视频生成能力 服务开发者和企业客户 [2] - 双方将在政企服务、泛互联网、文化旅游、广告营销、动漫影视、广电媒体等垂直领域构建AI创新应用 推动技术规模化落地 [2] 技术优势与研发成果 - 智谱自主研发GLM大模型系列 在语言模型和多模态模型技术领先 开源视频生成模型CogVideoX在github获超1万star [2] - 生数科技专注于多模态通用大模型 提供领先的视频生成及多模态生成产品 [2][3] 行业影响 - 战略合作将提升国产大模型综合实力和领先水平 推动行业生态良性创新与繁荣发展 [3]
智谱正式启动A股IPO:B、C两端业务齐发力,今日再开源性能顶尖模型
IPO早知道· 2025-04-15 01:18
公司IPO进程 - 公司于2025年3月31日同中金公司签署辅导协议,正式启动A股IPO进程,成为"大模型创业公司"中第一家正式启动上市流程的企业 [3][5] 技术研发与产品迭代 - 公司成立于2019年,致力于打造新一代认知智能大模型,2020年底研发GLM预训练架构,2021年训练完成百亿参数模型GLM-10B并利用MoE架构训练出万亿稀疏模型 [5] - 2022年研发中英双语千亿级预训练模型GLM-130B并开源,2023年推出千亿基座对话模型ChatGLM并两次升级,开源版本ChatGLM-6B支持本地微调和部署 [5] - 2024年1月推出GLM-4,性能大幅提升,6月开源GLM-4-9B及视觉模型GLM-4V-9B,多模态能力媲美GPT-4V,7月推出视频生成模型CogVideoX,推理速度提升6倍 [5] - 2024年8月升级GLM-4-Plus,10月发布GLM-4-Voice和AutoGLM,11月推出GLM-PC探索"无人驾驶"PC技术,12月发布GLM-Zero-Preview擅长数理逻辑和深度推理 [5] - 2025年1月发布GLM-Realtime支持清唱和2分钟记忆,3月推出AI Agent「AutoGLM 沉思」 [5] 产品矩阵与开源策略 - 公司打造对标OpenAI的完整产品矩阵,包括智谱清言、CodeGeeX、CogVLM、CogView等,清言App支持多模态互动 [5] - 践行MaaS理念,通过bigmodel.cn平台提供AI开发资源和企业级解决方案 [5] - 2025年4月15日宣布开源32B/9B系列GLM模型,涵盖基座、推理、沉思模型,推理模型GLM-Z1-32B-0414性能媲美DeepSeek-R1,推理速度达200 Tokens/秒,价格仅为DeepSeek-R1的1/30 [5] - 启用新域名Z.ai整合32B基座、推理、沉思模型,作为最新模型交互体验入口 [7] 融资与战略合作 - 2025年3月连续完成三笔融资:3月3日超10亿元人民币战略融资,3月13日获珠海华发集团5亿元战略投资,3月19日获成都高新区3亿元战略投资 [7] - 联合地方政府打造首个城市级GLM大模型空间和首个省级基座大模型,智能体已接入北京101等十余所学校 [7] - 投资方包括中科创星、达晨财智、君联资本等知名VC,美团、蚂蚁、腾讯等战略投资方,以及北京、杭州、珠海、成都等地国资 [7]
独家|清华大牛,刚刚融资30亿
投资界· 2024-12-17 00:39
国产AI融资动态 - 智谱AI完成新一轮30亿元人民币融资 新进投资方包括多家战投及国资机构 君联资本等老股东继续跟投 [3] - 2023年智谱AI累计获得超25亿人民币融资 投资方包括社保基金中关村自主创新基金 美团 蚂蚁 阿里 腾讯等多家机构 [9] - 中关村科学城公司以投前200亿估值领投智谱AI 用于支持国产基座大模型的技术创新和生态发展 [9] 智谱AI发展历程 - 公司成立于2019年 由清华校友张鹏 刘德兵 王绍兰联合创立 核心团队来自清华计算机系知识工程实验室 [5][7] - 2020年OpenAI发布GPT-3后 公司决定全力投入大模型开发 2022年8月推出GLM-130B大模型 [7] - 2024年推出新一代基座大模型GLM-4和GLM-4-Plus 并发布视频生成模型CogVideoX和语音模型GLM-4-VoiceCall [7] 智谱AI商业化进展 - 2024年商业化收入相比2023年增长100%以上 [7] - MaaS平台已吸引70万企业和开发者用户 开放平台API年收入同比增长超过30倍 日均Tokens消耗量增长150倍 [7] - C端产品智谱清言拥有超过2500万用户 年化收入(ARR)超千万级 [7] 国产AI行业现状 - 国内AI融资持续火热 月之暗面 百川智能 Minimax 零一万物等企业密集融资 跻身独角兽行列 [3][12] - OpenAI最新一轮融资66亿美元 投后估值达到1570亿美元(超11000亿元人民币) [11] - 北京计划到2025年底形成3-5个基础大模型产品 100个行业大模型产品和1000个行业成功案例 [12] AI创业者背景 - 清华系创业者占据主导地位 智谱AI 潞晨科技 无问芯穹等企业核心团队均来自清华大学 [5][11][12] - 上海交大系和中国科学技术大学系创业者也在AI领域崭露头角 [12]