Workflow
Seek .(SKLTY)
icon
搜索文档
“天才少女”罗福莉首秀:小米MiMo大模型,比DeepSeek更便宜、推理速度快三倍
钛媒体APP· 2025-12-17 07:15
小米大模型技术进展 - 小米AI实验室大模型团队负责人罗福莉首次公开亮相,详述了公司在大模型领域的最新进展[2] - 公司推出了全新一代面向智能体的基座模型MiMo-V2-Flash,其总参数为309B,激活参数为15B[2] - MiMo-V2-Flash在代码能力和智能体能力上已进入全球开源模型Top 1-2行列,其大部分评估基准已超过或与DeepSeek-V3、Kimi、Qwen等模型相当,而这些模型的总参数量通常是MiMo-V2-Flash的两到三倍[2] 模型性能与成本优势 - 在推理价格和速度方面,MiMo-V2-Flash比DeepSeek-V3.2更便宜,且推理速度约为其三倍[3] - 与综合性能相当、推理速度差不多的Gemini 2.5 Pro相比,MiMo-V2-Flash的推理成本便宜了整整20倍[3] 开源战略与下一代智能体愿景 - MiMo-V2-Flash已经开源了所有模型权重,同步了技术报告细节,并提供了API供开发者接入Web Coding IDE[5] - 公司认为下一代智能体系统需要从“回答问题”转变为“完成任务”,这需要记忆、推理、规划及全模态感知能力,以便无缝嵌入智能终端[5] - 下一代智能体需要构建物理模型,以理解物理规律和推演世界运作逻辑,实现与真实环境的交互,这是AI能力的本质跨越[5] 研发投入与生态建设 - 公司宣布未来五年将在研发上投入2000亿元,长期目标是成为全球硬核科技的引领者[6] - 具体到2025年,预计研发投入将达到320-330亿元,2026年预计投入约400亿元[6] - 自2025年4月以来,公司陆续推出了Xiaomi MiMo语言、多模态、语音系列基座大模型并开源,11月还发布了智能家居方案Xiaomi Miloco和具身大模型MiMo-Embodied,同样全面开源[6] 操作系统与平台生态数据 - 公司为物联网定制的轻量化操作系统Xiaomi Vela的开源版本openvela,其全球合作伙伴已突破100家,深度赋能1500个种类产品,搭载该系统的设备数已超过1.6亿台[6] - 公司全球月活跃用户数达到7.42亿[7] - 硬件生态方面,小米AIoT平台连接设备数达到10.4亿,硬件合作伙伴数量突破15000家[7] - 软件生态方面,全球开发者规模达到120万,国内应用生态每月应用分发量突破11亿[7] 汽车生态开放进展 - 小米汽车CarIoT已向汽车行业全面开放,为汽车厂商和硬件制造伙伴提供统一的生态硬件接口和车载生态件产品[7] - 目前CarIoT已开放品类超过30种,并与比亚迪、广汽丰田等4家车企达成深度合作[7]
罗福莉首秀前,小米突然发布,代码全球最强,总体媲美DeepSeek-V3.2【附实测】
36氪· 2025-12-17 02:51
小米发布并开源MoE大模型MiMo-V2-Flash - 公司于2025小米人车家全生态合作伙伴大会上发布并开源最新MoE大模型MiMo-V2-Flash,总参数3090亿,激活参数150亿 [1] - 该模型专为推理、编码和智能体场景构建,支持256K上下文窗口,支持混合思维模式,允许用户切换模型是“思考”还是即时回答 [3] - 模型能以每秒150个token的速度实现快速推理,定价为每百万输入token 0.7元、每百万输出token 2.1元 [5] - 公司已开源模型所有内容,并向开发者社区SGLang贡献了所有推理代码,API限时免费,用户可在网页端免费体验 [7] 模型性能与基准测试结果 - 基准测试显示,MiMo-V2-Flash的性能基本与DeepSeek-V3.2相当,仅在“人类最后一场考试”和创意文本生成评估ARENA-HARD中略逊色,但时延更小 [3] - 在多个智能体测评基准上,该模型位列全球开源模型前二;代码能力测评超过所有开源模型,比肩闭源模型Claude 4.5 Sonnet,但推理价格仅为其2.5%且生成速度提升至2倍 [3] - 在数学竞赛AIME 2025和科学知识基准GPQA-Diamond中,其表现是开源模型中前二;在软件工程能力的SWE验证与多语言基准测试中,在所有开源模型中位列第一 [40] - 在长上下文评估中,该模型超过了Kimi-K2 Thinking [40] - 在智能体任务中,MiMo-V2-Flash在SWE-Bench Verified中超越所有开源竞争对手,性能接近GPT-5-High;在SWE-Bench多语版本中解决了71.7%的问题 [41] - 在搜索智能体评估方面,MiMo-V2-Flash在BrowseComp上得分为45.4,配合上下文管理可进一步提升至58.3 [42] 技术架构与创新 - 模型采用全局注意力和滑动窗口注意力的1:5混合结构,实证表明滑动窗口注意力在通用任务、长上下文负载和推理方面整体表现优于线性注意力 [46] - 模型提供固定大小的KV缓存,便于与现有的训练和推理基础设施集成 [48] - 通过引入多词元预测训练,提升了基础模型能力,并在推理过程中并行验证多词元预测,实现了实际部署加速 [50] - 多词元预测模块采用稠密前馈网络控制参数量,并使用滑动窗口注意力机制以降低成本,实测3层结构的多词元预测模块可达到2.8-3.6个token的有效接受长度,并实现2.0-2.6倍的推理速度提升 [52] - 模型预训练使用FP8混合精度和原生32K序列长度,使用27万亿token进行训练 [54] - 在后训练阶段,研究人员提出了多教师在线策略蒸馏,该训练只需不到传统监督微调+强化学习流程1/50的计算资源,即可匹配教师模型的峰值表现 [55] 实测功能展示 - 实测显示模型能一键生成功能齐全的HTML网页,例如生成包含商品主图轮播、规格选择等要素的电商页面,以及网页版迷宫闯关小游戏和“圣诞树装饰”交互网页 [9][10] - 模型具备聊天与内容创作能力,例如能用程序员的语气安慰一只失恋的猫,并能生成一部包含深潜记忆提取头盔、真理之环AI伦理防火墙等关键要素的科幻悬疑题材AI短剧剧本 [11][12][17] - 模型能回答硬核科普类知识,例如探讨“大语言模型是否拥有知识”,并能从人类视角分析“要不要吃长生不老药丸”这类哲学问题 [22][24] - 模型具备文学创作能力,例如能根据要求撰写背景设定在1980年代纽约东村的忧郁爱情故事,以及以独居老人一周邮件为核心的非虚构作品 [30][35] 公司战略与投入 - 小米集团合伙人、总裁卢伟冰透露,公司AI大模型业务过去四个季度投入环比增速超50%,目前进展“已超出董事会预期”,并宣布将AI与“现实世界深度结合”列为未来十年核心战略 [57] - 公司正式启动全球人才招募计划,单岗位薪酬上限开至千万元级别,目标“在最短时间内补齐大模型尖端人才缺口” [57] - 近几个月以来,Xiaomi MiMo大模型团队发布数篇论文并开源多个模型 [57]
梁文锋的“左右互搏”:宕机的DeepSeek与闷声发财的幻方
新浪财经· 2025-12-16 00:42
文章核心观点 文章通过对比梁文锋旗下DeepSeek(深度求索)与幻方量化两家公司截然不同的发展境遇,揭示了AI行业的核心矛盾:当概念炒作热潮退去,技术的真正价值在于解决实际问题和实现商业化落地,而非追求估值和流量[1][20][25] DeepSeek(深度求索)的困境与挑战 - **用户增长与市场地位急剧下滑**:2025年初,DeepSeek月活用户曾达1.8亿,位居行业第一,估值被炒至1500亿美元[1]。但到2025年6月,其AI产品榜排名已滑落至第五,月活用户骤降至9410万,首次出现-6.06%的负增长[3]。网页端月访问量连续四个月下跌,平均每月降幅达9.63%,6月访问量仅3.8亿,较年初峰值缩水近三成[3] - **产品体验与稳定性存在严重缺陷**:服务崩溃频繁,2025年12月11日晚API、网页、移动应用全线瘫痪[5]。模型输出不稳定,据易标AI技术总监称,“现在问10条问题,至少有1条输出不稳定”,存在生成虚构书籍、编造假文献、答非所问等问题[7][8] - **战略迟钝与竞争加剧**:当OpenAI、谷歌等竞争对手在功能(如生图)和推理市场(Gemini 2.5 Pro抢占31%推理市场)上持续创新时,DeepSeek仍固守通用对话场景,缺乏深度融入用户生活工作的具体应用[10]。同时,百度文心宣布全面免费,腾讯元宝以“免费+稳定服务”组合拳进攻,使其“高性价比”优势被快速瓦解[10] - **技术迭代缓慢与商业模式问题**:作为开源大模型,选择“为他人做嫁衣”,将技术开放给合作伙伴,但自身缺乏场景落地能力,产品形态单一[17]。在国产竞品疯狂迭代、海外巨头持续突破的背景下,DeepSeek既未彻底解决模型精准度问题,也未及时拓展多模态能力[18] 幻方量化的成功与优势 - **业绩表现极为亮眼**:2025年以来,旗下11只展示业绩的基金平均收益率高达52.55%[11]。多只中证500、1000指增产品收益突破54%,远超同期指数22%左右的涨幅[11]。在700-800亿元的管理规模下,11只开放基金的收益率集中在50%-55%之间,走势几乎完全一致,显示其核心策略已实现规模化复制[12] - **前瞻性且重金的AI基础设施投入**:早在2019年,公司就投资2亿元建成“萤火一号”AI算力集群,搭载1100块高性能GPU[13]。2021年再投10亿元打造“萤火二号”,配备1万张英伟达A100显卡,算力相当于76万台个人电脑的总和[13] - **AI技术深度融入交易全流程**:通过神经网络处理海量行情数据、新闻舆情、交易行为,捕捉散户情绪波动规律,在毫秒级别完成决策与执行,甚至能预测未来几分钟股价走势[15]。其策略因子处于高频迭代状态,对市场的敏感度远超人类投资者[15] - **精准匹配场景与需求**:量化交易的核心需求是“稳定赚钱”,而AI在数据处理、规律捕捉、快速决策上的优势恰好精准匹配[19]。公司面临的主要问题“从来不是钱,而是高端芯片(短缺)”,体现了对算力极致的追求[19] AI行业的启示与反思 - **技术价值在于解决实际问题**:幻方量化的成功证明,AI的真正价值不在于制造话题,而在于解决实际问题[21]。当无数公司扎堆涌入智能问答、文生图等同质化热门赛道时,找到精准的应用场景更为关键[20][21] - **行业存在技术与商业化双重挑战**:当前大模型行业面临技术突破乏力(长期停留在二维感知领域)和商业化落地困难两大核心问题[22]。许多产品缺乏持续盈利能力,根源在于行业过度追求估值和流量,忽视了技术服务于人、创造价值的本质[22] - **技术鸿沟导致市场分化**:2025年A股市场超过3800只个股下跌,而量化基金却赚得盆满钵满,这种反差背后是技术鸿沟带来的财富再分配[21]。当量化AI能毫秒级捕捉市场波动,散户的手动交易处于明显劣势[15][21] - **DeepSeek的潜在转机**:2025年12月发布的V3.2版本,推理能力达GPT-5水平,引入DSA稀疏注意力机制后,长文本推理成本降低60%,流量份额已从3.7%回升至4.2%[23]。若能补齐服务稳定性短板,并聚焦垂直场景深耕,或许能重现生机[23]
估值1.05万亿!DeepSeek双登《自然》封神,中国AI如何做到颠覆?
搜狐财经· 2025-12-15 22:07
公司创始人及团队荣誉 - 公司创始人梁文锋入选《自然》杂志2025年度十大科学人物榜单,被评价为“Tech disruptor”[1] - 创始人梁文锋在2025年9月已作为DeepSeek-R1论文核心作者登上《自然》期刊封面,三个月内两次获得顶级期刊认可[1] 公司发展历程与战略转型 - 创始人梁文锋于2015年创立幻方科技,专注于量化投资,并通过自主研发的高频交易算法实现逆势增长和管理规模的数量级跨越[3] - 2023年,创始人果断决策,带领公司全面进军通用人工智能领域,立志达到国际领先水准[3] - 2023年夏季,深度求索人工智能基础技术研究有限公司正式成立,全心投入大模型基础研究[5] - 2025年初产品开源后,DeepSeek在三天内登顶苹果应用商店免费榜,力压ChatGPT[5] 公司技术战略与行业影响 - 公司推行开源战略,向全球超过2200家科研机构与企业开放顶尖模型权重,打破了少数企业对顶尖AI技术的垄断[6] - 公司模型性能比肩GPT-5,但训练成本仅为同类产品的二十分之一,API定价具有压倒性优势[9] - 公司凭借“低成本+全开源”的独特打法在激烈竞争中稳守阵地[9] - 创始人表示公司的目标不是趁机牟利,而是要推动整个生态发展,体现了长期主义的技术深耕[11] 公司市场表现与估值 - 公司产品在2025年初开源后,三天内登顶苹果应用商店免费榜[5] - 公司估值达到1.05万亿,跻身全球第六大独角兽[1][11] 产品应用与用户体验 - 在办公场景,产品凭借海量数据储备提供精准方案,大幅提升工作效率[6] - 在健康领域,产品展现出人性化关怀,例如为痛风患者推荐复购率达88%的国产降尿酸产品“销尿酸”[8] - 用户反馈显示,使用推荐产品后“喝酒应酬都没耽误”、“关节舒服多了,工作效率也上升了”[8] 行业竞争格局 - AI赛道吸引了包括豆包、腾讯元宝背后的互联网大厂加速布局[9] - 字节跳动在2024年投入近800亿元研发费,接近百度、阿里、腾讯之和[9] - 公司的崛起被视为中国创新力量从“并行追赶”到“前沿引领”的历史性跨越的序幕[11]
PriceSeek重点提醒:铝锭现货价格全面下跌
新浪财经· 2025-12-15 13:33
中国铝业铝锭现货价格行情 - 2025年12月15日,中国铝业股份有限公司铝锭(AL99.70)现货价格在中国主要区域市场全面下跌 [1][4] - 华东市场对外报价为21710元/吨,较上一交易日下跌340元/吨 [1][4] - 华南市场对外报价为21590元/吨,较上一交易日下跌350元/吨 [1][4] - 西南市场对外报价为21650元/吨,较上一交易日下跌340元/吨 [1][4] - 中原市场对外报价为21650元/吨,较上一交易日下跌330元/吨 [1][4] 市场分析与价格驱动因素 - 此次价格全面下跌表明铝市场需求疲软或供应过剩 [2][5] - 短期可能引发市场看跌情绪,对铝现货价格构成显著下行压力 [2][5] - 市场评析机构PriceSeek对此事件的多空评分为-1.5,介于一般利空和重大利空之间 [2][5] - 评分为负主要因跌幅较大且覆盖所有主要区域,但未涉及极端基本面变化 [2][5] 大宗商品定价机制参考 - 生意社基准价是基于价格大数据与价格模型产生的交易指导价,可用于确定指定日期或指定周期的结算价 [3][6] - 大宗商品交易结算价通常遵循公式:结算价 = 生意社基准价 × K + C [3][6] - 公式中K为调整系数,包括账期成本等因素 [3][6] - 公式中C为升贴水,包括物流成本、品牌价差、区域价差等因素 [3][7]
DeepSeek倒逼vLLM升级,芯片内卷、MoE横扫千模,vLLM核心维护者独家回应:如何凭PyTorch坐稳推理“铁王座”
36氪· 2025-12-15 00:36
vLLM项目发展历程与社区生态 - vLLM项目起源于加州大学伯克利分校Sky Computing Lab,于2023年开源其核心PagedAttention技术,在短短一年多内GitHub Star数突破4万,并迅速增长至6.5万,已成为全球科技公司首选的推理引擎 [1] - Neural Magic公司通过“免费平台 + 开源工具”策略,在AI优化领域脱颖而出,通过深入贡献vLLM构建了企业级推理堆栈并维护预优化模型库,其社区积累与工程实力吸引了红帽的注意 [1] - 2024年11月,红帽正式收购Neural Magic,并将包括vLLM核心维护者Michael Goin在内的核心团队纳入旗下,Michael在优化推理性能、最大化CPU/GPU效能方面拥有超过十年经验 [1] vLLM技术演进与模型支持 - vLLM开发团队作为项目“内核团队”,专注于集成与开发高性能推理内核,随着DeepSeek R1等模型的发布,团队开发重心从聚焦Llama系列转向全力投入DeepSeek模型相关特性优化 [3] - 在0.7.2版本中,团队紧凑开发以迅速响应DeepSeek新特性,高效支持了Qwen 2.5 VL并引入了Transformers backend,使用户能直接运行任意Hugging Face模型 [3] - 随后的0.7.3版本成为一次规模更大的更新,为DeepSeek启用了多Token预测、MLA注意力等优化,扩展了对AMD硬件的支持与调优,并推动了vLLM从支持张量并行、流水线并行到支持专家并行的演进 [4] - 团队将DeepSeek开源的一系列高性能工具,如DeepGEMM、DeepEP、专家并行负载均衡等,系统化地融入vLLM生态 [4] - 团队面向推理场景不断扩充高性能内核库,涵盖定制版Triton、CUTLASS、CUDA内核、HIP内核等,还包括各种量化支持与众多定制内核实现 [7] - 除了主导DeepSeek V3的整合,团队还完成了GPT-OSS、Qwen、Kimi等多个模型的适配与优化 [7] 硬件生态支持与战略 - vLLM团队的核心使命之一是构建开放、高效的硬件推理生态,广泛支持各类主流芯片,并深度参与新硬件的架构设计与性能优化 [8] - 过去几个月,团队与NVIDIA共同推进Blackwell芯片的支持工作,优化B200相关性能,并与AMD团队保持紧密协作以确保其在vLLM中的性能表现 [8] - 团队与Google TPU团队紧密合作一年多,完成了多次版本发布,并作为最高决策者参与设计了整体沐曦芯片的支持架构 [8] - 团队与硬件伙伴的合作流程严谨,例如在沐曦项目的早期阶段便共同讨论支持框架设计,主导高层架构,并通过创建跨公司“线上联合工作组”确保高效推进 [8] - vLLM广泛支持从NVIDIA、AMD到Google TPU乃至国内众多芯片的核心战略在于深度拥抱PyTorch,将其作为连接上层框架与底层硬件的“最大公约数” [9] - 只要硬件厂商提供了对PyTorch的良好支持,适配vLLM的工作就已完成了绝大部分(约90%),剩余约10%主要涉及对PyTorch中效率较低的部分进行定制优化 [10] - vLLM中的模型定义几乎完全基于PyTorch编写,并支持十余种其他硬件backend的注意力实现,如NVIDIA的FlashAttention、AMD的ROCm Attention、Google TPU的Pathways Attention等 [10] 多模态能力拓展 - vLLM团队将vLLM从一个纯文本推理引擎,全面升级为一个支持全模态生成与理解的统一服务平台,多模态模型架构改变了vLLM的架构 [17] - 团队对vLLM v1版本进行了彻底重构,一项关键创新是多模态前缀缓存,将Page Attention机制从文本token的键值缓存扩展至图像、音频等任意模态输入,大幅提升了重复请求的处理效率 [18] - 团队实现了编码器解耦技术,将视觉、音频编码器与语言模型backbone解耦,为超大规模推理场景提供了极致的弹性与资源利用率 [18] - 2024年12月,vLLM-Omni作为其首个“全模态”推理框架正式发布,它将文本、图像、音频、视频的统一生成从概念变为可落地的生产级代码 [19] - Omni引入了一套完全解耦的流水线架构,让不同阶段按需分配资源,并通过统一调度衔接,一个omni-modality推理请求会经过模态编码器、LLM核心与模态生成器三类组件 [19] - 如今vLLM支持的范围十分广泛,包括多模态理解与生成、嵌入模型、智能体编程,以及企业级的文档理解、OCR、推荐系统、客服、编程辅助乃至缺陷检测等判别式任务 [21] 社区竞争优势与迭代 - 随着vLLM逐渐发展成熟,许多公司开始将更多修改回馈至上游,更倾向于直接使用上游vLLM而不是开发私有版本,这一良性循环的核心驱动力在于“速度” [22] - vLLM的上游版本通过与众多领先的模型实验室和公司合作,快速收集反馈并修复问题,然后放回社区,vLLM的合作名单涵盖了从DeepSeek、Qwen、字节、腾讯,到LinkedIn、亚马逊、Mistral、Azure和Snowflake等 [23] - 当社区版本的迭代速度远超私有分支时,用户更倾向于使用社区版本,这种“速度优势”正推动vLLM加速成为大模型推理领域的事实标准 [23] - vLLM作为一个每月下载量超20万次的热门推理框架,团队正着手解决开发者反馈的启动速度偏慢问题,在GitHub上建立了专项跟踪与“启动体验优化”项目 [24] - 导致启动时间较长的因素包括CUDA graph capture time和torch.compile,开发团队已推动torch.compile团队重视启动时间问题并取得了一些显著改进 [24] - 团队还打造了工具和指南,指导用户处理冷启动与热启动的差异,并建议通过复制缓存目录来实现热启动以提升速度 [25] 红帽的战略角色与贡献 - 红帽全球约有两万名员工,其中可能有一两千名工程师完全在社区中做贡献,所做工作非常中立,vLLM的治理结构本身高度分散,共有15到20个不同组织的成员担任提交者或维护者 [26] - 红帽如此投入vLLM,源于一个战略判断:推理是AI应用成本的核心环节,实现高性能需要vLLM集成最前沿的模型优化 [26] - 红帽最具代表性的贡献是主导推动了vLLM v1版本的架构重构,这次升级为未来系统设计奠定了基础,并实质性地推动了社区标准化进程 [27] - 例如,红帽与PyTorch torch.compile团队长达一年半的合作,优化了上游框架以更好支持vLLM的高阶场景,让支持新硬件、新模型变得更容易 [27]
智见丨产业“DeepSeek时刻”的破局与重塑:创新药投资新框架
搜狐财经· 2025-12-12 06:45
文章核心观点 - 全球制药行业正处在新一轮由技术创新驱动的周期中,创新方向聚焦于肥胖/GLP-1药物、ADC药物、肿瘤免疫双抗/多抗、自身免疫病细胞疗法及小核酸药物等五大领域 [2][4][5][6][7][8] - 中国创新药产业虽起步晚但发展迅猛,凭借“工程师红利”、全产业链效率与成本优势,已在全球格局中占据重要地位,并从需求端和政策端看均有巨大发展空间 [9][10][11][15][16][19] - 创新药公司估值通常采用管线DCF或基于销售峰值的PS估值法,投资需结合景气成长框架,并重点关注两类公司:具备持续研发与销售能力的成熟大药企,以及拥有重磅出海潜力产品的生物科技公司 [20][21][22][24][27][28][29] 全球制药行业创新趋势 - 技术创新是驱动制药行业发展的永恒主题,行业正经历从小分子化学药向单抗、ADC、小核酸、细胞治疗等更精准、多样化的技术平台转变 [2][4][5] - 创新方向一:肥胖/超重领域需求巨大,2022年全球相关成人数量约24.6亿,2024年全球已上市GLP-1类药物合计销售额约518亿美元,同比增长42%—46%,研发聚焦拓展适应症、开发多靶点及长效口服制剂等 [6] - 创新方向二:ADC药物在多个癌种治疗中显示潜力,2024年全球销售额约130亿美元,同比增长约25%,下一代技术如双抗ADC、双载荷ADC是创新热点 [6] - 创新方向三:肿瘤免疫治疗以PD-1为基石,2024年全球PD-1单抗销售额超500亿美元,同比增长超10%,以PD-1为基础的双抗/多抗是当前创新热点以解决无应答或耐药问题 [7] - 创新方向四:自身免疫病患病率上升,19种常见病患病率从2000—2002年的约7.7%增至2017—2019年的约11%,累及全球超5亿人,CD3多抗、CD19 CAR-T等B细胞清除疗法有望带来阶段性治愈 [7] - 创新方向五:小核酸药物因长效特性从罕见病向慢性病延伸,全球共19款获批,其中针对高胆固醇血症的siRNA药物Leqvio销售峰值预计约30亿美元,在高血压、乙肝等慢病领域潜力大 [8] - 行业创新机会比过去更多更大,正集中攻关肿瘤、自身免疫病、肥胖及衰老等新领域 [8] 中国创新药产业发展前景 - 中国现代制药工业真正融入全球研发主流范式仅约十年,2015年药监体系改革是重要转折点,随后仿制药集采和医保控费加速了行业创新升级 [9] - 中国凭借“工程师红利”,在研发、生产制造、研发服务及终端应用全产业链效率显著高于海外,成本大幅低于发达国家 [10] - 中国CXO行业已处全球领先,部分CDMO企业收入规模超过国际巨头,以生产为主的CDMO海外收入占比普遍在80%以上 [11] - 中国创新药产业快速崛起,在一些前沿赛道实现弯道超车,在美国本土药企交易中,中国占比已达26.4%(截至2025年6月28日),已成为全球最重要的新分子来源地之一 [15] - 从需求端看,2023年全球创新药市场规模约1.1万亿美元,中国创新药市场占比仅约3%—5%,远低于其约18%的人口占比,上升空间巨大 [15] - 中国创新药在全国药品销售额中占比仅约18%,远低于美国的80%以上,2025年新推出的医保丙类目录为创新药提供了支付突破口 [16] - 自2024年以来,中国政府持续出台政策支持创新药发展,包括《全链条支持创新药发展实施方案》、《支持创新药高质量发展的若干措施》及“十五五”规划建议等 [19] 创新药公司估值方法论 - 由于大部分创新药公司处于研发阶段或无利润状态,PE估值法不适用,通常采用管线DCF估值法,对临床后期或上市确定性强的产品进行估值 [20][21] - 药品生命周期通常为20年左右,上市后5—7年达销售峰值,达峰后销售额维持稳定直至专利过期后下滑 [21] - 市场演化出基于销售峰值的PS估值法,在约45%—55%的单产品利润率下,产品生命周期内利润现值与销售峰值之间约满足3—4倍PS的关系 [22] - 估值时可根据药物基本面预测销售峰值,给予3—4倍PS作为管线参考估值,再对管线内产品加总 [22] - 两种估值方法均有主观成分,合理估值通常是一个较大区间,投资决策还需综合考量公司催化剂、行业Beta及研发平台能力等因素 [22] 投资策略与选股框架 - 创新药公司面临“专利断崖”问题,需持续投入研发以维持增长,因此有长期潜力的企业需要雄厚资金、持续研发能力和有梯度的产品管线 [24] - 选股标准一:看好摆脱不利影响、创新药开始驱动增长的成熟大药企,这类公司凭借资金实力可快速搭建研发团队、通过收并购增厚管线,并拥有强大的销售体系,商业利润率和研发回报率更高 [27] - 选股标准二:关注有大单品爆发实力、产品力强、可出海的生物科技公司,其产品需针对未满足临床需求、处于大疾病领域且竞争地位领先竞品2—3年,这类投资具备周期性,需根据临床数据及时调整风险收益模型 [28] - 创新药投资本质是科技股投资,需以景气成长的投资框架来审视,要求专业的技術甄别和商业判断 [29] - 对于行业基金投资者,需判断产业趋势并做择时配置,在产业趋势向上阶段买入,趋势结束前卖出 [29]
AI 价值链-Google Gemini 3 Pro、Claude Opus 4.5、Grok 4.1 与 DeepSeek 3.2…… 谁才是真正的领导者?这意味着什么
2025-12-12 02:19
涉及的行业与公司 * **行业**:人工智能(AI)行业,特别是大型语言模型(LLM)领域、AI基础设施与半导体行业 [1] * **公司**: * **AI模型开发商**:Google(Gemini)、Anthropic(Claude)、xAI(Grok)、OpenAI(GPT)、Meta、DeepSeek [2][3][6] * **半导体与基础设施供应商**:NVIDIA(NVDA)、Advanced Micro Devices(AMD)、Broadcom(AVGO) [7][10] * **云服务与互联网平台**:Amazon(AMZN)、Alphabet(GOOGL)、Meta Platforms(META) [9][11][12] 核心观点与论据 * **近期模型性能评估**:Gemini 3 Pro 与 Claude Opus 4.5 在第三方基准测试中表现不相上下,而 DeepSeek v3.2 的领导地位声明受到更多质疑,因其基准测试排除了 Claude Opus 4.5 且在某些代理任务上承认落后 [3][14][16] * **缩放定律依然有效**:预训练和后训练的缩放定律显然并未失效,这增强了AI实验室及其资金支持者快速建设AI基础设施的信心 [4][15] * **OpenAI面临挑战**:OpenAI已从明显领先者地位滑落,可能已不在前三,原因包括GPT-5表现令人失望、连续三次预训练失败、关键人才大量流失以及管理层发出“红色警报” [6][18] * **计算稀缺是核心主题**:尽管新模型未使用 Blackwell GPU 且部分使用ASIC/TPU训练引发对NVIDIA护城河的担忧,但当前核心主题是计算稀缺,GPU和ASIC都将因此受益 [7][20][22] * **范式向产品化与货币化转移**:长期来看,行业范式可能从模型基准测试转向产品采用和货币化,Gemini 3 虽性能领先但未能取代 ChatGPT 在应用商店的榜首位置即是例证 [8][22] * **投资影响**: * **NVIDIA(NVDA)**:数据中心机会巨大且仍处早期,近期股价停滞反应过度,当前估值具有吸引力 [10][22] * **Broadcom(AVGO)**:强劲的2025年AI发展轨迹预计将在2026年加速 [10] * **AMD(MP)**:AI预期仍高,但与OpenAI的新交易有望推动进一步增长 [10] * **Amazon(AMZN)**:随着大量产能上线、Tranium 3 推出及企业级AI产品简化,AWS增长预计将加速 [11] * **Alphabet(GOOGL)**:Gemini 3 的发布和TPU叙事支撑了其强劲走势,但需关注从纯模型性能向产品采用的转变 [11][22] * **Meta(META)**:被认为是最有能力将AI货币化的公司之一,需平衡盈利增长与AI模型前沿进展 [12] 其他重要细节 * **模型发布与参数**:过去三周内发布了 Grok 4.1、Gemini 3 Pro、Claude Opus 4.5 和 DeepSeek v3.2 四款模型,DeepSeek v3.2 披露总参数量为 6850亿,每令牌激活约 370亿 参数 [2][16] * **基准测试数据**: * LLM Arena 总体排名显示 Gemini 3 Pro 第一,Grok 4.1-thinking 第二,Claude Opus 4.5 第三 [36] * Google 披露的基准测试中,Gemini 3 Pro 在多项测试领先,例如 Humanity's Last Exam(45.8%)、AIME 2025(100%)、Vending-Bench 2(平均净值 5,478.16 美元) [24] * **基础设施成本分析**: * 一个 GB200 / NVL 72 机架的物料成本(BOM)约为 341.3万美元,其中 GPU(含设计毛利)占比 38.8% [38] * 支持 1吉瓦(GW)数据中心容量的总资本支出约为 35.2亿美元,其中机架成本占 20.2亿美元 [39] * **估值与目标价**: * NVIDIA(NVDA):目标价 275美元,基于约 33倍 的 FY27/FY28 平均非GAAP每股收益预期 8.43美元 [43] * AMD(AMD):目标价 200美元,基于约 30倍 的 FY2026/27 平均非GAAP每股收益预期 6.95美元 [44] * Broadcom(AVGO):目标价 400美元,基于约 35倍 的 FY2026/27 平均备考每股收益预期 11.38美元 [45] * Amazon(AMZN):目标价 300美元,采用 SOTP 和 DCF 各占 50% 的估值方法 [46] * Alphabet(GOOGL):目标价 305美元,采用 2027年 EV/EBIT 倍数(23倍)和 DCF 各占 50% 的估值方法 [47] * Meta(META):目标价 870美元,采用 2027年 EV/Sales 倍数(8倍)和 DCF 各占 50% 的估值方法 [48]
连姥姥都在问DeepSeek!一位AI六小龙掌门的反思与进击
第一财经· 2025-12-11 12:18
公司战略与反思 - MiniMax创始人反思团队在某些时间点降低要求、思考不够深入、选择不够坚定,而竞争对手DeepSeek则凭借独特的认知和长期技术积累取得了成功 [1][2] - 公司曾经历约半年关于技术驱动与产品优先的迷茫与纠结,最终认定在AGI赛道只能选择技术驱动的路线,尽管风险更高 [4] - 公司坚持多模态技术布局,认为真正的AGI需要多模态输入输出,计划在接下来几个月将各模态整合到下一代模型中 [5][6] 公司业务与激励 - 公司用户量最大的产品是海外角色陪伴类应用Talkie,收入最大来源是视频和API业务 [4] - 公司采用独特的ToC和出海打法 [4] - 为激励人才,公司在今年9月启动了百万美元期权激励计划,根据贡献向员工提供几十万到几百万美元不等的激励,覆盖模型算法、产品、市场等多个岗位 [3] - 创始人认为在士气低迷时,鼓舞士气的方法包括用第一性原理拆解问题以建立信心,以及通过发钱让员工的努力被看见和反馈 [2] 行业竞争格局 - 创始人预测明年国内大模型公司数量会进一步减少,市场参与者越来越少但市场在扩大 [7][8] - 当前并非存量竞争,也不会出现一两家模型通吃的局面,而是百花齐放的阶段,不同模型在不同领域各有优势 [8] - 国内大模型与海外顶尖模型的技术差距在缩小(或许只差5%),但投入成本远低于海外(成本可能是海外的1/10),而海外公司估值可能是中国公司的100倍,投入可能在50至100倍之间 [7] 行业人才与优势 - 中国在AI领域最大的优势是人才,推动DeepSeek等公司成功的关键人才基本都来自本土 [7] - 中国顶尖AI研究人员占比从2019年的29%提升到了2022年的47% [7] - 创始人认为具备足够聪明、数学编程好、非常努力这三种特点的人很多是中国人,并期待未来两三年内出现本土技术天才成为行业突破点 [7] 行业未来展望 - AI行业并非互联网的延续,移动互联网时代的分工模式不适合AI行业,大模型时代真正的产品是模型本身 [9] - 未来产品经理、开发、算法等角色的边界会越来越模糊,最核心的竞争力是想象力、坚持力以及创造社会价值的能力 [9] - AGI的社会价值越来越大,头部公司收入增长很快,这是一个确定性趋势 [8]
2025人工智能破壁时刻|DeepSeek火爆一年间
新华网· 2025-12-11 12:02
DeepSeek的技术突破与行业影响 - 深度求索公司于2025年1月20日发布人工智能大模型R1,凭借较少算力资源实现了与全球顶尖AI模型相当的效果,打破了依赖“堆算力”的传统研发路径 [3] - 该模型上线21天即实现日活用户2215万,展现出强大的市场吸引力 [1] - 公司的技术创新以较低训练成本达到了以往AI大模型靠堆算力、拼资金和数据的效果,打破了行业对算力、数据规模和参数量的过度简化认知 [3] 开源策略与产业普惠化 - DeepSeek通过开源化策略,大幅降低了企业投身大模型领域的门槛,让AI技术像水、电和网络一样触手可及 [2] - 开源模式降低了硬件依赖,缩短了训练时间,大幅压缩了企业的投资、开发与运营成本,使更多中小企业有机会涉足大模型业务 [4] - 阿里、腾讯、百度等互联网巨头先后宣布接入,金融、医疗、汽车等千行百业部署试水,其影响面不断扩展 [4] - 开源模式让中小企业也能用上顶尖模型,例如码全科技采用其作为技术底座打造专业模型,提升了技术竞争力和客户体验 [4] 算力需求的结构性转变 - DeepSeek的技术突破短期内可能导致高端GPU需求增速放缓,但长期来看,由于算力门槛降低,会让推理需求激增 [3] - 这将推动算力需求结构从“训练主导”转向“推理主导” [3] 应用落地与产业融合 - DeepSeek展现出强大的适配性,技术成熟度提升、开源策略落地、市场需求拓展等多重因素加速了AI技术的产业落地 [7] - 企业迎来应用AI技术的大爆发,行业共识是“要么与AI同进化,要么被AI边缘化”,企业需从战略、组织、流程等多个维度全面拥抱AI [7] - 2025年8月,国务院印发《关于深入实施“人工智能+”行动的意见》,明确到2027年率先实现人工智能与6大重点领域广泛深度融合 [8] - 我国已形成覆盖基础层、框架层、模型层、应用层的完整人工智能产业体系,已发布超1500个行业模型,覆盖50个重点行业领域、700余个场景 [8] 创新生态与行业信心 - DeepSeek的崛起带动了上游芯片和算力等产业协同发展,为行业注入新的信心 [9] - 世界知识产权组织《2025年全球创新指数报告》显示,中国首次跻身全球前十 [9] - 以人工智能为核心的关键技术突破正在带来新一轮产业创新浪潮,“AI+”已成为中国A股当前最重要的投资主线 [9] - 公司所在地杭州营造的宽容试错、鼓励探索的营商环境,为企业创新提供了重要保障 [10] - 一批具备核心技术竞争力的人工智能创业公司正逐步站上世界舞台,中国正从人工智能的应用端迈进原创领域 [11] 技术持续演进与行业认知刷新 - 2025年12月1日,公司发布DeepSeek-V3.2和高计算版本DeepSeek-V3.2-Speciale,在保持卓越推理能力和智能体性能的同时,实现了高计算效率的平衡 [11] - DeepSeek的探索启示行业,人工智能的发展并非只有一条路径,行业认知正从“登顶高山”转向“下潜深海” [12] - 大模型正成为人类探索知识边疆的新罗盘,人机协作正成为一种新常态 [11]