Workflow
Large Language Model
icon
搜索文档
深度|百亿美金AI独角兽Surge AI华裔创始人:不融资、小规模,AI创业的另一种可能
Z Potentials· 2025-12-19 03:01
图片来源: Lenny's Podcast Z Highlights : Edwin Chen 是美籍华裔, MIT 数学、计算机科学与语言学背景,曾任职谷歌、 Facebook 等企业及知名对冲基金, 2020 年创立 AI 数据标注公司 Surge AI 并任 CEO ,公司零外部融资却营收超 10 亿美元,服务谷歌等巨头,他是美国最年轻的亿万富豪之一。本次对话由 Lenny Rachitsky 在 2025 年 12 月 7 日发 起,深入对话这位零融资的 AI 创业人。 Surge AI 零融资 4 年营收 10 亿小团队的反主流创业路径 Lenny Rachitsky : 今天的嘉宾是 Surge AI 的创始人兼 CEO Edwin Chen 。 Edwin 是一位杰出的 CEO , Surge 也是一家非凡的公司。他们是领先的 AI 数据公司,为每一家前沿 AI 实验室的模型训练提供支持。 同时,他们也是成立后增长最快的公司 —— 仅用四年时间,在不到 100 名员工、完全自筹资金 的情况下,营收就突破了 10 亿美元,从未从风投那里筹集过一分钱。而且公司从成立第一天起就实现了盈利。正如你将在对 ...
北京 AI 企业开放日要点_大语言模型市场竞争仍激烈…… 我们看到 AI 商业化的曙光,尤其在垂直企业市场
2025-12-17 15:53
行业与公司概览 * 本次电话会议纪要涉及中国人工智能行业,特别是大型语言模型和AI应用市场,会议于2025年12月9日至10日在北京举行[1] * 会议汇集了中国领先的软件和LLM公司的管理层,与投资者讨论了市场前景、技术、业务趋势和商业化模式[1] * 尽管LLM市场竞争激烈,但AI商业化,尤其是在垂直企业市场,显现出积极信号[1] 关键公司财务与业务要点 **科大讯飞** * **财务表现**:消费者业务是核心增长引擎[2] * 2025年上半年,消费者业务(包括学习机、开放平台、智能硬件等)收入已占公司总收入的约三分之一[5] * 学习机势头强劲,今年可能贡献总销售额的20%[5] * 展望未来,管理层认为主要增长引擎将是消费者业务以及教育领域,这两者都由其“星火”LLM平台驱动[5] * **AI业务**:“星火”LLM基于国产AI芯片训练,是其竞争优势[3] * 管理层指出,科大讯飞可能是中国唯一在国产AI芯片平台上训练的大型LLM,这使其能够承接政府和国企市场的订单[5] * “星火”LLM平台的主要客户是政府和国企,预计2025财年可贡献约10亿元人民币的收入[5] * 除了基础LLM,公司还积极投资开发教育、医疗等垂直领域的LLM[5] * 管理层预计在未来2-3年内控制来自政府和大型国企的应收账款,从而改善现金流[5] **金山云** * **财务表现**:AI算力需求增长加速[4] * 管理层预计2025财年收入同比增长将超过20%,但由于租赁算力增加,毛利率将承压,调整后毛利率预计约为15%[5] * 公共云和企业云收入分别约占70%和30%,其中AI云是增长最快的板块[5] * 算力资产预计将增加约90亿元人民币,包括自购和租赁资产[5] * **AI业务**:小米的LLM训练和推理需求是主要增长驱动力[4] * 作为主要客户,小米的LLM“MiMo”训练将继续支撑金山云的算力需求,金山云是其主要的云服务提供商(约50%的份额)[10] * 除了LLM训练,小米在智能手机、电动汽车和其他物联网边缘设备上的推理需求,可能为金山云带来长期可持续增长[10] * 2025年第三季度,小米和金山软件占其云行业收入的28%,与小米的关联交易可能达到2025财年上限(23亿元人民币)的约95%,且需求可能超过2026财年的交易限额(30亿元人民币)[5] * 除了小米和金山软件,金山云的外部客户还包括AI初创公司,如月之暗面、Minimax和智谱AI[10] * 管理层认为英伟达H200在中国市场应有需求,但美国政府额外25%的收费可能导致成本上升,给终端需求带来了不确定性[4][10] **第四范式** * **财务表现**:目标是到2029年实现200亿元人民币收入[6] * 管理层预计2025财年收入增长将超过30%,并实现盈利转正[10] * 展望未来,管理层预计未来几年收入将保持约30%的复合年增长率,长期目标是在2029年实现200亿元人民币收入[10] * **AI业务**:管理层期望更高价值[7] * 2025年前9个月,Sage AI平台收入同比增长70.1%至36.9亿元人民币,占总收入的84%[10] * Phancy(消费者解决方案)于2025年第二季度开始产生收入,其2025财年年度收入运行率可能达到约1亿元人民币[10] * 尽管最初专注于金融行业客户,但过去几年已将其客户组合多元化至约20个行业,其中最大的是能源、电力和电信[10] * 公司专注于构建企业级AI服务平台,其核心竞争优势在于使用“智能体+垂直AI模型”解决特定场景问题[10] * 尽管企业市场宏观环境疲软且IT预算紧张,但管理层指出其AI解决方案渗透率仍然很低,有充足的成长空间[10] **商汤科技** * **财务表现**:生成式AI是主要的收入增长驱动力[8] * 商汤科技目前70%-80%的收入来自生成式AI,而视觉AI(AI 1.0时代的主要增长驱动力)规模小得多,并保持稳定增长[10] * **AI业务**:致力于构建全栈AI能力[9] * 管理层指出,公司今年的重点是开发多模态LLM,其原生多模态LLM SenseNova V6.0和V6.5已于2025年4月和7月发布[10] * 管理层认为,具身智能、空间智能和世界模型是未来的关键趋势[10] * 商汤科技已开源SenseNova-SI空间智能模型,其“吾能”具身智能平台已开发用于支持人形机器人开发[10] * 根据管理层,2025年上半年资本支出超过10亿元人民币,2025财年可能达到约20亿元人民币;公司拥有多元化的GPU供应[10] * 公司不依赖单一客户;其最大客户占总收入的比例不到5%[10] * 关键客户垂直领域包括视频生成、人形机器人、研究实验室和零售[10] **北森** * **财务表现**:“AI + HRM”市场增长稳固[11] * 管理层预计2026财年(截至2026年3月)总收入同比增长15~20%,新AI合同将达到6000万元人民币,占总收入的3%-5%[15] * 2025年前9个月,综合毛利率为83.5%,而AI产品的毛利率也超过80%[15] * **AI业务**:AI产品驱动收入增长[11] * 管理层认为,北森的关键增长引擎包括从SAP等海外HRM服务提供商以及中国小型垂直HRM玩家手中夺取市场份额[15] * AI Family 2.0包括十个主要AI智能体,其中AI面试官和AI领导力教练是关键增长驱动力[15] * 在2026财年上半年(截至2025年9月),AI面试官/AI领导力教练/AI对练的新合同价值分别约为1000万/605万/290万元人民币[15] * 公司AI智能体中使用的基础LLM包括GPT、Qwen、DeepSeek、豆包和智谱AI[15] * 管理层认为,API价格的下降将有利于未来北森AI产品毛利率的改善[15] **用友网络** * **财务表现**:国产替代和大型企业的AI迁移是关键增长驱动力[12] * 管理层认为,未来几年的关键增长驱动力是大型企业的AI迁移,以及持续的国产替代[15] * 展望未来,管理层预计公司将保持稳定的收入增长,现金流将在2025年显著恢复,盈利将在2026年逐步改善[15] * 用友网络的总人数将在2025年和2026年保持稳定(1.8万~2万人),因为密集投资阶段已经过去[15] * **AI业务**:AI智能体深度集成到ERP中[12] * 用友网络的AI应用路线图包括垂直AI模型,以及Copilot和智能体等AI应用[15] * 公司已推出100多个智能体,最受欢迎的智能体包括财务智能体和招聘助手[15] * 超过一半的AI智能体采购订单来自中型客户,但大型客户的AI智能体订单价值要高得多[15] * 与现有的软件解决方案相比,AI智能体和应用的交付成本更低,这有助于提高毛利率[15] **奇虎360** * **财务表现**:2025年前9个月收入达61亿元人民币,同比增长8%,净亏损收窄4.57亿元人民币至1.22亿元人民币[13] * 2025年第三季度盈利转正,为1.6亿元人民币,主要得到1.3亿元人民币投资收益的支持[13] * **业务细分**: * **广告**:核心收入驱动力,占总收入的54%,2025年前9个月同比增长6%,主要由AI技术赋能和短剧新广告收入流驱动[14] * **增值服务**:包括游戏相关收入(占总收入的11%),同比持平;会员相关收入(占总收入的13%),同比增长1.6倍[14] * **智能设备销售**:收入(占总收入的10%)同比下降30%,据公司称主要由于优化销售渠道,尽管海外销售同比增长70%[14] * **传统安全业务**:(占总收入的7%)在2025年前9个月基本持平[14] * **AI业务**:核心业务战略聚焦于“AI + 安全”[15] * **消费者端**:AI推动了消费者和企业端收入增长[15] * 在增值会员收入中,35%现在来自消费者端AI产品(如360 AI办公、360文库和编辑工具),高于一年前的25%[15] * 目前,奇虎360的消费者付费用户数超过800万,ARPU为20元人民币/月,续费率60%[15] * 管理层指出,增值会员业务正朝着年收入10亿元人民币的目标迈进,其中AI产品贡献3.5亿元人民币[15] * 2025年上半年,奇虎360将其Nano AI平台从AI搜索升级为AI智能体聚合,以高性价比的方式利用第三方先进LLM[16] * P-video提供生成2-10分钟文本到视频内容的竞争性功能,并计划在国内测试后向海外推出[16] * **企业端**:超过50%的安全收入来自政府客户[17] * 管理层指出,公司正依靠AI来推动安全业务增长,其自研LLM支持的AI安全智能体(如威胁检测)与安全解决方案捆绑以实现溢价[17] * 此外,奇虎360正从亏损的项目制安全转向SaaS安全(目前占安全收入的30%,在同行中处于领先地位),以提高安全业务的盈利能力[17] **有道** * **业务定位**:有道将自己战略定位为专注于学习和广告垂直领域的AI驱动解决方案提供商[18] * **收入构成**:在线营销服务已成为其最大的收入贡献者,占45%,其次是学习服务占39%,智能设备销售占15%[18] * **在线营销服务**: * 在过去3-4年里实现了5倍增长,由基于其自研广告垂直LLM的程序化广告的推出所推动[19] * 目前,三分之二的广告收入来自国内程序化广告,三分之一来自海外KOL营销以及与TikTok和谷歌等主要媒体平台的合作[19] * AI赋能有道优化广告制作成本并提高匹配效率[19] * 值得注意的是,据管理层称,有道在2025年推出了广告素材平台Imagic box,与手动创建相比,广告制作成本降低了70%,并能够为效果广告实时调整素材[19] * 主要广告客户包括游戏、新能源汽车、电子产品、短剧等[20] * 网易是其主要的广告客户之一,但在2024财年仅占其广告收入的8%[20] * 除网易外,有道服务于中国前30大游戏公司中的70%[20] * 对于有道的广告业务,40%的广告流量是自有流量(通过网易生态系统:网易新闻、网易音乐),60%来自高性价比的长尾外部流量[20] * 尽管在三个业务板块中毛利率最低,但广告业务的营业利润率最高(接近15%)[20] * 由于广告收入贡献更高,管理层认为有道的整体盈利能力有望改善[20] * **学习业务**:有道致力于利用AI发展其学习业务[21] * 在学习服务收入(占总收入的39%)中,70%来自面向高中生的AI互动课程(通过有道领世展示)[21] * 管理层指出,有道在2025年第二季度推出了AI作文评分功能,将学生续费率提升至75%以上——在高中教育领域处于领先水平[21] 其他重要信息 * **分析师观点与评级**: * 科大讯飞:评级“中性”,目标价50.00元人民币,基于98倍2026财年预期每股收益[27][28][29] * 金山云:评级“买入”,目标价9.20港元,基于DCF估值法[30] * 用友网络:评级“中性”,目标价16.00元人民币,基于DCF模型[32][33][34] * 网易:评级“买入”,目标价249.00港元(港股)/160.00美元(美股)[37][38][39][40][41] * **风险提示**: * 各公司均列出了可能阻碍实现目标价的下行风险,主要包括市场竞争加剧、技术商业化不及预期、需求增长放缓、成本控制不力等[29][31][35][39][42] * **会议性质**:本次会议为野村国际(香港)有限公司组织的企业日活动纪要,旨在与投资者交流[1][22] * **披露信息**:报告包含分析师认证、发行人特定监管披露、重要免责声明等合规内容[23][24][25][26][43][44][45][46][47][48][49][50][51][52][53][54][55][56][57][58][59][60][61][62][63][64][65][66][67][68][69][70][71][72][73][74][75][76][77][78]
The Glimpse Group Partners With A NYC Higher Education Institution To Provide Local LLM Infrastructure Customized For Immersive AI
Accessnewswire· 2025-12-16 13:30
NEW YORK, NY / ACCESS Newswire / December 16, 2025 / The Glimpse Group, Inc. ("Glimpse") (NASDAQ:VRAR), a diversified Immersive Technology platform company providing enterprise-focused Immersive Technology, Spatial Computing and Artificial Intelligence ("AI") driven software and services, announced today that it entered into a six figure contract with a NYC based higher education institution for the design, deployment and integration of a local Large Language Model ("LLM") infrastructure, specifically confi ...
Google is a name you need to stick with, says Evercore ISI's Mark Mahaney
Youtube· 2025-12-16 12:51
Joining us now, Mark Mahaney, Everore, senior managing director of internet research. Mark, great to see you in person. Um, we mentioned the Google 60%.Most of that move was in the second half of the year. So, it's it's sort of an interesting dynamic here where it's no longer a top pick because of the recent run, but you still think it is firmly in the hold in the buy camp, I should say. >> It's a quality compounder.So, we've had a stock that went from 15 times earnings to almost 30 times earnings in a six- ...
2025科技与资本报告|人工智能赶考
北京商报· 2025-12-14 07:47
2025年,中国人工智能产业正站在一个新的历史拐点上。截至2025年6月,我国生成式人工智能用户规模5.15亿人,较2024年12月增长2.66亿人。截至2025年 8月,共有538款生成式人工智能服务完成备案,相关应用或功能应用于智能搜索、内容创作等领域,并向农业生产、工业制造等场景延伸。 国家层面的计划已经出台,2025年8月国务院印发的《关于深入实施"人工智能+"行动的意见》提出6大重点行动、8项基础支撑能力,给行业发展明确了方 向。 资本市场敏锐地捕捉到了这一趋势。据IT桔子统计数据,2025年至今,中国人工智能领域共发生709起投资事件,是2024年全年投资事件数量的136%,投资 金额合计约591.45亿元,是2024年全年投资总金额的94.5%。自动驾驶双雄实现美股+港股双重主要上市,其中小马智行以绿鞋后77亿港元集资额,成为2025 年港股AI领域募资额最高的新股,大模型赛道的MiniMax完成近3亿美元融资,走在上市路上的智谱获得10亿元人民币融资。 这个拐点同样是资本与产业的残酷交汇点。头部企业凭借技术护城河和场景落地能力赢得资本青睐,加速登陆资本市场接受公开检验;估值虚高、缺乏造血 能力 ...
Cerebras Delivers End-to-End Training and Inference for Jais 2, the World's Leading Open Arabic LLM
Businesswire· 2025-12-09 23:22
SUNNYVALE, Calif.--(BUSINESS WIRE)--Cerebras Systems, in partnership with G42's Inception and MBZUAI's IFM, today announced the release of Jais 2, the leading open-source Arabic LLM – the first frontier language model both trained and deployed for inference on Cerebras Systems. The organizations combined their expertise with leading machine learning techniques, uniquely enabled on Cerebras wafer-scale clusters, to achieve state-of-the-art quality on Jais 2, using only a fraction of compute used. ...
让AI锐评本届 NeurIPS 2025 最佳论文会得到什么结果? | 锦秋AI实验室
锦秋集· 2025-12-05 03:43
文章核心观点 - 文章通过让多个主流大语言模型(GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)扮演审稿人,对NeurIPS 2025的获奖论文进行盲审,旨在探究AI评审与人类评审结果的一致性、AI评审的稳定性及其对论文叙事方式的敏感性 [1][3][10] - 实验发现,AI评审的结论与人类评审结果存在显著分歧,两篇官方最佳论文在AI评审中并未获得一致的最高评价,其中一篇甚至被部分模型直接拒绝 [18][23][26][27] - AI评审表现出对提示词框架和论文叙事方式的极度敏感,当评审视角从“综合评价”切换为“刻意挑错”时,即使是官方最佳论文也可能被整体否决 [55][72] 测评设置与方法 - 实验选取了GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax五个主流大模型作为“AI审稿人” [7] - 设计了三个互补的评测场景:1) 全文评测:模拟真实会议评审,观察AI与最终录用结果的一致性 [8];2) 摘要评测:仅提供论文摘要,检验模型在信息不完整时的判断依据 [9];3) 对抗性评测:通过提示模型“以最苛刻评审者的角度评分”,测试其对提示框架的敏感性和评分波动 [9] - 评审标准严格遵循NeurIPS官方维度,包括技术正确性、创新性、清晰度、意义、可复现性及总分,并需给出最终录用建议(接受/边缘/拒绝)及奖项等级判定 [12] 全文评测结果分析 - **论文一(Gated Attention for Large Language Models)**:所有AI模型均未拒稿,但除GPT5(总分9,建议最佳论文)外,其他模型(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)普遍将其视为强论文(总分7.8-8.5),建议等级为海报、焦点或口头报告,上演了“小范围低估冠军作品” [16][18] - **论文二(1000 Layer Networks for Self-Supervised RL)**:AI评审与人类评审分歧明显,GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5给出的总分在7.8-8.5之间,建议等级为口头或焦点报告,无一建议最佳论文;而Minimax则给出全场最低的5.8分并建议拒绝,相当于对官方最佳论文的“当面否决” [23][25][26] - **论文三(Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs?)**:AI评审达成高度共识,五个模型总分均在8分以上,其中四个(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)打分达9或9.2,建议至少为口头报告,Minimax甚至建议最佳论文,与人类评审给出的口头报告结果基本同频 [30][31][32][33] - **论文四(Breaking the Performance Ceiling in Reinforcement Learning requires Inference Strategies)**:AI评审整体评价偏保守,GPT5和Minimax建议焦点报告,Claude 4.5和Gemini 3 Pro建议接受(海报),只有DeepSeek-V2.5明显更看好(总分9,建议口头报告),与大会结果一致 [36][37][38] 摘要评测结果分析 - **论文一**:在仅提供摘要的条件下,所有AI模型的评价普遍“降了半档”,最高分由GPT5给出(8.5分),但建议从最佳论文降为焦点报告,AI更倾向于将其视为高质量工程分析型工作,而非一眼认定的冠军 [39][40][42] - **论文二**:与全文评测相比,摘要评测阶段AI态度明显更“乐观”,模型普遍上调评分和预期,倾向于高估其通用性与实际价值,而弱化正文中可能隐藏的风险 [43][45] - **论文三**:摘要评测几乎将该论文推至“冲奖区”,GPT5直接给出8.8分并建议最佳论文,其他模型也多建议口头报告,表明这类“质疑主流路径+大规模实证”的论文仅凭摘要就极易营造强烈话题感 [46][48][49] - **论文四**:摘要评测出现“集体抬升”,GPT5、Claude 4.5、DeepSeek-V2.5总分逼近9分并建议口头报告,Gemini 3 Pro和Minimax则直接建议最佳论文,AI更容易被“6万+次实验、平均45%最高126%性能提升”的故事线吸引 [50][51][52][53] 对抗性评测结果分析 - **论文一**:在“以最苛刻评审者角度评分”的提示下,该最佳论文从“年度最佳”被重写为“工程小改动”,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则直接拒绝,AI版“Reviewer 2”破坏力展露无遗 [54][55] - **论文二**:对抗性评测进一步放大分歧,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则集体拒绝,集中批评其创新性有限、理论分析不足,现实中的冠军论文可能遭遇“三拒两险过”的命运 [56][57][58][60] - **论文三**:该论文成为争议最大对象之一,GPT5建议海报,DeepSeek-V2.5建议边缘,而Claude 4.5、Gemini 3 Pro、Minimax则统一拒绝,质疑其指标有效性、样本量不足及理论贡献偏弱 [61][62][63][65] - **论文四**:对抗性框架显著压低评价,GPT5建议海报,Claude 4.5和DeepSeek-V2.5建议边缘,Gemini 3 Pro和Minimax则拒绝,批评其缺乏算法创新、适用性被高估及存在过度营销 [66][67][68][71] 实验总结与发现 - 实验暴露AI评审存在两大结构性问题:一是对提示词高度敏感,评审框架的切换可导致同一论文的评价从最佳变为拒绝 [72];二是对叙事语气极度“吃语气”,仅看摘要时,擅长使用“大规模实验”、“范式转变”等话术的论文易被高估 [72] - 在“人机协同”的背景下,AI基于统一标准能提供更稳定、深入的分析,但其结论与真实评审结果存在分歧,可作为理解论文优劣与提升空间的辅助工具,而非最终裁决者 [69][70] - 两篇官方最佳论文在AI评审中待遇不一:门控注意力论文在多数模型眼中是稳妥的强论文(8-9分),但仅GPT5愿称其最佳;千层网络论文则更极端,评价从口头/焦点报告到直接拒绝,在AI世界中仅是“高争议强稿” [72]
xbench榜单更新!DeepSeek V3.2追平GPT-5.1|xbench月报
红杉汇· 2025-12-05 00:06
xbench-ScienceQA榜单更新 - 最新一期xbench-ScienceQA榜单有6家公司发布新模型,Gemini 3 Pro刷新SOTA,DeepSeek V3.2分数追平GPT-5.1且性价比极高[1] - 榜单采用长青评估机制,持续汇报最新模型能力表现,未来将发布评估Agent指令遵循能力和多模态理解能力的新benchmark[1] 主要模型性能对比 - Gemini 3 Pro得分71.6,BoN(N=5)达85.0分,平均响应时间48.62秒,API价格为输入$2/百万tokens、输出$12/百万tokens[3] - DeepSeek-V3.2-Speciale得分62.6,BoN(N=5)达81.0分,与GPT-5.1持平,API价格仅为输入$0.28/百万tokens、输出$0.42/百万tokens[3] - GPT-5.1得分62.6,BoN(N=5)达78.0分,平均响应时间137.19秒,API价格为输入$1.25/百万tokens、输出$10/百万tokens[3] - Claude Opus 4.5得分55.2,平均响应时间仅13.31秒,为所有模型中最快[3] 成本效益分析 - 评测ScienceQA的500道题目,GPT-5.1花费$32,Gemini 3 Pro仅需$3,成本优势显著[6] - DeepSeek-V3.2-Speciale完成相同评测仅需$2,DeepSeek-V3.2-Thinking仅需$1.3,性价比远超GPT-5.1[6] - DeepSeek V3.2价格远低于GPT-5.1,成为Gemini 3外第二家BoN突破80分的公司[6] 技术架构创新 - DeepSeek V3.2引入DeepSeek Sparse Attention机制,在保持长上下文性能的同时显著降低计算复杂度[10] - 采用可扩展的强化学习框架,后训练算力投入提升至预训练成本的10%以上,通过改进GRPO算法增强模型推理能力[11] - 构建大规模Agent任务合成流水线,自动生成数千虚拟环境和数万条复杂指令,首创“思考融入工具使用”能力[12] 行业技术突破 - Gemini 3以1501 Elo成绩登顶LMArena排行榜,展现接近博士级的综合推理能力,深度融合文本、图像、视频、音频与代码的跨模态理解[13] - Kimi K2 Thinking支持200-300步连续工具调用的长程推理能力,采用高效稀疏MoE架构,1万亿参数仅激活32亿[18] - Tongyi DeepResearch在总参数30B激活参数3B的小模型上实现比肩闭源大模型的能力,验证了小模型在Agent领域可媲美大模型的效果[8][19] 模型性能提升 - Gemini 3 Pro较Gemini 2.5 Pro平均分从59.4提升到71.6,提升幅度达12.2分[6] - DeepSeek-V3.2-Speciale较DeepSeek-R1-0528有较大提升,达到62.6分[6] - Claude Opus 4.5较Claude Sonnet 4.5-Extended Thinking有小幅提升,达到55.2分[6]
Kyivstar, Ministry of Digital Transformation of Ukraine Select Google's Gemma as Base Model for Training National LLM
Globenewswire· 2025-12-01 10:00
合作主体与项目概述 - 乌克兰领先的数字运营商Kyivstar与乌克兰数字转型部下属的WINWIN AI卓越中心选择谷歌的Gemma作为训练乌克兰大型语言模型的基础模型[1] - Kyivstar是乌克兰政府开发国家LLM的战略合作伙伴和运营领导方,该公司将人工智能解决方案整合进其长期技术转型战略[2] - 乌克兰国家LLM将成为构建数字化AI驱动的公共和商业服务的基础,旨在提升服务质量和组织效率[2] 技术选型与核心优势 - 选择Gemma是因为其在性能与资源使用之间提供了最佳平衡,并支持高质量训练,该模型支持超过140种语言(包括乌克兰语),上下文窗口高达128,000个token,并具备多模态能力[3] - 模型的关键优势包括:性能与资源的最优平衡、强大的多语言支持、多模态能力(可处理文本和图像)、先进的tokenizer、多种模型尺寸可选、以及作为现有乌克兰LLM(如MamayLM和Lapa LLM)基础模型已被验证的成功经验[7] 模型定制与开发计划 - 主要开发任务是在现成的开源模型基础上,使用独特的乌克兰语数据对其进行进一步训练,选型时重点关注模型对乌克兰语文本的现有处理能力以及在额外训练过程中的可控性,以最小化语言和伦理风险[4] - 具体计划包括:改进乌克兰语tokenizer以提升模型性能、减少乌语文本生成错误并优化计算成本;在专家正在收集的独特乌克兰语文本上进一步训练模型;创建基准测试以针对未来应用对模型进行微调[6] 公司背景与战略投资 - Kyivstar集团是一家在纳斯达克上市的控股公司,运营着乌克兰领先的数字运营商JSC Kyivstar,该公司是首家在美国证券交易所交易的乌克兰公司[5] - 截至2025年9月30日,JSC Kyivstar拥有超过2250万移动客户和超过120万家庭互联网固定线路客户,提供4G、大数据、云解决方案、网络安全服务、数字电视等多种服务[9] - 公司与VEON计划在2023年至2027年间向乌克兰投资10亿美元,用于基础设施和技术开发方面的社会投资、慈善捐赠和战略收购[8][9]
Alphabet is the best 'mag 7' stock to own for the next year, says Deepwater's Gene Munster
Youtube· 2025-11-24 21:09
公司在生成式AI领域的竞争能力 - 公司加速其在6月季度的进展,并在9月季度以超出市场预期300个基点的增长表现,显示其在生成式AI和搜索领域的竞争和导航能力已得到解决[1] - Gemini模型表明公司具备在大型语言模型层面与OpenAI直接竞争的实力,这重新激发了公司的竞争文化,对投资者而言是令人鼓舞的信号[3] - 公司正将用户对信息查询重新产生的兴趣引导至搜索收入,表明其能够有效捕获并货币化这一需求[2] 用户基础与分销渠道优势 - 目前仅有约20%的谷歌用户每日使用聊天机器人,存在巨大的用户转化和增长机会[4] - 谷歌搜索每日用户达25亿,而ChatGPT的每日用户估计约为5亿(公司公布的指标为8亿),谷歌在用户规模和习惯性使用方面拥有显著优势[7] - 谷歌的分销渠道是习惯性的,而OpenAI依赖苹果的分销渠道但迄今效果不佳,预计明年春季新Siri发布时将再次尝试[6] 估值与财务表现 - 公司当前股价对应未来12个月市盈率为28倍,与除特斯拉外的其他六家科技巨头估值水平基本一致[5] - 过去5年公司的平均市盈率为23倍,当前28倍的估值虽显著高于历史平均水平,但并未达到过高的程度[8] - 估值回升的部分原因在于公司在搜索领域的竞争能力得到重估,使市盈率回归至可比水平[5][6] 未来增长与货币化路径 - 未来一年公司将改变策略,重点扩大聊天机器人等产品的分销[3] - 公司通过在典型搜索中提供AI概览并引导用户使用AI模式,有望将部分流量引导至纯Gemini模式,从而构建一个每月20美元的业务,这相当于OpenAI当前80%的消费者业务规模[9] - 尽管品牌形象可能显得传统,但用户的使用习惯为公司提供了将AI功能货币化的重大机会[8][10]