Scaling law
搜索文档
2025,中国大模型不信“大力出奇迹”?
36氪· 2025-12-19 11:06
2025年12月,在腾讯科技HiTechDay上,以《模型再进化:2025,智能重新定义世界》为主题的圆桌论坛,正是围绕大模型进化的深度、维度、效率三条 线索展开。 华中师范大学人工智能教育学部助理教授熊宇轩为嘉宾主持,三位嘉宾北京智源人工智能研究院院长王仲远、面壁智能联合创始人、首席科学家刘知远、 峰瑞资本投资合伙人陈石分别从各自的领域,解读2025对于大模型进化的深入观察。 王仲远指出,大模型的进化正在经历"从Learning from Text到Learning from Video"的质变。视频数据中蕴含了丰富的时空信息与动态交互线索,为模型学 习物理世界动态演变规律提供了关键的数据来源,同时也是当前最容易规模化获取的一类多模态数据,是AI"从数字世界迈向物理世界"的关键桥梁,也为 具身智能(Embodied AI)的爆发提供了构建"世界模型"的底座。 刘知远提出的"密度法则"(Densing Law)认为,如同芯片摩尔定律,AI的未来在于不断提升单位参数内的"智能密度"。他大胆预言,未来的算力格局将 是"云端负责规划,端侧负责做事(执行)",到2030年,我们甚至有望在端侧设备上承载GPT-5级别的 ...
为什么现代 AI 能做成?Hinton 对话 Jeff Dean
36氪· 2025-12-19 00:47
2025 年 12 月初,圣地亚哥 NeurIPS 大会。 Geoffrey Hinton(神经网络奠基人、2024年诺贝尔物理学奖得主)与Jeff Dean(Google首席科学家、 Gemini模型联合负责人、TPU架构师)的炉边对谈,成为这场大会的重要时刻。 对话聚焦一个关键问题: 现代 AI 为什么能从实验室走向数十亿用户? 从 AlexNet 在学生卧室的两块 GPU 上训练,到 Google 在餐巾纸上算出TPU需求;从学术圈的小众实 验,到支撑全球亿级应用的基础设施。 这是一次对 AI 工业化进程的系统性复盘。 他们给出的答案是:现代 AI 的突破从来不是单点奇迹,而是算法、硬件、工程同时成熟后的系统性涌 现。强算法必须与强基础设施结合,才能真正走向规模化。 看清这条路径,你就能理解AI为什么是今天这个样子。 第一节|AI的突破,起于一块GPU板 Geoffrey Hinton 说,现代 AI 真正的转折,不在某篇论文里,而是在他学生 Alex 的卧室里:两块 NVIDIA GPU 板,插在父母家电脑上,训练图像识别模型。电费,还是家里人掏的。 那是 2012年 ,ImageNet 比赛。 别人 ...
刘煜辉最新观点:看好明年AI端侧爆发!
新浪财经· 2025-12-03 08:57
算力链前景 - 对明年算力链的beta持保留态度,市场逻辑高度集中于纯血英伟达链条[1][2][3] - 谷歌推出新一代AI模型Gemini 3,该系统被认为是当前多模态理解能力最强的系统,在各项基准测试中大幅领先[1][3] - Scaling law的有效性面临挑战,模型规模扩大后性能提升并不显著,该核心假设的动摇将影响英伟达的估值逻辑[1][3] - 特朗普政府考虑允许英伟达向中国出售H200芯片,其巨大的CUDA生态优势可能对国产算力链情绪产生冲击[1][3] AI端侧与应用前景 - 对明年AI端侧和应用的beta更为乐观,发展AI端侧符合中国自身的AI战略定位[2][4] - AI端侧是庞大复杂的产业链生态,涉及将大模型装入消费电子外设、应用场景、数据挖掘、数字资产和信用扩张周期[2][4] - 中国模型如Qwen、智谱等已逐渐获得全球开发者认可,外设则依托强大的“中国制造”能力,如消费电子、电动车、无人机、机器人等[2][4] - AI端侧的核心意义在于解决AI基建巨量资本开支的变现问题,并构建完整的AI端侧产业链生态闭环[2][4] 中美AI战略路径 - 美国(西大)力推谷歌的“全栈自研”模式,试图将芯片-软件-模型-应用的链条全部跑通[2][4] - 中国(东大)的优势在于制造能力,应聚焦机器人、无人机、智能外设、电动车等工业制造领域,软件被视为工具[2][4] - 中国战略路径是通过开源软件吸引全球用户加入AI生态,再将生态装入物美价廉的硬件(AI Agents)并销售至全球[2][4] - AI生态催生的应用场景和数据资源将形成巨大飞轮效应,使AI创造的财富沉淀在中国[2][4]
Ilya 看见的未来:预训练红利终结与工程时代的胜负手|AGIX PM Notes
海外独角兽· 2025-12-01 12:03
AGIX指数定位与表现 - AGIX指数旨在成为衡量AGI(通用人工智能)时代科技范式转换的重要指标,类比互联网时代的Nasdaq100指数[2] - 截至当前,AGIX指数年内累计上涨26.73%,自2024年以来累计涨幅达74.56%,显著跑赢QQQ指数(21.13%和51.21%)和标普500指数(16.45%和43.59%)[4] - 指数成分按权重划分为基础设施(37.19%)、应用(33.62%)和半导体硬件(24.22%)三大板块,本周分别上涨2.08%、2.20%和1.76%[5] AI行业范式转换分析 - AI行业正从预训练大爆发的科研红利期转向产品化、推理优化和端侧部署的工程红利期[10] - Google凭借TPU的OCS技术实现模型-硅端到端优化,在极致工程化竞争中释放潜力,如NotebookLM展示的PPT生成能力获得市场认可[9][10] - 模型能力趋同导致90%普通用户难以感知差异,未来竞争焦点转向产品化能力、成本和渠道等外部要素,类似微软通过分发渠道和生态系统确立优势的历史案例[11] 下一代AI技术演进方向 - Scaling Law边际收益递减,需寻找超越Transformer架构的下一代技术跃迁[12][13] - 进化算法可能成为关键路径,通过构建"生存机器"先验和内在动机(如好奇心驱动)替代具体任务训练,使智能作为复杂环境适应的副产品自然涌现[13][14] - 模型融合技术借鉴真核细胞共生起源,通过参数空间遗传算法实现专家模型能力跃迁,如Sakana的Evolutionary Model Merge研究[15] 资本市场动态与资金流向 - 对冲基金推动年内最大北美买盘潮,美国多空基金净杠杆上升5个百分点至56%,空头回补集中在可选消费和金融板块[15] - AI受益半导体龙头获多头增持,而房地产和医疗保健板块出现显著抛售[15] - 全球对冲基金上周收益1.4%,低于MSCI ACWI指数3%涨幅,但AGIX指数单周上涨6.0%表现突出[16] 头部企业战略布局 - 微软联合戴尔、甲骨文发布70余项产品,推出Agent 365智能体控制平面,51%生产应用已采用AI技术[16] - Meta考虑采购谷歌TPU芯片,潜在合作规模达数十亿美元,可能影响自研推理芯片MTIA发展路径[17] - 2025年美国AI初创企业融资活跃,49家公司完成单轮1亿美元以上融资,OpenAI以3000亿美元估值创400亿美元融资纪录[17] 企业并购与业绩表现 - ServiceNow拟超10亿美元收购网络安全公司Veza,估值达融资总额四倍,弥补身份管理平台功能缺口[18][19] - Zscaler第一季度营收7.881亿美元(同比增长26%),但股价因业绩展望温和下跌超7%[19]
Efficiency Law, 物理精确世界模型,及世界模型引擎驱动的具身智能学习新范式
机器之心· 2025-10-27 05:23
行业背景与核心问题 - 2025年秋具身智能赛道被巨头动态点燃,特斯拉Optimus 2.0量产下线并开放开发者平台,英伟达发布物理AI全栈方案[2] - 行业共识认为数据问题而非算法创新是具身智能落地的根本症结[3] Scaling Law的挑战与Efficiency Law的提出 - Scaling Law在大语言模型中有效,但其前提是海量文本数据存在,而具身智能领域尚未建立能支撑Scaling Law的数据范式[6] - 公司提出Efficiency Law,其核心观点是在有限时间内,决定具身模型性能上限的是高质量数据的生成速率(r_D)[7] - 更高的r_D能显著提升学习效率,过低的r_D会使模型进入"数据稀缺区",导致规律失效[7] - 具身智能的发展重点必须从"堆数据"转向"高效造数据"[7] 当前世界模型的不足与物理精确性需求 - 当前基于视频生成的世界模型(如Sora)追求视觉逼真而非物理正确,缺乏对真实物理规律的理解[9] - 对于具身智能,世界模型必须具备物理精确性,能够根据动力学、运动学原理预测世界状态变化[10] - 智能体必须遵循牛顿力学等物理法则来实现可执行的行为[10] 基于生成式仿真的世界模型(GS-World)的内涵与优势 - GS-World是一种将生成模型与物理仿真引擎深度融合的新型世界模型,从根本上改变"世界生成"的机制[13] - 该模型在生成过程中显式或隐式引入物理仿真,使世界的动态演化遵循真实的力学方程[13] - GS-World不仅生成场景视觉外观,还同时生成三维资产、物体材质、物理参数与交互规则,保证因果合理性[13] - 简而言之,GS-World把"看起来像真的世界"变成"遵循物理规律可计算的世界"[14] GS-World的潜在应用价值 - GS-World是"世界模型"的终极方向,能解决视频生成模型缺乏物理一致性的问题[15] - 它是强化学习领域中长期追求的"model-based RL的终极模型",能在仿真空间内构建世界动力学并进行高保真策略验证[15] - 有了GS-World,VLA模型的学习将变得便利,无需依赖昂贵的真实机器人数据采集即可生成多模态训练数据[15] - 最根本地,GS-World能作为一个通用智能引擎,驱动持续、流式的具身智能学习[16] 引擎驱动的具身智能学习新范式 - GS-World推动了一个全新的"引擎驱动的具身智能学习范式"[18] - 相比基于任务开发的Sim2Real路径,GS-World能主动生成并仿真物理精确的三维世界,形成"生成—交互—反馈—优化"的闭环[18] - 这种范式使智能体的策略学习、任务构建与环境生成融为一体,实现流式、自我进化的训练体系[19] - 引擎驱动的Sim2Real VLA范式使智能体能在生成并物理自洽的世界中持续成长[19] GS-World如何实现Efficiency Law及其他属性 - GS-World是实现Efficiency Law的核心机制,将"世界生成、物理仿真、任务构建、反馈优化"整合为统一引擎[21] - 智能体的训练过程由被动的数据驱动转向主动的任务生成与环境演化,智能增长速度与生成仿真能力成正比[21] - GS-World通过可控生成能力构建无限多样的物理环境与任务空间,使智能体能同时学习多任务、多模态行为,实现"通才化"[21] - 引擎具备精细化分布调节能力,可针对特定任务自动收缩学习空间,形成"专才化"的高效学习结构[21] - GS-World提供了既能横向扩展智能广度、又能纵向精化智能深度的动态引擎[22] 数据驱动与引擎驱动的范式差异 - 数据驱动的学习以外部数据为中心,智能体被动地从过去经验分布中提取规律,缺乏对物理世界的显式建模[24] - 引擎驱动的学习以生成式仿真引擎为核心,智能体在可生成、可演化、可验证的世界中自主学习,通过闭环交互持续生成数据[24] - 从数据驱动到引擎驱动,是具身智能从"模仿现实"走向"生成现实"的根本范式转变[24] 引擎驱动范式的必要性与产品级成功率 - 在复杂真实场景中,机器人需具备物理精确性、抗环境扰动能力及泛化安全性才能实现产品级稳定性与成功率[25] - 传统数据驱动方法缺乏与现实物理一致的因果约束,在遇到扰动或未见场景时性能崩溃[26] - 基于GS-World的引擎驱动学习范式能从根本上构建物理一致的可生成世界,让智能体在仿真中经历无限真实的交互与试错[26] - 要实现真正可部署、可靠且可信赖的具身智能产品,引擎驱动的世界模型学习是必然的技术路径[27] GS-World作为技能训练场与演化场 - 在GS-World中,机器人技能通过引擎生成的物理世界中自然"挖掘"出来,而非人类手工设计的任务脚本[29] - 技能在仿真中经由交互、优化与验证逐步形成,并能抽象、组合与迁移,形成可扩展的技能生态[29] - GS-World是具身智能机器人的演化场,让智能体的身体结构、控制策略与环境动力学在同一物理生成机制下共同演化[31] - 它提供的是一个能促使机器人实现身体与智能协同生长、自组织、自适应的物理-认知生态场[31] - GS-World成为具身智能机器人从"人工设计产物"走向"自演化生命体"的关键跃迁平台[31] 行业展望与公司进展 - AGI、Physical AGI与具身智能处在高速发展阶段,行业期待基于第一性原理的新技术范式[32] - 公司提出的GS-World世界模型引擎及基于该引擎的具身智能学习新范式是这一范式的典型代表[33] - GS-World引擎原型以及基于其自动训练的VLA模型也将于近期开源[33]
独家|对话北京人形机器人创新中心CTO唐剑:世界模型有望带来具身智能的“DeepSeek时刻”
虎嗅· 2025-10-23 07:06
文章核心观点 - 世界模型被视为推动具身智能发展的关键路径,有望带来类似DeepSeek的低成本、高性能突破 [1][9] - 具身智能的复杂度远超自动驾驶,是智能系统的“天花板级”挑战,其发展更依赖长期数据积累而非短期突破 [7][8] - 公司通过“双模驱动”架构和引入奖励机制,在有限算力下开发出性能超越SOTA的世界模型 [9][10][11] 技术理念与方法 - 倡导“经验驱动”的控制方式,通过历史数据学习控制规律,而非依赖精确的数学建模 [3][4] - 以游泳运动员训练类比AI学习过程,强调通过反复实践积累经验而非先掌握理论 [5] - 在自动驾驶领域验证了端到端控制架构的有效性,并将其思路延伸至具身智能 [6] 世界模型的技术特点 - 采用世界模型与多模态大模型相互促进的“双模驱动”结构 [9][11] - 引入奖励机制和基于强化学习的微调,形成自我优化闭环 [9][10][11] - 使用GRPO算法微调多模态大模型,实现认知与物理交互的紧密闭环 [11][12] - 当前模型基于DiT架构,但未来可能迭代全新架构以更好捕捉物理规律 [19][20] 世界模型的应用价值 - 主要用途包括:与机器人大脑形成闭环、直接生成训练数据、作为机器人操作模型的一部分 [17] - 核心目标是提高机器人在开放环境中的泛化能力,这对商业和家庭场景至关重要 [21][22] - 通过蒙特卡洛树搜索等技术,让机器人在虚拟世界中模拟多种方案并选择最优路径 [11][17] 行业现状与挑战 - 具身智能尚未出现类似ChatGPT的“突破时刻”,数据量级、采集难度和成本远高于语言模型 [8][9] - 行业目前缺乏明确的Scaling Law,智能能力随数据、算力增长的规律未知 [13] - 世界模型在物理规律和时空一致性方面要求远高于视频生成模型 [18][19] - 具身智能落地将经历工业场景、商业场景、家庭生活场景三个阶段 [21]
深聊GPT-5发布:过度营销的反噬与AI技术突破的困局
虎嗅· 2025-08-12 09:05
GPT-5技术评估 - GPT-5未实现颠覆性技术突破,Transformer架构的弱点进一步暴露,包括PPT图表错误、代码bug和理论解释问题[1] - 模型开发遭遇技术瓶颈,最终选择改良架构而非革命性方案,Scaling law面临碰壁[1] - 技术路径上人类仍需寻找突破AI发展瓶颈的新方法[1] 商业化战略 - OpenAI采取激进商业化策略,重点布局教育、健康医疗和编程三大应用场景[1] - 公司通过快速场景落地来稳固市场地位,GPT-5被定位为"合格的AI产品"而非颠覆性创新[1] 行业影响 - GPT-5发布引发对AI泡沫破灭的讨论,行业面临技术创新放缓的质疑[1] - 当前AI发展进入平台期,技术突破速度低于市场预期[1]
Token推动计算Compute需求:非线形增长
华泰证券· 2025-07-17 10:46
报告行业投资评级 - 科技行业评级为增持(维持),计算机行业评级为增持(维持) [6] 报告的核心观点 - 未来算力需求中存在Token调用量随推理扩展倍数增长、算力需求随Token增长倍数增长两个倍数关系,共同决定推理端未来算力需求广阔,目前市场存在较大预期差,长期看好算力需求持续快速增长 [89][90] 根据相关目录分别进行总结 New Scaling:不止于预训练,三条Scaling推动算力需求增长 - 市场认为预训练Scaling law可能见顶,但考虑后训练Scaling和推理Scaling,AI对算力需求仍有大量空间 [10] 从三条Scaling law的差异看为什么算力需求将继续增长 - 预训练和后训练Scaling属训练阶段,推理Scaling属推理阶段 [11] - 预训练Scaling性能和数据、参数量相关,后训练Scaling利用微调等技术提高模型能力和领域特异性,推理Scaling性能与推理时间相关 [13] 推理Scaling的必要性和算力消耗量化 - 推理Scaling能大幅提高模型回答困难问题能力,是通往Agentic AI的重要路径 [15] - 预训练受训练数据约束,推理Scaling能提高模型性能,特别是困难问题方面 [15] - 推理模型的Token消耗可能是传统模型的10倍左右 [18] Grok系列模型的发展对应了三条Scaling曲线 - Grok系列模型发展历程对应三条Scaling曲线,Grok 3对应预训练阶段的Scaling law,Grok 4对应后训练与推理过程的Scaling law [19] - Grok 4在HLE测评集上的突破证明了推理Scaling的有效性 [22] 从Deep Research看Agentic对Token量的影响 - Deep Research是“Agentic化”的AI Search,以其为研究Agentic AI的抓手,分析Token量变化并拓展到广泛Agentic AI场景进行量化 [28] - Agentic AI与狭义AI Agent存在差异,前者涉及多流程多工具调用,任务更复杂 [32] Deep Research是研究Agentic AI的重要抓手之一 - AI Search成为Token消耗的重要组成,Google Token量增长可能源于搜索业务 [34] - Deep Research产品是AI Search的Agent路径拓展,被多家厂商竞相推出 [37] Deep Research的Token多在哪?基于底层系统设计视角的分析 - 以Anthropic的Deep Research系统设计为例,其将任务分配给多个Agent,带来成倍Token消耗 [41] - 搜索过程是迭代式的,Token量进一步增加 [44] 从Search到Research,量化Agentic的Token影响 - Anthropic Deep Research的Token消耗达到聊天的15倍 [46] - Google/OpenAI Deep Research的Token消耗量可能接近聊天的50倍 [50] - Agent使用和多工具调用能进一步提升Grok 4在HLE测试中的结果 [55] Deep Research在Agentic AI中并不复杂,真实Token量会更高 - Deep Research任务相对简单,普遍的Agentic AI会有更高Token消耗量,未来Token量增长可能是指数增长 [57][58] Token量的增长会带来算力需求的非线性增长 - 算力需求增长远高于Token量的增长,Token量增长10倍,所需算力量可能增长百倍 [60] 延迟和吞吐量是推理过程中两个重要指标 - 延迟和吞吐量是推理过程的关键指标,相互关联,分别决定用户使用体验和厂商总任务处理量 [61] 为什么延迟和吞吐量互相制约?中间变量——批处理 - 为提升吞吐量需进行批处理,延迟随批量大小线性增长,吞吐量随批量增长先增后缓,两者相互制约 [68] 模型厂商的帕累托最优需要追求“量价”的平衡 - 模型/AI应用厂商需追求用户使用量与AI服务质量之间的平衡,实现收益最大化 [74] 增加硬件是实现模型最优收益边界前移的重要方式 - 增加硬件可减少模型服务延迟,实现模型最优收益边界前移,算力需求增长与Token增长呈倍数关系 [81][82] 总结:两个倍数关系决定未来推理算力需求空间广阔 - 未来算力需求中Token调用量随推理扩展倍数增长,算力需求随Token增长倍数增长,决定推理端未来算力需求广阔 [89] 产业链相关公司 - 海外算力链涉及PCB、铜互联、光模块光器件光芯片相关公司,国内算力链涉及中芯国际、寒武纪等公司 [92]
肖仰华教授:具身智能距离“涌现”还有多远?|Al&Society百人百问
腾讯研究院· 2025-06-27 06:59
生成式AI与具身智能的发展路径 - 生成式AI以AIGC为代表,目标是让机器具备人类大脑的认知能力,包括语言生成和逻辑思考能力 [9] - 具身智能目标是让机器习得人类身体的感知和行动能力,实现与复杂世界的高效交互 [10] - 两条技术路线都是通往AGI的关键形态,下一个重要里程碑是身心协同阶段 [10] - 生成式AI已实现生产力成百上千倍提升,如合同审校、绘画制作等工作效率大幅提高 [13] - 具身智能对生产力的提升作用相对有限,可能仅相当于人口增长1-2倍的效果 [15] 技术革命的三重标准 - 基础性:技术需像水电煤一样成为基础设施 [13] - 生产力提升:需实现指数级效率提升,如AIGC极大提高论文生产力 [13] - 社会影响:需深度渗透社会各领域,改变上层建筑 [14] - 生成式AI完全符合这三重标准,是一场真正的技术革命 [14] - 具身智能对社会的影响力相对有限,更多是认知智能突破后的技术延伸 [16] 数据与模型的关系演进 - 业界观点:模型算法决定效果下限,数据决定上限 [20] - 大模型研发70-80%成本投入在数据上,剩余在算力运维和算法设计 [21] - 数据墙问题凸显:互联网公开高质量数据已接近枯竭 [22] - 后训练范式崛起:数据规模让位于质量,算力规模让位于算法设计 [18] - 数据不足可通过知识注入缓解,但培育高质量数据集仍是根本 [23] 具身智能的数据挑战 - 当前具身模型训练数据量仅百亿token级,与语言模型万亿级相差两个数量级 [24] - 数据采集面临个体体验表达困难和环境建模复杂双重挑战 [34][35] - 真机数据成本高昂,仿真数据质量有限,制约GPT时刻到来 [25] - 可能解决方案:穿戴设备普及形成动作轨迹数据 [26] - 训练策略调整:数据量不足时可增加训练量,借鉴人类泛化机制 [36][38] 产业落地逻辑 - 行业AI落地的关键在于行业数据治理和清洗 [21] - 央国企等大甲方应重点投入行业数据准备而非模型研究 [22] - 具身机器人应走场景化、任务化路径,而非追求绝对通用性 [48] - 身体构造决定功能边界,集约化需考虑物理可行性 [49] - 专用机器人价值明确,通用机器人是伪命题 [48] 技术范式演进 - 仍未跳出符号主义、连接主义和行为主义三大传统范式 [39] - 连接主义:模拟神经网络,处理感知任务 [40] - 符号主义:基于知识推理,处理认知任务 [40] - 行为主义:通过交互反馈进化,处理技能习得 [41] - 三种范式在完整AI解决方案中各有侧重 [43] 理性思维发展 - 人类能力分为知性、理性和感性三个维度 [28] - GPT4前主要训练知性能力,O1和DeepSeek R1开启理性能力 [29] - ToB应用需要专业理性思维,ToC需要共情感性能力 [31] - OpenAI布局完整:知性(GPT4)、感性(GPT-4o)、理性(O1) [31] - 国产大模型与国际差距主要在理性能力即知识应用水平 [29]
清华天才杨植麟的“理想国”,为何败给梁文锋?
凤凰网财经· 2025-05-28 12:51
核心观点 - 文章探讨了90后AI创业者杨植麟及其公司月之暗面在AI2 0时代的创业历程 并与85后创业者梁文锋的DeepSeek进行对比 分析两者在技术路线 商业模式和市场竞争中的差异 [6][10][13][18][24][25][27][28][29] 杨植麟的背景与创业历程 - 杨植麟是90后AI创业者 拥有卡耐基梅隆大学博士学位 师从苹果AI负责人和谷歌首席科学家 博士期间发表Transformer-XL和XLNet两篇里程碑论文 引用量超22000次 [9][10] - 2023年创立月之暗面 主攻AGI领域 公司名称和会议室命名均源自摇滚乐队平克弗洛伊德 体现其文艺青年特质 [10] - 公司成立初期获得红杉中国 真格基金2亿美元融资 后续获美团 阿里 腾讯等战投 [13] 月之暗面的技术路线与商业化尝试 - 杨植麟坚信Scaling law是模型训练的第一性原理 认为扩大用户数据样本能优化模型性能 2024年3-8月投入1 4亿元广告费 月活从400万增至1282万 [16][17] - 商业化尝试包括:推出付费版本(高峰优先使用权) 上线浏览器插件 发布企业级API 与财新传媒合作 自建内容社区等 [23][24][25] - 产品迭代缓慢 团队规模保持在200人以内 2024年下半年多名算法工程师离职 [18] 与DeepSeek的竞争对比 - DeepSeek成立于2023年7月 创始人梁文锋采取非主流策略 拒绝外部投资 保持技术专注 通过多层股权结构掌握84 3%控制权 [16][25] - 技术路线:开源部分代码吸引开发者 保留核心算法封闭性 形成"开源引流-定制收费"模式 API价格仅为行业1/5 与云厂商深度绑定 [24][25] - 2024年1月DeepSeek R1与Kimi1 5同日发布 DeepSeek R1因推理性能突出引发轰动 下载量一个月破亿 Kimi月活从3600万腰斩至1820万 [18][21][25] 行业格局与未来展望 - AI创业窗口期短 巨头入场后竞争白热化 百度 字节 阿里 腾讯频繁迭代模型 微软 谷歌全面押注Agent [28] - 行业观点认为中国市场最终可能仅剩DeepSeek 阿里 字节三家大模型提供商 [28] - 现有Transformer架构存在幻觉问题 未来可能出现新架构 为90后创业者提供机会 [29]