Scaling Law

搜索文档
晚点播客丨OpenAI o1 如何延续 Scaling Law,与硅基流动袁进辉聊 o1 新范式
晚点LatePost· 2024-09-20 15:22
OpenAI新模型o1的技术突破 - o1通过强化学习、思维链(CoT)和推理阶段算力分配(test-time compute)三大技术方法显著提升逻辑推理能力,尤其在科学、数学和编程任务上表现突出[3][8][9] - 模型在推理阶段采用"系统2"式多步反思机制,平均需调用10次单模型推理,算力消耗增至10倍[19][24] - 技术组合验证了推理端算力投入的边际收益,开辟新优化方向,可能推动行业从单纯追求训练规模转向训练-推理协同优化[20][22] 行业应用与开发者生态 - AI应用开发呈现"草根化"趋势,个人开发者和小微企业占比提升,典型场景包括教育玩具、编程辅助、遗嘱撰写等垂直领域[40][41][42] - 开源模型加速应用创新,国内开发者主要调用通义千问(Qwen)、DeepSeek和GLM-4,其中Qwen因版本齐全受青睐,DeepSeek以编程能力见长[45] - 应用爆发呈现"巷战"特征,大量小型AI功能嵌入钉钉等工作流,日调用量达数亿tokens,但尚未形成超级应用[46][47][48] 算力市场与公司战略调整 - 国内GPU算力价格下降,主因基础模型训练需求减少和电力成本优势,但超大规模训练集群仍稀缺[38][39] - Meta等开源策略改变行业格局,多数公司转向基于开源模型开发,仅资源充沛或AGI目标明确的公司继续自研基础模型[36][37] - o1推动推理优化基础设施需求,硅基流动等公司探索并行推理、依赖关系优化等技术降低计算延迟[34] 技术演进与竞争格局 - 模型架构可能出现"小推理核心+大知识库"的分化设计,专业化场景采用参数更少的推理模块[26][29] - 苹果Siri、微信等现有入口产品在整合AI能力上具优势,但尚未出现原生AI超级应用[49][51] - 技术扩散速度加快导致先发优势窗口期缩短,企业需在效果优化与商业化节奏间寻找平衡[37][52]
C.AI 被收购的宿命论与万恶的 Scaling Law | 42章经
42章经· 2024-08-18 13:52
C.AI被收购的核心逻辑 - 交易本质是以授权协议变相收购 旨在规避反垄断监管[1] - 30名底层模型开发人员加入Google 100余名产品团队保留在C.AI[1] - 公司结局由创始人Noam Shazeer的决策路径决定 其作为Transformer论文核心作者选择AGI赛道[1] 公司定位与战略失误 - 2022年12月明确"全栈AGI公司"定位 导致资源分散在模型研发与产品两端[1] - 2023年产品团队仅0.5人 模型团队数十人 反映资源错配[3] - 创始人提出"AGI公司+产品优先公司"并列定位 引发投资人质疑商业模式闭环[3] 行业竞争格局演变 - 2023年三大2C产品形态:ChatGPT类、Perplexity类搜索、C.AI类陪聊[1] - 开源模型崛起加速推理成本下降 自研模型必要性降低[3] - 底层模型战争结束 形成Google/Anthropic/OpenAI三足鼎立[4] 大厂战略布局对比 | 厂商 | 模型战略 | 关键动作 | |--------|--------------|---------------------------------| | Google | 全链路自研 | 收购C.AI团队 巩固Gemini生态[6] | | 微软 | 混合策略 | 收购Inflection对冲OpenAI风险[8] | | Meta | 开源主导 | 推动Llama生态 放弃商业变现[9] | 资本市场的决定性作用 - Scaling Law导致资源向头部集中 第二梯队难获融资[4] - 2021年SaaS公司PS达60-70倍 2023年暴跌至6-7倍 凸显融资时机重要性[10] - 出行行业"大黄蜂案例"显示资本站队决定竞争结局[4] 行业趋势判断 - 模型商品化成为共识 工程落地能力取代底层研发壁垒[4] - 端到端全栈模式被证伪 开源方案成为产品公司首选[3] - 大厂战略摇摆直接影响创业公司退出路径[10]
C.AI 被收购的宿命论与万恶的 Scaling Law | 42章经
42章经· 2024-08-18 13:52
C.AI被收购的核心逻辑 - 交易本质是以授权协议变相进行的收购 主要目的是规避反垄断监管[1] - 公司定位为底层模型研发企业而非应用公司 30名核心模型开发人员加入Google 100余人产品团队独立运营[1] - 创始人Noam Shazeer作为Transformer论文核心作者 创业初期选择"全栈AGI公司"定位埋下后续发展路径依赖[1][3] 公司战略定位问题 - 2023年A轮融资时以"0收入 10亿美元估值"获得资本青睐 依赖模型研发叙事支撑高估值[1] - 同时宣称"AGI公司"与"产品优先公司"造成定位混淆 产品团队仅0.5人全职 模型研发人员占比超80%[3] - 开源模型崛起加速推理成本下降 自研模型失去性价比优势 被迫转向Meta的Llama等第三方解决方案[3] 行业竞争格局演变 - 底层模型战争进入终局阶段 OpenAI/Anthropic/Google形成第一梯队 创业公司需依附大厂生存[4] - 模型商品化趋势明显 类似云计算成为基础设施 产品公司可专注工程落地与开源方案结合[4] - Scaling Law导致资源向头部集中 资本仅支持少数代理人 类似出行市场滴滴快的的垄断格局重现[4] 科技巨头战略对比 | 公司 | 技术栈特征 | 典型案例 | |---------|---------------------------|-------------------------| | Google | 全链路自研 TPU芯片至Gemini模型 | 收购C.AI团队补充模型能力[6] | | 微软 | 模块化合作 Azure绑定OpenAI | 收购Inflection作为备选[8] | | Meta | 全面开源策略 聚焦Llama生态 | 不依赖模型商业化[9] | 创始人决策启示 - 2023年市场狂热期应更激进融资 维持大模型第一梯队地位[4] - 战略定位需避免"既要也要"矛盾 国内某公司"模型即产品"叙事更具逻辑一致性[3] - 退出时机选择关键 25亿美元收购价在行业下行周期仍属成功[10]