Workflow
PaLM
icon
搜索文档
承认自己开源不行?转型“美国DeepSeek”后,两个谷歌研究员的AI初创公司融到20亿美元,估值暴涨15倍
36氪· 2025-10-10 10:29
公司概况与融资 - AI创业公司Reflection AI由两位前Google DeepMind研究员于2024年3月创立,一年内完成最新一轮融资,筹集20亿美元,公司估值达到80亿美元,较7个月前的5.45亿美元估值暴涨15倍 [1] - 投资方阵容豪华,包括Nvidia、红杉资本、DST、B Capital、Lightspeed、GIC、花旗以及Zoom创始人Eric Yuan、谷歌前CEO Eric Schmidt等 [1] 创始团队与技术背景 - 联合创始人Misha Laskin曾主导DeepMind Gemini项目的奖励建模,另一位联合创始人Ioannis Antonoglou是AlphaGo系统的联合创作者,两人同在Gemini项目团队,分别负责RLHF和奖励模型训练 [2] - 公司已从DeepMind和OpenAI挖来一支顶级团队,成员曾主导或参与PaLM、Gemini、AlphaGo、AlphaCode、AlphaProof、ChatGPT等项目的研发 [4] - 团队核心成员共约60人,主要为AI研究员和工程师,涉及基础设施、数据训练和算法开发等领域 [5] 产品战略与发展路径 - 公司最初专注于自主编程智能体,推出了面向工程团队的代码理解智能体Asimov,在盲测中其答案比Cursor Ask和Claude Code更受欢迎 [3] - 选择从编程领域起步是因为训练模型通过代码与软件交互相当于给AI装上“手脚”,编码是语言模型的“天然优势领域”,掌握此能力后可轻松扩展到其他领域 [3] - Asimov是第一步,后续计划将“企业级超级智能”扩展到产品、营销、HR等领域的“团队记忆”和知识管理 [4] - 公司已获得算力集群,计划在明年推出一个使用“数十万亿tokens”训练的前沿语言模型,该模型将以文本为主,未来具备多模态能力 [5][8] 商业模式与市场定位 - 公司将自身重新定义为OpenAI、Anthropic等“封闭前沿实验室”的开源替代公司,目标是成为“美国版DeepSeek”,将开放模型的前沿技术带回美国 [1][5] - 商业模式主要收入来自大型企业在其模型上构建产品,以及各国政府建设主权AI系统的项目,研究者可免费使用模型 [7] - 公司声称已“找到了与开放智能战略相契合的可规模化商业模式”,并承诺将对外开放其先进的AI训练系统 [4][7] - 公司对“开放”的定义更接近开放访问而非完全开源,会开放模型权重供公众使用,但训练数据和完整训练流程不会公开 [7] 行业竞争与愿景 - DeepSeek等模型的崛起对公司是一次警醒,担心全球智能标准将由别人制定而非美国,旨在确保智能底座保持开放、可访问 [6] - 公司认为最前沿技术集中在封闭实验室会导致“滚雪球式”的垄断,需要打造强大的开放模型成为全球用户与开发者的首选 [6] - 公司融资规模与进入下一阶段扩张的节奏匹配,强调比大实验室更高效,大型实验室需要100单位资金的情况下,公司聚焦核心方向只需10单位就够了 [8]
听说,大家都在梭后训练?最佳指南来了
机器之心· 2025-10-09 02:24
机器之心编译 作者: Han Fang、Karthik Abinav Sankararaman 机器之心编辑部 LLM 后训练最佳入门介绍。 在大模型时代,Scaling Law 一度是 AI 领域公认的准则:只要堆更多数据、参数、算力,模型能力就会持续增长。GPT-3、PaLM 等的成功,几乎都是这种策略的胜 利。 然而,事情并没有一直按这条曲线上涨。研究者发现当模型的规模扩展到百亿、千亿级之后,Scaling Law 带来的边际效益开始递减。 于是,业界开始将目光从大力出奇迹的预训练,转向收益更大的后训练(Post-training)阶段。也正是在这个阶段,我们看到了 RLHF、RLAIF、DPO、RLVR 等方 法的爆发式创新。 一时间,「梭哈后训练」成了共识: OpenAI o 系列、DeepSeek R1、Google Gemini 等这些以推理为核心的模型,都通过强化学习后训练来提升模型的推理能力,后训练正在成为 LLM 走向高阶智能的 必经之路。 既然后训练这么重要,那么作为初学者,应该掌握哪些知识?大家不妨看看这篇博客《Post-training 101》,可以很好的入门 LLM 后训练相关知 ...
人工智能产业“十四五”复盘与“十五五”展望:“两个变局”下的AI要素化跃
搜狐财经· 2025-09-26 17:47
今天分享的是:人工智能产业"十四五"复盘与"十五五"展望:"两个变局"下的AI要素化跃迁-中国银河 报告共计:49页 《人工智能产业"十四五"复盘与"十五五"展望:"两个变局"下的AI要素化跃迁-中国银河》聚焦AI产业在"十四五"期间的发展 成果与"十五五"趋势,围绕技术演进、产业生态、政策支持及应用拓展展开分析。技术层面,大模型成核心突破方向,参数 量增长提速,从2018年GPT-2的15亿参数跃升至2024年GPT-4的1.76万亿参数,2025年呈现"高参数量+轻量化"并行分化,海外 OpenAI、Meta、Google与国内百度、阿里等企业持续推出迭代模型;算力硬件方面,GPU仍占主导(Nvidia占比70%), ASIC、FPGA等异构芯片加速发展,寒武纪MLU370R-X8等加速卡实现训推一体,海光等企业推动x86与深度计算处理器协 同,液冷等高效散热方案在数据中心普及。产业生态上,AI要素化进程加快,数据经历资源化、资产化、资本化阶段,数据 确权、定价、交易体系逐步完善,政策端2024年数字经济重点工作强调数据要素潜能释放,2025年持续推动标准建设与可信 社会构建;智能体(Agent)生态崛起 ...
从辛顿上海“惊世四论”看AI技术范式的三重跃迁
36氪· 2025-07-31 09:13
文章核心观点 - AI技术范式即将发生三重跃迁 包括从预测下一个token到拥有主观体验 双轨优化拆分聪明与善良目标 以及知识表征从人-人蒸馏到机-机蒸馏的变革 [1][3][6][8] 技术范式跃迁 - 旧范式语言模型基于高阶自回归框架 通过预测下一个token实现高阶统计压缩 但忽视概念在不同维度的概率密度差异 [3] - 新范式世界模型采用可更新先验加主观采样 多模态大模型在隐空间对概念分布进行在线修正 实现动态调整的主观采样过程 [4] - 技术落地需在Transformer外增加元预测头 用于预测当前预测不确定性并反馈调节采样温度 DeepMind实验显示长程规划能力提升37% [5] 模型优化框架 - 旧框架RLHF采用单一奖励机制 将有用无害诚实压缩为标量奖励 存在被钻漏洞的风险 [6] - 新框架双轨优化拆分聪明轨道与善良轨道 聪明轨道通过自监督和强化学习扩展能力 善良轨道将价值观对齐拆分为公平性透明性可撤销性等可验证子目标 [6] - 技术实现通过宪法蒸馏分三层处理 包括宪法文本转向量宪法 逐级蒸馏优化KL散度 以及链式验证检查推理步骤 Constitutional-GPT使7B模型伦理准确率从61%提升至82% [7] 知识表征变革 - 旧瓶颈在于人类知识传递效率低 语言带宽仅约100 bit/s 知识复制效率极低 [8] - 新解法采用权重-符号混合蒸馏 将大模型权重按功能切片保存为LoRA低秩矩阵 通过点对点网络实现知识分发 Hugging Face框架支持10GB/s权重切片广播 128张A100集群完成技能热插拔仅需47秒 [8] - 终极图景实现模型间权重切片自由交换 使AI系统具备水平基因转移能力 实现分钟级算法全网扩散 [9] 行业影响与展望 - 三重跃迁代表AI技术发展的必经之路 包括主观体验双轨优化和机-机蒸馏的核心突破 [9] - 技术从业者需质疑现有范式 在行业普遍接受预测下一个token和RLHF时 敢于推动系统性变革 [9]
突发|思维链开山作者Jason Wei被曝加入Meta,机器之心独家证实:Slack没了
机器之心· 2025-07-16 02:22
核心观点 - Meta持续从OpenAI挖走顶尖AI人才,最新目标是知名研究员Jason Wei和Hyung Won Chung [1][2] - 两位科学家在AI大模型领域贡献显著,Jason Wei是思维链(CoT)技术的主要作者,论文引用量超1.7万次 [4][6] - Hyung Won Chung是OpenAI o1系统的核心贡献者,参与多个重大项目研发 [4][29][38] 人才流动 - Jason Wei和Hyung Won Chung的Slack账号已被OpenAI停用,离职消息获多方证实 [2] - 两人均毕业于MIT,曾任职谷歌,2023年加入OpenAI后现可能同时转投Meta [6][18][27] - Jason Wei未直接回应跳槽传闻,但社交媒体评论普遍认为其将加入Meta [9][10] 技术贡献 - Jason Wei的CoT论文引用量超1.7万次,总论文引用量达77k,位列前两位的是CoT和GPT-4技术报告 [6][21] - Hyung Won Chung主导开发了OpenAI o1系列模型,强化了推理、搜索及RL策略能力 [29][38] - 两人参与OpenAI关键项目包括o1-preview、o1正式版、Deep Research及Codex mini模型训练 [18][29] 行业影响 - 人才流动反映Meta在AI领域的人才争夺策略,OpenAI面临核心团队持续流失压力 [1][41] - Jason Wei提出的RL"同策略"理念强调差异化研究路径,可能影响未来AI研发方法论 [11][12][13] - Hyung Won Chung的技术落地能力推动AI从理论到应用生态的闭环构建 [40]
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 11:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
虎嗅· 2025-05-06 00:48
机器人技术现状与挑战 - 当前餐饮机器人主要执行重复性任务如制作汉堡、薄饼等 但缺乏应对复杂厨房环境和突发状况的能力[1] - 传统机器人依赖预设编程 无法处理程序外情况 需要定义所有可能动作及效果[1][4] - 工业机器人如Levatas机器狗在限定场景表现良好 但无法适应开放环境任务[7][9] 大语言模型(LLM)与机器人结合 - ChatGPT等LLM为机器人提供海量知识库 弥补常识缺失 实现自然语言交互[5][12] - Google的PaLM-SayCan系统通过LLM理解高阶需求 如根据"健身完"自动选择健康饮品[21][22] - 南加州大学ProgPrompt方法将LLM生成代码与机器人执行结合 任务成功率显著提升[18][19] 技术突破与创新应用 - LLM参数规模爆发式增长 GPT-4达万亿级 北京智源"悟道2.0"达1.75万亿参数[12] - 普林斯顿团队利用GPT-3描述工具特性 使机器人掌握未见过工具的使用方法[23] - 多模态模型成为新方向 可同步生成语言、图像及行动指令[31] 行业应用前景 - 老年护理、家庭服务等领域潜力巨大 但当前技术尚不成熟[26] - 工业检测领域已实现自然语言控制 降低操作门槛[6] - 餐饮自动化可能被彻底改写 需突破物理执行瓶颈[4][14] 技术局限性 - 机器人传感器与执行器有限 难以匹配LLM的广泛语义理解[9][10] - LLM存在"幻觉"问题 可能生成不合理指令 需传统AI程序校验[27] - 物理世界随机性(如光线变化、物体形状差异)仍制约机器人表现[14] 伦理与社会影响 - 训练数据偏见可能导致机器人行为歧视 如面部识别中的种族差异[28][29] - LLM可能放大社会刻板印象 需建立防护机制[29] - 非洲等地区语言覆盖不足 LLM在非英语环境表现较差[28]
7B参数规模能力超越OpenAI !小米推出首个推理开源大模型Mimo【附大模型行业发展趋势分析】
前瞻网· 2025-05-05 08:50
(图片来源:摄图网) 其中,中国科技公司在大模型领域掀起的开源浪潮,正以技术破局之势重塑全球人工智能创新版图。 据"小米大模型"公众号消息,小米开源首个为推理(Reasoning)而生的大模型「XiaomiMiMo」,联动预训 练到后训练,全面提升推理能力,目前MiMo-7B的全系列模型均已实现开源。 在数学推理(AIME24-25)和代码竞赛(LiveCodeBenchv5)公开测评集上,MiMo仅用7B的参数规模,超 越了OpenAI的闭源推理模型o1-mini和阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。 小米技术团队表示,MiMo的核心突破在于预训练与后训练阶段的协同优化。在预训练阶段,模型通过挖掘 高质量推理语料并合成约2000亿tokens专项数据,采用三阶段渐进训练策略,累计训练量达25万亿tokens。 后训练阶段则引入创新强化学习技术,包括自研的"Test Difficulty Driven Reward"算法和"Easy Data Re- Sampling"策略,有效提升模型在复杂任务中的稳定性。技术团队还开发了"Seamless Rollout"系统,使训练 效率提 ...