强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

强化学习

搜索文档

用时间积累换突破——月之暗面专注通用人工智能领域

经济日报· 2025-08-11 22:12

公司概况 - 北京月之暗面科技有限公司（Moonshot AI）成立于2023年4月，专注于通用人工智能（AGI）研发，目标是探索智能极限并实现普惠AI [1] - 公司位于北京海淀区中关村，拥有约300名员工，其中50%为90后，团队涵盖算法、工程、产品及运营领域的顶尖人才 [2] - 创始人杨植麟具有10年自然语言处理（NLP）研究经验，团队具备超大规模计算集群运维和深度学习框架开发能力 [1][2] 技术产品 - 核心产品Kimi智能助手于2023年10月上线，是全球首个支持20万字长文本处理的AI助手，半年后长文本能力扩展至200万字 [2][4][5] - 2024年7月发布开源大模型Kimi K2，参数规模达万亿级别但激活参数仅320亿，成本效益显著提升 [3][6] - Kimi K2在多项基准测试中表现优异，特别在自主编程、工具调用和数学推理三方面能力突出，成为全球开源模型榜单前五名中唯一的开源模型 [6] - 产品线持续扩展，包括K1.5视觉思考模型、Kimi-Researcher深度研究模型及浏览器助手等 [2] 技术创新 - 坚持无损数据压缩技术路线，拒绝滑动窗口等捷径方案，实现200万字长文本处理突破 [5] - 首次将创新优化器应用于万亿参数规模模型训练，验证了训练效率的技术突破 [8] - 开发具备Agent能力的模型，可自主探索使用工具并与电子/真实世界交互，推动AI进入智能体时代 [7][8] - 开源策略使Kimi K2成为API调用量和下载量增长最快的大模型，将顶尖技术能力开放给开发者社区 [6] 市场表现 - 2024年Kimi用户量实现100倍增长，从几十万跃升至数千万级别 [5] - Kimi K2已接入部分国际主流开发平台，在3D/游戏/动画制作等场景展现强大交互能力 [3][7] - 产品演示显示可在4分钟内根据指令创建3D森林环境，并具备软件开发、英语学习应用创建等多元功能 [7] 发展理念 - 坚持"技术理想主义"，通过长期积累实现突破，专注通用人工智能而非垂直领域解决方案 [8] - 追求"将能源转化为智能的最优解"，致力于发展通用泛化能力而非单一技能 [8] - 产品设计强调个性化定制，打破技术专用性壁垒，实现"代码人人可用"的普惠目标 [7]

通用人工智能（AGI）

自然语言处理

计算机视觉

Kimi智能助手

通用人工智能（AGI）

自然语言处理

计算机视觉

Kimi智能助手

质疑VLA模型、AI完全不够用？有从业者隔空回应宇树王兴兴

第一财经· 2025-08-11 14:51

行业核心观点 - 具身智能的AI能力不足是当前人形机器人行业面临的最大瓶颈而非硬件问题[3] - 行业需重构VLA模型并寻求新的解决范式以突破感知决策执行的闭环断裂问题[4][7] - 强化学习和模仿学习需遵循Scaling law法则以实现机器人泛化能力和智能水平提升[4] 技术架构争议 - VLA模型被部分从业者质疑为"相对傻瓜式架构" 但仍是具身智能领域重要技术路线[3][5] - 当前最强通用机器人控制VLA模型π0仍无法有效运用全参数大型语言模型且对数据要求极高[5] - 开源VLA模型OPEN VLA基于Llama2语言模型参数规模为7B（70亿）相对较小[5] 系统协同挑战 - 人形机器人需要云端与终端算力协同分配构建完整的"云网端"部署架构[6] - 理想技术体系需实现大脑（完整参数模型）小脑（轻量化实时模型）和肢体的深度协同[5][6] - 当前大语言模型研究与端侧智能研究呈现割裂状态未能有效融合[6] 三大核心痛点 - 感知局限：传统机器人依赖预设规则难以理解复杂多变的环境动态性[5][6] - 决策断层：多任务切换需人工干预重新编程或调整策略[5][6] - 泛化瓶颈：面对新任务或场景需重新进行大量训练和调试[5][6] 发展前景与方向 - 2025年被行业普遍视为人形机器人量产元年从业者从怀疑转向确信其产业重要性[7] - 需通过生物仿生等原创性研究提出具身智能基础模型新范式[7] - 行业发展依赖机制理念政策及从业者创新力的综合推动[7]

关于 AI Infra 的一切

虎嗅· 2025-08-11 10:50

AI Infra 行业定义与架构 - AI Infra 包括硬件和软件两部分硬件指 AI 芯片 GPU 交换机等设备软件可分为三层最底层类似 IaaS 解决基础计算通信和存储问题中间层类似 PaaS 包含资源调度资源管理等平台 MaaS 归属这一层最上层近似 SaaS 应用层但在 AI Infra 领域更倾向于理解为训练及推理框架的优化层 [2][3][4][5] AI Infra 发展历程与人才 - 第一批 AI Infra 人是有算法背景的人如贾扬清李沐陈天奇他们为充分利用 GPU 而做 AI Infra 第二批人更多是上规模让 AI Infra 在工业界得到应用 [6][7] - 大模型兴起对 Infra 从业者是特别好的机会 AI Infra 进入主舞台类似搜索引擎兴起时的 Google 需要世界一流 Infra 处理规模空前的互联网数据大模型对算力和数据提出前所未有的要求这样的窗口可能十年二十年才会出现一次 [8][9][10][11][12] - AI Infra 和移动互联网 Infra 底层目标一致都要高效稳定整合计算通信和存储资源但实操层面对硬件网络互联存储方式要求完全不同 AI Infra 绝对核心是 GPU 传统 Infra 核心是 CPU AI Infra 更极致更贴合 AI 特殊需求 [13][14][15] - 未来做 AI Infra 的人既有新成长起来的工程师也有传统 Infra 人转型而来 Infra 更强调积累与算法不同算法非常依赖年轻人有做算法的朋友说过算法人只有两年保质期两年后陷入思维定势跟不上新东西 [16][17][18] AI Infra 核心指标与价值 - 线上服务侧关注模型响应首字延迟吐字稳定顺畅整体成本降低训练侧关注每张 GPU 处理的数据量和训练效率 [19] - 所有产品都依赖 Infra 区别在于是否投入成本做自己的 Infra 以及投入是否值得假设有 1 万张 GPU 每月租金 1 亿雇 Infra 工程师把 GPU 利用率提升 10% 每月能节省 1000 万或多赚 1000 万优化 Infra 后省下的钱可轻松 cover 人力成本投入 Infra 可帮公司挣钱确定性很高 [20][21][22][23] - 较小公司可用同样逻辑计算值不值得雇 10 人优化性能对比云厂商标准化方案成本如果自己做不到更低成本用 MaaS 或公有云服务更划算服务商价值锚点是帮助规模较小公司节省 Infra 优化成本 [24][25] 第三方 AI Infra 公司机会与挑战 - 短期第三方价值是为客户提供 API 集贸市场自由选择不同 API 因为模型厂商 Infra 主要服务自家模型或 API 公有云也提供类似服务但仍有第三方空间长远如果第三方没有独特价值易被云厂商或模型公司吃掉 [26][27] - AI Infra 底层是硬件上层是模型当硬件和模型都逐渐开放和普及时只做中间 Infra 层价值有限且非常卷难拉开技术差距难形成长期壁垒今天领先一点几个月后可能被赶上第三方想做出壁垒需和硬件或模型做垂直整合 [28][29] - 以 MaaS 生意为例 MaaS 可看作 API 分发平台真正能留住用户的是别人没有的东西如与特定硬件厂商深度合作以更低成本获得算力资源有对硬件独到见解这些是差异化优势建议不要做夹在模型和硬件中间的人可选择站在模型侧或硬件端 [30][31][32][33] - 当前是硬件和模型都在追求极致的时刻需要既懂硬件又懂模型这种两头通能力是 Infra 人特长往上和模型做深度整合或往下与硬件做 co-design 就有很多机会如果固步自封只在中间做优化就把路走窄 [34][35] - 关键必须是主动参与者而不是被动搭便车的人如果比硬件厂商更懂模型可影响硬件设计方向如果比模型团队更懂硬件可反向影响模型架构设计具备这种影响力成功是共赢失败也是主动做出的判断和选择 [36][37][38] Infra 对模型效果影响与性能指标 - Infra 水平会影响模型效果 Infra 对大模型公司非常重要各家公司参与同一场比赛给定算力怎么训出最好模型假设都拿 5000 张卡其他条件相同如果 Infra 优化更好效率高出 20% 同样时间能多学 20% 数据训练出的模型效果更好 [40][41][42] - Infra 有标准化性能指标如 MFU 衡量硬件利用率分子是实际完成的浮点运算次数分母是理论最大算力 MFU 越高硬件用得越充分但衡量 Infra 性能很复杂仅靠单一指标难判断优劣 Infra 性能和硬件模型优化目标都密切相关 [43][45] - DeepSeek 能冲出来一大原因是选对了优化目标当时优化目标是给定推理成本怎么训出最好模型而其他所有人目标是给定训练算力怎么训出最好模型 2024 年 9 月 o1 发布后让大家看到推理阶段让模型多思考一会最终输出效果更好这种训练方式符合强化学习机制 DeepSeek 优化目标更符合强化学习需求能以更低推理成本更快速度输出结果和训练模型率先完成 R1 甩开其他团队 [46][47][48][49][50] - Infra 有各种性能指标但想取得好结果最重要的是想清楚哪一个指标优先级最高指标要符合产品需求也要顺应行业发展方向和未来技术趋势不同团队技术水平有高低但真正拉开差距的是有没有选对努力方向 [51][52] - 从 o1 R1 验证强化学习路径后当前最重要指标是 decoding 速度推理分输入和输出两部分输入关键指标是模型处理长文本速度输出关键指标是模型吐字速度后者最重要决定线上业务成本也直接决定强化学习效率如果输出很慢获得 reward 速度就比其他模型慢但现在还有人很看重 MFU 等老指标特别关注这类指标的人对当下技术认知有问题 [54][55] Infra 与算法团队协作与组织架构 - 最理想合作方式是大家像一个团队为共同目标协作很多事情有 trade-off 如损伤系统性能换算法提升或反过来最好两边一起讨论该谁让步这是小团队优势在大厂很难实现 [56][57][58] - 在大厂 Infra 总被视为支持性角色算法人给 Infra 人提需求 Infra 人没有反向影响力在很多人眼里 Infra 核心是降本但降本通常不是最优先目标需要纠正观念 Infra 实际上可对模型效果有正向影响不仅仅是降本 [59][60][61] - 很多问题到最后是组织架构问题模型由算法 Infra 和数据铁三角决定三者缺一不可必须协同但很多人对模型理解存在偏差模型算法效果往往取决于数据而不是算法模型效率成本主要由 Infra 决定也不是算法 [62][63] - 比较合理组织架构是让 Infra 人设计模型结构因为 Infra 人最知道怎么提高效率节省成本让数据的人负责刷模型点数和 benchmark 分数因为他们最懂怎么喂模型而算法人应该主要负责训练范式革新但现在很多团队中基本都是算法人在设计模型结构刷模型点数算法人不一定最适合做这些事 [64][65] 行业踩坑案例与经验 - 阶跃一开始对自己算力和能力过于自信干了一个比 Llama 还大的模型虽然训出来但这个巨大模型有问题过程中犯了一些错误赌的事情可能会错踩坑后再爬起来往前走 [66][67] - 最近有家公司开源模型声称参数量不大但算法做得好效果可越级媲美更大模型但模型因为架构设计问题实际运行效率非常低还不如大模型快反映很多做算法的人并不真正懂硬件也不了解模型在 Infra 层怎么运行 [68][69][70] - 算法人员做模型架构研究时可能画图横轴模型尺寸或激活量纵轴算法效果指标试图找到 sweet point 让模型尺寸不大情况下算法效果不错然后丢给 Infra 人优化即便 Infra 人满足需求模型实际运行也会出问题如果真要画图横轴应该是模型实际运行成本或运行效率纵轴是模型效果跑大量实验找到真正可落地最优点这件事只有在拉通所有团队后才可能完成 [71][72][73] 模型发展前景与多模态 - 模型范式革新不会那么快但多模态还是有突破可能性尤其是多模态生成和理解统一现在多模态状态像 20 年 bert 模型具备理解能力但还没真正做通理解和生成做通标志是同一个模型在理解任务上超越专门做理解模型在生成任务上击败专门做生成模型像 GPT-3.5 出来让很多做翻译等专用模型退休 [75][76][77] - Google Veo 3 效果很不错但偏上一代模型核心是做生成工程做得比较好把配乐等功能很好融合起来技术突破和产品效果不是线性相关 Veo 3 把上一代技术发挥到非常强水平但本身没带来太多范式上创新 [78][79][80] 初创或第三方 AI Infra 公司机会 - 训练侧商业模式不太成立因为训模型的人非常懂行难挣到这些人钱他们也不愿把训练过程中研发细节交给第三方否则泄露核心竞争力排除训练后推理侧还有一些机会如推理加速推理优化 [81][82] - 开源模型对 AI Infra 发展有促进作用开源模型火起来大家研究怎么把它跑得更好促进 AI Infra 进步但所有事情都有两面性如果某个开源模型太火大家花很多精力优化它可能反而影响创新如 DeepSeek 出来前很多人优化 Llama DeepSeek 新范式一出之前在 Llama 上很多积累就废掉 [83][84] 国产芯片与开源策略 - 现在 Infra 基本围绕英伟达卡做优化虽然有团队尝试用国产芯片替代英伟达但很多时候国产卡不是跑不动而是性价比不如英伟达当 DeepSeek 这样好用开源模型出现后做一体机公司发现用英伟达卡跑 DeepSeek 比用国产卡更有性价比更愿选择英伟达卡 [85][86] - 希望国产卡在技术层面具备竞争力根据国产卡特性专门设计模型结构让它在国产卡上高效运行达到 SOTA 水平阶跃开源 Step 3 是国内首个支持第三方商用数百 B 规模视觉推理模型能跑出 SOTA 水平 [87] - 视觉推理是模型根据图片视频抽帧等视觉信息直接完成推理任务如让机器人去柜子拿东西目标物品被杂物遮挡机器人要进行视觉推理进行任务拆解和决策对于机器人或手机汽车等智能设备天然有视觉模态根据周边环境看到的东西决定怎么完成复杂任务是典型视觉推理模型做的事情视觉推理模型更常见应用场景是拍照解题 [88][89][90][91] - 之前有模型可做到拍照解题但是把图片转成文字再做文字推理这种方式不是真正视觉推理现在不需要中间转文字过程让模型直接看图推理如让机器人拿东西目标物品周围有很多遮挡难用文字描述清楚物理世界中位置关系会丢掉很多信息但模型直接看图能直观知道该先拿开这个东西再拿开那个东西最后拿到目标物品 [92][93][94][95] - 选择开源是希望全国上下产业都获益给所有国产芯片免费商用授权开放模型权重尽量帮他们做好模型适配把 Step 3 在国产卡上推理成本压到很低水平提高国产卡在性价比上竞争力通过开源帮助国产芯片构建商业竞争力也希望他们能推广模型最后实现共赢 [96][97][98] 多模态成本与 Infra 人价值 - 多模态理解现在不算贵但生成还是挺贵尤其是视频生成对成本降低蛮乐观一年后应该能下降很多能不能到十分之一不好说但几分之一没问题 [99][100][101] - 在大模型时代 Infra 人容易被低估情况好很多 Infra 已是模型能力核心组成部分之一 DeepSeek 做得好是因为梁文锋是 Infra 人梁文锋做量化出身量化强调低延迟需要对 Infra 有研究在算法数据和 Infra 之间最擅长 Infra 这在业界是共识 DeepSeek 的 Infra 工程师数量比算法工程师多但在很多大公司里情况反过来这可能是在过去一段时间里一些大厂比较挣扎的原因之一 [102][103][104][105][106] - 在大模型快速发展阶段需要有大量 Infra 人把硬件设计和模型优化做到极致并且做好垂直整合但在大厂里人才结构错配不符合做好 AI 本质需求 [107] 给 AI Infra 从业者建议 - 建议靠近模型或者靠近硬件希望打心底对 Infra 感兴趣有足够主观能动性去做各种各样 co-design [108][109] - Richard Sutton 的《The Bitter Lesson》核心观点是从长期来看胜出永远是那些能最大程度利用计算资源方法短期内各种奇技淫巧可能有效但不能本质解决问题虽然文章从算法视角写但对 Infra 人同样有重大指导意义因为最根本任务是设计出能发挥硬件全部性能模型和系统软件让模型能充分利用这些资源最希望是有朝一日还能反过来影响硬件换取摩尔定律不断延续 [109][110][111]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

理想VLA实质是强化学习占主导的持续预测下一个action token

理想TOP2· 2025-08-11 09:35

核心观点 - 对predict the next token的不同理解反映了对LLM或AI潜力与实质的认知差异 [1] - 认为predict the next token超越统计学的人更倾向于认可LLM潜力大、推理过程是意识雏形、超级对齐重要 [1] - 理想VLA架构通过连续预测action token实现物理世界理解，类比OpenAI的O1O3 [1][10] - 辅助驾驶比chatbot更适合强化学习，因奖励函数更明确且仿真环境更简单 [12][13] Ilya的观点与背景 - Ilya是OpenAI前首席科学家，推动AlexNet、AlphaGo、TensorFlow等多项AI领域突破 [3] - 他认为predict the next token能超越人类表现，因足够聪明的神经网络可推断"理想人物"行为 [4][8] - 预测token的本质是理解其背后的现实世界逻辑，而非单纯统计学 [6][7] - Ilya的论证风格严谨，常以"误差范围对数刻度"等表述体现审慎态度 [9] 理想VLA的技术逻辑 - VLA架构通过传感器输入实时输出action token，结合diffusion优化轨迹，实现物理世界理解 [10] - VLA在NOA开启期间连续预测action token，其推理过程被视为一种动态意识 [11] - 理想将AI软件（神经网络权重）与硬件平台高效结合，技术整合含金量被低估 [13] 辅助驾驶与AI软件的差异 - 辅助驾驶的强化学习优势在于明确奖励函数（安全/舒适/效率）和可仿真性 [12][13] - AI软件内核是神经网络权重，与传统代码式开发范式存在根本差异 [13] - 硬件迭代速度慢于软件，AI软件需AB测试快速迭代，与硬件开发逻辑冲突 [13]

预测下一个token

Artificial Intelligence

预测下一个token

Artificial Intelligence

让OpenAI只领先5天，百川发布推理新模型，掀翻医疗垂域开源天花板

量子位· 2025-08-11 07:48

模型性能与评测 - 百川开源医疗推理大模型Baichuan-M2-32B在OpenAI HealthBench评测集上超越所有开源模型及多数闭源模型，包括参数规模4倍的gpt-oss-120b [1][19][21] - 在HealthBench Hard困难测试集上，Baichuan-M2以34.7分成为全球唯二超过32分的模型，仅次于GPT-5的46.2分 [24][25][26] - 模型参数量32B但性能超越更大规模模型，支持RTX4090单卡部署，成本比DeepSeek-R1降低57倍 [13][35][56] 技术架构创新 - 首创患者模拟器和Verifier系统，通过动态奖励机制提升临床决策质量，模拟数百万次诊疗过程 [40][44][45] - 采用改进版GRPO算法，优化KL约束、Clip-higher等训练策略，提升训练效率和稳定性 [53][55] - 引入中期训练(Mid-Training)和多阶段强化学习策略，平衡通用能力与医疗专业性 [48][51][52] 本土化与落地优势 - 在中国临床诊疗场景评测中表现优于国际模型，更贴合国内指南如肝癌治疗推荐R0切除而非TACE [30][33] - 量化后模型精度接近无损，支持单卡部署显著降低医疗机构私有化部署门槛 [4][35][64] - 已与北京儿童医院等机构合作落地儿科大模型等应用 [66] 行业趋势与定位 - AI医疗成为大模型落地最受关注领域，获OpenAI等顶尖公司重点投入 [5][7][68] - 百川是国内首个All in AI医疗的大模型公司，通过开源策略推动行业进展 [8][70][71] - 模型在数学、写作等通用能力上超越Qwen3-32B，保持多领域应用潜力 [37][38][39]

Artificial Intelligence

Baichuan-M2-32B

Artificial Intelligence

Baichuan-M2-32B

智谱终于发布GLM-4.5技术报告，从预训练到后训练，细节大公开

机器之心· 2025-08-11 07:12

GLM-4.5模型发布与市场反响 - 智谱开源新一代旗舰模型GLM-4.5及轻量版GLM-4.5-Air 首次在单个模型中实现推理、编码和智能体能力的原生融合并在12项全球测试中综合成绩排名全球第三国产和开源模型中均位列第一 [2] - 模型发布后引发海内外AI圈热议官方推文浏览量突破120万 GLM-4.5连续7天登顶Hugging Face趋势榜单 [2] - 与OpenAI开源的gpt-oss系列对比测试中 GLM-4.5整体表现保持领先优势 [6] 技术架构创新 - 采用MoE混合专家架构通过"瘦高"结构设计（减少宽度增加深度）提升推理能力隐藏维度5120配备96个注意力头（常规模型的2.5倍） [21] - 引入Muon优化器加速收敛配合QK-Norm技术增强注意力稳定性加入MTP层实现推测解码提升推理效率 [24] - 参数规模达3550亿激活参数320亿包含89层MoE和1层MTP 在同类模型中计算效率显著提升 [23] 训练方法论突破 - 采用多阶段训练方案：15T通用语料预训练+7T代码/推理语料训练中期训练将序列长度从4K扩展至128K [25][27] - 预训练数据覆盖网页/社交媒体/学术/代码等多源信息第二阶段重点上采样编程与科学数据强化推理能力 [28] - 中期训练分三环节：代码仓库级训练（32K序列）、合成推理数据训练、长上下文与智能体训练（128K序列） [30] slime强化学习框架 - 专为大模型RL训练设计的开源框架支持同步/异步混合训练模式 GitHub已获1200星 [31][32] - 核心模块包括训练（Megatron）、rollout（SGLang+Router）和Data Buffer 实现环境交互与训练解耦 [35] - 采用FP8混合精度推理加速数据生成同时保持BF16训练精度显著提升智能体任务训练吞吐量 [34][48] 性能基准测试表现 - 智能体任务：TAU-bench表现接近Claude Sonnet4 BFCL-v3总分第一 BrowseComp优于Claude Opus4 [44][45] - 推理能力：AIME24/SciCode超越OpenAI o3 七项基准平均表现优于Claude Opus4 接近DeepSeek-R1 [47][50] - 代码能力：SWE-bench Verified超越GPT-4.1 Terminal-Bench超过Claude Sonnet4 成为其最强竞品 [52][53] 行业影响与意义 - 技术报告完整披露从架构设计到训练方法的实现路径为国产开源大模型发展提供重要参考 [56] - 首次在单一模型中实现ARC（智能体/推理/代码）能力统一推动LLM向通用问题求解器进化 [18][19] - 开源生态建设成效显著模型与框架同步开放形成完整技术闭环 [14][32]

大语言模型

大语言模型

具身智能之心技术交流群成立了！

具身智能之心· 2025-08-11 06:01

具身智能技术交流群 - 社群聚焦研究方向包括视觉语言动作(VLA)、视觉语言导航(VLN)、遥操作、扩散策略(Diffusion Policy)、强化学习(RL)、VLA与强化学习结合(VLA+RL)、仿真到现实迁移(sim2real)、多模态大模型、运动控制、目标导航、建图定位等前沿技术领域 [1] - 入群需通过微信添加助理账号AIDriver005并提交机构/学校名称、个人姓名及研究方向信息以加速审核流程 [2][3]

Diffusion Policy

多模态大模型

Diffusion Policy

多模态大模型

人形机器人投资框架

2025-08-11 01:21

行业与公司 * 人形机器人行业当前处于培育期（2025年前）[1] * 特斯拉Optimus代表行业技术发展方向[1] * 中国在硬件供应链（关节模组、本体硬件）和运动控制算法方面进展显著[7] * 海外头部厂商包括特斯拉和谷歌[12] * 国内厂商如宇树、深圳众擎在运动控制算法表现突出[13][14] 核心观点与论据发展阶段 * 分为四个阶段：培育期（2025年前）、商业验证期（2025-2030）、爆发期（2030年起）、衰退期[1][2] * 培育期和爆发期可能持续20-50年[2] 技术路径 * 特斯拉Optimus沿运动控制、精细操作、场景泛化三路径发展[6][10] * 需具备"聪明大脑"（生成智能模型）和"灵活身体"（机械部件）[5] * 灵巧手技术是重点，硬件和算法持续升级但方案未定型[8] * 关节模组是关键，线性与旋转模组将并存[21] 应用场景 * 当前主要应用：科研教育、商业接待、政府数据采集[4] * 未来需扩展至工业、商业、家庭领域[1][4] * 工业场景因结构化需求优先探索[4] 数据与模型 * 数据采集分合成数据（低成本）和真实数据（高精度）[17] * 特斯拉转向视频训练方法（2025年5月起）[17][18] * 具身智能模型发展滞后于非具身模型（如GPT）[11] 竞争格局 * 全球105家创业企业，90%面临激烈竞争[20] * 供应链厂商需具备规模化生产、快速迭代、低成本能力[28] * 关节模组核心壁垒：体积/重量/成本约束下的扭矩最大化[22] 重要细节技术进展 * Optimus展示电池分拣、炒菜等任务泛化能力[9] * 国内运动控制算法通过强化学习快速迭代[7] * 电机趋势：空心杯、无刷有齿槽伺服、无框力矩电机[23] 供应链 * 关节模组由控制器/驱动器/电机/编码器/减速器构成[22] * 减速器类型（RV/行星/谐波）将按场景共存[24] * 触觉传感技术向电容方案集中（踏山科技占80%）[25] 评估标准 * 本体厂商能力维度：硬件/具身模型/数据/人才[26] * 北美某公司当前领先，国内存在短板[27] 投资策略 * 产业为长赛道（30-50年周期）[29] * 估值需匹配产业发展速度[29] （注：所有数据引用均来自原文编号，未添加额外信息）

人形机器人

人形机器人

关于 AI Infra 的一切 | 42章经

42章经· 2025-08-10 14:04

AI Infra的定义与架构 - AI Infra包括硬件和软件两部分硬件指AI芯片 GPU 交换机等设备软件层面类比云计算分为三层 [3][4] - 最底层类似IaaS 解决基础计算通信和存储问题中间层类似PaaS 包含资源调度资源管理等平台 MaaS归属这一层 [4][5] - 最上层近似SaaS应用层但在AI Infra领域更倾向于理解为训练及推理框架的优化层 [5] AI Infra的发展历程 - 第一批AI Infra人如贾扬清李沐陈天奇等有算法背景他们为充分利用GPU而开发AI Infra [6] - 第二批AI Infra人主要推动AI Infra在工业界的规模化应用 [6] - 大模型兴起使AI Infra进入主舞台类似搜索引擎兴起时的机会窗口可能十年二十年才出现一次 [7][9][10] AI Infra与传统Infra的差异 - AI Infra绝对核心是GPU 传统Infra核心是CPU [11] - AI Infra需要更极致更贴合AI特殊需求太阳底下没有太多新鲜事但要做到更极致 [12] - Infra人才相比算法更强调积累算法依赖年轻人而Infra需要长期经验 [14] AI Infra的核心指标与价值 - 线上服务侧关注首字延迟吐字稳定性整体成本训练侧关注每张GPU处理数据量和训练效率 [15] - 优化Infra可显著降低成本例如1万张GPU每月租金1亿利用率提升10%可节省1000万 [18][19] - 小公司可通过对比云厂商方案决定是否自建Infra 云服务商价值在于帮助小公司节省优化成本 [20][21] AI Infra的商业模式 - 第三方公司短期价值在于提供API集贸市场让客户自由选择不同API [22] - 长期来看第三方需与硬件或模型垂直整合才能建立壁垒避免被云厂商或模型公司取代 [24][25] - MaaS服务商可通过与硬件厂商深度合作获得差异化优势类似游戏机独占游戏 [26][27][28] AI Infra与模型效果 - Infra水平影响模型效果优化更好的Infra可在相同算力下多学20%数据提升模型效果 [36][37] - MFU是常见指标但单一指标难判断优劣 DeepSeek的MFU偏低但Infra并不差 [37][38] - DeepSeek成功关键在于选对优化目标即给定推理成本训出最好模型而非传统训练算力优化 [39][40][41] AI Infra的未来趋势 - 当前最重要指标是decoding速度直接影响线上业务成本和强化学习效率 [44] - 多模态仍有突破可能性需实现理解和生成的统一类似GPT-3.5让专用模型退休 [63][64] - 开源模型促进AI Infra发展但也可能阻碍创新如过度优化Llama影响新范式探索 [69] AI Infra的组织架构 - 理想协作是Infra 算法数据团队共同决策大厂中Infra常被视为支持角色缺乏影响力 [46][47][49] - 合理架构应是Infra人设计模型结构数据人负责刷分算法人主攻训练范式革新 [54] - 大厂人才结构错配如DeepSeek Infra工程师多于算法工程师而多数大厂相反 [81][82] AI Infra的创业机会 - 训练侧商业模式难成立因训练方不愿泄露核心竞争力推理侧如加速优化仍有机会 [67][68] - 国产芯片需专门设计模型结构提升性价比 Step 3开源模型支持国产卡商用并达到SOTA [69][73][74] - 多模态成本有望大幅下降理解已不贵但生成仍贵视频生成一年后可能降至几分之一 [75][76][77]

Artificial Intelligence

Artificial Intelligence

联合理解生成的关键拼图？腾讯发布X-Omini：强化学习让离散自回归生成方法重焕生机，轻松渲染长文本图像

机器之心· 2025-08-10 04:31

图像生成技术路线 - 自回归模型与扩散模型在图像生成领域存在技术路线之争，自回归模型在文本生成领域表现优异但在视觉领域面临细节失真和语义理解偏差等瓶颈[2] - 目前主流研究采用扩散模型进行图像生成，导致视觉理解和生成任务耦合松散[2] - 腾讯混元团队开发的X-Omni模型通过强化学习显著提升自回归方法的图像生成质量，实现高质量美学输出和复杂指令跟随能力[2][4] X-Omni模型技术突破 - 采用SigLIP2-VQ方法构建tokenizer，结合扩散解码器生成图像，实现离散自回归框架下的视觉理解与生成统一[6] - 应用GRPO强化学习方法优化图像生成，通过200步训练后生成质量显著提升[5][8] - 构建多维度奖励模型系统，涵盖人类美学偏好（HPSv2评分）、文本-图像对齐（Qwen2.5-VL-32B）和OCR准确性（GOT-OCR 2.0/PaddleOCR）等评估维度[9][12] 性能基准测试表现 - 文本渲染能力：在OneIG-Bench英文任务中得分0.901，中文0.895；LongText-Bench英文0.900，中文0.814，超越GPT-4o等竞品[13] - 指令跟随能力：在DPG-Bench总体得分87.65，实体识别（92.59）和关系处理（94.75）表现突出[14] - 复杂场景处理：在GenEval测试中综合得分0.83，单对象识别达0.98，但计数能力（0.75）和色彩属性处理（0.68）仍有提升空间[15] 技术范式创新 - 实现无分类器引导（CFG）的高质量图像生成，证明视觉与语言生成机制的内在统一性[17] - 强化学习在图像生成中的优化效果超越传统监督微调+N选1策略，尤其擅长处理高维空间依赖数据[19] - 开源模型包含完整技术栈（GitHub/Hugging Face），提供论文、代码和演示空间等多维度资源[2]

腾讯控股(HK:00700)

自回归图像生成

自回归图像生成