视频生成模型

搜索文档
北京跑出未来独角兽:要用“具身 Sora ”做机器人大脑,已融资数千万
搜狐财经· 2025-08-28 00:03
公司背景与定位 - 北京灵生科技成立于2023年 专注于具身智能机器人大脑研发 核心产品为云-边-端一体化大脑系统LingBrain 目前已获数千万融资 [3] - 公司创始人杨洪兵拥有百度、腾讯等互联网大厂AI算法和产业经验 团队优势在于懂AI、懂本体、懂产业结合点 [7][22] - 公司定位为机器人垂域大脑供应商 通过开源策略推动行业生态繁荣 目标成为机器人智能领域的"Windows"或"Android" [26][39][44] 技术突破与创新 - 开源业内首个支持异步运行的快慢双系统视觉语言动作框架RealDualVLA 提供高效协同解决方案 [2] - 独创视频生成模型"具身Sora" 通过生成行为视频让机器人进行推演学习 将任务成功率从90%以下提升到95%以上 [3][16][17] - 技术壁垒在于对物理世界复杂因素(光照、摩擦力、弹性力)的建模能力 以及持续的模型迭代和资源聚焦 [19] - 实现自然语言处理通用接口(NLI) 用户可通过日常语言指令控制机器人执行动作 [45] 行业痛点与解决方案 - 机器人行业面临数据匮乏问题 人类行为历史未被系统记录 导致训练数据极度不足 [15] - 行业封闭性导致恶性循环:数据少导致训练难 训练难导致不愿开源 进一步减缓行业发展 [15] - 通过视频生成技术弥补数据不足 生成大量行为视频供机器人学习 解决数据瓶颈难题 [15][16] - 开源策略打破闭源竞争格局 推动行业技术迭代和生态繁荣 [11][38] 商业模式与商业化进展 - 商业模式基于开放平台加增值服务 通过技术支持、模型优化定制收费 [24] - 与本体厂商合作通过增值服务收费 与终端客户合作通过直接赋能大脑技术收费 [25] - 合作分三阶段:付费POC概念验证→小批量采购→中等规模乃至大批量复购 目前大部分合作已进入小规模复购阶段 [27][28] - 已与富士康集团、国际3C巨头、半导体领域头部上市公司等数十家客户建立合作 解决分拣泛化操作、产线精密操作等难题 [29][30][44] 产业化挑战与应对 - 真实产业环境复杂度远高于实验室 需通过工程化体系化能力适配上千上万台机器规模化需求 [31] - 产业环境更关注失败次数控制而非成功次数 需优化模型推理速度、效率和准确率确保交付稳定性 [33] - 利用具身Sora视频生成技术弥补数据缺失 填补行业空白 [32] - 通过开源策略消除本体公司对数据安全和供应商依赖的顾虑 源代码完全透明开放 [37][40] 行业发展与竞争格局 - 机器人行业存在两条技术路线:以智元为代表的真机数据采集和以银河通用为代表的仿真环境 均存在局限性 [16] - 本体公司自研大脑存在资源分散难题 难以在每个环节做到极致 [35] - 大厂虽拥有强大AI团队 但缺乏软硬件结合的垂直能力和产业场景深度 [21] - 远期通用大脑(AGI)在技术上几乎不可行 因需极高泛化能力、超算力成本且性价比低 垂域大脑才是现实方向 [41][42][43]
可灵AI单季度营收2.5亿元,视频生成模型的赚钱能力正在提升
新浪财经· 2025-08-22 01:51
核心观点 - 快手可灵AI商业化进展超预期 2025年第二季度营收达2.5亿元 较前期累计1亿元收入实现数倍增长[1] - 视频生成模型通过架构创新实现训练推理成本大幅下降 行业商业化前景逐步明朗[4][6] - 互联网企业加速布局视频生成领域 百度等厂商推出明确商业化导向的产品[6] 财务表现 - 可灵AI 2025年第二季度营收2.5亿元 较去年7月至今年2月累计1亿元收入显著提升[1] - 2025年4月及5月单月付费金额均突破1亿元[1] - 预计2025年全年营收将较年初目标翻倍[1] - 推理算力层面已实现毛利率为正[6] - 快手第二季度总营收350亿元 其中线上营销服务198亿元 直播收入100亿元[1] 技术突破 - 新架构依据扩散模型异构特征科学调配计算资源 激活1倍参数量实现3倍生成性能[4] - 算法模型codesign采用定制化全流程推理方案 在效果无损前提下大幅降低推理成本[4] - 模型累计迭代升级近30次 画质/语义理解/画面美学及人物表情动作真实性显著提升[4] 商业化应用 - 累计生产超2亿个视频和4亿张图片 服务超2万家企业客户[6] - 主要客户为视频自媒体/广告营销从业者等专业创作者 以及小米/蓝色光标等企业[5] - 在服装行业推出双人直播间实时换装功能 某男装品牌营销素材消耗量增长2倍[7] - 百度7月发布蒸汽机模型 直接服务广告主和代理商营销素材生成需求[6] 资源投入 - 公司年中追加推理算力投入 2025年Capex投入较年初预算实现翻倍[6] - 视频生成模型被确定为内部重点方向 获得更多研发资源支持[4] - 行业训练推理成本随着模型能力提升出现明显下降[4]
百度辟谣蒸汽机视频生成模型多个海外仿冒网址
新浪财经· 2025-08-19 11:37
公司动态 - 百度营销发布官方声明 提示用户注意甄别近期海外出现的大量关于视频生成模型百度蒸汽机(MuseSteamer)的虚假网站 [1] - 百度蒸汽机(MuseSteamer)将于8月21日举办升级发布会 全新推出2.0版本 包括Turbo、Lite、Pro和有声版全系模型 [1] - 百度蒸汽机(MuseSteamer)于7月2日正式发布 发布首日平均每分钟超百人申请 2周内注册用户超30万 [1] 产品表现 - 百度蒸汽机(MuseSteamer)自上线以来受到各方关注 [1]
被多家海外网站仿冒,百度蒸汽机视频生成模型最新声明
新浪科技· 2025-08-19 11:28
公司动态 - 百度营销发布官方声明提示用户注意甄别近期海外出现的大量关于视频生成模型百度蒸汽机(MuseSteamer)的虚假网站 [3] - 百度蒸汽机(MuseSteamer)将于8月21日举办升级发布会并全新推出2.0版本包括Turbo、Lite、Pro和有声版全系模型 [3] - 百度蒸汽机(MuseSteamer)于7月2日正式发布发布首日平均每分钟超百人申请2周内注册用户超30万 [3] 产品技术 - 百度蒸汽机2.0版本基于多模态时空规划、中文场景深度优化以及音视端到端建模等领先技术能力 [3] - 新产品能够实现多人音视频一体化生成、复杂运镜、电影级人物细腻表演、丰富镜头表现和流畅画质 [3]
硅基流动SiliconCloud上线阿里通义万相Wan2.2
第一财经· 2025-08-15 13:19
公司动态 - 硅基流动大模型云服务平台SiliconCloud上线阿里通义万相团队最新开源视频生成基础模型Wan2.2 [1] - 上线模型包括文生视频模型Wan2.2-T2V-A14B和图生视频模型Wan2.2-I2V-A14B [1] - 模型定价均为2元/Video [1] 行业技术 - 阿里通义万相团队开源视频生成基础模型Wan2.2 [1] - 模型涵盖文本到视频和图像到视频两类生成能力 [1]
WRC 2025聚焦(2):人形机器人临近“CHATGPT时刻” 模型架构成核心突破口
新浪财经· 2025-08-12 06:33
行业核心观点 - 人形机器人行业正处于ChatGPT时刻前夜 最快1-2年实现关键突破 [1] - 2025H1国内整机及零部件厂商平均增长50-100% [1] - 技术突破与算力升级将驱动市场规模和生态格局全面重塑 [2] 行业发展阶段 - 短期1-2年国内市场在政策补贴与场景拓展推动下保持高速增长 整机厂及核心零部件厂商订单可见度高 [2] - 中期2-5年端到端具身智能模型有望成为主流架构 推动从示范样机向大规模商业化迈进 [2] - 长期5年以上家用与工业市场年出货量或达百万级别 竞争焦点转向成本控制与生态体系建设 [2] 技术瓶颈分析 - 硬件并非最大瓶颈 整机和灵巧手已满足多数应用需求 量产与工程化仍需优化但非根本制约因素 [3] - 具身智能AI模型架构是关键短板 VLA模型存在先天不足 数据不足且结合RL训练后效果有限 [4] - 视频生成/世界模型路径更具潜力 通过模拟任务再映射控制 更易收敛且速度可能优于VLA [4] 技术突破方向 - RL Scaling Law有待突破 当前缺乏迁移性 新任务需从零训练 需实现类似语言模型的Scaling Law [5] - 视频生成路径需降低画质追求以减少GPU算力消耗 重点关注执行效率 [4] - 分布式算力是未来趋势 本体算力仅相当于数个手机(峰值功耗约100W) 需依赖工厂/小区级局域服务器 [6] 产业链投资机会 - 硬件端关注进入量产爬坡阶段的驱动器与传感器厂商 [2] - 软件端关注具备视频生成世界模型研发能力的AI公司 [2] - 基础设施端看好分布式算力中心及边缘云服务商 将与5G/6G形成生态协同 [2] 全球化发展 - 海外特斯拉/Figure AI等龙头企业实现量产将加速全球产业链分工与技术标准统一 [2]
宇树科技王兴兴:机器人数据关注度有点太高了,最大问题在模型
21世纪经济报道· 2025-08-09 13:52
行业观点 - 未来2到5年最重要的发展方向是端到端的具身智能AI模型 [1] - 当前机器人硬件性能足够但AI能力不足是限制人形机器人大规模应用的最大瓶颈 [18] - 行业目前处于类似ChatGPT爆发前1-3年的阶段 技术路线已明确但尚未突破 [18] - 模型架构问题比数据问题更关键 当前对数据关注度过高而忽视模型优化 [20][21] - VLA+RL模型架构仍需升级 视频生成模型可能比VLA模型更具潜力 [21][22] 技术发展 - 机器人运动控制的scaling law尚未突破 每次新动作需从头训练 [23] - 分布式算力将成为重要方向 本地化部署解决延迟和成本问题 [25][26] - 具身智能的临界点将是机器人能自主完成陌生环境下的复杂任务 [19] - 最新技术已实现机器人动作随机组合和抗冲击能力 格斗动作速度提升100% [14][15] - 视频生成世界模型可能成为驱动机器人行动的有效路径 [22] 产品布局 - 四足机器人GO2集成大语言模型 全球出货量领先 [3] - 人形机器人G1低配价格9.9万元 出货量全球领先 [5] - 新款人形机器人R1价格下探至3.99万元 高度可定制化 [5] - 工业级四足机器人持续负载25-30kg 续航6小时 [6][8] - 自研3D激光雷达成本仅1000元 视场角达90×360度 [10] 市场表现 - 2023年春晚16台机器人全自动变队形表演成为科技文化符号 [11][12] - 行业上半年整体增长50-100% 需求端拉动显著 [16] - 特斯拉计划2025年量产数千台人形机器人 [17] - 全球科技巨头持续投入机器人领域 [17] - 客户预付订单促使公司2023年启动人形机器人项目 [4] 研发历程 - 2013-2016年研发投入仅1-2万元 开创低成本高性能方案 [3] - 早期反对人形机器人 因AI突破改变战略方向 [4] - 核心零部件全部自研 包括电机、减速器和传感器 [9][10] - 技术路线从固定动作序列发展到随机组合控制 [13][14] - 坚持让机器人"真正干活"的研发理念 [9][13]
花旗:料二季度业绩符合预期,将快手目标价上调至88港元,市盈率估值从13倍上调至15倍
智通财经· 2025-07-30 09:16
港股市场表现 - 7月30日港股三大指数集体收跌 恒生指数跌0.43% 国企指数跌0.43% 恒生科技指数跌1.57% [1] - 互联网板块承压背景下快手逆势上涨0.42%至72.4港元 盘中最高涨超2% 成交额达29.1亿港元 [1] 机构评级与目标价 - 花旗7月28日报告将快手目标价从66港元上调至88港元 较最新收盘价潜在上行空间达21% [1] - 估值基准切换至2026年业绩 市盈率估值从13倍上调至15倍 [3] 业绩预测 - 花旗预测快手二季度营收同比增长11%至345亿元人民币 经调整净利润约51亿元 符合市场预期 [2] - 预计二季度广告收入增速加速至12.3% 主要受电商商家广告投放加大及非电商广告需求回暖推动 [1] 增长驱动因素 - 视频生成模型可灵AI商业化超预期 4-5月单月收入突破1亿元人民币 结合一季度逾1.5亿元收入 全年收入有望大幅超越管理层1亿美元指引 [1] - 货架电商广告系统深度优化推动变现能力提升 全年GMV13%增长目标有望稳健达成 [2]
花旗:料二季度业绩符合预期,将快手(01024)目标价上调至88港元,市盈率估值从13倍上调至15倍
智通财经网· 2025-07-30 09:13
港股市场表现 - 港股三大指数集体收跌 恒生指数跌0.43% 国企指数跌0.43% 恒生科技指数跌1.57% [1] - 互联网板块承压背景下 快手逆势上涨0.42%至72.4港元 盘中最高涨超2% 成交额达29.1亿港元 [1] 机构评级与目标价 - 花旗将快手目标价从66港元上调至88港元 较最新收盘价存在21%潜在上行空间 [1] - 估值基准切换至2026年业绩 市盈率从13倍上调至15倍 [3] 二季度业绩预测 - 预计营收同比增长11%至345亿元人民币 经调整净利润约51亿元 均符合市场预期 [2] - 广告收入增速预计加速至12.3% 主要受电商商家广告投放加大及非电商广告需求回暖驱动 [1] 增长驱动因素 - 可灵AI商业化超预期 4-5月单月收入突破1亿元人民币 结合Q1逾1.5亿元收入 全年收入有望大幅超越1亿美元管理层指引 [1] - 货架电商广告系统深度优化推动变现能力提升 [1][2] - 下半年增长动能充足 全年GMV增长13%目标有望稳健达成 [2]
阿里开源通义万相Wan2.2,大幅提升电影级画面的制作效率
证券时报网· 2025-07-28 15:07
阿里开源电影级视频生成模型通义万相Wan2.2 - 公司推出通义万相Wan2.2模型,直接整合光影、色彩、镜头语言三大电影美学元素,提供60多个可控参数以提升电影级画面制作效率 [1] - 模型可生成5秒高清视频,支持多轮提示词完成短剧制作,未来计划提升单次生成时长 [1] - 展示《星际穿越》《布达佩斯大饭店》《海上钢琴师》等经典电影画面生成能力 [1] 模型技术特点 - 开源三款模型:文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-TI2V-5B) [1] - 文生视频和图生视频模型为业界首个采用MoE架构的视频生成模型,总参数量27B,激活参数14B [1] - 采用高噪声专家模型和低噪专家模型组合,分别负责整体布局和细节完善,节省50%计算资源 [1] - 解决视频生成处理Token过长导致的资源消耗问题,在复杂运动生成、人物交互、美学表达等方面有显著提升 [1] 小尺寸统一视频生成模型 - 开源5B小尺寸统一视频生成模型,同时支持文生视频和图生视频,可在消费级显卡部署 [2] - 采用高压缩率3D VAE架构,时间与空间压缩比达4×16×16,信息压缩率提升至64 [2] - 仅需22G显存即可在数分钟内生成5秒720P高清视频(24帧/秒),为目前速度最快的基础模型之一 [2] 模型获取与应用 - 开发者可通过GitHub、HuggingFace、魔搭社区下载模型和代码 [2] - 企业可通过阿里云百炼调用模型API [2] - 用户可在通义万相官网和通义APP直接体验 [2] 开源成果与影响 - 自2月以来已连续开源多款视频生成模型,包括文生视频、图生视频、首尾帧生视频和全能编辑模型 [2] - 开源社区下载量超500万,成为最受欢迎的视频生成模型之一 [2]