海螺02
搜索文档
视频模型战火再燃!Runway超过谷歌登顶,可灵也来了
第一财经· 2025-12-02 09:09
AI视频生成模型竞争格局 - 2025年12月1日,海外AI视频初创公司Runway发布新一代视频模型Gen-4 5,国内公司可灵AI几乎同时宣布全新视频模型可灵O1上线,行业竞争激烈[3] - 根据Artificial Analysis基准测试榜单,Runway Gen-4 5以1247分位列文生视频模型第一,谷歌Veo3以1226分排名第二,快手可灵2 5以1225分排名第三,与第二名仅1分之差[7] - 其他主要竞争者包括排名第七的OpenAI Sora2 pro(1205分)和排名第八的MiniMax海螺02(1198分)[7][8] Runway Gen-4 5技术突破 - 模型在预训练数据效率和后训练技术方面取得突破,擅长执行复杂的序列指令,可指定镜头调度、场景构图、事件时间安排和氛围变化[9] - 实现了前所未有的物理精度和视觉精度,物体以真实重量和动力移动,液体动力学流动逼真,表面细节渲染出色,头发和材料编织等细节在运动中保持一致[15] - 公司承认模型仍存在局限性,如在因果推理和对象恒存性方面不足,效果可能先于原因出现,物体可能意外消失或出现[18] 行业动态与公司背景 - Runway成立于2018年,目前公司估值达35 5亿美元,2023年2月发布第一代视频模型Gen-1,7月实现文生视频和图生视频功能[18] - 公司CEO强调凭借约100人团队击败了万亿美元规模的公司,体现极度专注和勤奋可触及技术前沿[18] - 2024年起AI视频生成领域竞争白热化,2025年谷歌Veo系列确立行业领先地位,初创公司生存空间收窄,国内快手可灵和MiniMax形成竞争力[19] - Runway通过新品确立地位的重要性凸显,公司新一轮融资仍在推进中,行业期待谷歌Veo4发布,竞争将持续[19]
视频模型战火再燃!Runway超过谷歌登顶,可灵也来了
第一财经资讯· 2025-12-02 07:16
行业竞争格局 - 2025年12月初,视频生成模型领域竞争加剧,海外初创公司Runway与国内公司可灵AI几乎同时发布新一代视频模型,火药味很浓 [1] - 根据Artificial Analysis基准测试榜单,Runway的Gen-4.5以1247分位列文生视频模型第一,超越谷歌的Veo3(1226分)和快手可灵2.5(1225分)[3] - 行业领先者还包括Luma Labs的Ray 3(1211分)、OpenAI的Sora 2 Pro(1205分)以及MiniMax的海螺02(1198分),竞争格局呈现多强并立态势 [4] - 从2024年开始,AI视频生成领域竞争白热化,谷歌Veo系列在2025年逐渐确立行业领先地位,挤压初创公司空间,而国内如快手可灵、MiniMax也形成了竞争力 [12] Runway公司及Gen-4.5模型 - Runway于2025年12月1日正式发布新一代视频模型Gen-4.5,在基准测试中超越谷歌Veo3登顶 [1] - 公司表示Gen-4.5在预训练数据效率和后训练技术方面取得突破,擅长理解和执行复杂的序列指令,能指定镜头调度、场景构图、事件时间及氛围变化 [5] - 该模型在精确遵循提示词、逼真的物理运动效果、风格控制和视觉一致性方面有新的进展 [5] - Runway强调Gen-4.5实现了前所未有的物理精度和视觉精度,物体能以真实的重量和动力移动,液体流动符合动力学,表面细节渲染逼真 [7] - 公司承认模型仍存在局限性,如在因果推理和对象恒存性方面不足,可能出现效果先于原因或物体意外消失的情况 [11] - Runway计划逐步开放Gen-4.5的使用权限,并以与当前订阅套餐相近的价格全面开放,即“加量不加价” [4] - Runway成立于2018年,根据PitchBook数据,公司估值已达到35.5亿美元,其于2023年2月发布第一代视频模型Gen-1,行业布局较早 [11] - Runway CEO表示,公司仅靠一百人的团队就击败了万亿美元规模的公司,认为极度专注和勤奋能触及技术前沿 [11] 可灵AI及行业其他参与者 - 在Runway发布Gen-4.5后约1小时,国内视频生成公司可灵AI在海外平台宣布上线全新视频模型可灵O1,并将其定义为“首个统一多模态视频大模型” [1] - 截至新闻发布时,基准测试榜单上尚未包含可灵O1的评分,但其被视为Gen-4.5潜在的有力竞争对手 [12] - 快手旗下的可灵2.5 Turbo 1080p模型在2025年9月发布,在基准测试中以1225分位列第三,与第二名谷歌Veo3仅一分之差 [3][4] - MiniMax的海螺02 Standard模型于2025年6月发布,在榜单上以1198分排名第八 [4] - 行业也在期待谷歌下一代视频模型Veo4的发布,围绕视频生成模型领先地位的较量预计将持续 [12]
AI第一股双雄竞速,MiniMax与智谱清言谁能率先突围?
36氪· 2025-11-26 00:46
行业竞争格局 - 人工智能大模型领域的竞争已从纯粹的技术角逐扩展为资本、商业模式与生态构建的全方位较量[1] - 国内已形成以智谱AI、MiniMax、阶跃星辰、百川智能、月之暗面和零一万物为代表的“创业六小强”第一梯队[1] - MiniMax与智谱清言均传出上市动作被视为“AI大模型第一股”的有力竞争者[1] MiniMax技术优势 - 2025年10月正式开源并推出新一代模型MiniMax M2主打“端到端开发工作流”在代码生成、工具调用等任务中表现优秀[2] - MiniMax M2发布仅三天便登上OpenRouter平台全球调用量第四、编程场景第一在第三方评测机构测试中以61分获开源模型第一名全球第五[2] - 相比M1模型M2采用“全注意力机制 + MoE 架构”总参数量达230B每次激活参数只有10B[2] MiniMax商业化策略 - M2模型API定价为每百万Token输入0.3美元、输出1.2美元只有同类模型Claude Sonnet 4.5价格的8%而推理速度快近一倍[3] - 视频生成模型“海螺02”在Artificial Analysis Video Arena Leaderboard图像生视频项目中位列全球第二[3] - 海螺2.3视频模型在性能大幅提升的同时维持与“海螺02”相同定价海螺2.3 Fast版本能为批量创作场景最高降低50%成本[4] MiniMax多模态布局 - 语音生成模型Speech2.5新增14种小众语种总覆盖语种达40个字错率降低30%[4] - MiniMax Speech语音模型已在全球范围内获得广泛采用覆盖从Agent平台到各类AI应用的关键场景[5] - 公司正致力于构建一个既服务于C端创作者又赋能B端企业的高可用、低成本大模型生态[5] MiniMax面临挑战 - 大模型的持续研发与迭代需投入巨额资金以OpenAI动辄数千亿美元的资本支出为参照长期融资能力面临严峻考验[6] - 品牌在大众层面知名度有限核心用户群体集中在科技圈和二次元圈子国内市场用户付费能力和意愿不理想[7] - 2025年9月遭迪士尼、环球、华纳三大娱乐巨头起诉指控其未经授权生成知名角色图像暴露出海外扩张的合规风险[8] 智谱清言资本化进程 - 母公司智谱华章已于2025年4月15日完成公开发行辅导备案辅导计划为期七个月最快将在2025年底前提交IPO招股说明书[10] - 公司发展路径清晰反映“技术驱动、全栈布局”的战略思路产品布局涵盖代码、多模态、Agent等多个方向[10] 智谱清言技术产品体系 - 产品核心竞争力源于自研完整模型家族包括GLM系列基础模型、ChatGLM对话模型、CodeGeeX代码模型和CogView多模态模型[10] - 2024年7月发布全球前三的代码模型CodeGeeX4同期推出视频生成模型“智谱清影”[11] - 2025年发布支持汉字生成的开源文生图模型CogView4及具备更强复杂问题处理能力的“沉思大模型”和推理大模型Z1[11] 智谱清言商业模式 - 探索了To C、ToB、ToG三种服务模式业务包括开放平台 API、云端私有化、本地私有化部署以及软硬一体机[12] - 保持独特的“科研+市场”双轮驱动模式通过运营AMiner学术平台和推进前沿模型研发形成差异化风格[11] 智谱清言发展瓶颈 - 产品线迭代快但尚未成功孵化出真正明星产品如AutoGLM因操作复杂和应用场景有限陷入“叫好不叫座”困境[13] - 2024年已披露融资金额共计接近70亿元但仍需进一步补充资本并积极推动上市进程[13] - 2025年5月因超范围收集用户敏感信息被国家网信办通报并下架整改2025年10月据报道公司调整减员近百人[13][14] 行业发展趋势 - OpenAI从单一模型提供商向覆盖文本、语音、视频、推理、工具链及算力平台的“操作系统级”生态转型截至2025年ChatGPT用户已超8亿[15] - 中国AI行业走出“务实主义”路径不盲目追求参数规模而是通过工程优化、训练方法创新实现效率最大化[15] - 行业洗牌加速企业需在技术、市场、资本与合规之间找到最佳平衡点才能实现从“技术追赶”到“商业共赢”的跨越[16]
AI周报 | Meta天价挖角AI人才;诺奖得主辛顿称“水管工的工作比白领安全”
第一财经· 2025-06-22 01:26
Meta AI人才争夺 - Meta CEO扎克伯格近期以143亿美元投资Scale AI并挖来创始人Alexandr Wang 随后又试图收购OpenAI联合创始人苏茨克维创办的Safe Superintelligence(SSI)虽未成功但成功招揽其CEO Daniel Gross及GitHub前首席执行官Nat Friedman [1] - Meta猎头团队已接触超200位OpenAI、谷歌DeepMind核心研究员 开出条件包括2000万美元年薪+股票期权+项目分红 [1] - OpenAI CEO奥尔特曼透露Meta曾以1亿美元签约奖金和更高年薪挖角未成功 认为Meta将OpenAI视为最大竞争对手 [1] AI对就业市场影响 - AI教父杰弗里·辛顿指出AI技术正以前所未有速度重塑就业市场 创造性与情感交互类工作如艺术家、作家、心理咨询师、护士等岗位较难被AI完全替代 [2] - 辛顿认为水管工等蓝领工作被AI取代风险较小 而法律助理、律师助理等岗位将很快不再被需要 [2] - 辛顿对"AI能创造新就业"观点表示怀疑 建议职场人优先发展"AI无法复制的能力" [2] 大模型进展 - OpenAI CEO奥尔特曼表示GPT-5可能将于今年夏天推出 预计整合GPT-4o的自然语言多功能性和o3在代码和科学推理方面的优势 [3] - MiniMax在技术发布周期间开源推理模型MiniMax-M1 推出视频大模型海螺02 并发布两个Agent产品和语音设计工具 同时传出计划赴港IPO消息 目前估值约30亿美元 [4] - Midjourney推出首款AI视频生成模型V1 用户可上传图片生成四段五秒视频 基础订阅计划每月10美元 专业版和超级版分别60美元和120美元 [5][6] 企业动态与融资 - 小红书商业化互联网行业负责人赵维晨离职投身AI和机器人创业 小红书最新估值达260亿美元 [7] - 摩尔线程完成上市辅导 IPO辅导状态变更为"辅导验收" 公司估值255亿元 超过燧原科技和壁仞科技 [9] - 腾讯云发布全链路AI应用开发平台AI Builder 用户可用自然语言描述需求 AI将完成从设计到上线部署完整流程 [10] 芯片与硬件 - Marvell将2028年数据中心潜在市场规模预期从750亿美元上调至940亿美元 预计复合年增长率35% 定制AI芯片目标市场规模上调至550亿美元 [11][12] - 逐际动力发布双足机器人TRON 1感知拓展套件 集成激光雷达和深度相机 支持三维建图、重定位、路径规划等科研任务 [13] 行业监管 - 筑梦岛App因AI聊天存在低俗擦边内容被上海市网信办约谈 要求立即整改并加强涉未成年人不良内容整治清理 [8]
腾讯研究院AI速递 20250619
腾讯研究院· 2025-06-18 15:22
谷歌Gemini 2.5发布 - 谷歌发布Gemini 2.5全系列模型,其中Flash-Lite版本速度最快、性价比最高,输入仅0.1美元/百万token [1] - Gemini 2.5在玩宝可梦游戏时展现类人行为,生命值低时会"恐慌"导致推理能力下降 [1] - 2.5系列采用稀疏MoE架构,原生支持多模态和百万级token长文本,性能全面超越前代 [1] 微软三大算法突破 - 微软发布三大创新算法rStar-Math、LIPS和CPL,通过蒙特卡洛树搜索和代码增强CoT等方法突破大模型推理瓶颈 [2] - rStar-Math通过自我进化和Python代码验证提升数学推理质量,LIPS结合符号工具和大模型实现数学证明策略优化 [2] - CPL算法通过高层次抽象计划空间搜索和Step-APO学习关键步骤,显著提升模型跨任务泛化能力 [2] MiniMax视频模型海螺02 - MiniMax发布海螺02视频生成工具,可创建10秒1080P视频,在国际榜单图像生视频项目排名第2,超越谷歌Veo3 [3] - 海螺02实现逼真物理效果、精确物体交互和复杂杂技动作,支持多语言提示,10秒视频仅需一次生成 [3] - 国际视频生成榜单前五名中四家为中国厂商,展现中国在该领域的领先地位 [3] Meta智能眼镜战略 - Meta与意大利高端品牌Prada合作开发AI智能眼镜,拓展与EssilorLuxottica之外的时尚公司合作 [4] - Meta将于6月20日发布面向运动人群的Oakley智能眼镜,售价约360美元,具备更好的防风雨性能 [4] - 自2023年以来Meta与Luxottica已售出200万副Ray-Ban智能眼镜,计划到2026年底年产量提升至1000万副 [5] 罗永浩数字人直播 - 罗永浩数字人在百度电商首场直播吸引超1300万人次观看,GMV突破5500万元,部分品类超真人首秀数据 [6] - 百度慧播星技术实现"神形音容话"五维统一,通过剧本驱动多模协同,直播中AI调用知识库1.3万次 [6] - 百度计划追加10万个数字人名额和1亿元补贴,推动数字人直播产业规模化发展 [6] 大模型"六小龙"调整 - 大模型"六小龙"半年内22位高管密集离职,零一万物7位、百川智能和智谱AI各5位 [7] - DeepSeek低成本高性能冲击下,零一万物放弃训练大模型转向阿里云,百川智能基础模型进入静默期,阶跃星辰关闭冒泡鸭产品 [7] - 商业化成生存关键,六小龙需在开源大模型时代寻找差异化应用突围 [7] 港科广医学模型 - 港科大等发布首个医学世界模型MeWM,通过3D扩散模型模拟不同治疗方案下肿瘤形态演变,图灵测试准确率达79% [8] - 系统构建"策略生成-动态模拟-风险评估"闭环,在肝癌TACE治疗中F1-score达64.08%,接近专业医生水平 [8] - MeWM生存风险预测C-Index达0.752,融入医生决策可带来13%性能提升,实现从经验驱动到数据驱动的精准医疗转型 [8] Karpathy软件3.0观点 - Andrej Karpathy提出软件3.0(提示工程)时代正在取代1.0(代码编程)和2.0(神经网络),LLMs具备类似公用事业、晶圆厂和操作系统的多重属性 [10] - LLMs存在"锯齿状智能"(既能解决复杂问题又在简单任务失败)和"顺行性遗忘症"(缺乏长期记忆)两大缺陷,需要新的"系统提示学习"范式来存储问题解决策略 [10] - AI产品设计应采用"自主性调节滑块",通过控制生成-验证循环实现人机协作,同时强调为智能体而非人类构建工具,因为智能体是数字信息的新消费者类别 [10] Sam Altman AI预测 - Sam Altman预测未来5-10年AI将具备自主科研能力,真正发现新科学,o3推理能力已达博士水平,科学家效率提升3倍 [11] - OpenAI理想产品形态是"AI伴侣",通过多种界面融入生活,了解用户目标并主动提供帮助,而非局限于传统计算设备 [11] - 对Meta高薪挖人回应称其缺乏创新文化只会复制,认为人类会快速适应超级智能时代并创造新工作角色,AI不会造成严重就业威胁 [11] 斯坦福AI创业研究 - 斯坦福研究1500名员工和844项职业任务,发现41%的AI创业投资流向员工不需要的"红灯区"和"低优先区",投资与需求严重错配 [12] - 45.2%职业偏好"人机平等伙伴关系"模式,艺术设计领域仅17.1%任务欢迎自动化,员工最想自动化的是不享受且不担心失业的任务 [12] - AI时代价值技能发生倒置,"培训教授他人"从薪资第21位跃升至人类参与需求第2位,人际关系处理将比信息处理更有价值 [12]