Grok Imagine v0.9
搜索文档
Sora 2引爆文生视频赛道,市场年均增速20%,机构建议关注三大方向
36氪· 2025-10-11 11:09
产品技术升级 - OpenAI推出视频生成模型Sora 2的重大升级,新版本在物理准确性、逼真度、可控性方面均有提升,并实现同步生成音频和对话的能力[1] - Sora 2被定义为视频生成领域的GPT-3.5时刻,在物理运动、人物塑造、跨镜头一致性控制及多模态协同能力方面取得突破,支持多镜头切换和人物口型与发音精准对齐[3] - 竞争对手xAI推出Grok Imagine v0.9,支持从静态图像转化为动态视频并集成背景音乐与对话;谷歌Veo 3.1能生成8秒720p含音轨视频,行业竞争加剧[3][4] 市场反应与表现 - Sora 2上线后不到五天下载量突破100万次,增长速度超过ChatGPT[3] - 相关概念股逆势上涨,初灵信息涨12.94%,开普云涨4.52%,视觉中国涨3.11%[1] - 2024年AI视频生成全球市场规模为6.15亿美元,预计2025年达7.17亿美元(同比增长17%),2032年有望达25.63亿美元,2025-2032年复合增长率为20%[6] 产业链与商业应用 - 文生视频行业形成“模型能力-用户场景-商业变现”完整链路,以“数据飞轮+社交网络”构建护城河[6] - AI视频生成技术从辅助创作迈向自主生成,影视、广告、游戏等行业将受益于降本增效,并催生新的商业形态[8] - 机构看好三大投资主线:算力需求爆发与架构多元化、AIoT终端(AR眼镜/人形机器人/AI手机)放量、AI+视频在金融/医疗/教育场景的飞轮效应[8] 国内公司布局 - 汉王科技在多模态识别、文本理解等技术上深耕,形成智能终端产品和行业解决方案[6] - 视觉中国与智谱清影、通义千问合作,将光厂创意平台接入文生视频API,2025年上半年视觉内容与服务营收3.99亿元(同比增长0.05%)[6] - 风语筑在数字人驱动、文生文、文生图等场景引入AIGC技术,并积极探索文生视频、图生视频等生成式3D内容场景[7]
马斯克硬刚 Sora,实测 Grok 最新视频生成:快到飞起,但一言不合就脱衣服
36氪· 2025-10-11 09:44
Grok Imagine v0.9产品特性 - 核心亮点是生成速度极快,提供无限滚动的图片流并可迅速转换为视频[1][4][6] - 提供独特的“火辣模式”,在处理大尺度创意时展现出离经叛道的魅力[1][2] - 支持三种输入方式:文本提示词、上传图片和绘制草图[6][12] - 视频生成提供四种类型:火辣模式、趣味模式、正常模式以及自定义提示词[8] - 当前版本生成的视频规格为5秒时长、464×688分辨率、16fps帧率[18][19] - 目前没有直接的文本到视频生成功能,但用户可通过上传纯黑图片并输入提示词的方式实现类似效果[12][13][16] 公司战略与行业愿景 - 公司宣称目标是在2026年底前使用Grok制作出一部值得一看的电影[1] - 公司计划在2026年底前发布一款强大的AI生成视频游戏,并已开始招聘“视频游戏导师”[19][23] - 公司认为最大胆、最惹眼的方式是参与AI视频生成较量的关键策略[1][38] - 行业观点认为AI提示能让小型开发团队制作出《塞尔达传说:旷野之息》规模的游戏,解锁全新类型和体验[37] 技术能力与市场反响 - 对比八月份的v0.1版本,v0.9在画面质量、动态效果及音频生成方面有较大升级[2] - 产品擅长处理各种运镜方式、相机角度以及摄影风格,在延时摄影、俯视、广角等场景表现出色[12] - 社交媒体上充斥着大量由该工具生成的不雅视频,为产品带来大量话题度,但也掩盖了其他创意应用[11] - 产品存在明显的AI偏见,例如在“火辣模式”下倾向于将男性身材转换为女性形象[11] 人力资源与运营支持 - 公司为“视频游戏导师”职位开出45美元/小时至100美元/小时的兼职工资[34] - 该职位要求具备游戏设计经验,特别是在独立游戏开发方面,并需展示项目作品集[26][29] - 职位地点可选择在加州帕洛阿尔托(需每周办公室工作5天)或完全远程[32][36] - 公司明确表示无法提供签证支持,且目前无法在美国怀俄明州和伊利诺伊州招聘[33][36]
马斯克硬刚 Sora!实测 Grok 最新视频生成:快到飞起,但一言不合就脱衣服
搜狐财经· 2025-10-11 05:43
Grok Imagine v0.9产品更新 - 马斯克旗下xAI公司于10月5日发布Grok Imagine v0.9版本,距离OpenAI发布新视频模型仅两天[1] - 新版本在画面质量、动态效果及音频生成方面较8月的v0.1版本有较大升级[2] - 核心亮点包括生成速度极快,支持图片无限滚动实时生成,图片转视频过程几乎无需等待[4][6] - 提供文本提示词、文件上传、草图绘制三种视频生成方式,其中文本生成需先产生图片流再转换为视频[6][8][15] - 目前生成的视频时长仅为5秒,分辨率为464×688,帧率为16fps,而标准电影帧率为24fps[20][21] - 产品尚未提供直接文本到视频生成功能,但用户可通过上传纯黑图片并输入提示词实现类似效果[16][19] 产品特色功能 - 提供"火辣模式"(Spicy Mode),在处理大尺度创意时展现离经叛道特性,输入"Spicy"提示词可使人物脱衣[1][10][11] - 除火辣模式外,还提供趣味模式、正常模式及自定义提示词选项[8][10] - 图片上传和涂鸦生成视频时默认不提供火辣模式,但通过自定义输入"Spicy"仍可激活该功能[10][11] - 产品存在明显AI偏见,当输入"Spicy"提示词时倾向于将男性形象转换为女性[11] - 社交媒体上涌现大量使用该工具生成的不雅视频,为产品带来高话题度但掩盖了其他创意应用[12][13] 技术能力表现 - 在处理复杂运镜技巧如希区柯克变焦时表现中规中矩,未能完全理解复杂摄影技巧[11] - 在延时摄影、俯视、广角、无人机视角及动漫风格、电影感视频生成方面表现出色[14] - 支持同时处理多个图片转视频任务,图片生成实现"边滚动边呈现"的流畅体验[6][8] - 涂鸦转视频功能支持多种颜色画笔,可将简单草图动态化[15] 公司战略规划 - 马斯克宣布计划在2026年底前使用Grok制作一部完整电影[1] - xAI游戏工作室计划在2026年底前发布AI生成视频游戏[21] - 公司正在招聘"视频游戏导师"职位,时薪45-100美元,负责训练AI游戏设计能力[21][25][36] - 招聘要求包括游戏设计经验、AI生成内容评估能力,优先考虑独立游戏开发背景[28][31][33] - 职位提供办公室(帕洛阿尔托)和远程两种工作方式,但无法提供签证支持[34][38]
巨头激战文生视频领域 三大投资主线浮现
中国证券报· 2025-10-10 22:03
行业竞争态势 - OpenAI发布Sora App和Sora2模型,Sora App在美区iOS平台免费应用排行榜迅速攀升至第三位,被定义为“视频领域的GPT-3.5时刻”[2] - xAI推出Grok Imagine v0.9模型,支持从静态图像直接转化为动态视频并集成音效,是自今年7月v0.1版后的首次重大迭代[3] - 行业竞争全面升级,Grok Imagine v0.9直接对标并挑战OpenAI的Sora2,拉开全能型AI视频生成器竞争的序幕[3] 技术突破与产品特性 - Sora2模型在物理运动、人物塑造等方面取得巨大突破,能精准还原复杂运动、具备跨镜头一致性控制能力以及多模态协同能力[2] - Grok Imagine v0.9相较前版在视觉质量、运动流畅度和音频生成方面实现升级,让普通用户也能轻松导演专业级短片[3] - AI视频生成技术正由辅助创作迈向自主生成阶段,模型在时序连贯性、角色稳定性、光影控制及语义理解等方面持续突破[4] 市场影响与资本表现 - 产品发布在资本市场激起涟漪,A股市场初灵信息10月10日大涨12.94%,开普云涨超4%,视觉中国、科大智能、海康威视等跟涨[1] - 文生视频应用行业发展形成“模型能力-用户场景-商业变现”的完整链路,并以“数据飞轮+社交网络”构建双重护城河[1] - Sora2展示文生视频模型性能提升远未达上限,AI视频有望从业余娱乐创作向商业化创作拓展,具备潜在商业化空间[4] 产业应用与商业前景 - 随着算法与算力成本优化,影视、广告、游戏等行业将降本增效,创新的AI应用商业形态及产品有望涌现[4] - AI让内容板块迎来生产新范式,数字营销板块、社区平台领域值得关注,新供给将推动传媒走向智媒方向[4] - AI+视频成为拉动流量并快速变现的最佳赛道,C端流量爆发将反哺B端效率提升,带动金融、医疗、教育出现“飞轮效应”[5] 投资主线与产业链机会 - 投资主线一:AI视频规模化落地将带动算力需求爆发与架构多元化,建议围绕“AI芯片及元器件-设备-绿电-运营”四环节做配置[5] - 投资主线二:AIoT推动智能终端向“自主决策体”跃迁,AR眼镜、人形机器人、AI手机三大品类预计2025年起进入快速放量期[5] - 投资主线三:OpenAI模型与产品持续迭代将助推其估值上涨,其带动的相关企业也有望受益[4]
巨头激战文生视频领域三大投资主线浮现
中国证券报· 2025-10-10 20:57
行业竞争态势 - OpenAI发布Sora App和Sora2模型,Sora App迅速攀升至美区iOS免费应用排行榜第三位,被定义为视频领域的GPT-3.5时刻,构建AI创作加社交互动的新生态 [1] - xAI推出Grok Imagine v0.9模型,支持从静态图像直接转化为动态视频并集成音效,是自7月v0.1版后的首次重大迭代,在视觉质量、运动流畅度和音频生成方面实现升级 [2] - 业内认为Grok Imagine v0.9的推出是战略性产品重塑,将直接对标并挑战OpenAI的Sora2,拉开全能型AI视频生成器竞争的序幕 [2] 技术突破与模型能力 - Sora2模型在物理运动、人物塑造等方面取得巨大突破,能精准还原复杂运动、具备跨镜头一致性控制能力以及多模态协同能力,可同步生成环境音和实现口型对齐 [2] - AI视频生成技术正由辅助创作迈向自主生成阶段,模型在时序连贯性、角色稳定性、光影控制及语义理解等方面持续突破 [2] - Sora2展示了文生视频模型性能提升远未达到上限,AI视频有望从业余娱乐创作向商业化创作拓展 [3] 市场表现与资本影响 - A股市场相关公司出现上涨,10月10日初灵信息大涨12.94%,开普云涨超4%,视觉中国、科大智能、海康威视等跟涨 [1] - OpenAI模型与产品持续迭代将助推OpenAI估值上涨,其带动的相关企业也有望受益 [3] - 文生视频的快速发展将带动算力和存储需求,有望提振相关领域的投资情绪 [3] 商业化应用与产业链影响 - 文生视频应用行业发展形成模型能力-用户场景-商业变现的完整链路,以数据飞轮加社交网络的双重护城河巩固领先地位 [1] - 随着算法能力与算力成本优化,影视、广告、游戏等行业将降本增效,创新的AI应用商业形态及产品有望涌现 [2] - AI让内容板块迎来生产新范式,数字营销板块、社区平台领域也值得关注,新供给将推动传媒走向智媒方向 [3] 投资主线与机会 - 投资主线一:受益于AI视频规模化落地,算力需求将呈现爆发与架构多元化趋势,带动单位算力需求曲线长期向上,建议围绕AI芯片及元器件-设备-绿电-运营四环节做超长周期配置 [4] - 投资主线二:AIoT推动智能终端从数据采集器向自主决策体跃迁,入口价值凸显,预计AR眼镜、人形机器人、AI手机三大品类2025年起将复制新能源汽车渗透率曲线进入快速放量期 [4] - 投资主线三:AI加视频成为拉动流量并快速变现的最佳赛道,C端流量爆发将反哺B端效率提升,带动金融、医疗、教育三大场景出现数据-模型-收入的飞轮效应 [4]