多模态生成
搜索文档
刚刚,千问App把谷歌和OpenAI的「付费绝活」塞进了手机,还免费?
机器之心· 2025-12-02 05:07
千问App核心功能更新 - 千问App正式接入阿里两大顶级视觉模型Qwen-Image和Wan 2.5,将工业级AI视觉生成能力整合至移动端[1][4] - 此次更新旨在打破技术门槛,使普通用户无需代码知识或复杂部署即可在手机上使用顶尖的多模态AI模型[4][73] - 更新深度整合了文生图、图像编辑、图生视频、原生音画同步等能力,在单一应用内实现了多模态工作流的无缝串联[47][74] Qwen-Image模型能力 - 模型核心突破在于强大的视觉逻辑理解能力,能够理解几何空间关系,在处理家居摆放等涉及透视和物体关系的指令时表现出色[9][14] - 展现出卓越的主体一致性保持能力,在宠物图像替换、多图融合等高难度编辑任务中能精准保留主体特征,避免身份崩坏[18][22][65] - 在Hugging Face等开源社区备受关注,Qwen-Image-Edit及其变体总下载量已突破300万次,是平台上最热门的图像模型之一[58][72] - 引入了语义与外观双重编辑机制,既能进行像素级修补,也能实现语义重构,在多项图像生成和编辑基准测试中达到SOTA性能[62][64] Wan 2.5模型能力 - 作为国内少有的具备原生音画同步能力的视频生成模型,其采用原生多模态架构,可同时处理文本、图像、视频和音频信号[36][68][69] - 能够基于画面场景推理生成匹配的音乐,实现对口型、音画卡点等高难度操作,使AI视频生成进入视听一体新阶段[43][70][76] - 模型可直接在千问App内调用,用户无需在不同工具间切换即可实现从静态图像到有声视频的一站式创作[47][49] 多模态工作流整合 - 千问App解决了AI视觉生成领域的“工具孤岛”问题,用户可在同一对话框内无缝串联调用Qwen-Image和Wan 2.5等顶尖模型[46][47] - 实现了从文生图到图生视频的流畅创作体验,例如生成《疯狂动物城》角色图像后可直接将其转化为带有对话和音效的视频[48][49][51] - 这种深度整合降低了创作门槛,用户无需连接复杂节点或使用专业软件,通过自然对话即可实现“所说即所得”的创作效果[55][75] 行业技术地位 - 阿里已构建起覆盖文生图、图像编辑、文生视频、音画同步等核心赛道的多模态生成模型生态,模型在全球处于第一梯队[72] - Qwen-Image在开源社区长期霸榜,而Wan 2.5在音画同步等用户体验方面甚至超越了海外闭源顶流模型[3][72] - 此次更新是公司在多模态领域长期技术积累的集中释放,将分散在代码仓库中的专业能力转化为普通用户可轻松使用的产品[73][74]
快手程一笑:可灵AI将重点聚焦AI影视制作场景 视频生成赛道仍在早期
证券时报网· 2025-11-19 12:57
可灵AI业务表现 - 2025年第三季度可灵AI营业收入超过3亿元 [1] - 可灵AI全球用户规模突破4500万,累计生成超2亿个视频和4亿张图片 [1] - 2025年9月底推出2.5 Turbo模型,在文本响应、动态效果、风格保持、美学质量等多个维度实现大幅提升 [1] 视频生成赛道竞争格局 - 视频生成赛道涌现出来自互联网大厂与创业公司等众多参与者,行业仍处在快速技术迭代和产品形态探索的早期阶段 [1] - 行业竞争加速技术进步,推动视频生成技术更好地满足用户需求,渗透更多应用场景 [1] - Sora 2等产品将视频生成与社交互动深度融合,C端消费级应用的落地进程明显加快 [2] 可灵AI未来战略方向 - 公司愿景是"让每个人都能用AI讲出好故事",聚焦于AI影视创作这一核心目标 [2] - 迭代方向围绕技术领先性与产品想象力双线推进,结合多模态交互理念持续升级基础模型与产品能力 [2] - 当前主要精力面向专业创作者以提升使用体验和付费意愿,同时保持在C端应用场景的探索,未来将技术与社交互动结合以加速商业化 [2] AI在快手的整体应用 - AI大模型在快手内部深度赋能内容与商业生态,并显著提升内部组织与研发效率 [2] - 公司正构建以用户需求为核心、立足现有业务场景的AI技术与应用体系,赋能内容生态、商业生态和组织基建 [3] - 从AI技术创新到应用落地,再到营收增长的良性循环正在公司内部形成,全方位的AI应用生态使公司具备更强的市场适应性和增长潜力 [3]
重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」
机器之心· 2025-10-31 03:01
文章核心观点 - 提出了一种全新的视频到音频生成框架VAFlow,其核心创新在于摒弃了传统的从噪声生成音频的范式,转而实现从视频分布到音频分布的直接映射 [6][8] - 该框架在音频生成质量、语义对齐与同步精度上取得了显著突破,并在多项指标上超越了现有技术 [6][24] - 该方法为多模态生成领域提供了新的思路,并展现出良好的可扩展性 [21][29] 技术背景与现有挑战 - 视频生成音频任务要求模型理解视频语义并在时间维度上精准对齐声音与动态 [4] - 早期方法依赖音频离散化表示,会限制音质上限;近期主流扩散模型或流匹配架构存在多对一映射和一对多映射的天然瓶颈,导致训练难度大、生成质量不稳定 [5] VAFlow框架设计 - 框架由两个关键模块组成:跨模态对齐自编码器,用于解决视频与音频在时间长度和特征维度上的不匹配问题;视频驱动的流匹配生成器,直接在视频与音频分布间学习最优传输路径 [13] - 采用Diffusion transformer架构,并保留交叉注意力层以持续融合原始视频特征,支持无分类器引导 [10] 视频先验的优越性验证 - 通过统计特性对比,视频先验与音频潜空间的对齐度显著高于高斯先验:均方误差从1.94降低至0.93,中心核对齐度从0.11提升至0.59 [14][15] - 可视化分析显示,视频先验在空间结构上更贴合目标模态,能减少跨模态传输的"弯路" [16][18] - 在生成质量上,视频先验的条件弗雷歇距离为88,无条件为136,均优于高斯先验的103和263 [14] 性能对比与基准测试结果 - 在相同配置下,VAFlow最终取得的弗雷歇距离指标最低,表明其生成音质最优 [20] - 在VGGSound数据集上的测试表明,VAFlow在音频生成质量相关指标上全面超越现有SOTA模型,例如在使用CLIP视觉特征时,弗雷歇距离降至87.7,优于其他方法 [24] - 在时序同步和语义相关性方面,VAFlow也达到了与SOTA相当的效果,同步准确率最高达96.3% [24][25] 可扩展性与应用前景 - 随模型规模增大,VAFlow性能保持持续提升,显示出良好的可扩展性 [21] - 该方法为构建通用跨模态生成基础模型提供了新思路,未来可探索在语音、音乐等更广泛音频领域的应用 [29]
阜博集团20251009
2025-10-09 14:47
涉及的行业与公司 * 行业涉及生成式人工智能、多模态大模型、视频内容创作、版权保护与管理、算力与芯片、社交媒体平台[2][5][6] * 公司明确提及阜博集团[1][7][17][22]及其产品Dream Maker[23]和Vivo Max[23] 其他提及的公司包括Sora/Solo[2][12]的开发方 OpenAI[10][15] 以及NVIDIA[2] AMD[10] 三星[10] 美光[10] 微软[10] 美泰[11][13] Snap[15] 迪士尼[35][37] 华纳[14][39] 环球[39] 派拉蒙[14] YouTube[20][29][30][31] 核心观点与论据 Sora 2的技术突破与市场反响 * Sora 2是生成式AI的新里程碑 在多模态生成(视频、音频同步)方向斜率最高 在生成效果、画面控制、物理bug概率、时长和清晰度等方面显著提升[2][5] * Sora 2以独立APP形式推出 登上iOS热榜第一名 首周前两天下载量达14万次 超过当年ChatGPT水平[2][12] * 初期用户可免费生成100个视频 后因用户热情高涨调整为免费30次 并对涉及知名IP的提示词进行限制[2][12] 对算力产业链的影响 * 多模态视频模型需要更高计算能力 与大语言模型相比 对HBM需求极高 对NVIDIA系列CUDA和NCCL需求相对较少[2][6][9] * Diffusing Transformer技术核心是内存受限问题 需要尽可能大的HBM或未来的DDR5支持[2][9] * 赛美奥特曼、OPI、AMD等公司正积极推动HBM发展 AMD以较低毛利率向OpenAI、微软等提供大量HBM3D芯片[10] * 视频推理需求增长将带动老款GPU的算力租赁需求 为海外租赁公司带来商机[11] 版权保护规则的演变与阜博集团的机遇 * 版权规则从避风港原则(通知移除)转变为红旗原则(主动同意) 要求平台主动确保内容未获授权不得使用[19] * 生成式AI降低了UGC内容创作成本 增加了对版权使用的需求 推动阜博集团活跃资产数增长 今年上半年该趋势已显现[22] * 阜博集团认为SORA在海外市场爆发将显著提升其业务增量 尤其是在版权保护领域[7][17] * 阜博集团自2005年开始应用指纹技术 通过逐秒逐帧提取特征进行比对 并为好莱坞大型内容方提供二次创作侵权证据 技术储备能快速响应市场需求[27] AI生成内容(AIGC)的现状与趋势 * AI生成内容在阜博集团内容中占比显著提升 基于多模态大模型的发展分为伪真续写、AI辅助制作等阶段[4][25] * 伪真续写类型目前占活跃资产的3% 活跃资产定义为单条视频月均收入达到两三美元[25] * 预计未来大部分(七八成)创作者将使用AI辅助制作视频 对社交媒体变现有强烈需求[4][25] * 纯原创AI生成内容越来越优质 难以通过传统渠道发行 找到合适的社交媒体变现服务商是必然选择[27] 商业模式与合作伙伴展望 * Sora平台未来可能与版权方达成和解 通过支付费用获取IP使用权 类似YouTube在2008-2009年后的发展路径[29][30] * Solo二代未来可能在与IP所有方(如美泰)、内容创作领域、熟人社交平台等方面展开合作[13] * 好莱坞巨头(迪士尼、华纳、环球)正在逐步开放与AI新媒体合作 对流媒体和社交媒体的态度越来越开放[39] * 苏拉兔APP基于IP元素进行创作 支持众创经济 有潜力成为新的短视频平台[40][41] 阜博集团的业务进展与预期 * 公司推出Dream Maker平台 聚合多模态大模型能力生成内容 并直接进入确权和变现流程 目前主要在北美进行小范围邀请制测试[23] * 公司通过0利息可转债方式完成16亿港元融资 用于偿还数千万美元债务并增加现金储备 支持后续研发和团队扩张[34] * 预计到12月31日 活跃资产中AI相关内容将呈现高速增长趋势 今年收入目标有信心完成 2026年保持高增速 2027年预计有重大爆发[33] 其他重要内容 * 数字时代IP使用的新模式具有碎片化传播和众创特点 允许以元素为单位进行授权 例如《堡垒之夜》和Daft Punk联动的数字音乐会展示了知名IP在创新场景中的价值[18] * 确保分账模式数据准确性需要可信的第三方服务 需具备找到复杂使用场景中版权的能力 且数据必须得到权利人信任[21] * 阜博集团作为中立第三方 在版权确权和分账问题上具有重要价值 帮助版权方解决问题[44] * 迪士尼等传统娱乐巨头若更开放地对待数字形态授权 将有助于扩大IP衍生业务收入[37][38]
登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式,在视频与激光雷达指标上达到SOTA水平
机器之心· 2025-09-28 04:50
技术突破 - 提出业内首个无需占用网格(OCC)引导的多模态图像-点云联合生成框架Genesis 通过两阶段架构实现逼真的自动驾驶场景生成 第一阶段基于DiT扩散模型学习环视图特征 第二阶段转换到鸟瞰图特征空间并结合条件学习点云特征[2][4] - 引入DataCrafter模块 基于视觉语言模型(VLM)提供场景级与实例级结构化语义描述 通过多视角一致性处理和冗余消除生成层次化场景描述 包括全局场景语境和物体实例的类别 边界框及详细描述[10][13][18] - 在nuScenes基准测试中达到当前最先进水平 视频生成指标FVDmulti为83.10 FIDmulti为14.90(无首帧条件) LiDAR生成指标Chamfer distance在1秒预测时达到0.611 较之前最佳结果提升21%[4][26][27] 架构设计 - 视频生成分支采用3D-VAE编码与DiT骨干网络 通过注意力机制融合场景布局和语言描述 创新性引入YOLOv8x-Pose检测行人姿态增强动态场景语义表达[19] - 激光雷达生成分支通过点云自动编码器将稀疏点云体素化为BEV网格 采用Swin Transformer压缩特征 结合NeRF渲染模块重建点云 并通过时空扩散模块集成跨模态语义条件[23] - 通过LSS算法将RGB图像转换为BEV特征作为点云生成条件 强化模态间一致性 无需依赖占用网格或体素等中间表示[10][23] 性能表现 - 在无首帧条件设定下 FVDmulti指标为83.10 优于DriveDreamer-2的105.10 在有首帧条件设定下 FVDmulti进一步降至16.95 与MiLA的18.20相当[26] - LiDAR生成在3秒预测时Chamfer distance为0.633 较HERMES的1.17降低45% 在真实图像和生成图像条件下均保持优异性能[27] - 下游任务测试显示 生成数据使BEVFusion 3D目标检测的mAP提升0.91至67.78 NDS提升1.48至71.13 多模态联合生成带来最高增益[29][30] 应用价值 - 解决现有方法依赖昂贵OCC标签的问题 降低工业应用成本 同时突破单模态生成局限 实现视觉与几何模态的深度协同[7][8] - 结构化语义引导生成过程提升输出可控性和可解释性 生成场景具备高度时空连贯性与语义保真度 满足高阶自动驾驶数据需求[10][22] - 为自动驾驶提供多样化 高拟真度的合成数据 支持3D目标检测等下游感知任务性能提升 证明多模态生成的互补优势[30]
刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元
机器之心· 2025-08-21 13:08
多模态AI视频生成技术进展 - 多模态生成是AI未来发展方向,视频生成技术实现全链路覆盖:文字/语音→图像→视频,支持图片上传生成带音效视频并一键分享[1][2] - 百度蒸汽机2.0实现人物口型、表情、动作毫秒级同步,国产AI视频进入"有声有色"新阶段,运镜达到专业导演水准[4][5][6] - 技术突破包括时序对齐(口型与语音毫秒级同步)、多模态特征融合(语调对应微表情)、长时序连贯性、环境音效匹配及多角色交互精准定位[31] 百度蒸汽机2.0产品矩阵与商业化 - 推出Turbo版(720p/5s)、Lite版(轻量高效)、Pro版(1080p/电影级)、有声版(720p/5-10s音画一体)四大版本,全系价格仅为竞品70%,Turbo版5秒视频限价1.4元[8][10] - 通过百度搜索、APP及"绘想"平台开放体验,支持JPEG/PNG/WEBP格式输入,可添加背景音,实测显示单人吃播/多人对话/侧脸场景均表现自然[12][15][16][24] - 在VBench I2V评测中1.0版以89.38%总分全球第一,2.0版在指令遵循、运镜能力、叙事流畅度显著提升[32][33] 核心技术架构创新 - 首创LMMP(Latent Multi-Modal Planner)模型,通过扩散架构实现角色身份/台词/情感/互动的自动规划,保证多角色交互自然度与一致性[39] - 采用海量中文多模态数据训练,完成内容/人声/台词/环境音的信号抽取与对齐,构建专业镜头语言数据集[36][37] - 端到端训练音视频一体化系统,规划层与生成层相互校正,提升语义逻辑准确性,未来将拓展长视频生成技术[39][40] 行业应用与生态协同 - 模型深度融入百度搜索/内容/商业生态,降低创作门槛使普通用户可生成专业级视频,企业可低成本快速产出营销素材[42] - 好莱坞视效团队运用该技术,将2分钟科幻短片制作成本从传统上百万元降至330元,效率提升显著[44] - 开创应用驱动研发范式,形成"场景催生模型-模型反哺业务"闭环,强化搜索表现力与商业想象力[42]
腾讯混元亮相WAIC 2025,发布3D世界模型及系列开源模型
观察者网· 2025-07-27 05:22
腾讯混元3D世界模型1.0发布 - 公司正式发布并开源混元3D世界模型1.0,这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型 [1] - 该模型融合全景图像合成与分层3D重建技术,支持文字和图片输入,几分钟内即可生成高质量、风格多样的可漫游3D场景 [1] - 过去需要专业建模团队数周才能完成的3D虚拟世界构建,现在大幅简化 [1] 技术特点与创新 - 采用"语意层次化3D场景表征及生成算法",将复杂3D世界解构为不同语意层级,实现前景与背景、地面与天空的智能分离 [9] - 输出标准化的3D Mesh资产,兼容Unity、Unreal Engine、Blender等主流工具 [9] - 在文生世界、图生世界的美学质量和指令遵循能力等关键维度全面超越当前SOTA开源模型 [13] 应用场景 - 游戏开发:极大简化3D场景构建流程,输入简单指令即可快速生成包含建筑、地形、植被的完整3D场景 [3] - VR应用:生成的场景可无缝导入Vision Pro等虚拟头显,带来沉浸式体验 [7] - 数字内容创作:普通用户无需建模经验,通过一句话或一张图即可快速生成360°沉浸式视觉空间 [7] 模型生态与开源计划 - 除3D模型外,公司还披露了包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的一系列开源计划 [1] - 将在月底开源0.5B、1.8B、4B、7B混合推理模型,以及多模态理解模型混元-large-vision和游戏视频生成框架混元GameCraft [16] - 混元3D系列模型社区下载量超过230万,已成为全球最受欢迎的3D开源模型 [18] 模型性能与行业地位 - 混元3D 2.5模型质感大幅提升,在上海人工智能实验室6月评测中排名全球第一 [16] - 全球首个AI设计智能体Lovart已首选调用混元3D模型的API接口 [16] - 知名3D打印公司拓竹科技旗下的模型平台MakerWorld也已接入混元3D模型 [16] 基座模型进展 - 混元旗舰模型TurboS保持每月一个版本的快速迭代,在全球大模型权威排行榜上稳居前列 [13] - 混元T1综合能力国内领先,在项目级代码生成、高难度数学推理、文本写作等方面表现突出 [14] - 多模态理解模型混元Vision在LMArena Vision全球榜单中获得国内榜首,中文能力稳居全球第一梯队 [14]
纳米AI一句话成片功能实测:从文字到视频只需等待
歸藏的AI工具箱· 2025-07-07 13:04
纳米AI视频生成功能 - 公司推出"一句话成片"功能,可直接通过文字提示生成完整视频,支持新闻介绍、科普视频、小说情节等场景,成功率极高[3] - 功能可自动生成详细分镜提示词,包括特效描述(如"手表在虚空中特效")和剧情钩子(如"诱导观看下一部分")[3] - 支持多模态工作流:先由Gemini分析爆款视频创意,再生成符合情景的新视频[4][5][6] 视频生成技术细节 - 生成流程分五步:图片提示词生成→口播音频合成→视频片段生成→字幕音乐添加→最终合成[11] - 关键技术突破包括输出结果自检修复机制、自动添加视频包装(字幕/文字贴图)[11][12] - 3D画风适配性强,尤其擅长戏谑诙谐风格,能直接在图片上生成中文文案如"以诚待人"[12] 产品应用场景 - 已实现职场讽刺类内容生成,如复刻《西游记》Vlog并融入现代职场吐槽[10] - 支持第一人称视角创作,如峨眉山猴子吐槽视频,生成详细分镜表(含景别/光线/角色神态描述)[9] - 当前语音限制为单音色,多角色语音匹配功能尚未上线[12] 行业趋势判断 - 2024年行业主线为代码生成和多模态生成,视频自动生成是最终阶段[14] - 技术加速源于LLM工具调用能力提升+视频/音频模型质量成本优化,国内Veo3类模型落地后将引发爆发增长[14] - 公司产品已实现完整视频生成Agent,通过PC端"深度搜索"或APP端"超级搜索"触发(关键词需含"宣传片/纪录片"等)[13]
冠军队独享200万,进决赛就有直通offer,腾讯广告算法大赛报名开启
机器之心· 2025-06-18 06:09
多模态生成在广告行业的应用 - 多模态生成技术已在广告行业成功试水并带来实际收益,部分企业正加大投入以变革广告内容生产与分发流程[3] - 生成式AI在广告领域的渗透从2022年起步,目前已覆盖文案生成、数字人卖货、图片/视频创作等场景,显著提升生产效率[6][7] - 腾讯广告妙思平台整合商品混剪、数字人口播、图生图等技术,将AI应用扩展至审核、分发等全流程环节[7] 生成式AI驱动的广告推荐系统 - 传统广告推荐依赖判别式模型,存在负面样本定义不准确、内容库局限等问题[9] - 生成式推荐系统突破现有物品库限制,通过多模态数据处理能力生成个性化内容,但面临新用户冷启动、实时性等挑战[10] - 腾讯广告算法大赛聚焦全模态序列生成式推荐(AMGR),要求基于用户多模态行为数据预测广告交互,推动技术前沿探索[14][16] 腾讯广告算法大赛的价值 - 提供脱敏真实业务数据,帮助参赛者理解用户行为复杂性并培养商业思维[17][18] - 总奖金池达360万元,冠军团队独享200万元,并开放实习Offer及转正机会[19][21] - 往届参赛者入职后快速成长,如Bid Shading算法实现大盘收入提升3%[22] 行业动态与人才需求 - 腾讯2025Q1营销服务收入同比增长20%至319亿元,AI技术升级成为核心驱动力[26] - 广告行业对生成式AI人才需求上涨,大赛为在校生提供零基础切入机会[27][28] - 报名面向全球高校学生,截止日期为7月31日,优胜者可申请深圳人才政策支持[23][29]
中国AIGC企业投融资风向:早期项目受资本热捧
搜狐财经· 2025-06-14 09:35
行业现状 - 中国AIGC行业投融资呈现早期化趋势 2025年行业融资总额达亿元人民币 同比增长60% [1] - 天使轮融资事件占比最高 达60% 远高于A轮和战略投资 [3] - 2025年成立的AIGC企业占比达60% 如月之暗面 生数科技等成立不足2025年即完成亿元级融资 [4] 资本布局特点 - 资本更倾向于在技术验证期介入 以获取更高溢价空间 [3] - 头部资本重点关注具有顶尖学术背景或大厂核心团队出身的创业者 [4] - 国内初创企业更多聚焦应用层工具链 如AI设计 办公效率工具等 [6] 驱动因素 - 技术迭代加速 底层大模型研发门槛高且投入周期长 OpenAI融资超百亿美元 [6] - 2025年AIGC市场规模预计将突破万亿 资本看好多模态生成 垂直行业解决方案等细分领域 [7] - 产业资本深度参与 腾讯 百度 视觉中国等通过战投布局生态 [9] 商业化与竞争 - 投资人要求早期项目展示变现路径 如真格基金强调需看到产品化雏形 华创资本直言必须赚钱 [11] - 2025年全球AIGC融资超千亿元 但国内占比不足60% 大量同质化项目可能导致资源浪费 [12] 未来趋势 - 投资重心向中间层延伸 当前60%融资集中在算法层 中间层如AI训练工具 数据标注平台有望崛起 [15] - 头部企业如月之暗面已启动海外用户增长计划 资本关注跨语言模型 本地化适配能力 [15]