可灵O1
搜索文档
AI漫剧产业前瞻:多模态技术突破与内容生产新范式
2025-12-11 02:16
行业与公司 * **行业**:AI漫剧(AI动画/短剧)内容生产与分发行业[2][15] * **公司**:巨量平台(一家提供AI视频生成技术、工具和服务的平台公司,服务于AI漫剧内容生产)[1][2][4][5][6] 核心观点与论据 技术能力与解决方案 * **技术基础**:平台早期基于Stable Diffusion开发,但已过时不再使用[2] 平台拥有自研的图像处理核心技术能力,包括使用CUDA、对开源模型进行微调,并借鉴国外先进模型(如nano banana 1/2、GPT)设计图片处理流程[2] * **一致性保障**:通过训练专属模型和要求用户提供多视图人物资产(如三视图、五视图、九视图),结合自身技术处理,以实现高质量的人物和场景一致性[1][4] 通过审核客户提供的人物资产(如要求包含面部特写及三视图)确保符合标准[5] * **问题解决**:通过精准服务每个客户案例,实时互动解决具体问题(如人物风格偏向写实的问题)[5] 通过培训和指导客户正确使用工具,使其能独立解决问题[5] * **数据资产优化**:对数据资产有明确标准(如要求大头照及三视图组合的人物特写),并提供详细指导(如利用PS、截图精修或图生图方式制作)[6] 通过深度交流和共创,与国内一线模型厂商合作,推动行业标准化[6] * **技术瓶颈**:目前视频生成中,人物、场景和物品的一致性对于画面还原最为重要,高精度还原要求物体位置正确且特性不变[6] 动作和运镜并非硬瓶颈,可通过结合模型能力与工程化工具很好实现[6] 真正难以突破的是写实短剧中的人物面部微表情及细微变化[7] * **工程化应用**:通过密集探讨和反馈,不断优化模型各维度性能[2] 评估模型优劣势,告知用户避免使用劣势功能,或尝试弥补短板,否则舍弃并寻求同类版本[2][10] 应用层面的核心能力在于知道如何更好地利用模型,包括资产管理、提示优化以及镜头使用等经验[11][12] 市场、模型与竞品 * **模型生态**:客户对模型具体来源无感,只根据平台指导操作[2] 各模型厂商各有优势,但没有一家能全面领先,各厂商在某一阶段某项功能上突出[2][8] * **模型评价**: * 微度的多参引领行业[2][8] * 海螺的大打斗场景有优势[2][8] * 火山C4GM 1.0 Pro曾经综合能力强,但很快被超越[8] * 快手推出多模态音画同步功能,阿里万象即将发布2.6版本加强音画同步[8] * 可灵O1的视频编辑功能(如替换人物)表现不错,但多帧生视频、图生视频等技术尚未达到上架标准[9] * Vidu Q1清晰度提升,但运动性能不如前代,市场反应不佳[10] * **版权来源**:剧本版权主要来源于三类:原创文学平台(如七猫、阅文、起点)、以前拍摄影视剧的公司、专门为大公司提供网文的写手公司[13] 当前阶段,大多数版权方倾向于自己商业化现有版权,而非进行版权交易[13][14] * **爆款率**:短剧爆款率约为5%(10部中1部成功),而漫剧爆款率可达60%以上(5部中有3部成功)[17] 爆款需具备优质剧本、精良制作和强大发行能力三要素[17] 商业模式与变现 * **主要分发渠道**:AI漫剧主要分发渠道是抖音,其次是快手、拼多多、支付宝、B站等平台,最后在海外平台(如TikTok、YouTube)分发[2][15] * **变现路径**: * **抖音**:首先进行限时发行,定价9.9元,持续1至2周,通过用户充值解锁观看[15] 第一轮结束后加大投放[15] 随后通过贴片广告变现(每集插入30秒广告)[15] * **其他平台**:在快手、拼多多、支付宝、B站等平台通过分成方式变现[15] * **成本与利益分配**: * **传统 vs AI成本**:传统方法制作一分钟漫剧情节成本从几万到几十万不等,使用巨量平台后可降至每分钟几百元[18] * **生产效率**:使用AI技术后,一个四人团队以前需要一个月完成80分钟作品,现在五人团队五天即可完成80到100分钟作品[18] 一个成熟动画师日产出从1-2分钟素材提升到8-10分钟,效率提高8-10倍[20] * **制作成本结构**:一部短剧制作成本约为7万元,其中巨量平台占2万元,配音费用约1万元,其余3至4万为人力成本[16] * **利润空间**:制作方将作品以10万至15万不等价格交给甲方,赚取差价[16] 目前一些客户通过制作一部短剧能赚取40%到80%的利润,有时甚至翻倍[16] 甲方可能还会提供收入分成[16] 其他重要内容 * **语音合成(TTS)**:用于漫画/动漫解说时效果可接受,但用于AI影视剧,目前全球最强的TTS技术仍无法达到要求,建议客户寻找第三方配音服务[13] * **动作控制重要性**:对于行业而言,动作控制的精细苛求(如为单个镜头拍摄500次)重要性有限,更多是满足导演个人需求,未来可以很好解决[7] * **行业阶段与竞争**:市场仍处于大量投入阶段,参与者不足,尚未对作品质量提出更高要求,但未来随着竞争加大,对精度和细节要求将逐步提高[19] 最成功的公司通过工具结合自身优势走在前列,新加入者模仿并扩产[19] * **发行周期**:漫剧具有卡通特性,其发行周期较长且渠道多元[2][15]
5天连更5次,可灵AI年末“狂飙式”升级
量子位· 2025-12-10 04:26
公司近期产品发布概览 - 12月初,公司在5天内密集发布了5次产品更新,包括全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型以及可灵数字人2.0等功能 [1][2] - 这一系列更新显著提升了生成式AI领域的竞争激烈程度 [2] 可灵O1模型的核心创新 - 可灵O1基于创新的多模态视觉语言交互理念,将所有生成和编辑任务融合于一个全能引擎,为用户提供从灵感到成品的一站式闭环创作流程 [3] - 视频O1模型打破了传统单一视频生成任务的边界,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务融合于同一引擎,解决了主体一致性和视频画面可控性等难题 [6] - 图像O1模型实现了从基础图像生成到高阶细节编辑的全链路无缝衔接,用户可通过纯文本生成图像,也可上传最多10张参考图进行融合再创作 [7] - 有行业人士将可灵O1评价为“视频界的Nano Banana” [4] 可灵2.6模型的“音画同出”能力 - 可灵2.6模型上线了里程碑式的“音画同出”能力,改变了传统AI视频生成“先无声画面、后人工配音”的工作流程 [10] - 该模型能在单次生成中,输出包含自然语言、动作音效以及环境氛围音的完整视频,极大提升了创作效率 [11] - 目前支持生成最长10秒的视频,语音部分支持中文和英文,更多语言及固定声线功能正在研发中 [12] - 该模型在音画协同、音频质量和语义理解上表现亮眼,能够支持说话、对话、旁白、唱歌、Rap、环境音效、混合音效等多种声音的单独或混合生成 [12][27] 技术性能与市场应用 - 根据公司内部测评,在“图片参考”任务上,可灵AI对Google Veo 3.1的整体效果胜负比为247%;在“指令变换”任务上,与Runway Aleph对比的整体效果胜负比达到230% [18] - 公司目前覆盖的企业用户数超过2万家,涵盖影视制作、广告、创意设计、自媒体、游戏、电商等诸多领域 [26] - 数字人2.0功能允许用户上传角色图,添加配音并描述角色表现,即可生成表现力生动的自定义数字人视频,视频内容最长可达5分钟 [27] 行业影响与发展愿景 - 自2024年6月正式推出以来,公司的每一次迭代都引发了业界的广泛关注和讨论,从早期案例到获得特斯拉创始人马斯克点赞,公司已成为视觉生成技术走向成熟过程中的关键角色 [20] - 公司高级管理层表示,其初心是让每个人都能用AI讲出好的故事,并希望这一天更快到来 [28] - 通过年末的系列更新,公司正朝着这一愿景加速迈进 [29]
激光雕刻机品牌xTool单日GMV破亿,Linkedin年收入首次突破10亿美元
新浪财经· 2025-12-09 13:47
文章核心观点 - 文章汇总了近期科技与出海领域的关键动态,涵盖非游戏应用、AI硬件与软件、电商及游戏等多个细分赛道,展示了行业在商业化、产品创新及市场趋势方面的最新进展 [1][9] 非游戏应用 - LinkedIn在2025年移动端消费者支出首次突破10亿美元,同比增长35%,其盈利能力强劲,9天收入即可超过X(原Twitter)一个月的表现 [2][10] - LinkedIn的每下载收入(RpD)从2020年的1.43美元大幅提升至2025年的12.40美元,五年增长近8.7倍,核心驱动力来自其Premium订阅权益的增强,包括AI求职工具和商业拓展功能 [2][10] AI硬件 - 谷歌发布了三项AI眼镜相关动态:三星Galaxy XR头显上线旅行模式、PC互联和虚拟形象新功能;与XREAL合作的首款搭载Gemini AI的消费级AR眼镜计划于2026年发布;谷歌Nano Banana图像编辑能力将融入AI眼镜 [4][13] - 与XREAL合作的Project Aura由谷歌负责软件与AI生态定制,XREAL负责硬件开发,该产品将支持上下文感知对话、设备控制、实时翻译和视觉搜索等功能 [4][13] AI软件与公司动态 - 交友应用Hinge推出AI功能“Convo Starters”,可根据对方照片或提示生成三条个性化开场建议,旨在提升用户互动,数据显示72%的用户在收到“点赞+留言”时约会意愿增长,留言可使匹配成功率提升一倍 [6][15] - 可灵AI为其模型“可灵O1”上线“主体库”和“对比模板”新功能,“主体库”支持用户上传参考图构建可复用元素(视频最多7个主体,图片最多10个主体)并配备AI补全多视图,“对比模板”可一键生成Before & After对比展示以辅助创作排版 [6][15] 电商 - 根据Scurri平台数据,在黑五/网一(11月28日至12月1日)期间,英国线上订单量同比增长15% [6][15] - 消费者更倾向于在网络星期一(Cyber Monday)下单,导致该日订单量较黑色星期五高出约70% [6][15] 游戏 - 一款名为「毛糸クラッシュ - パズル ドラゴンゲーム」的游戏登上日本iOS下载总榜第29位,较之前上升12位,该游戏月流水达到15万美元 [7][16] 消费级硬件品牌 - 消费级激光雕刻机品牌xTool在“黑五”和“网一”促销期间的GMV较去年同期增长约50%,并首次实现单日GMV突破1亿元人民币 [6][15] - xTool公司四年前全年销售额约为2亿元人民币,现已转型为专注于激光和打印类工具的DTC品牌,并宣布将旗下Makeblock和童心制物两大品牌统一整合至xTool品牌之下 [6][15]
腾讯研究院AI速递 20251209
腾讯研究院· 2025-12-08 16:01
微软开源轻量级实时TTS模型 - 微软开源0.5B参数的实时TTS模型VibeVoice-Realtime-0.5B,首包延迟仅300毫秒,支持流式朗读,发布12小时获得12.3K星标 [1] - 模型采用交错窗口架构支持长文本无卡顿朗读,最多支持4个角色自然对话,具备情绪识别与表达能力,长时上下文记忆可达90分钟 [1] - 模型同时支持中英文语音生成,在LibriSpeech和SEED TTS测试集上错字率约2%,说话人相似度达0.65以上 [1] 智谱开源多模态大模型GLM-4.6V - 智谱正式上线并开源GLM-4.6V系列多模态大模型,包括106B-A12B基础版和9B轻量版Flash,训练上下文窗口提升至128k tokens,价格相较GLM-4.5V降低50% [2] - 首次在模型架构中将Function Call能力原生融入视觉模型,实现“图像即参数,结果即上下文”的多模态工具调用 [2] - 在同参数规模下达到SOTA表现,9B版本整体超过Qwen3-VL-8B,106B参数版本比肩2倍参数量的Qwen3-VL-235B [2] 可灵O1推出主体库与对比模板功能 - 可灵O1推出“主体库”功能,支持上传多角度参考图构建专属角色、道具和场景,视频O1支持至多7个主体,图片O1支持至多10个主体组合 [3] - 新增AI补图功能,可根据一张主要参考图自动扩展更多视角并智能生成主体描述 [3] - “对比模板”功能一键整合多模态创作,实现Prompt、参考图、主体等所有输入与最终成品的同框对比 [3] 美团开源图像编辑模型LongCat-Image - 美团LongCat团队发布并开源6B参数LongCat-Image模型,在ImgEdit-Bench(4.50分)、GEdit-Bench中英文(7.60/7.64分)等图像编辑基准测试中达到开源SOTA水平 [4] - 采用文生图与图像编辑同源架构及渐进式学习策略,在中文文字生成方面ChineseWord评测以90.7分大幅领先,覆盖通用规范汉字表8105个汉字 [4] - 全面开源文生图多阶段模型和图像编辑模型,GenEval 0.87分、DPG-Bench 86.8分的表现使其在生图基础能力上具备强竞争力 [4] 腾讯发布混元2.0大模型并接入DeepSeek - 腾讯自研大模型混元2.0正式发布,采用MoE架构,具备406B总参数量(激活参数32B),支持256K超长上下文窗口 [5][6] - DeepSeek V3.2同步在腾讯生态内接入,重点提升推理表现与长文本生成质量,在公开推理类评测中能力达GPT-5水平,略低于Gemini-3 Pro [6] - 两大模型已在腾讯AI原生应用中上线,腾讯云同步开放API及平台服务,多款产品正在陆续接入 [6] 阿里发布多语言多方言TTS模型Qwen3-TTS - 阿里通义团队发布Qwen3-TTS新一代文本转语音模型,提供49种高保真角色化音色 [7] - 支持10种语言和9种中文方言,保留真实语调与地域口音 [7] - 在MiniMax TTS multilingual test set上平均WER表现优于竞品,韵律控制相比上一代有明显感知级提升 [7] 英伟达小模型在AGI测试中成本优势显著 - 英伟达4B小模型NVARC在ARC-AGI 2测试中以27.64%公开榜成绩力压GPT-5 Pro的18.3%登顶榜首,每任务成本仅20美分,约为GPT-5 Pro单任务成本的1/36 [8] - 采用零预训练深度学习方法,通过大规模合成高质量数据(320万+增强样本)和测试时微调技术,针对每个问题进行LoRA微调快速适应 [8] - 选用Qwen3-4B小参数模型通过对话式模板简化谜题理解,借助NeMo RL框架进行监督微调 [8] 普渡发布行业级自主导航四足机器人 - 普渡机器人正式发布行业级自主导航四足机器人PUDU D5系列,提供轮足/点足两个版本,搭载NVIDIA Orin与RK3588双芯片架构,总算力高达275TOPS [9] - 配备四目鱼眼相机与双192线激光雷达,实现厘米级精准定位和环境重建,可稳定承载30公斤负载,单次充电续航达14公里,整机防护IP67 [9] - 采用仿生轮足融合系统,最高速度可达5米/秒,具备30°斜坡攀爬与25厘米连续越阶能力,适用于多场景应用 [9] 关于大语言模型使用方法的观点 - 观点认为不应把大语言模型看作实体,而应视作模拟器,避免使用“你怎么看”这样的提问方式 [10] - 建议采用更有效的提问策略,让LLM引导或模拟多种视角,而非局限于单一AI人格 [11] - 强调模型的“你”是被刻意设计并硬加上去的,通过SFT和RLHF构建的复合人格本质上仍建立在Token模拟引擎之上 [11]
【数智周报】华为任正非:大量建设大模型是正确的探索,未来算力一定过剩;豆包手机助手触发微信账号强制下线?豆包、微信双方回应;亚马逊推出定制AI芯片Tra...
钛媒体APP· 2025-12-07 03:21
行业领袖观点与趋势判断 - 华为创始人任正非认为未来算力将过剩,当前大量建设大模型是正确探索,AI的重点在于应用而非发明,应着眼于未来3-5年在工农业、科技产业的应用[2] - 英伟达首席财务官科莱特·克雷斯反驳“AI泡沫论”,指出当前交付的AI芯片主要用于新增数据中心基础设施,全球经济正处于向AI数据中心转型的“早期阶段”,并预测到2030年全球AI投资将达3-4万亿美元[5] - 软银创始人孙正义表示,若非为募集资金投资OpenAI等项目,他“一股也不想卖”英伟达股票,是“哭着卖出”的[3] - 谷歌CEO桑达尔·皮查伊警告美国AI监管混乱,目前各州审议的AI相关法案超1000项,可能导致美国在全球AI竞争中落后[4] - AMD CEO苏姿丰认为对AI泡沫的担忧“有些被夸大了”,AI产业仍处于初期阶段,将需要大量芯片[8] - 英伟达CEO黄仁勋认为AI不会直接取代工作,而是会催生新的产业链与岗位,例如机器人制造、维护及“机器人服饰”行业[6] - 美团龙珠合伙人王新宇指出,2024年市场上关于中美AI差距的质疑已大幅减少,真格基金合伙人尹乐认为中美顶尖AI模型性能差距已缩小至半年[4] - 特斯拉CEO马斯克预言,AI将在三年或更短时间内终结美国“债务危机”,届时商品和服务产出增速将超过通货膨胀率[4] 算力基础设施与芯片动态 - 英伟达CFO透露,截至2026年,公司在Blackwell和Rubin AI芯片上的订单总额达5000亿美元,且尚未与OpenAI达成最终协议[22] - 摩根士丹利预测谷歌自研TPU芯片产量将爆发式增长,将2027年产量预期从300万块上调至500万块(增幅约67%),2028年从320万块上调至700万块(增幅120%),并预测2027年向第三方销售TPU可带来130亿美元额外收入[9][10] - 研究机构SemiAnalysis指出,谷歌AI基础设施优势在于系统级工程能力,其第七代TPU在总体拥有成本上对英伟达构成明显优势[11] - AMD CEO苏姿丰确认公司已获得向中国出口部分MI 308芯片的许可[29] - 云基础设施公司Vultr将投资超10亿美元新建数据中心,部署包含24000个AMD Instinct MI355X芯片的AI集群[31] - 英伟达以20亿美元入股新思科技,收购480万股(占股2.6%),成为其前十大股东[30] - 亚马逊云科技推出定制AI芯片Trainium3,其运算速度是上一代的四倍,与同等GPU系统相比可降低多达50%的AI模型训练与操作成本[27] - 优刻得发布新一代GPU虚拟化技术,可将单张GPU最小切分至10%,虚拟化损耗仅1%-3%,在7B/13B小模型推理场景下资源利用率最高提升10倍[13] - 中信证券研报指出,AI算力基础设施正向“超节点”架构跃迁,驱动交换芯片、光模块及高速线模组需求指数级爆发,国内AI算力投入较海外仍有巨大提升空间[44][45] 大模型进展与应用落地 - DeepSeek同时发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型,后者为长思考增强版并具备定理证明能力[11][12] - 摩根大通称DeepSeek V3.2发布标志着中国AI市场迎来第二波冲击,其API降价30%-70%,长上下文推理可能节省6-10倍工作量,利好云运营商、AI芯片制造商等生态参与者[52] - 华为聚焦AI应用探索,研究将大模型用于高炉炼钢(提前两小时预判铁水硅含量)、矿山作业、医疗(病理模型、远程诊断)等领域[3] - 阿里巴巴发布图片生成及编辑模型Qwen-Image新版本,并已首发接入千问APP[18] - 可灵AI发布全新多模态创作工具“可灵O1”,基于新的视频和图像模型[18] - AI初创公司Runway推出影片生成模型Gen 4.5,在第三方评测平台Video Arena排名第一,超越谷歌Veo 3和OpenAI Sora 2 Pro[24] - OpenAI被曝最快将于12月9日发布GPT-5.2,以应对谷歌Gemini 3等竞争压力,其CEO称该模型在推理能力上将领先于Gemini 3[28] - 中国首个作物“AI基因科学家”——“丰登·基因科学家”计划明年面向全球上线,已辅助发现数十个此前未被报道的作物基因功能[17] 企业合作与业务拓展 - 汇丰银行与法国AI独角兽Mistral AI达成战略合作,将在全行范围内部署生成式AI工具以提升自动化与效率[13] - OpenAI与埃森哲达成合作,埃森哲将为数万名专业人员配备ChatGPT Enterprise,并帮助OpenAI扩展企业级应用[21] - Anthropic与Snowflake达成2亿美元多年期协议,将在Snowflake平台上提供Claude大模型,以部署AI智能体[27] - 亿嘉和与华为云签署深化合作协议,作为华为云在具身智能领域全球首家深化合作伙伴,双方将联合打造云原生机器人产品及解决方案[18][19] - 亚马逊与谷歌合作推出多云网络服务,整合双方云互联技术,旨在提升连接速度与系统抗风险能力[25][26] - 苹果技术主管Yilun Chen离开苹果,加入特斯拉的Optimus人工智能团队[22] 资本市场与融资并购 - “国产GPU第一股”摩尔线程科创板上市首日高开逾468%,报650元/股,总市值近3055亿元,募集资金净额75.76亿元,为年内科创板最高[13] - 国产GPU龙头沐曦股份确定科创板发行价为104.66元/股,预计募集资金净额38.99亿元[20] - 人工智能初创公司Anthropic已启动IPO筹备工作,最早或于2026年上市,其近期私人融资谈判估值可能超过3000亿美元[26][27] - 芯片制造商Marvell第三财季营收14.4亿美元超预期,AI相关产品为主要增长驱动力,同时宣布以32.5亿美元收购半导体初创公司Celestial AI[23][41] - 云计算数据服务公司Snowflake第三财季营收12.1亿美元,同比增长29%[23] - 国内AI领域近期发生多起融资,包括:深度原理(超亿元人民币A轮)、他山科技(数亿元A3/A4轮)、清微智能(超20亿元C轮)、戴盟机器人(亿元级战略轮)等[32][33][35] - 海外AI领域近期融资活跃,包括:Supabase(1亿美元融资,估值50亿美元)、Black Forest Labs(3亿美元B轮,估值32.5亿美元)、Harvey(1.6亿美元融资,估值80亿美元)、Project Prometheus(获62亿美元巨额融资)等[36][37][39][40] 政策与区域发展规划 - 中央网信办公示2025年“人工智能+政务”规范应用案例拟入选名单,共14个案例[14] - 北京计划加强“人工智能+政务服务”统筹建设,强化全市政务领域大模型顶层设计,整合算力资源并制定应用管理办法[42] - 辽宁省“十五五”规划建议提出举全省之力发展人工智能核心产业,加快工业软件创新,构建覆盖算力、算法、数据、应用的产业生态[43] - 浙江省“十五五”规划建议提出打造人工智能创新发展高地,聚焦具身智能、智能驾驶等领域建设全国领先的核心产业集群[51] - 福建省计划构建全省算力一体化服务体系,探索面向港澳台、东南亚的“算力出海”模式[47] - 国家五部门发文鼓励地方利用算力券、模型券、数据券等方式,在算力、算法、数据等方面提供便利和优惠[46] - 2025算力产业生态高质量发展大会将于12月11日举行,计划发布《算力基础设施高质量发展行动计划(2026-2028)》,设定算力规模年均增长30%、总算力达300 EFLOPS、国产化率突破60%三大目标[53] 其他行业动态 - 瑞银证券报告认为现阶段中国出现“AI泡沫”的可能性不大,因领先AI开发商由母公司内部现金流支持,且互联网龙头资本支出务实,估计2025年合计资本支出约4000亿元,约为美国同业的十分之一[7] - 字节跳动豆包团队发布豆包手机助手技术预览版,正与多家手机厂商洽谈合作,并回应了关于系统权限与隐私安全的争议[14][15][16] - 清华大学成立具身智能与机器人研究院[19] - 中信证券研报指出太空算力走向现实,钙钛矿光伏技术有望成为重要的太空能源解决方案[48] - 联合国报告警告,人工智能管理差异可能加剧国家间不平等[49] - 工信部数据显示,前10个月中国软件业务收入125104亿元,同比增长13.2%[16] - 2025全球开发者先锋大会暨国际具身智能技能大赛将于12月12日至14日在上海举行[53]
东方证券:维持快手-W(01024)“买入”评级 目标价103.06港元
智通财经网· 2025-12-05 01:55
公司财务预测与估值 - 东方证券预测快手2025至2027年经调整归母净利润分别为204亿元、225亿元和259亿元 [1] - 维持基于2026年18倍市盈率的估值,对应合理价值为4048亿元人民币,折合4454亿港元,目标价为103.06港元/股,并维持“买入”评级 [1] 可灵O1模型核心功能 - O1是一个统一的多模态视频模型,将视频生成、修改、扩展等多种任务融合于单一模型,可一站式完成创作全流程 [1] - 模型具备深层语义理解能力,能基于上传的视频、图片或主体精准生成视频细节 [1] - 模型直接解决了后端视频一致性问题,在多视角和镜头变化中能保持主体特征稳定 [1] - 模型支持3至10秒的自由叙述时长,可满足从C端社交媒体分享到B端专业创作的不同需求 [1] 可灵O1模型的竞争优势与市场意义 - 此次更新在市面上基本无完全可对标产品,延续了公司在满足专业创作者需求上的迭代 [2] - 前端输入更简易,降低了使用门槛,有助于进一步扩大用户触达范围 [2] - 在B端,其多模态视觉语言理念产品化落地,支持多模态描述,大幅提升了专业创作的灵活度、便捷度与交互效率 [2] - 模型直接触及并解决后端视频一致性难题,且支持对画面内单个元素进行精准编辑,大幅提高创作灵活度,辅助提效 [2] 用户渗透与市场拓展 - 使用门槛降低预计将加速用户渗透,同时C端可玩性的提升有助于扩大AI视频模型的受众范围 [2] - 除了B端,其自由时长、简单提示词及可简易复制热门视频等特点,对模型触达C端用户可能起到补充作用 [2]
Lovart悄悄上的这个新功能,就是我心中设计的神。
数字生命卡兹克· 2025-12-05 01:20
Lovart产品功能与价值主张 - 公司在黑色星期五促销期间提供4折优惠,其最高等级年费会员价格为948美元,约合7000元人民币 [2][3] - 用户购买会员的核心动机之一是获得包括NanoBanana Pro 4K版本、Midjourney、可灵O1、可灵2.6以及新上线的Seedream4.5在内的多款AI工具的一年免费使用权 [5][7][8] - 公司新上线的“编辑文字”功能,结合Nano Banana Pro,被一位拥有十几年经验的设计师认为拥有颠覆传统设计游戏规则的能力 [8][9] “编辑文字”功能详解与应用 - 该功能旨在解决AI生成图片(如PPT)无法修改文字的传统痛点,用户上传图片后,功能可在几秒钟内提取所有文字至右侧编辑框 [17][19][30] - 用户可直接在文本框内修改文字(例如改为抽象语录),点击应用后约十几秒即可生成新图片,新文字会按照原图样式极度精准地呈现 [32][34] - 该功能不仅能修改常规文字,甚至能处理传统设计中经过栅格化、钢笔工具调整或笔画拼接的特殊样式文字,实现了过去无法直接编辑的文字的修改 [34][35] - 功能的技术实现可能涉及多模态结构化识图,将文字拆解为可编辑框,再利用Nano Banana Pro的模型能力进行原位替换 [39] 功能组合与效率提升 - “编辑文字”功能与“画布”结合,可实现一键直出多个尺寸的海报或封面图,极大简化了设计师进行多尺寸适配的工作流程 [55][61][62] - “编辑文字”与“Touch Edit”(触碰编辑)功能组合使用,用户可通过按键(如M键或Ctrl+鼠标)自动识别并提取图中特定元素进行修改,实现文字与样式的同步高效调整 [65][70][72] - 公司提供的“Mock up”(样机)功能,结合“移除背景”与“编辑文字”,能快速将设计稿(如透明背景的Logo)贴合到实物模型(如汽车)上,方便生成效果图,提升了电商与平面设计效率 [76][78][81][83][85] 行业影响与范式转变 - 该系列AI工具的组合使用,使得设计师能够将99%的时间用于思考“做什么”,而非“怎么做”,从根本上改变了设计工作流程 [99] - 工具能力的进化正在消除传统设计软件(如PS)中因工具限制(如钢笔工具抠图、文字不可编辑)所建立的专业门槛,推动了设计行业的范式转移 [90][91][94][95] - 公司通过整合强大的AI模型(如Nano Banana Pro)与卓越的工程应用能力,创造了强大的协同效应,被视为定义了设计的下一个时代 [40][42][43]
高盛:维持快手-W(01024)“买入”评级 料第四季可灵AI收入预测可上调
智通财经网· 2025-12-03 06:52
公司产品与模型升级 - 快手旗下可灵AI发布“可灵O1”,定位为首个大一统的多模态创作工具 [1] - 公司将在本周陆续发布O1图像编辑模型等更多模型升级 [1] 业务表现与财务预测 - 可灵模型企业需求快速上升,目前已占公司收入约40% [1] - 高盛对可灵AI业务2024年第四季度收入预测可能被市场上调,目前对该业务估值约为46亿美元 [1] - 高盛预测可灵AI业务2024年收入将超过1.4亿美元,2026年预期增长至2.3亿至2.4亿美元 [1] 增长动力与战略布局 - 公司持续扩展海外业务发展团队,并在广告、剧集制作及多个行业吸纳更多企业客户 [1] - 海外业务和企业客户拓展被视作未来一至两年的主要增长动力 [1] 投资评级与目标 - 高盛维持快手“买入”评级,目标价为83港元 [1]
高盛:维持快手-W“买入”评级 料第四季可灵AI收入预测可上调
智通财经· 2025-12-03 06:49
核心观点 - 高盛发布研报,维持对快手-W的“买入”评级,目标价83港元,核心依据是公司旗下可灵AI业务的最新进展及增长前景 [1] 可灵AI业务进展与产品发布 - 可灵AI近日发布“可灵O1”,定位为首个大一统的多模态创作工具 [1] - 公司将在本周陆续发布O1图像编辑模型等更多模型升级 [1] - 随着可灵O1的推出,市场可能会上调可灵AI业务今年第四季度的收入预测 [1] 可灵AI业务财务表现与估值 - 高盛目前对可灵AI业务的估值约为46亿美元 [1] - 可灵模型过去数月企业需求快速上升,目前已占其收入约40% [1] - 高盛对可灵AI业务2024年收入预测为超过1.4亿美元 [1] - 高盛预期可灵AI业务2026年收入可增长至2.3亿至2.4亿美元 [1] 公司增长动力与战略 - 快手持续扩展海外业务发展团队,并在广告、剧集制作及多个行业吸纳更多企业客户 [1] - 高盛相信可灵AI业务可成为公司未来一至两年的主要增长动力 [1]
大行评级丨高盛:维持快手“买入”评级 可灵业务估值为约46亿美元
格隆汇· 2025-12-03 03:57
公司产品动态 - 快手可灵AI发布可灵O1,定位为首个大一统的多模态创作工具 [1] - 可灵O1图像编辑模型等更多模型升级将于本周陆续发布 [1] 业务财务表现与预测 - 可灵模型过去数月企业需求快速上升,目前已占公司收入约40% [1] - 高盛对可灵AI业务2024年收入预测为超过1.4亿美元 [1] - 高盛预期可灵AI业务2026年收入将增长至2.3亿至2.4亿美元 [1] - 高盛目前对可灵业务的估值约为46亿美元 [1] 增长动力与战略 - 公司持续扩展海外业务发展团队,并在广告、剧集制作及多个行业吸纳更多企业客户 [1] - 高盛相信海外业务及企业客户拓展将成为未来一至两年的主要增长动力 [1] - 随着可灵O1推出,市场或会上调可灵AI业务2024年第四季收入预测 [1]