Workflow
多模态交互
icon
搜索文档
营收超1亿美元!可灵,凭什么?
第一财经· 2025-08-06 15:32
AI视频生成行业动态 - 创作者Hashem AI-Ghaili使用AI工具在12天内以500美元成本制作出短片《Kira》,在YouTube和Bilibili分别获得5.9万和47.9万次观看 [2] - 另一部短片《The Colorless Man》制作成本仅600美元,使用ChatGPT、MidJourney等工具完成脚本、图像、视频、语音等全流程 [4] - 视频生成赛道从最初不被看好到1年后出现商业成功案例,如可灵年化营收突破1亿美元 [7] 可灵公司发展 - 可灵用户规模从2024年Q3的500万快速增长至4500万,均为付费用户 [8][15] - 年化营收(ARR)在2024年3月突破1亿美元,超过MiniMax的7000万美元预期收入 [7] - 在Poe平台市场份额达30%,超过Runway的23.6% [18] - Freepik平台数据显示可灵生成视频数量超过其他模型总和 [19] 技术迭代与功能创新 - 推出"首尾帧"功能让用户通过两张图片生成连贯过渡视频 [9] - 1.5版本新增"运动笔刷"、"人脸一致性"、"口型同步"等功能提升视频可控性 [11] - 1.6版本推出"多图参考"功能,用户可上传多张图片作为生成参考 [13][14] - 2.0版本整合多模态交互方式MVL,允许文字、图片、视频片段等多种输入 [15] - 最新推出"灵动画布"功能,整合文生图、图生视频等流程并支持团队协作 [23][24][25] 行业竞争格局 - 可灵在国内领先生数科技(ARR 2000万美元)、字节跳动即梦AI(ARR<1000万美元)等竞争对手 [17] - 全球范围内与Runway(ARR 8400万美元)形成竞争 [17] - 面临Google Veo 3(支持生成带声音视频)和字节跳动Seedance 1.0等新模型的追赶 [21][23] - 行业用户忠诚度低,新模型上线会快速改变市场份额分布 [21] 商业化应用前景 - 视频生成技术已应用于Netflix《the eternaut》、Amazon Prime《House of David》等影视作品 [27] - 广告营销行业广泛应用AI技术生成素材,如保持模特一致性推广不同产品 [34] - 好莱坞态度从抵触转为拥抱,出现AI分镜师等新职业 [41][42] - 预计未来将向Agent方向发展,实现从脚本到视频的自动化生成 [45]
营收超1亿美元!可灵,凭什么?
第一财经· 2025-08-06 15:22
视频生成行业现状 - 视频生成行业在2024年迎来爆发式增长,可灵等公司已实现商业化成功,年化营收突破1亿美元[11][22] - 行业标杆公司Runway去年12月ARR达8400万美元,可灵与之不相上下[22] - 国内竞争对手如生数科技Vidu产品ARR为2000万美元,字节跳动即梦AI和Minimax海螺AI均未达1000万美元[22] - 全球用户对视频生成工具忠诚度低,新模型上线会迅速改变市场份额分布,如Google Veo 3上线后份额从0增至30%[25] 可灵公司发展 - 可灵用户规模从2024年1月的600万快速增长至2025年4月的4500万,3个月内增长近2倍[20][57] - 可灵在Poe平台市场份额达30%,超过Runway的23.6%[23] - 在Freepik平台,可灵生成的视频数量超过其他所有模型总和[23] - 公司年化营收在2025年3月突破1亿美元,超过MiniMax预期的7000万美元[11][22] 技术发展 - 视频生成技术仍处于早期阶段,类似LLM的GPT-2时期,存在常识和逻辑错误[11] - 可灵通过多模态交互方式(MVL)提升生成效果,允许用户以文字、图片、视频等多种方式输入指令[19] - 关键技术创新包括首尾帧、运动笔刷、人脸一致性、多图参考等功能,大幅提升视频生成可控性[16][18][19] - 1.6版本是多图参考功能推出的重要分水岭,使可灵用户从600万增至2200万[20][48] 产品迭代 - 可灵在1年内发布5个版本更新,从1.0迭代至2.1[13][20] - 1.5版本引入运动笔刷、人脸一致性、口型同步等功能[16] - 1.6版本推出多图参考功能,成为用户增长转折点[18][20] - 2.0版本整合所有交互功能,推出MVL多模态交互方式[19] - 最新推出"灵动画布"功能,实现工作流整合和团队协作[28][31] 行业应用 - AI视频生成已应用于影视制作,如Netflix《the eternaut》和Amazon《House of David》使用AIGC镜头[34] - 广告营销行业深度应用AI技术,可实现模特一致性推广不同产品[51] - 职业细分出现AI分镜师、AI视频生成师等新岗位[61] - 视频素材生成市场规模达千亿级别,已形成完整产业链[34] 未来趋势 - Agent技术将成为下一阶段发展方向,实现创作流程自动化[66] - 视频生成将不仅服务于存量市场,还将创造具备实时性和互动性的新内容形态[67] - 行业竞争加剧,Google已发布自带声音的Veo 3模型,字节跳动整合资源加速追赶[25][26] - 技术领先性、产品创新和创作者社区将成为核心竞争壁垒[55]
AI数字人辅助小程序功能版块设计分析
搜狐财经· 2025-08-06 08:00
人机交互技术发展 - AI数字人辅助小程序通过模拟人类交流方式提供自然高效的服务支持 旨在构建兼具实用性与亲和力的交互平台 [1] - 对话界面采用多轮对话技术 支持上下文语义理解与意图识别 用户可通过文字或语音输入需求 系统自动纠错并补全关键信息 [2] - 响应模块设计拟人化表达 根据对话内容匹配表情符号与语气词 避免机械式回复 [2] 任务管理功能 - 数字人可解析复杂需求并自动拆解为可执行步骤 例如生成食材采购清单、场地布置建议及时间安排表 [4] - 日程管理模块支持与手机日历同步 具备提前提醒与冲突检测功能 当检测到时间重叠时自动建议调整方案 [4] 个性化推荐系统 - 基于用户历史对话数据构建偏好模型 数字人可主动推送相关服务 例如定期发送运动教程与饮食建议 [5] - 推荐内容涵盖生活服务、学习资源、娱乐活动等类别 每个推荐项附带简要说明与操作入口 用户可通过滑动手势快速采纳或忽略建议 [5] 多模态交互设计 - 支持简单手势识别与表情反馈 例如通过点赞手势表达满意 系统将记录该行为并提升同类推荐权重 [6] - 视觉呈现采用2.5D卡通风格 数字人形象保持固定发型与服饰 强化品牌识别度同时降低用户认知负担 [6] 隐私保护机制 - 对话数据采用端到端加密技术 用户可自主选择数据保留期限 [7] - 权限设置提供精细化控制选项 例如允许访问日历但禁止读取通讯录 敏感操作需通过二次验证 [7] 界面优化成果 - 界面设计遵循品牌色系标准 主色调采用浅蓝色系营造科技感 关键操作按钮尺寸不低于44px确保触控准确性 [8] - 数字人动画帧率稳定在30fps以上 测试数据显示适配优化版本在老年用户群体中操作错误率降低40% [8]
创新消费力 | 学而思:AI学习机让处处变课堂
北京商报· 2025-08-04 09:38
行业趋势与市场格局 - 中国教育智能硬件市场规模2023年达807亿元 同比增长29.53% 预计2025年将超1000亿元 [9] - 行业从早期野蛮生长进入头部企业全线产品竞争阶段 2024年小度等巨头入局后大量白牌机退出市场 [10] - 2025年市场竞争加剧 学而思向中低端市场下沉 作业帮拓展中高端产品线 猿辅导转型全功能学习机 [10] 技术演进与产品创新 - 学习机技术发展历经三阶段:2014-2015年拍搜时代→2019-2023年视频解析时代→当前交互式诊断时代 [6] - 多模态交互技术实现"视觉+听觉"双通道并行 AI能实时分析解题步骤并感知学习行为 [5] - 学而思解题引擎持续升级 数学学科已应用多模态交互 近期将完成语文英语适配升级 [9] 用户结构与应用场景 - 智能学习机用户64.03%为小学生 79.42%集中在一二线城市 高中渗透率较低 [8] - 家庭场景中每日平均辅导时间从2小时降至半小时 改善亲子关系 [3] - 学校场景实现"双线教学"模式 AI自动批改作业并生成个性化学习报告 [7] 产品定位与价值主张 - 学习机从普通电子产品向专业化学习工具转变 强化AI 1对1辅导和同步课程资源 [10] - 核心技术价值在于用多模态技术"看懂"作业书写过程 "听懂"孩子疑问 定位思维卡点 [5] - 未来需攻克高中数理化生复杂场景处理 包括动态理解解题过程和连续帧分析能力 [9]
字节视觉大模型负责人杨建朝宣布休息
快讯· 2025-07-17 10:18
人事变动 - 字节跳动豆包大模型视觉多模态生成方向负责人杨建朝宣布"暂时休息",相关工作已完成交接 [1] - 杨建朝的个人信息仍能在字节内部系统中查询到 [1] - 周畅(花名"时光")将接任杨建朝的工作,周畅所在架构为"多模态交互与世界模型"部门,汇报对象为吴永辉 [1] 变动原因 - 知情人士透露人事变动原因为"家庭因素" [1] - 此前有传言称杨建朝因难以兼顾北美与国内工作节奏,长期处于高强度压力下,身心俱疲 [1] - 另有说法称其为"提前退休" [1]
元宇宙数字人技术新飞跃:交互、感知与虚拟现实的全面升级
搜狐财经· 2025-07-10 02:22
人工智能与数字人技术融合 - 生成式AI技术如GPT系列及扩散模型显著提升数字人交互能力和形象逼真度 [1] - 语音合成、表情驱动及实时渲染技术使数字人活跃于直播、客服等动态场景 [1] - 数字人自主学习与情感感知能力持续提升 通过深度学习算法提供个性化服务 [1] 虚拟现实与多模态交互技术 - VR设备为数字人带来真实感和立体感 提升用户沉浸感 [3] - 多模态交互技术融合语音识别、自然语言处理 实现更自然便捷的人机交互 [3] - 数字人在直播、客服场景表现优异 赢得用户广泛好评 [3] 大数据分析与硬件配套升级 - 大数据分析提供精准用户画像 助力数字人优化服务和直播内容 [3] - 5G、云渲染、VR/AR设备为数字人创造低延迟高沉浸应用环境 [3] - 脑机接口技术潜力巨大 未来或拓展数字人交互方式与应用场景 [3]
OpenAI以65亿美元收购Jony Ive的io背后,软硬件结合的AI原生硬件公司正在崛起
36氪· 2025-06-17 23:51
行业动态 - OpenAI以65亿美元收购前苹果硬件设计负责人Jony Ive的公司io 目标是为OpenAI打造一系列硬件产品 [1] - OpenAI前CTO创立的新公司Thinking Machines估值达90亿美元 其首款产品为专为AI训练设计的"手动调参仪表盘"硬件 [1] - 软硬件结合的AI终端产品是科技公司重点发展方向 早期产品如Siri和小度音箱因AI"智力"不足导致交互体验较差 [1] AI原生硬件发展挑战 - 大语言模型推动人机交互从GUI向多模态转变 但第一波AI原生硬件产品市场接受度低 [2] - AI Pin采用激光墨水显示屏和手势交互 因学习成本过高导致融资2.4亿美元的公司在2025年被惠普以1.16亿美元收购 [4] - VR/AR眼镜经过10年市场教育 2024年出货量仅600-700万部 远低于智能手机的亿级规模 [4] - 部分AI硬件功能低频且易用性差 售价过高(如AI Pin 699美元 Vision Pro 3499美元)制约渗透率 [4][5] - 硅谷企业面临供应链劣势 硬件迭代慢且成本高 中国珠三角的产业集群提供更高效低成本的制造环境 [4][5] 第二批AI硬件创新方向 - 专注明确场景的产品获得更好发展 如会议录音/转写类硬件契合大模型语音处理能力 [8] - 教育领域代表产品包括科大讯飞AI学习机 猿辅导小猿学习机 大疆RoboMaster教育机器人 [9] - 个人陪伴机器人出现差异化设计 如可移动的Yonbo对比固定形态的ElliQ [12] - 医疗健康领域创新包括BioLink Systems的可消化设备 能实时采集体内健康数据 [12] - 华人创业公司plaude去年营收达7000万美元 讯飞AI耳机用户突破100万且年营收翻倍 [10] 中国AI硬件产业优势 - 中国具备全球最完善的AI硬件产业链 涵盖消费电子 机器人 智能汽车三大领域 [15] - 技术生态支持包括开源大模型(Qwen 3 4B) VLA模型 以及各领域数据资源 [15] - 2024年中国智能手机出货量占全球23.4% 为AI硬件转型提供巨大潜在市场 [16] - 华为 小米等品牌证明中国市场足以支撑硬件企业成长 AI硬件已建立教育 企业等基础市场 [16] 未来发展趋势 - AI操作系统成为关键 需要适配AI模型的计算管理需求 Meta Google OpenAI等公司正积极布局 [13][14] - 多模态交互方式将逐步替代智能手机和平板 但需降低用户学习成本 [12][13]
AI眼镜,重走智能音箱路
36氪· 2025-06-17 09:18
行业背景与市场前景 - 百度和小米等互联网大厂入局AI眼镜行业 带动"百镜大战"氛围 与智能音箱发展初期相似[2] - 预计到2029年智能眼镜市场规模达1067.78亿元 年复合增长率18.56%[3] - 2023年全球AI眼镜销量234万台 其中Ray-Ban Meta独占224万台 占比超95%[3] 市场竞争格局 - 中国已有至少50家公司推进智能眼镜项目 分为三类玩家:初创公司(蜂巢科技/Even Realities) AR眼镜厂商(雷鸟创新/影目科技/Rokid)和互联网大厂(华为/百度/小米/字节)[4] - 2025年CES展会亮相超40款AI眼镜产品 各厂商计划今年至少发布50款新机型[5] - 小米生态链企业推出界环AI音频眼镜 星纪魅族StarV Air2上线AI功能 Rokid为政府会议新品带货[4] 技术挑战与产品瓶颈 - AI眼镜面临重量/续航/功能的"不可能三角"挑战 当前产品重量普遍超普通眼镜20-30克标准[9][10] - Meta Ray-Ban重量49克 雷鸟V3降至39克 但配镜片后仍增重10克以上 长时间佩戴不适[10] - 续航能力不足:Meta Ray-Ban持续拍摄维持4小时 雷鸟V3标称7小时 与日常使用需求存在差距[10] 历史经验借鉴 - 智能音箱2024年销量同比双位数下降 全年降幅超20% 第四季度降幅仍超10%[7] - 智能音箱衰落因核心功能未突破 语音识别/语义理解存在缺陷 使用频率大幅降低[7] - 语音识别技术从"能用"到"好用"的壕沟仍未填满 影响智能硬件发展[8] 大模型带来的机遇 - 天猫精灵和小度音箱接入大模型后 语音识别/自然语言理解/对话能力显著提升[11][12] - DeepSeek开源特性允许深度定制 API价格低廉 利好端侧AI普及[15][16] - AI眼镜平台作为新消费电子品类 更容易成为AI应用率先落地场景[16] 未来发展潜力 - 行业需在未来3-5年实现全彩显示/性能提升/重量减轻/价格降低/大模型能力升级等目标[11] - AI眼镜结合AR/眼动等前沿技术 具备替代智能手机潜力 可能成为下一代通用计算平台[17][18][19] - 扎克伯格认为智能眼镜将类似移动手机 是下一个计算平台的始终在线版本[18]
火山引擎携手三星共拓智能终端体验边界
财富在线· 2025-06-17 07:35
行业趋势 - 用户体验革新成为智能终端行业突围的核心方向 图像生成与多模态交互成为差异化竞争关键突破口 [1] - AI生成技术推动用户角色从观看者向创作者转变 AI图像成为全民表达新工具 [2] - 智能终端AI能力演进关键方向包括打造更懂用户的AI视觉功能 [2] - 行业从AI辅助向AI共创升级 智能终端成为用户创意表达与需求满足的智能中枢 [6] 三星与火山引擎合作 - 双方聚焦AI视觉能力提升与多模态助手优化 探索用户交互体验创新边界 [1] - 2024年7月基于Galaxy Z系列联合推出智绘人像功能 并深化多模态助手Bixby的AI内容服务能力 [1][3] - 2025年2月在Galaxy S25上共同推出绘图助手APP 运用风格化图片处理技术拓展图像创作可能性 [1][2] - 绘图助手APP支持文生图 图生图及涂鸦生图功能 用户可通过简单涂鸦生成精美图片 [2] - 智绘人像功能采用豆包大模型单图AI写真技术 用户上传单张照片即可实现多种风格自由转换 [3] - 多模态助手Bixby面向旅行场景 搜索结合优质内容源提供及时准确联网信息并以短视频卡片形式展示 [3] 火山引擎市场地位 - 以46.4%市场份额稳居2024年中国公有云大模型服务调用量榜首 [6] - 在全球Top10手机厂商中已与9家达成深度技术合作 [6] - 大模型服务领域深受认可 与多家头部智能终端厂商建立深度合作 [6]
【重磅来袭】特斯拉人形机器人秀!杭州大会展中心邀您共赴人形机器人产业巅峰盛会!
机器人大讲堂· 2025-06-15 04:41
展会概况 - 2025杭州国际人形机器人与机器人技术博览会将于6月20日至6月22日举办,每日展出时间为9:00-17:00,由浙江省机器人产业发展协会主办,上海高登会展集团承办,采用"论坛+展览+体验"一体化模式 [1] - 展会聚焦人形机器人前沿技术、产业生态与未来生活场景,覆盖机器人整机、关键零部件、应用场景全产业链 [1][5] 核心参展企业与技术 - **特斯拉人形机器人(Tesla Bot)**首次在国内展会亮相,展示仿生行走、精准抓取、智能交互等量产级技术 [3] - **200+领军企业参展**,包括阿里云、杭州六小龙(宇树/云深处/强脑/群核等)、卓益得、清宝机器人、卧龙集团、海创人形机器人创新中心等 [5] - 技术展示涵盖**具身智能**、**多模态交互**、**脑机接口**等前沿领域 [5] - 细分领域参展企业包括: - **工业机器人**:埃斯顿/埃夫特/节卡等12家 [18] - **医疗机器人**:天智航/精锋医疗/术锐等11家 [19] - **人形机器人**:优必选/宇树/云深处等20家 [19] - **核心零部件**:绿的谐波/坤维科技/思岚科技等23家 [21] 同期活动安排 - **杭州人形机器人大会**(6月20日):聚焦行业趋势与政策解读 [9] - **产业链接大会**(6月21日):推动企业技术落地与商业合作 [10] - **技术创新·投资·出海论坛**(6月21日):探讨资本与技术对接 [10] - **安全标准研讨会**(6月22日):研讨核心部件及具身智能装备安全性能标准 [13] 互动与体验 - 设置机器人舞蹈秀、科普达人秀等全天活动,打造亲子科技启蒙场景 [11] - 开展集卡互动赢限量礼品等网红打卡项目 [11] - 每日安排人形机器人科普活动(10:00-17:00) [13]