Workflow
数字人技术
icon
搜索文档
可灵AI推出全新数字人功能
环球网· 2025-09-19 06:40
原标题:可灵AI推出全新数字人功能 极简输入高质输出、最长支持1分钟视频生成 近日,可灵AI数字人正式亮相,凭借领先的口型精准度、情绪动作演绎和跨风格泛化能力,重新 定义了数字人技术的行业标准。用户仅需上传一张角色图片、输入角色表达内容或一段音频,就能生成 最长1分钟、极具表现力的数字人视频,而且支持多类角色及中英日韩多语种,最低价格仅0.12元每 秒,广泛适用于广告、电商、娱乐、媒体、教育等众多场景。目前产品公测陆续开放中。 极简输入、高质输出:一张图实现分钟级数字人生成 在数字人的核心能力——"表现力"上,可灵AI展示了其深厚的技术功底,不再满足于同类产品简单 的音画同步,而是追求角色"神形兼备"的生动演绎。 在对口型这一基础指标上,可灵AI数字人展现出了业界领先的精准度。实测案例中,一位女歌手 正演唱英文歌曲,其唇形与快速变化的歌词音节完美贴合,复杂口型也表现出色。而根据提示词"眼神 专注自信地唱歌",数字角色更呈现出自信的眼神、持麦的自然姿态,以及与观众互动的微笑,生动还 原了歌手在舞台上的表演状态。 同时,凭借可灵视频模型的强大能力,可灵AI数字人展现出优秀的泛化性能,无论是写实人物、 动漫卡通、动 ...
可灵AI推出全新数字人功能;微盟集团获国际长线投资2亿美元|未来商业早参
每日经济新闻· 2025-09-18 23:14
快递行业运行情况 - 8月快递业务收入完成1189.6亿元 同比增长4.2% [1] - 8月快递业务量完成161.5亿件 同比增长12.3% [1] - 1至8月快递业务收入累计完成9583.7亿元 同比增长9.2% [1] - 1至8月快递业务量累计完成1282.0亿件 同比增长17.8% [1] - 快递市场保持稳健增长态势 反映电商和线上消费市场活跃 [1] 微盟集团融资动态 - 与国际长线投资机构无极资本Infini Capital订立认购协议 成功融资2亿美元 [2] - 所得资金主要用于AI投入和研发以及国际化布局 [2] - 引入国际长线资本为发展注入资金并优化股东结构 [2] 可灵AI产品更新 - 推出全新数字人功能 通过角色图片加文字或音频生成1080p/48FPS最长1分钟视频 [3] - 数字人依托多模态理解与视频生成模型深度融合 实现口型同步与情绪动作控制 [3] - 产品公测陆续开放 应用前景涵盖娱乐、教育、客服及企业营销解决方案 [3]
可灵AI推出全新数字人功能 极简输入高质输出、最长支持1分钟视频生成
环球网· 2025-09-18 13:45
产品核心功能 - 仅需上传一张角色图片并输入文字或音频即可生成最长1分钟的数字人视频 支持写实人物、动漫、动物等多种角色类型 [1][2] - 输出质量达1080p分辨率和48FPS高帧率 支持中英日韩多语种及歌唱场景 [1][2][5] - 提供一站式解决方案 内置官方形象库、AI生图功能及近百种TTS音色 [2] 技术性能表现 - 口型精准度业界领先 能完美贴合快速变化的歌词音节 支持多语种及极快语速台词 [5][9] - 通过提示词驱动角色表演 可精细化控制情绪与肢体语言 实现愤怒等复杂情绪的面部微表情呈现 [6][8] - 采用多模态理解大模型与视频生成模型融合 关键帧控制架构支持无限长度视频生成且保持身份一致 [8][9] 市场竞争地位 - 与行业产品对比显示整体GSB得分领先 对比即梦数字人方案达2.39分 对比Heygen达1.37分 [9] - 产品定价最低仅0.12元/秒 标准模式为4灵感值/秒 高品质模式为8灵感值/秒 [1][2] 商业化应用 - 覆盖广告、电商、娱乐、媒体、教育、电商直播、企业服务等多元场景 [1][11] - 用户规模突破4500万 生成视频数量超2亿 为超过2万家企业提供API服务 [11] 公司发展历程 - 视频生成大模型自2024年6月发布以来已完成超30次迭代 [11]
罗永浩复工首更:下周将加播2场数字人直播
搜狐财经· 2025-09-16 14:05
直播安排与业绩表现 - 罗永浩团队宣布下周将在百度电商平台百度优选加播两场数字人直播 [1] - 此前数字人直播首秀获得1300万人次观看量且GMV突破5500万元 [1] 技术实现与用户反馈 - 数字人技术由百度自研 采用多模协同的新一代慧播星数字人技术 [1] - 基于文心大模型4.5 Turbo实现剧本生成与动态决策实时交互 [1] - 用户评价显示"真假难辨、效果不输真人"的积极反馈 [1]
历时五年耗资21亿美元!百度收购YY直播终落幕,1000余员工融入体系
搜狐财经· 2025-09-11 03:41
收购交易与整合进展 - 百度以21亿美元完成对YY直播的收购 交易金额较最初36亿美元报价缩水42% [1][3] - YY直播1000余名员工正式融入百度职级体系 薪酬与考核机制与百度同步 [1][4] - 人力管理系统和行政流程等关键领域整合耗时近五年 [4] 公司历史与行业地位 - YY直播2008年以游戏语音工具起家 2011年推出虚拟礼物系统开辟商业化路径 [3] - 2014年直播业务营收突破20亿元 占据网络秀场市场40%份额 [3] - 移动端月度活跃用户曾达3000万 付费用户增长为核心驱动力 [3] 行业变革与挑战 - 2018年短视频平台爆发式增长 碎片化内容和强社交属性吞噬用户时长 [3] - 直播行业面临估值逻辑变迁 百度收购价格调整反映行业红利消退 [3] - 企业文化融合与跨部门协作成为整合过程中的主要挑战 [4] 技术创新与协同效应 - YY直播推出AI伴播数字人"灵儿" 覆盖6000余个直播间 日均服务超百万用户 [6] - 数字人技术使直播间互动量提升30% [6] - 百度数字人直播创纪录 罗永浩数字人直播6.5小时调用知识库1.3万次 生成9.7万字讲解内容 [6] 商业化成果与前景 - 罗永浩百度电商首秀GMV超5000万元 [6] - 数字人分身与助播配合完成8300余个动作 创下带货新标杆 [6] - 技术协同显现商业价值 部分商品带货量超越真人首秀 [6] - 百度电商重构期与YY直播运营经验形成互补 或实现商业化突破 [6]
2025年ai数字人API接口哪家强?深度解析
搜狐财经· 2025-09-04 15:23
数字人API服务商技术特点 - 拟娲数智云提供文本生成与数字人模式功能 以无人直播为主推产品 支持低延迟 高性能 高并发的数字人流媒体服务 适用于在线直播 助理播报 视频内容制作等场景 具有功能全面 兼容性强 高稳定性特点 支持高并发且性价比较好[1] - 拟娲数智云数字人API接口提供丰富自定义选项 用户可根据品牌调性调整数字人外观 声音和行为模式 实现品牌数字化形象一致性[1] - 客栈云拥有3D高斯溅射引擎 声纹-肌肉直驱编码器等自研技术 支持4K画质实时切换 端到端延迟低于120毫秒 在直播电商 虚拟客服等高并发场景表现突出[3] - 客栈云具备自主研发程度高 低成本优势 声称同等效果下成本为大厂三分之一 高并发处理能力强 对画面质量和实时性要求高的场景提供竞争力解决方案[3] - 即梦AI与火山引擎合作提供数字人OmniHuman模型 支持单图加音频生成数字人视频 动作模仿DreamActor M1模型支持图片加模板视频驱动 适用于宣传带货 影视游戏创作 互动表演 专业解说 虚拟人创作 内容营销等领域[3] - 即梦AI背靠字节跳动技术实力 数字人API技术底蕴深厚 模型经过大规模产品验证 提供丰富前沿模型 为开发者创造更多创新可能性[3] - 腾讯云提供稳定高效数字人API服务 在数字人形象定制和声音复刻方面经验丰富 交互数智人API支持多种驱动方式 适用于智能客服 虚拟主播 教育培训等行业场景[3] - 华为云MetaStudio数字人口型精准 动作自然 支持文字 语音 视频驱动 依托海量算力资源满足批量生成及高并发场景需求 特别适合教育培训 智能客服等领域[4] - 拟娲开发平台V2版本优化口型匹配精准度 具备智能情感感知功能 拥有数字人训练 克隆分身 对口型 口播视频等多种API接口 适用于在线客服 智能导览 教育培训 直播带货等多领域[4] 数字人技术行业应用 - 数字人技术应用场景不断扩展 涵盖虚拟主播 智能客服 企业培训 直播带货等领域[1] - 直播带货场景需要数字人强调表现力和互动性 智能客服场景更注重准确性和稳定性[5] 企业选择数字人API的核心考量维度 - 需明确应用场景需求 不同场景对数字人要求各异[5] - 技术能力评估包括数字人真实感 口型同步准确度 动作自然度 语音质量等技术指标 实时交互场景中延迟是关键指标[5] - 成本效益分析需了解服务商计价方式 包括按调用次数 按生成时长 包月包年 并发通道数等 并根据业务预计使用量估算成本[5] - 集成与技术支持需查看API文档清晰完整性 了解服务商技术支持能力 代码示例和最佳实践丰富度[5] - 数据安全与合规性对金融 医疗 政务等敏感领域至关重要 需重点关注服务商数据安全策略和合规能力[5] 数字人技术发展前景 - 数字人技术正重塑人机交互体验 为企业数字化转型提供新动能[5] - 随着人工智能技术进步 数字人API接口将变得更加智能 自然和易用 为企业创造更多价值[6] - 数字人未来将在更多领域发挥重要作用 成为连接虚拟与现实的重要桥梁[6]
凌云光202509004
2025-09-04 14:36
公司业务与业绩表现 * 公司2025年上半年主营收入和利润增长超过25% 归母净利润增长10%[3] * 视觉系统业务环比增长37% 同比增长43% 其中消费电子行业占比达50%[3] * 印刷包装业务同比增长16% 原客业务同比增长28%[3] * 国际印刷包装业务2024年收入6000万元 2025年预计突破1亿元[5] * 光学动捕收入同比增长接近两倍[10] 技术创新与研发进展 * 立体视觉运动捕捉技术应用于必森智能机器人运动轨迹捕捉[4] * 多相机形象系统实现数字人技术突破 与央视合作灯塔项目[4] * AI大模型与恩捷合作实现12000多个缺陷归类 质量管理水平提升两个数量级[4] * 拥有200多个算法工具 其中60%完成智能化升级 新增100多个3D算法工具[16] * 发布光学动捕2.6版本 3.0版本正在研发中[21] * 研发重点集中在软算 光学成像及自动化领域[14] 战略布局与业务拓展 * 确定以FC Motion光学动捕为主航道 服务影视 文娱 无人系统和军人智能领域[9] * 在新能源领域围绕光伏和锂电展开 服务新汽车外观机等产品[11] * 拓展汽车 新能源汽车行业应用 包括动力总成整线制作系统 热成型切割及车辆底盘检测[17] * 元科事业部基于FC Motion光学动捕技术为全身智能提供服务[18] * 与国际领先企业合作 在国内建立智能机器人中心和人机协作中试基地[32] 光通信与数据中心业务 * 探索光交换到光计算新方向 投资服务器内光连接技术[7] * 构建400G 800G 1.6T 3.2T等光通信产品[22] * 全光互联技术用光纤替代铜缆 提升服务器间通信速率至200G 400G 800G[23] * 服务约10个国际共建数据中心 更多项目在北京 杭州 苏州 深圳洽谈中[21] * 光交换技术全透明 灵活可重构 支持多代平滑升级 具备保护倒换功能[26] 市场竞争与客户合作 * 与宇树英驰 傅里叶 尤尔曼 众擎 58智能等机器人公司合作[33] * 与小米等互联网大厂合作 参与北京石景山 苏州巨神智能机器人中心建设[33] * 通过AI算法获得苹果认可 从康泰士和金士力手中抢占市场份额[36] * 在宁德时代等新能源企业取得显著突破[36] * 英伟达采购普拉提斯交换机用于数据中心网络保护倒换 处于试点阶段[39] 行业趋势与宏观影响 * AI技术推动网络架构和流量需求变化 数据中心互联流量为前端网络1/10 横向扩展网络流量达前端网络一百倍[24][25] * 谷歌全面采用全光开关替代电开关 实现3DTorus架构[27][43] * 美国AI公司快速发展 数据中心大规模部署 没有GPU TPU XPU NPU供应瓶颈限制[40][41][42] * 压电技术相比MEMS技术优势明显 可实现768×768端口 结构简单可靠[44] * 数据中心未来方向包括扩大矩阵端口至1024×1024 降低损耗 提高良率[45] 成本与产业化挑战 * 光器件成本受高密通道封装和芯片耦合难度影响[30] * 芯片封装工艺成本占总成本70%以上[31] * 通过3D光刻工艺制备聚合物光波导 降低耦合封装偏差至正负几十纳米[31] * 自动化设备实现精密对准自动化 本地化生产降本[46] * 公司探索通过合作降低成本 中国具备完整产业链支持[48] 未来展望与发展战略 * 2026年苹果推出折叠屏新产品 预计带来新增长机会[38] * 推动传统自动化设备向智能化设备转型 视觉系统成为关键传感检测手段[36] * 计划通过合资企业 联合研发及自主研发方式推进光通信产品发展[37] * 持续寻找投资机会 在机器视觉 光通信等前沿领域实现自主创新[50] * 关注下一代技术和应用 如CPU OCS等 随网络变化涌现新机会[50]
你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!
机器之心· 2025-08-30 04:12
在《流浪地球 2》中图恒宇将 AI 永生数字生命变为可能,旨为将人类意识进行数字化备份并进行意识上传,以实现人类文明的完全数字化。 如今随着扩散模型的兴起极大,涌现出大量基于音频驱动的数字人生成工作。具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体 动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。 但是,现有方法仅能生成时长不足 15 秒的短视频,一旦模型尝试生成超过 15 秒的视频,就会出现明显的身体变形与外观不一致现象,尤其集中在面部区域,这 使目前数字人技术还无法达到《流浪地球 2》中图恒宇所创造的 AI 永生数字生命那样的程度,严重限制了其实际应用价值。 为了解决这一问题,一些方法尝试在音频驱动人类视频生成中引入一致性保持机制,但很少有工作深入探讨问题的根本原因。现有策略——无论是利用运动帧 (Motion Frame),还是在推理过程中采用多种滑动窗口机制——都只能在一定程度上提升长视频的平滑性,却无法从根本上缓解无限时长头像视频的质量退化问 题。 另一种可行方案是将长音频切分为多个片段,分别处理后再拼接成连续的视频。然而, ...
邦彦技术2025年中报简析:净利润同比下降255.34%,三费占比上升明显
证券之星· 2025-08-29 22:42
财务表现 - 营业总收入6943.05万元,同比下降68.01% [1] - 归母净利润-5967.38万元,同比下降255.34% [1] - 第二季度营业总收入4172.47万元,同比下降53.07%,归母净利润-3246.83万元,同比下降1149.95% [1] - 毛利率64.37%,同比增6.96%,净利率-86.81%,同比减595.99% [1] - 每股收益-0.39元,同比减256.0%,每股净资产9.18元,同比减9.32% [1] 成本与现金流 - 三费(销售费用、管理费用、财务费用)总计5216.1万元,占营收比75.13%,同比增255.99% [1] - 每股经营性现金流-0.48元,同比减3503.21% [1] - 货币资金1.73亿元,同比下降31.71%,有息负债5803.4万元,同比增59.11% [1] 资产与负债 - 应收账款2.96亿元,同比下降19.71% [1] - 公司现金资产非常健康 [3] 业务发展 - 公司参展2025年世界人工智能大会并推出Nuwaai智能体数字人平台,实现从数字展示到智能落地的跨越式体验 [3] - Nuwaai平台定位为零门槛个性化数字IP创作平台,帮助个人和企业打造专属营销搭档和内容创作伙伴 [4] 历史业绩评价 - 公司上市以来中位数ROIC为0.99%,投资回报一般,最差年份2017年ROIC为-75.63% [2] - 公司上市后已有4次亏损年份 [2]
元宇宙时代,高校数字人实训室:如何重塑教学与产业融合新生态?
搜狐财经· 2025-08-28 00:04
行业战略意义 - 虚拟现实与数字经济深度融合成为国家发展重要战略 [1] - 数字人技术作为元宇宙关键支撑技术 正渗透至内容创作 电商直播 品牌营销等多个领域 [1] - 高校需构建数字人新媒体实训室以促进技术 产业与教育深度融合 为文化产业数字化培养复合型人才 [1] 解决方案核心架构 - 方案专为高校设计 具备系统化 模块化和跨专业特点 [1] - 覆盖数字媒体艺术 新媒体 动画制作 虚拟现实 元宇宙 新闻传媒 电子商务 游戏制作等多个专业领域 [1] - 构建涵盖数字人建模 驱动 内容生成与运营推广的全链路实训体系 [1] 动捕技术系统 - 高精度惯性动捕技术为核心 支持学生体验从动作捕捉到数字人内容输出的完整流程 [2] - 通过穿戴惯性动作捕捉套装实现实时动作表情映射 支持主流直播平台虚拟互动实践 [2] - 无穿戴视觉动捕系统采用视觉识别技术 通过摄像头捕捉人体关键节点和面部表情 [2] - 无线面捕头盔实现高自由度 高表现力的数字人驱动 提升实训灵活性和沉浸感 [2] 辅助实训设备 - 3D人脸扫描设备支持写实数字人开发生命周期 贯通动画 元宇宙 新媒体等专业实践 [3] - AIGC 3D数字人视频生成平台通过AI生成数字人讲解视频 无需真人出镜或复杂制作流程 [3] 跨学科应用价值 - 实训室作为跨学科融合与创新内容孵化器 支持展陈设计 游戏开发等创新应用探索 [6] - 通过跨学科项目实践培养学生跨界整合与项目协作能力 [6] - 为元宇宙内容生产与数字经济发展储备实战能力与创新思维 [6]