新型视频语义编码技术白皮书(2024年)
中移智库·2024-12-16 07:55

报告行业投资评级 未提及 报告的核心观点 随着 5G、5G - A 和人工智能技术发展,视频信息量迅速膨胀,传统视频编码技术面临挑战,视频语义编码技术应运而生,其基于视频内容和语义特征编码,追求信号保真度、感知自然性和语义质量,有望突破传统方法性能瓶颈,成为助推视频产业高质量发展的新动能,未来在多方面有发展机遇和趋势[7][11][23]。 根据相关目录分别进行总结 视频编码技术总体发展态势 - 多媒体通信革新催生大量视频应用场景,视频编解码技术是产业重要一环,但现有技术压缩率提升跟不上视频信息量膨胀,新型视频数据和应用场景促使其迭代并多元化发展,需更高效智能的编码技术[11] - 多元视觉指标升级,超高清视频普及使存储传输压力大增,编码技术需满足高质量、低延迟等要求[12] - 人眼追求更沉浸体验,VR/AR 视频、自由视点视频涌现,催生大数据量视频高效编码和多视点视频数据去冗余编码等升级技术[15][16] - 视频编码需同时满足人类和机器视觉系统需求,面向多元机器视觉分析的编码技术需求迫切[17] - 视频编码应用广泛,新应用引发新需求,语义编码技术应运而生,有望为视频产业注入新活力[18][23] 视频编码技术发展概述 视频编码 - 国内外视频编码标准基于块的混合编码框架成为主流,如 MPEG - 1/2/4 等,但新一代标准虽提升编码性能,却增加编解码复杂度,压缩效率提升遇瓶颈[28][31] - 人工智能促使研究人员在图像视频编码领域引入神经网络,基于神经网络的视频编码技术方案分为混合神经网络编码和全神经网络编码,目前存在未深入分析网络特性、码流互通难等问题[32][34] - 视频语义编码衍生于传统和神经网络编码框架,可提升两种路线的编码效率[35] 基于语义通信的编码传输 - 语义通信旨在保证语义信息准确交互,通过 AI 提取相关信息编码传输以减少冗余,现有语义通信聚焦顶层架构设计,处于前沿探索阶段,较少针对视频编码,且难与现有视频编码框架兼容,依赖神经网络,计算资源消耗大[36][43] - 语义通信大框架涵盖视频语义编码传输,但视频语义编码有具体可落地技术方案,与语义通信有不同特点[45] 视频语义编码传输关键技术 视觉感知编码 - 基于人眼视觉系统特性去除视频视觉冗余,中山大学张云教授团队提出基于感知优化的视频编码框架[54] - JND 编码从人眼视觉引入恰可察觉失真技术去除冗余,从机器感知有恰可识别失真和机器满意率等概念和研究[55][56] - ROI 编码基于视觉注意确定感兴趣区域,视频 ROI 编码包含检测和编码步骤,除面向人眼视觉,还有面向机器视觉的技术,VR 视频编码沿用其思想节省码率[57][59][60] 生成式编码 - 生成对抗网络为突破极低码率下编码效率瓶颈开辟新途径,有直接用对抗损失引导全神经网络编码优化和生成驱动实现极低比特率编码两种技术路线[61][62] - 生成式编码在极低码率下有优越性,在多领域有研究潜力,未来研究方向包括压缩性、可扩展性等方面[63][66] 跨模态编码 - 常见跨模态编码将图像或视频冗余信息转变为文本描述特征,再重建图像,跨模态语义编码系统由四个子模块组成,通过优化比特率和失真来工作[67][70] 机器视觉编码 - 面向机器视觉的视频编码技术应运而生,主要技术思路是基于视频内容和语义特征编码,优化编码性能支持机器智能应用场景,技术方案包括兼容传统标准的优化和端到端压缩框架[71][72] - 机器视觉编码典型应用场景多,具备轻量等特点,未来 6G 通感一体化技术有望成为语义编码传输新方向[73] 编码数据传输 - 大视频时代流媒体业务需求提升,视频编码数据传输涉及媒体封装和传输,需根据语义特征扩展以满足更多需求[75] - 媒体封装采用容器格式,常见 TS、MP4、FLV 等,可增添语义信息提高传输处理效率[76][80] - 流媒体传输下层用通用以太网协议,上层根据应用场景和封装格式采用不同协议,人工智能发展下基于媒体语义的传输可能提升效率[81][85] 标准化进展及建议 AI 视频编码 - 各标准工作组探索基于深度学习的编码标准化,如 IEEE 1857.11、JPEG AI 等,但目前研究局限于静态自然图像,缺乏高质量开源框架,研制高效端到端视频编码技术是关键[96][99] VR 视频编码 - IEEE 1857.9 工作组推动沉浸式视觉内容编码工具标准化,MPEG 的 VVC/H.266 和 MIV 标准支持沉浸式内容编码,国内 AVS 工作组启动 VR 编码标准制定[100][101] 多视点视频编码 - 国际标准组织开展多视点视频技术研究和标准化制定,中国移动牵头提出 AVS3 多视角视频及 3D 立体视频档次需求建议并通过,增强国产编解码器竞争力[103][104] 面向机器的视频编码 - 理想编码需满足人类和机器视觉系统需求,国内外相关标准组织形成一系列标准,如 CDVS、CDVA 等,VCM 和 DCM 标准有不同特点和技术路线[107][110] 总结与展望 - AI 技术革新给视觉数据编码技术带来机遇,视频语义编码技术将在多方面发展,如延伸至 6DoF 视频、借助预训练多模态大模型提升效率等,还将促进视频传输技术优化和业务创新发展,其标准化研究将推动新兴视频业务落地[112]