立即注册
查看: 857|回复: 3

[资料] 视频处理与压缩技术

已绑定手机
发表于 2022-2-14 14:48:37 | 显示全部楼层 |阅读模式 来自 广东省深圳市
摘 要:视频处理与压缩是多媒体计算与通信领域的核心主题之一,是连接视频采集传输和视觉分析理解的关键桥梁,也是诸多视频应用的基础。当前“5G+超高清+AI”正在引发多媒体计算与通信领域的新一轮重大技术革新,视频处理与压缩技术正在发生深刻变革,亟需突破针对视频大数据的高效紧凑表示理论和方法。为此,学术研究机构和工业界对视频大数据的视觉表示机理、视觉信息紧凑表达、视频信号重建与恢复、高层与低层视觉融合处理方法及相应硬件技术等前沿领域进行了广泛深入研究。本文从数字信号处理基础理论出发,分析了当前视频处理与压缩领域的热点问题和研究内容,包括基于统计先验模型的视频数据表示模型及处理方法、融合深度网络模型的视频处理技术、视频压缩技术以及视频压缩标准进展等领域。详细描述了视频超分辨率、视频重建与恢复、视频压缩技术等领域面临的前沿动态、发展趋势、技术瓶颈和标准化进程等内容,进一步对国际国内研究内容和发展现状进行了综合对比与分析。最后,展望了视频处理与压缩技术的技术发展与演进方向,更高质量视觉效果和高效率视觉表达之间将不再是单独研究的个体,融合类脑视觉系统及编码机理的视频处理与压缩技术将是未来研究的重要领域之一。

1、国际研究现状
1.1 视频处理技术
1.1.1 视频超分辨 近年来,多种视频超分辨率算法被提出,主要 分为两类:传统基于信号处理的方法和基于深度学习的方法。例如,Liu 等人(2013)提出了一种贝叶 斯方法,作为一种传统的方法,可以同时估计底层 运动、模糊核和噪声水平,并重构高分辨率帧。在 (Ma 等人,2015)中,采用期望最大化(expectationmaximization,EM)方法估计模糊核,并指导高分 辨率帧的重建。然而这类基于信号处理的方法由于 其采用固定的解决方案仍然不能适应视频中的各种 场景。随着深度学习在各个领域的巨大成功,基于 深度学习的超分辨率算法得到了广泛的研究,出现了许多基于深度神经网络的超分辨率方法,如基于 卷积神经网络(convolutional neural networks, CNN )、生成对抗网络( generative adversarial network,GAN)和递归神经网络(recurrent neuralnetwork,RNN)的视频超分辨方法。本报告从是否使用对齐类方法介绍国际上视频超分辨的研究现状。
1) 对齐超分辨算法 在国外视频超分辨率对齐方法中,大多数方法 都采用了运动补偿和运动估计技术。运动估计的目 的是提取帧间的运动信息,而运动补偿是根据帧间 的运动信息进行帧间的矫正操作,使一帧与另一帧 对齐。大部分的运动估计技术是使用光流方法 (Dosovitskiy 等人,2015)完成的。
美国西北大学的 Kappeler 等人提出的视频超分网络(video super resolution network,VSRnet) (Kappeler 等人,2016)由三个卷积层组成,除了最后一个外,每个卷积层后面都有一个非线性激活单元(rectified linear unit,ReLU)。VSRnet 使用多 个连续帧,这些连续帧都是补偿帧。目标帧和补偿 帧之间的运动信息由 Druleas 算法计算得出(Drulea等人,2011)。此外,VSRnet 还提出了滤波器对称增强(filter symmetric enhancement,FSE)机制和自适应运动补偿机制,分别用于加速训练和减少冗余 的补偿帧影响,从而提高视频的超分辨率性能。 Caballero 等人提出的视频子像素卷积网络(video efficient sub-pixel convolutional neural network , VESPCN)(Caballero 等人,2017)设计了一种用于 运动估计和补偿的空间运动补偿变压器(motion compensation transformer,MCT)模块。然后将补偿 后的帧送入一系列卷积层进行特征提取和融合。最后通过亚像素卷积层得到超分辨率结果。MCT 模块 采用卷积神经网络提取运动信息,进行运动补偿。 该模块使用由粗到细的方法来计算图像序列的光流。来自 Sajjadi 等研究人员提出的一种网络 FRVSR (Sajjadi 等人,2018),它的主要特点在于帧间的对齐方式。它不会直接矫正目标帧的前一帧(低分辨率帧),而是扭曲矫正前一帧对应的高分辨率帧。受反投影算法的启发(Haris 等人,2018, Irani 等人,1991, Irani 等人,1993)。Haris 等人(2019)提出了递归反投影网络(recursive back projection network, RBPN)。该网络由特征提取模块、投影模块和重构 模块组成。特征提取模块包含两个操作,一个是提 取目标帧特征,和另一个是提取相邻帧特征,并计算从相邻帧到目标帧的光流,然后进行隐式地对齐。
(Bare 等人,2019)提出的实时视频超分辨率(real time video super resolution,RTVSR)提出运动卷积核估计网络,其使用编解码结构来估计目标框架和 相邻帧之间的运动,产生一对对应于当前目标帧和 相邻帧的一维卷积核。然后利用估计的卷积核对相邻帧进行矫正,使其与目标帧对齐。
2)非对齐超分辨算法 与已对齐方法不同,未对齐方法在重建前不进 行帧对齐。未对齐方法进一步可以分为空间未对齐 和时空未对齐。对于空间非对齐方法,不需要帧间的运动估计和运动补偿等对齐操作,例如 Lucas 等人提出的视频超分残差网络(video super resolution residual network,VSRResNet)(Lucas 等人,2019) 方法。对于时空未对齐方法,其特点是同时利用输 入视频中的时空信息进行超分辨任务,例如动态滤波器(Dynamic Upsampling Filter,DUF)和三维超分网络( 3-dimensional super resolution network ,3DSRnet)。 VSRResNet 通过对抗性训练解决视频超分辨率问题,由鉴别器决定输出的是生成图像还是真实图 像,促进生成器产生更接近真实图像的结果。韩国延世大学 Yo 等人提出的 DUF(Jo 等人,2018)采用动态上采样滤波器的结构与三维卷积学习的时空 信息相结合,避免使用运动估计和运动补偿。DUF 不仅执行滤波,还执行上采样操作。为了增强超分辨率结果的高频细节,DUF 使用网络估计目标帧的残差图。一帧的最终输出结果是残差映射和经过动态上采样滤波器处理的帧的总和。此外,DUF 还提出了一种基于时间轴的视频数据增强,对不同时间 间隔内按顺序或倒序采样视频帧,得到不同运动速度和方向的视频。Kim 等人提出的 3DSRnet(Kim等人,2019)使用 3D 卷积提取连续视频帧之间的时空信息,用于视频超分辨率任务。随着网络的深 入,三维卷积后的特征图的深度也会变得更浅。为 了保留深度和时序信息,3DSRNet 采用了扩展操作,即在连续帧的开始和结束分别增加一帧。此外, 3DSRNet 提出了一种实际应用中场景变化的方法,采用浅分类网络来判断输入的连续帧。该方法有效地解决了场景变化导致的性能下降问题。
非对齐网络比较简单,超分辨重建效果也很有 限,这说明在利用多帧进行视频超分辨的过程中,
帧间信息融合是非常重要的,对于帧间融合的方法,
尚需进一步的研究。
3)视频插帧
在视频插帧研究方面,Meyer等人基于相位的运动表示提出了PhaseNet(Meyer等人,2018)结构。虽然对于运动模糊或闪动变化它产生了比较鲁棒的结果,但不能有效地重建详细的纹理。核方法在2017年是一个研究热点,Niklaus等人连续在ICCV和CVPR会议上提出了基于核的方法(Niklaus等人,2017a; Niklaus等人,2017b),为每个像素估计一个自适应卷积核。基于核的方法可以产生合理的结果,但是它们不能处理大运动场景。为了有效地利用运动信息,(Niklaus等人,2018)提出的方法使用前向变形技术从连续的两帧中生成了中间帧。然而,前向扭曲矫正存在像素缺失和重叠。因此,大多数基于流的算法都是基于反向扭曲矫正的。为了使用反向扭曲,需要估计中间运动(即中间帧的运动向量)。

1.1.2 视频恢复
视频恢复是视频处理的关键任务之一,它对视 频主客观质量提升和下游视觉分析任务具有至关重要的作用。
从成像设备捕捉到的降质图像中恢复出富有细 节的清晰场景图像是被长期研究的问题,降质模型包括模糊、噪声、天气效应等。Garg 等人(2005,2007)最早尝试从视频中去除雨痕,并提出直接增 加曝光时间或减小摄像机的景深的方法。但是,该 方法无法处理靠近摄像机的快速移动物体,并且如 果控制视频质量不发生显著下降,则无法通过此方法调整摄像机设置(Tripathi 等人,2014)。在过去的几年中,用于从静态/动态场景的视频恢复算法已经探索并形式化描述了降质模型的很多固有特性。 这些算法主要可分为四类:基于时域的算法,基于 频域的算法,基于低秩和稀疏性的算法以及基于深 度学习的算法。前三类使用手工设计的框架来模拟 降质环境,因此被视为基于模型驱动的方法,而后 一类则遵循数据驱动的方法,其中可以从预先收集的成对训练数据中自动学习特征(Wei 等人,2017; Yang 等人,2018)。

1.2 视频压缩技术
1.2.1 混合框架中的传统技术
传统视频编码采用基于块划分的混合编码框 架,包括帧内预测、帧间预测、变换、量化、熵编 码、环路滤波等技术模块。这些模块经过几十年的发展逐渐成熟。
1) 编码块划分结构
基于块的编码结构一直都是传统视频编码框架 的核心。先进视频编码(advanced video coding, H.264/AVC)采用基于 16x16 宏块的划分结构。为 了进一步提升块划分的灵活性和自适应性,高效视频编码(high efficiency video coding,H.265/HEVC)中采用了四叉树划分结构。在 HEVC 与 VVC 两代 标准技术的间隔期,四叉树联合二叉树的划分结构被广泛研究。在 VVC 标准中,采纳了高通公司(Chen 等人,2018)提出的四叉树、三叉树、二叉树联合的多级划分方式,有效提高了编码框架的灵活性。
2) 帧内预测 帧内预测主要利用邻近块之间的空域相关性, 来消除空域冗余。具体来讲,帧内预测利用当前帧 中已重构的像素,导出当前块的预测值,预测块的导出规则就是帧内预测的核心。HEVC 中的帧内预 测,包含平面预测模式(Planar)、直流预测模式 (DC)、角度预测模式等。为了进一步提升压缩性能,高通公司的研究团队(Said 等人,2016)提出基于位置的帧内预测组合(position dependent intraprediction combination,PDPC),该技术使用边界参 考像素以及滤波后的边界参考像素对传统平面预 测、直流预测、角度预测模式的结果进行修正,以降低预测失真。
3) 帧间预测 在帧间预测中,运动矢量编码消耗的比特数制 约着压缩性能,如何导出高质量、低开销的运动矢量一直是行业关注的焦点。Zhang 等人(2018)提出一种运动矢量精度的自适应算法,与 HEVC 中固 定 1/4 像素的运动矢量精度不同的是,该方法为运动矢量设置了整像素、4 像素、1/4 像素等多种可选 项,通过率失真优化的方法进行编码端决策提升运 动矢量的表示能力。Xiu 等人(2018)提出一种高级时域运动矢量预测技术(advanced temporal motion Vector prediction,ATMVP),该技术对编码单元进行了进一步的细分,针对每个编码单元在每个参考 方向上导出多组运动矢量预测信息,通过这些运动 信息对当前编码单元内的子块分别进行运动补偿以提升预测的准确度。

更多详细内容请下载附件查看
游客,如果您要查看本帖隐藏内容请回复

  • 一牛网商城 一牛网直播
已绑定手机
已实名认证
发表于 2022-3-10 13:52:19 | 显示全部楼层 来自 广东省珠海市
谢谢,分享   牛逼
已绑定手机
发表于 2023-2-3 09:14:53 | 显示全部楼层 来自 广东省深圳市
谢谢,分享
已绑定手机
发表于 2023-2-23 15:47:57 | 显示全部楼层 来自 重庆市
感谢分享,好人大富大贵
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

合作/建议

TEL: 19168984579

工作时间:
周一到周五 9:00-11:30 13:30-19:30
  • 扫一扫关注公众号
  • 扫一扫打开小程序
Copyright © 2013-2024 一牛网 版权所有 All Rights Reserved. 帮助中心|隐私声明|联系我们|手机版|粤ICP备13053961号|营业执照|EDI证
在本版发帖搜索
微信客服扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表