Image and video quality assessment based on swin-transformer

这是一篇2022年发表于CVPR的一篇文章，文中作者受到swin-transformer中多层注意力机制的启发，构造了一种能在多个维度层面对图像质量进行评价的图像质量评价方法。并将这一方法应用于视频片段中帧图像的质量评定。最终不论是文中提出的图像质量评定方法还是视频质量评价方法都获得了巨大的成效成为全新的标杆性方法。

在图像质量评价方面，由于使用了swin-transformer作为基础框架，作者在进行图像预处理时对该领域所要求的高分辨率图像与swin-transformer所要求的固定分辨率图像输入中做了折中，摒弃了传统图像分类、目标检测中所做的裁剪预处理转而采用池化层对高分辨率图像的全局信息进行提取并以提取出的信息作为输入放入swin-transformer框架中进行处理。在往常的计算机视觉任务中深度学习框架往往更偏向于提取空间域或时域中的相关信息，但作者提出在图像质量评价任务中频域信息（图像中亮度/对比度的变化快慢）同样值得关注。虽然图像的频域信息在深度学习框架中很难准确地进行表示但是在每层swin-transformer的输出中各个chanel之间的相对信息可以从某种意义上展现出该图片的频域信息因此作者提出了channel attention对原有swin-transformer框架进行了改进提出了一种适用于图像质量评价的swin-transformer(multi-stage channel attention model using Swin Transformer as backbone for IQA)其框架如上图一所示。此外作者认为本文提出的这种channel attention在swin-transformer的各个层之间的注意力表现应当是近乎相同的，同时也为了减少模型的运算数据量，作者决定采用权重共享的方式为原有的swin-transformer添加channel attention机制。由于在swin-transformer各个层的输出中他们的channel数量并不相同，作者引入包含固定数量（K）的滤波器以及1×1卷积核的bottleneck卷积层对各个层的输出进行变维使其拥有相同的channel数，并在其后引入一个与feature map大小相同的平局值池化使得其输出变形成为一个（1×K）的向量。变形成功之后的（1×K）数据将直接应用共享的channel attention权重进行注意力计算获得同样大小的（1×K）向量。由于swin-transformer框架总共包含的四个层次，因此在获得了四个（1×K）向量后作者对其进行拼接获得了一个（4×K）的矩阵再经由平均值池化层转化为（1×K）后接入预测头获得最终质量评价得分。

在视频质量评价方面，本文作者采用分级注意机制进行视频序列的质量评定，具体而言，作者首先将一段完整的视频分为若干较小的视频片段（Clips），其中每个clip均包含有固定数量的帧图像。在进行质量评估时，视频会首先被打散成为一个个独立的帧图像并分别传入图像质量评价模块获得相关信息，但与单独的图像质量评价不同在视频质量评价中该模块的输出不再是一个代表图像质量的分数转而成为了一个大小为（1×4K）的向量，这一向量便是各个层级的输出进行拼接后的结果。随后从各个帧图像中提取出的信息向量将进入各自的clip小组进行第一轮每个clip小组内部的多头注意力处理，值得注意的是为了降低计算复杂度这里的注意力权重在各个小组之间依旧是共享的状态。此外作者还提出，本文所提出的视频质量评价模型应当有能力去处理各个长度的视频片段而不能只适用于固定长度。因此作者在帧图像数量较少的clip中添加执行了padding操作用零向量进行填充，将各个clip的帧容量进行了固定，使其在面对不同长度的视频序列时也同样可以进行attention权重的共享。此外为了降低添加进来的零向量对评价结果的影响，作者又进行了mask掩码操作为额外加入的零向量添加标志位，在进行attention计算时将其权重大小设置接近为零。经由第一层多头注意处理后将得到一个大小为1×256的向量之后再接入一个包含64个卷积核的特征提取层将其转化为一个大小为1×64的向量。至此我们就获得了C（clip片段数）个1×64维的向量。为他们添加可学习的位置编码信息，之后送入经典transformer模型进行处理，求取平均后接入预测头进行视频质量的预测。

搜索此博客

errors

Visual Mechanisms Inspired Efficient Transformers for Image and Video Quality Assessment

Image and video quality assessment based on swin-transformer

评论

发表评论

此博客中的热门博文

An overview of gradient descent optimization algorithms.

vision transformer