Visual Mechanisms Inspired Efficient Transformers for Image and Video Quality Assessment
Image and video quality assessment based on swin-transformer 这是一篇2022年发表于CVPR的一篇文章,文中作者受到swin-transformer中多层注意力机制的启发,构造了一种能在多个维度层面对图像质量进行评价的图像质量评价方法。并将这一方法应用于视频片段中帧图像的质量评定。最终不论是文中提出的图像质量评定方法还是视频质量评价方法都获得了巨大的成效成为全新的标杆性方法。 在图像质量评价方面,由于使用了swin-transformer作为基础框架,作者在进行图像预处理时 对该领域所要求的高分辨率图像与swin-transformer所要求的固定分辨率图像输入中做了折中,摒弃了传统图像分类、目标检测中所做的裁剪预处理转而采用池化层对高分辨率图像的全局信息进行提取并以提取出的信息作为输入放入swin-transformer框架中进行处理。在往常的计算机视觉任务中深度学习框架往往更偏向于提取空间域或时域中的相关信息,但作者提出在图像质量评价任务中频域信息(图像中亮度/对比度的变化快慢)同样值得关注。虽然图像的频域信息在深度学习框架中很难准确地进行表示但是在每层swin-transformer的输出中各个chanel之间的相对信息可以从某种意义上展现出该图片的频域信息因此作者提出了channel attention对原有swin-transformer框架进行了改进提出了一种适用于图像质量评价的swin-transformer(multi-stage channel attention model using Swin Transformer as backbone for IQA)其框架如上图一所示。此外作者认为本文提出的这种channel attention在swin-transformer的各个层之间的注意力表现应当是近乎相同的,同时也为了减少模型的运算数据量,作者决定采用权重共享的方式为原有的swin-transformer添加channel attention机制。由于在swin-transformer各个层的输出中他们的channel数量并不相同,作者引入包含固定数量(K)的滤波器以及1×1卷积核的bottleneck卷积层对各个层的输出进行变...