【附文】人脸超分辨率中感知因子PI
人脸超分辨率是图像超分辨率中一类特殊的研究对象,它依然遵循SR技术的一些共有特性,其中最著名的就是相似度越高、肉眼观察清晰度越差的“悖论”。常用的衡量图像超分辨率质量的方式是比较超清(SR)图片和高清(HR)图片的差异,比如两者之间的峰值信噪比(PNSR)或者结构相似性(SSIM)。但是,一个比较反直觉的事实是,很多算法能够得到很好的PSNR和SSIM值,但是肉眼观察SR图片的重构效果并不理想,比如下图中右图SRGAN算法给出了肉眼观察最为清晰的SR图片,但是其PSNR和SSIM值均是3张图片中最低的。
图片来源,https://www.pirm2018.org/PIRM-SR.html
Yochai Blau等发表于CVPR 2018年的文章(The Perception-Distortion Tradeoff)对上述反常现象给出了理论解释,即对于图像超分辨率算法来说,其和HR图片相比引入的畸变越小,即和HR图片的RMSE(root mean square error)越小,则肉眼感知(perception)的SR图片清晰度越差。因此,为了更好的感知清晰度,牺牲一定的SR/HR图片之间的相似度在所难免。
图片来源,https://www.pirm2018.org/PIRM-SR.html
为了更好的衡量SR图片的感知清晰度,即肉眼观察到的SR图片的清晰程度,PIRM 2018(https://www.pirm2018.org/PIRM-SR.html)图片超分辨率竞赛引入了感知因子PI(Perceptual index)的概念。
PI由两个参数Ma和NIQE综合给出,这两个参数的计算都不需要参照HR图片和LR图片,即SR图片感知因子的计算不需要参照原始高清图片和低清图片。所以为了防止超清算法给出的SR图片和原始HR图片之间的偏差太大,一般会限制两者之间的RMSE不能超过一定的范围,否则SR图片相对于原始HR图片就存在一定程度的失真。举一个夸张的例子,如果没有RMSE的约束,超分辨率算法可能会把一只低清的猫变成一只超分辨率的狗。
ASC19初赛中的SR超分辨率赛题使用了PI值作为衡量超分效果的判别依据。