Toward Real-World Single Image Super-Resolution: A New Benchmark and A New Model

title

这是达摩院、大疆和香港理工大学一起做出来的一个工作,这个数据集的一部分还被用在了NTIRE19的真实图像超分辨率竞赛上。看这篇文章一个原因是它用了KPN,另一个原因也是它做的方向这一年刚好雨后春笋一样冒了一大堆,包括Chang的工作。

Formation

真实图像分辨率降质的模型其实一直比较有争议,我个人也觉得可以从很多角度思考,最直接的当然就是用不同的焦距来拍摄同一个场景,文中给出了一个比较精简的推导:

1f=1u+1v\frac{1}{f} = \frac{1}{u} + \frac{1}{v}

上式是透镜成像公式,uu是物距,vv是像距,所谓的放大或者缩小系数,可以看成是像的大小相对于物体大小的比例:

M=h2h1=vuM = \frac{h_2}{h_1} = \frac{v}{u}

当物体大小h1h_1和物距uu固定时,物距uu往往比相机的焦距大多了,因此考虑到ufu \gg f并且联立(1)(2)两式,可以得到:

h2=fufh1fuh1h_2 = \frac{f}{u-f}h_1\approx \frac{f}{u}h_1

因此,像的大小可以近似为与焦距成正比。文章基于此结论,进行了数据集的采集和配准工作,这里不再赘述。

SR网络

可以想见的是,上述降质模型里面,得到的LR图像与HR图像之间的降质关系(即blur kernel)会跟随物距而改变,因此采用KPN这种结构会更有效一些,所以文章提出的网络结构如下:

network

金字塔架构是因为KPN要生成k×k×w×hk\times k\times w \times h这么大的map然后做卷积,如果kernel很大,占用的存储量很大,kernel小则效果不够好,不能够处理更大的邻域,所以文章采用一个金字塔架构,无可厚非。KPN结构就是我们之前在burst denoising里看到的一样的结构,只不过是没有那个N而已。

小结

  1. 可以看出,这里对realSR的LR-HR pair对的建模是与Chang师兄不太一样的,但是殊途同归,不同的角度分析得到的结果是近乎一致的。
  2. 对于同一个问题,如果能够有更多不一样或者更深层次的思考,会更有价值一些。
  3. 类似的工作还有两篇:一篇是CVPR19的zoom to learn, learn to zoom,另一篇是TPAMI还没publish的Toward bridging the simulated-to-real gap: benchmarking super-resolution on real data。
文章目录
  1. 1. Formation
  2. 2. SR网络
  3. 3. 小结
|