Light field intrinsics with a deep encoder-decoder network

1

这是承接上一篇文章读的,上一篇文章是CVPRW19的利用3D的encoder-decoder加上GAN loss做SR的工作,它的结构其实比较奇怪,最后加上GAN loss的操作也有点莫名其妙,这篇CVPR18正会的文章就好多了。

主要思想

文章的主要思想其实靠一张图就能看明白了,这也是我之前一直没有读这篇文章的原因,觉得看完图就懂了:

Framework

EPI volume通过一个encoder编码到非常低维的空间,然后通过无监督方式训练AE得到表达、通过有监督的训练方式来得到disparity和intrinsic的两个分量。

一些小细节:

  1. 输入是水平和垂直两个方向的EPI volume,共享网络参数,在disparity encoder之前concat在一起;
  2. 由于diffuse和specular相加是要等于LF的,所以在最后接近输出层时把二者的feature共享了;

Residual block的设计

文章还提出了它设计的encoder-decoder的res-block,与CVPRW19的是一样的结构,只不过deconv那里没有bicubic上采样这么神奇的操作而已:

Res-block

小结

总的来说,CVPRW19的文章结构上是沿袭了这篇18年的思想,只不过为什么用3D-2D这样的结构代替3D-3D的结构还是有点奇怪,如果单纯是为了结构上比较精简,倒也可以理解了。那么还有两个不太理解的地方就是,为什么要用GAN的loss,如果改用MSE loss比较PSNR和SSIM是否会更合理一些?

文章目录
  1. 1. 主要思想
  2. 2. Residual block的设计
  3. 3. 小结
|