Video Frame Interpolation via Adaptive Separable Convolution

title

这篇是ICCV17的文章,是前一篇CVPR17的增强版,title也只比前作多了一个词,tql。

这篇文章解决了前一个文章没能解决的问题,因为2D的kernel size必须很大才能处理大的motion,所以无法在这种大size的kernel下直接预测全图per-pixel的kernel,只能pixel by pixel地预测,这就导致了算法的复杂以及最后结果无法加上全图的loss等问题。因此文章提出用1D的kernel来代替2D的kernel,将kernel的复杂度从K2K^2变成2K2K,进而可以实现全图的输出。

architecture

输出的1D的kernel有两个,一个是horizontal的,一个是vertical的,二者进行外积即可得到一个完整的2D kernel,这种情况下,kernel size可以进一步设大,增强网络对大motion的处理能力。

小结

这篇文章就更接近前面两篇KPN的方法了,都是用一个类似于AE的结构生成全图的per-pixel的kernel来做卷积,不同的是这里为了减少存储量,把2D kernel分解成了两个1D的,还是有点意思的。

文章目录
  1. 1. 小结
|