Google scholar推送概览

这里记录一些谷歌学术推送文章的概览,简述一些读到的idea,如果有值得深入阅读的,将会再进行深入阅读并写成完整笔记。由于很多文章是粗略地读的,很可能会有理解上的偏差,还望读者不吝指出。

2019.08.26

Two-stream sparse network for accurate image super-resolution-ICMEW19

这篇文章参考了ECCV18的Sparsely aggregated convolutional networks,完全dense连接的网络计算复杂度太高,而且容易过拟合,因此文章提出用一种稀疏链接的方式,能够在保证效率的同时有更好的效果。具体而言就是原本是密集连接的feature connection,现在变成相隔2的指数的跨层连接,公式写出来就是

fi=Hi([fi20,fi21,...]),i=1,2,...,L,f_i = Hi([f_{i-2^0},f_{i-2^1},...]),i=1,2,...,L,

F-number adaptation for maximizing the sensor usage of light field cameras-ICME19

这篇文章旨在解决两个问题,其一是现有光场相机,无论是1.0还是2.0,都有有效成像面积不足的问题,其二则是现有光场相机都存在vignetting的问题,是成像决定的,它会导致macro pixel的边缘出现颜色不一致的情况。文章提出,这是因为1.0和2.0的设计中,都匹配了透镜的F数,导致macro pixel的堆叠方式是有空隙的,从而使得传感器利用率不够。

文章提出建立传感器利用率(sensor usage, SU)与主透镜的F数之间的函数关系,通过优化函数来得到最适宜的F数,从而搭建新相机,并利用函数得到的像素选择mask来挑选有效的pixel,从而解决vignetting的问题。从文章的实验结果看,其有效的分辨率得到了提升,vignetting现象也有较大的缓解:

图1:实验的数据结果

190826-F-number1

图2:拍摄得到的图像的比较(左为F数匹配的情况,右为文章的结果)

190826-F-number2

图3:Vignetting问题比较

190826-F-number3

Deep slice interpolation via marginal super-resolution, fusion and refinement

这篇文章是做MRI在z轴方向的插值的,具体方法是用一个参数共享的网络,做x-z方向和y-z方向的插值,得到两个插值得到的cube,然后再用一个融合网络进行进一步的融合,结合横方向与竖方向的信息。在光场上,EPI是否也可以用相同的思路呢?或者说,不同方向的EPI的特性确实不一样,可以达到不同的效果?

An objective assessment method for video stabilization performance

这篇文章提出一个客观的衡量视频稳定性的方法,给出的公式很奇怪,反正我是没看明白这公式里头的notation,后面的实验也很奇怪,没有和主观质量进行一个相关性比较,反正总体感觉一般。

OmniMVS: End-to-end learning for omnidirectional stereo matching

全方向的multi-view stereo,文章的系统设计是使用四个超广角的鱼眼相机组成一个全方向的操作台,拍摄全方向的场景照片。这些场景照片通过2D CNN提取feature,然后把它们warp到深度候选值对应的同心圆,得到一系列的warp后的aligned feature volume,通过3D的encoder-decoder来生成全方向的深度值。系统如下图:

190827-OmniMVS1

具体解法如下图:

190827-OmniMVS2

解法相对来说比较常规,是stereo matching的常规操作,不过extend到了3D的球状sweeping上,这是很有新意的地方,让我想到了spherical CNN,球形卷积。

RankSRGAN: generative adversarial networks with ranker for image super-resolution-ICCV19

17年SRGAN问世,利用生成对抗的思想,加上了MSE、VGG和对抗loss三个loss来得到perceptual非常nice的SR结果。

ESRGAN

18年ECCV的PIRM比赛,Chao Dong的小组提出了ESRGAN,也就是EnhanceSRGAN,ESRGAN相比于SRGAN,在三个方面做了改进:

  1. 网络结构方面,网络结构采用了RCAN提出的residual in residual dense block来代替SRGAN使用的单纯的残差块;
  2. discriminator方面,使用Relativistic average GAN代替原本的vanilla GAN,主要区别在于它的D网络是学习判断一张结果图是否比另一张更像真的,而不是判断一张结果图是真的还是假的,是一种更加放松的方式;
  3. 在perceptual loss方面,采用在激活层前面的VGG feature计算distance取代SRGAN中的激活层后的feature,经验表明结果会更好一些。

下图是Relativistic average GAN的概念理解图:

190827-ESRGAN1

并且ESRGAN还提出了一个网络插值的概念,训练一个纯PSNR向的网络和一个纯GAN向的网络,利用一个权重参数α\alpha来控制插值:

θGINTERP=(1α)θGPSNR+αθGGAN\theta^{INTERP}_G=(1-\alpha)\theta^{PSNR}_G+\alpha \theta^{GAN}_G

可以得到一些综合二者特征的结果,纯GAN虽然很sharp,但是会有一些过于sharp的artifacts,而纯PSNR面向的则是过于smooth:

190827-ESRGAN2

RankSRGAN

这是19年ICCV的oral,Chao Dong的小组提出的RankSRGAN,主要的思想是解决现有的perceptual metric无法求导以至于无法放进网络进行优化的问题,文章通过建立数据集训练ranker来对不同算法得到的结果进行排序,从而得到一个对图像主观质量的排序器,进而通过这个排序器来优化SRGAN的生成。

具体网络架构:

190828-RankSRGAN

总共分为三个stage,第一个是创建pair-wise的SR结果比较,利用特定的视觉质量指标,如PI、NIQE等,第二个部分是利用一个孪生网络(用于pair-wise的比较)以及margin ranking loss来得到一个排序器,最后在恢复的时候加入一个额外的rank loss,让它生成的图像的rank值尽量大,即保证视觉指标尽量高。

这篇文章最大的创新点在于将原本无法求导的视觉质量指标转换成了一个排序问题,绕过了精准模拟视觉指标的这个坎儿,但是这样是否会带来一个问题,那就是margin loss是当my1<my2m_{y_1}<m_{y_2}的时候,要让y1y_1y2y_2的得分差距尽量的大,忽略了my1m_{y_1}my2m_{y_2}数值之间的差距,因为单纯看相对值是相当于忽略了difference的大小而只看值的高低,这个ranker只能分辨better or not而不知道到底有多better,不过rank-content loss是为了让G生成的SR图像的打分尽量的高就行了,所以并不需要知道有多better。那么这样的话,网络的performance就很依赖于rank的数据集,也就是使用的base的SR算法了。

Progressive face super-resolution via attention to facial landmark-BMVC19

这篇文章是利用了facial landmark来参与loss的计算,从而使SR结果在landmark显著区域能够有更好的表现。具体做法就不看了。

Preserving semantic and temporal consistency for unpaired video-to-video translation-MM19

这篇文章是19的MM,主要想做的是在video2video的过程中,保持语义和时间上的一致性,这里的语义一致性我没太细看,主要是看它怎么做时间一致性的,跟之前那篇learning blind temporal consistency是用的一样的目标函数,看来是脱胎于那篇文章的做法,在这一块没啥太新意的地方。

No-reference light field image quality assessment based on spatial-angular measurement

这篇文章就是之前师兄跟我提到的,做光场质量评价的,有时间可以仔细看一下。

Point-based multi-view stereo network

这篇文章在做multi-view stereo的时候,做法与之前的使用cost volume的做法不同,它采用一种coarse-to-fine的结构,利用粗粒度的depth来得到3D的点云,然后使用一个point-based network来refine深度图。

EDVR: Video restoration with enhanced deformable convolutional networks-CVPRW19

这篇文章是19年CVPR的NTIRE视频超分竞赛拿奖的工作,主要是用到了两个重要模块:PCD(pyramid, cascading and deformable convolution)和TSA(Temporal and spatial attention),具体做法可以后续再看了。

Multi-view to novel view: synthesizing novel views with self-learned confidence-ECCV18

这篇文章是一个不需要3D监督的、从多个视角生成新视角的工作,主要框图如下:

190828-Multiview

输入为几个已知视角的图像和对应的camera pose,通过flow predictor预测到target视角的flow,然后通过warp得到target视角的prediction和confidence,另外一方面,有一个generator可以直接生成target视角的图,最后通过一个aggregation网络借助confidence map来合成这些所有的结果。

Dense-view synthesis for three-dimensional light-field display based on unsupervised learning-OE19

这篇文章使用一个unsupervise的方式来训练学习dense的光场视角合成,具体方法就不细看了。

Robust depth estimation for multi-occlusion in light-field images-OE19

这篇文章主要想解决multi-occlusion条件下的光场深度估计,用的是一些几何上的occlusion建模方式,类似与OCC那篇经典的求深度文章,具体方法就不看了。

Image super-resolution by neural texture transfer-CVPR19

这篇文章试图解决基于reference的SR存在的一个问题:过于依赖reference和target image之间的相似性,一旦相似性太低,RefSR的效果就会很差。文章的解法是通过feature level的特征搜索在ref中搜索到想要的内容,然后通过neural style transfer把ref中的内容transfer到target上去。

Recovering realistic texture in image super-resolution by deep spatial feature transform-CVPR18

这篇文章使用语义分割的结果来辅助SR,其实是利用基于类别的区域分割信息来引导feature的提取和利用,具体做法是将分割的概率图送进一个shared的网络,得到SFT的condition,然后公用给每一个SFT layer,SFT layer则是学习feature的变换,对feature做一个仿射变换传入下一层,从而融入了分割的信息进去。

SROBB: Targeted perceptual loss for single image super-resolution

这篇文章提出的观点是VGG loss这样的perceptual loss应该要有一定的区分性,本质上是人眼对不同物体的观感是不一样的,因此文章的做法是先用分割的方式将图片分为object、background和boundary这三个level(OBB),其中图像边缘,使用low-level的feature来做perceptual loss,图像的纹理则用mid-level的feature来做loss,因为人对纹理的观感更侧重于语义上或者说主观视觉上,而边界则相对而言是更加low-level的信息,用low-level的feature来约束能够有更好的效果。这篇文章总体来说是很有意思的,我觉得可以细读一下。

Reduced reference quality assessment of light field images-TOB19

这篇文章是用gt估计得到的disparity和降质的光场得到的disparity之间的失真来衡量光场的失真,相当于是一种reduced reference QA。

2019.09.02

Depth-AGMNet: an atrous granular multiscale stereo network based on depth edge auxiliary task-AAAI2020

本文针对的是当前stereo matching方法的一些问题,主要是在ill-posed的region上,包括texture-less和edge区域的一些地方,现有的方法都是用stacked 3D conv或者parallel structure(具体是啥也不太懂),或者加入edge或segmentation信息来辅助stereo matching的。文章其实也是这么做的,主要创新点在于提出了用depth edge辅助disparity estimation的思路。

Discriminative video representation learning using support vector classifiers-TPAMI2019

这篇文章很有意思,现有的视频动作识别的方法对短的clip都是生成独立的预测,然后不同的clip经过一个pooling得到最后的预测结果,但其实并不是所有帧都表征action,实际上可能会有一些帧在很多action里都是很common的,简单的pooling相当于在同质化不同帧的表征水平。文章提出使用discriminative pooling,在所有short clip中,至少有一个是能够非常好地表征action的,文章提出使用与action label无关的negative bag,和当前有关的positive bag来训练一个针对当前action的分类界面,从而形成多个分类超平面,对视频进行更好的分类。而这个超平面的参数就是这个视频的一个表征子。(具体的文章也没有仔细看,大致的理解是这样)

Global-local temporal representations for video person re-identification

这篇文章很有意思,是为了Person Re-ID设计了一个global-local temporal representation的网络,用来利用多尺度的时域信息,网络主要是两个大的步骤:空域特征提取和时域信息融合。空域特征提取空间特征,是用了最普通的ResNet50,文章的重点在时域信息的融合上。

主要提出了两个block,一个是Dilated Temporal Pyramid (DTP) convolution,对提取到的多帧空域特征进行时域信息提取,采用的是多尺度的dilated conv,通过这种方式来获取local的时域信息,再通过self-attention来获取global的时域信息。

190910-ReID

Video saliency prediction using spatiotemporal residual attentive networks-TIP19

这篇文章是传统two-stream视频high-level方法的改进版本,主要改进在于两个点:

  1. 将appearance和motion用一个residual cross的连接fusion起来;
  2. 一个互补的attention机制;

另外,文章还将convLSTM换成了convGRU,后者结构更简单,能用于小型的动态变化的数据。

Improved robust video saliency detection based on long-term spatial-temporal information-TIP19

当视频帧数变多时,现有的一些方法得到的空-时显著性线索的置信度会变小,导致效果不够好。文章设计了一个新网络用于获取长时的依赖信息来增强video saliency的detection效果。

Fourier light-field microscopy-OE19

现有的光场显微方法在重建光场的时候会有很多artifacts和很高的计算量,使得光场显微比较难以推向实用,文章提出一个将光场在傅立叶域做处理的方法,包括成像系统和恢复算法,既提高了恢复精度,又让恢复的速度提升了两个量级。在傅立叶域之类的变换域上处理光场之前有一篇PAMI文章也做过,感觉有时间可以研究一下这里头的优势所在。

2019.09.11

文章目录
  1. 1. 2019.08.26
    1. 1.1. Two-stream sparse network for accurate image super-resolution-ICMEW19
    2. 1.2. F-number adaptation for maximizing the sensor usage of light field cameras-ICME19
    3. 1.3. Deep slice interpolation via marginal super-resolution, fusion and refinement
    4. 1.4. An objective assessment method for video stabilization performance
    5. 1.5. OmniMVS: End-to-end learning for omnidirectional stereo matching
    6. 1.6. RankSRGAN: generative adversarial networks with ranker for image super-resolution-ICCV19
      1. 1.6.1. ESRGAN
      2. 1.6.2. RankSRGAN
    7. 1.7. Progressive face super-resolution via attention to facial landmark-BMVC19
    8. 1.8. Preserving semantic and temporal consistency for unpaired video-to-video translation-MM19
    9. 1.9. No-reference light field image quality assessment based on spatial-angular measurement
    10. 1.10. Point-based multi-view stereo network
    11. 1.11. EDVR: Video restoration with enhanced deformable convolutional networks-CVPRW19
    12. 1.12. Multi-view to novel view: synthesizing novel views with self-learned confidence-ECCV18
    13. 1.13. Dense-view synthesis for three-dimensional light-field display based on unsupervised learning-OE19
    14. 1.14. Robust depth estimation for multi-occlusion in light-field images-OE19
    15. 1.15. Image super-resolution by neural texture transfer-CVPR19
    16. 1.16. Recovering realistic texture in image super-resolution by deep spatial feature transform-CVPR18
    17. 1.17. SROBB: Targeted perceptual loss for single image super-resolution
    18. 1.18. Reduced reference quality assessment of light field images-TOB19
  2. 2. 2019.09.02
    1. 2.1. Depth-AGMNet: an atrous granular multiscale stereo network based on depth edge auxiliary task-AAAI2020
    2. 2.2. Discriminative video representation learning using support vector classifiers-TPAMI2019
    3. 2.3. Global-local temporal representations for video person re-identification
    4. 2.4. Video saliency prediction using spatiotemporal residual attentive networks-TIP19
    5. 2.5. Improved robust video saliency detection based on long-term spatial-temporal information-TIP19
    6. 2.6. Fourier light-field microscopy-OE19
  3. 3. 2019.09.11
|