视频预测领域有哪些最新研究进展?不妨看看这几篇顶会论文
作者丨文永亮
学校丨哈尔滨工业大学(深圳)硕士生
研究方向丨视频预测、时空序列预测
ICCV 2019
这是卡耐基梅隆和 Facebook 的一篇 paper,这篇论文的关键在于分解实体预测再组成,我们观察到一个场景是由不同实体经历不同运动组成的,所以这里提出的方法是通过隐式预测独立实体的未来状态,同时推理它们之间的相互作用,并使用预测状态来构成未来的视频帧,从而实现了对实体分解组成的视频预测。
该论文使用了两个数据集,一个是包含可能掉落的堆叠物体 ShapeStacks,另一个包含人类在体育馆中进行活动的视频 Penn Action,并表明论文的方法可以在这些不同的环境中进行逼真的随机视频预测。
主要架构有下面三个部分组成:
1. Entity Predictor(实体预测模块):预测每一个实体表示的未来状态;
2. Frame Decoder(帧解码器):从实体表示中解码成 frame;
3. Encoder(编码器):把 frame 编码成 u 作为 LSTM 的 cell-state 得到输出记录时序信息(最后其实就是 concat 进去,见如下)。
https://github.com/JudyYe/CVP/blob/c176a508e6cbddd60b932b76af8931f774e2efa0/cvp/graph.py#L349
obj_vecs = torch.cat([pose, bbox, diff_z], dim=-1)
分解的思想一般都用 mask 来体现,就是把变化的与不变的用掩码表示后在组合起来,预测变化的部分,这是分而治之的思想。
让
通过权重掩码和各个特征的结合最后取平均,这样我们就得到图像级别的特征,即每一帧的特征,
上面的公式很好理解,⊙ 是像素乘法,⊕ 是像素加法,
编码器的作用是把各帧
解码损失就是实体表示
其总的损失函数即三个损失的和。
ICLR 2019
当我们与环境中的对象进行交互时,我们可以轻松地想象我们的行为所产生的后果:推一颗球,它会滚走;扔一个花瓶,它会碎掉。视频预测中的主要挑战是问题的模棱两可,未来的发展方向似乎有太多。就像函数的导数能够预测该值附近的走向,当我们预测非常接近的未来时我们能够未来可期,可是当可能性的空间超出了几帧之后,并且该问题本质上变成了多模的,即预测就变得更多样了。
这篇把 GAN 和 VAE 都用在了视频预测里,其实 GAN-VAE 在生成方面早有人结合,只是在视频预测中没有人提出,其实提出的 SAVP 是 SV2P (Stochastic Variational Video Prediction) 和SVG-LP (Stochastic Video Generation with a Learned Prior) 的结合。
▲ SV2P网络结构
在训练期间,隐变量
在测试阶段我们的隐变量从先验分布
所以 G 和 E 的目标函数如下:
L1 损失并不是很能反映图像的相似度,既然文章是 VAE 和 GAN 的结合,所以在下面提出了判别器去评判图片质量。论文指出单纯的 VAE 更容易产生模糊图,这里加入的判别器是能够分辨出生成视频序列
最后总的损失函数如下:
下面是论文中的实验结果:
ICCV 2019
Non-Local ConvLSTM 是复旦大学和 B 站的论文,其实这篇不太算视频预测方向,这是使用了在 ConvLSTM 中使用 Non-Local 结合前一帧增强图像减少视频压缩的伪影,是视频压缩的领域,但是对我有些启发,Non-Local 最初就是用于视频分类的。
SSIM是用来评价整张图的质量,但是对于一张质量不好的图来说他的 patch 并不一定差,对于一张好图来说他的 patch 也不一定好,所以作者用 Non-Local 来捕捉两帧之间特征图间像素的相似性。
ConvLSTM 可以表示成下面的公式:
即 hidden state
而 NL-ConvLSTM 是在 ConvLSTM 的基础上加了 Non-local 的方法,可以表示如下:
其中
这里的公式估计论文写错了,我认为是:
但是由于 Non-local 计算量太大,作者提出了两阶段的 Non-Local 相似度估计,即池化之后做相似度计算如下:
CVPR 2019
这是清华大学的一篇 paper,作者 Yunbo Wang 也是 Eidetic 3D LSTM,PredRNN++,PredRNN 的作者,自然时空序列的发生过程常常是非平稳( Non-Stationarity )的,在低级的非平稳体现在像素之间的空间相关性或时序性,在高层语义特征的变化其实体现在降水预报中雷达回波的积累,形变或耗散。
上图是连续 20 帧雷达图变化,其中白色像素表示降水概率较高。第二、第三、最后一行:通过不同颜色的边框表明相应局部区域的像素值分布、均值和标准差的变化。蓝色和黄色框表明着生成的非平稳变化过程,红色框表明了消散的过程,绿色框为形变过程。
▲ 左边为ST-LSTM (Spatio-Temporal LSTM),右边为加入了MIM模块的LSTM
这篇论文的主要工作就是构造了 MIM 模块代替遗忘门,其中这个模块分为两部分:MIM-N(非平稳模块),MIM-S(平稳模块)。
MIM-N 所有的门
其数学表达式如下:
1. MIM-N:
2. MIM-S:
Moving Mnist:
Radar Echo:
其实可以看到 MSE 在预测第五帧才有明显的优势,CSI-40 和 CSI-50 其实并没有明显优势。
总结
视频预测是结合了时空序列信息的预测,其关键在于如何利用时序信息,ConvLSTM 就是把卷积直接与 LSTM 结合记录时序信息,而在 VAE 相关的模型中时间序列被编码成隐变量拼接起来。除了修改 LSTM-cell 的结构(e.g. MIM)或者其他的网络结构尝试捕捉其他信息,我们常见的一种思想就是分而治之,把变与不变用掩码区分出来,有点像我之前解读的一篇 BANet,这里的 CVP 方法甚至对实体直接进行预测,这些都是比较好的想法。
点击以下标题查看更多往期内容:
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 获取更多论文推荐