论文笔记——CVPR 2017 Annotating Object Instances with a Polygon-RNN

极市平台 2019-03-28

↑ 点击蓝字关注极市平台识别先机创造未来

1.简介

　文章作者基于深度学习提出一种半自动目标事例标注（semi-automatic annotation of object instances）的算法。大多数前人是将目标分割看作是像素级别的标注问题（pixel-labeling）问题，但是文章作者是将其看做是一个多边形预测的任务（polygon prediction）。两者区别如下（本人自己注释，上图为像素级分割，下图是多边形标注）：

　　当前大多数语义图像分割算法是基于深度学习的方式，但是深度学习的效果很大程度上依赖于大量的训练数据，这就造成圈内人士需要花费很大的人力物力和时间去手动标注大规模训练数据集。这篇文章的目标正是为了加快标注精度很高的真值（ground truth）。
　　那这篇文章为何称为半自动目标事例标注呢？这是因为以下两点：
　　 ①、这篇文章算法首先需要给定一个bounding box真值，然后使用一个RNN（Recurrent Neural Network），文中称为Polygon-RNN在这个目标框中画出目标一个多边形圈住的轮廓。因为相比较手动标注目标轮廓，bounding box标注只要两下鼠标点击即可，容易很多（见上方右图）。
　　 ②、算法标注轮廓过程，人为可干预从而产生更精确的标注结果。这块细节下文再仔细介绍过程。

2.polygon-RNN：

2.1介绍

我们再来好好总结一下整个过程，作者是想创建一个有效的标注工具（annotation tool），从而以多边形形式标注目标事例。当给定bounding box中的图像块（image patch），文章算法基于RNN可以预测一个封闭的多边形来圈出目标的轮廓。多边形设计方法就是先找到一个起点，然后以顺时针方式连续生成多边形的其他顶点，顺序连接所有顶点即形成这个圈出目标轮廓的多边形。

　　模型是一个RNN，每一次迭代预测一个多边形顶点。RNN每一次迭代的输入it包含以下三个方面。第一是图片的CNN特征表示；第二是前两个RNN迭代输出的顶点yt−1和yt−2，依一个特殊方向形成多边形；第三是起点，帮助RNN决定何时封闭多边形。整个网络框架如下图：

2.2CNN形成图片特征表示

文章使用一个VGG-16结构表示图片特征，首先移除全连接层和最后的max-pooling层pool5，然后通过上采样和max-pooling统一跳跃连接VGG不同层的尺寸，形成一个28*28*512串联特征。最后是一个卷积层结合ReLu处理整个串联特征从而形成最终图片特征表示28*28*128，如上图绿色部分。

2.3RNN预测顶点

RNN网络可以在迭代过程中，通过线性和非线性方程携带复杂的历史信息，正是从这点考虑作者希望通过RNN来依次预测出多边形的顶点。文中RNN使用的是一个ConvolutionalLSTM框架，详细来说，作者设计了一个核为3*3和16通道的两层ConvLSTM框架，然后在每一步迭代就输出一个顶点yt。当给定输入图像表示xt，一个ConvLSTM单层的隐层ht计算如下：

当给定两个连续的顶点，下一个多边形顶点则是唯一的了。但是这个情况不能应用在第一个顶点，因为多边形任意顶点可以看做是起点，多边形是一个循环体。所以作者特别对待起始顶点。怎么对待的说实话这块我还没看懂。

2.4训练

我们使用RNN的每次迭代的交叉熵（cross-entropy）去训练模型，为了不过于惩罚接近真值顶点的不准确的预测，每一次迭代都平滑目标分布。作者给真值距离很近的位置也分配一个非零概率。

　　训练的时候还是做出每一步的预测，但是是将真值顶点输入到下一个迭代。但是对于起始顶点的预测是利用多任务loss训练另一个CNN。作为目标边界的真值，作者画出真值多边形的边，然后使用多边形的顶点作为真值的顶点层。

2.5预测与循环中人为矫正

模型预测阶段，在RNN每一步得到最高概率分数的顶点。此外标注着可以在每一步纠正预测。我们可以输入人为纠正的顶点到RNN下一步，然后让模型返回到正确的划分道路上。正常情况下，一个目标圈出轮廓仅需要250ms。
　　实验质量上结果如下：

本文转自CSDN无鞋童鞋，点击阅读原文查看原文。

PS. 如有想加入极市专业CV开发者微信群，请填写申请表（链接：http://cn.mikecrm.com/wcotd9）申请入群~

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？