查看原文
其他

CVPR2019 | 微软、中科大开源基于深度高分辨表示学习的姿态估计算法

CV君 极市平台 2019-03-28

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击文末“阅读原文”立刻申请入群~


来源|我爱计算机视觉

授权转自我爱计算机视觉,未经允许不得二次转载


昨天,极市刚刚报道了CVPR2019接收结果的消息,并po出部分论文链接,详情可看:1300篇!CVPR2019接收结果公布,你中了吗?(附部分论文链接)今天本文就来解读其中一篇arXiv上的CVPR 2019 论文。


来自微软和中国科技大学研究学者的论文《Deep High-Resolution Representation Learning for Human Pose Estimation》和相应代码甫一公布,立刻引起大家的关注,不到一天之内,github上已有将近50颗星。


今天就跟大家一起来品读此文妙处。


该文作者信息:



该文为第一作者Ke Sun在微软亚洲研究院实习期间发明的算法。


基本思想

作者观察到,现有姿态估计算法中往往网络会有先降低分辨率再恢复高分辨率的过程,比如下面的几种典型网络。


为便于表达,在下面的a、b、c、d四幅图中,同一水平线上的特征图为相同分辨率,越向下分辨率越小,在最终的高分辨率特征图heatmap中计算姿态估计的关键点。



Hourglass



Cascaded pyramid networks



Simple baseline



Combined with dilated convolutions



其中的网络结构说明如下:



作者希望不要有这个分辨率恢复的过程,在网络各个阶段都存在高分辨率特征图。


下图简洁明了地表达作者的思想。



在上图中网络向右侧方向,深度不断加深,网络向下方向,特征图被下采样分辨率越小,相同深度高分辨率和低分辨率特征图在中间有互相融合的过程。

作者描述这种结构为不同分辨率子网络并行前进。


关键点的heatmap是在最后的高分辨率特征图上计算的。


网络中不同分辨率子网络特征图融合过程如下:



主要是使用strided 3*3的卷积来下采样和up sample 1*1卷积上采样。


这么做有什么好处?

作者认为:

1)一直维护了高分辨率特征图,不需要恢复分辨率。

2)多次重复融合特征的多分辨率表示。


实验结果

该算法在COCO姿态估计数据集的验证集上测试结果:



与目前的state-of-the-art比较,取得了各个指标的最高值。相同分辨率的输入图像,与之前的最好算法相比增长了3个百分点!


在COCO test-dev数据集上,同样一骑绝尘!



在MPII test 数据集上,同样取得了最好的结果!



作者进一步与之前最好模型比较了参数量、计算量,该文发明的HRNet-W32在精度最高的同时,计算量最低!

如下图:



在PoseTrack2017姿态跟踪数据集上的结果比较:



同样取得了最好的结果。


下图是算法姿态估计的结果示例:


(请点击查看大图)


不仅仅是姿态估计

作者在官网指出,深度高分辨率网络不仅对姿态估计有效,也可以应用到计算机视觉的其他任务,诸如语义分割、人脸对齐、目标检测、图像分类中,期待更多具有说服力的结果公布。







论文代码地址


论文地址:

http://cn.arxiv.org/pdf/1902.09212.pdf


项目主页:

https://jingdongwang2017.github.io/Projects/HRNet/PoseEstimation.html


代码地址:

https://github.com/leoxiaobin/deep-high-resolution-net.pytorch



*延伸阅读

1300篇!CVPR2019接收结果公布,你中了吗?(附部分论文链接)
关于本次CVPR2019投稿的一些感想


每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击左下角“阅读原文”立刻申请入群~

觉得有用麻烦给个好看啦~  


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存