Synthia：训练无人驾驶人工智能的虚拟系统

Original 2016-06-18 John IntelligentThings

戳蓝色字关注IntelligentThings

（图片来源于：计算机视觉中心）

引言

无人驾驶汽车，尽管被炒的沸沸扬扬。目前，相对于人类驾驶员来说，还无法完成许多简单的任务，例如识别人行道或者红绿灯。巴塞罗纳计算机视觉中心的科学家们，开发了Synthia，虚拟城市仿真，通过训练人工智能驾驶，来识别和掌握各种障碍和情况，即使是在暴雨或者大雪中。

无人驾驶技术目前情况

如果相信伊隆·马斯克，你会认为无人驾驶汽车有朝一日，将会十分安全。他们将完全取代人类驾驶员。尽管，特斯拉通过半自动驾驶功能不断进展，但是离将脚轻松地放在仪表盘上，让Model S来自动载你，还有很大一段距离。

神经网络的作用

神经网络，是人工智能驾驶的关键组件。基于一组广泛的真实世界的图像和视频，它被训练准确地识别不同“类”的物体，例如汽车，行人，路标等等。软件使用这些类，尝试实时解释来自汽车摄像头的输入，并且决定行驶，刹车，或者变道。

（图片来源于：计算机视觉中心）

极端情况

人工智能驾驶在平常条件下，例如行驶在高速公路上，搜集大量数据。这对于人工智能来说相对简单，而软件对于掌握驾驶员称为的“极端情况”，则有点困难以。例如，一些很少发生的事件：汽车事故，紧急救助，或者工程车辆。在这些方面训练人工智能软件，有些困难，因为需要搜集足够多的真实世界数据。

手动注解

难度更大的是，训练神经网络的图片必须手动注解：也就是说，某人需要费力地看每张图片，一个一个像素的标注元素，将机动车道和行人道分离，或者将行人和路标分离。这也就是戴姆勒在城市风光项目中做的，手动注解超过20000张图片，将物体分为30个不同的类。MobilEye公司，提供特斯拉自动驾驶系统的软件，目前雇佣了超过600个人，手动的标注图片，在年底前将拍摄1000张。

简明地说，这是一个很昂贵的任务，而且还没有考虑到注解极端情况。

神经网络问题的解决方案

German Ros和他在巴塞罗那计算机视觉中心的团队，找到了一条正确的自动注解图片的途径，并且告诉人工智能，在可以想到的最反常的情况下如何行动，所有的这些都在一个电子游戏中。

研究人员使用流行的Unity引擎，开始进行真实模拟，有城市，行人，骑自行车的人，公交车，以及复杂天气系：统包括雨，雪，以及四季。然后，他们在仿真中，“构建”一辆虚拟汽车，设置汽车自动驾驶系统摄像头的特殊位置和方向，让汽车在虚拟世界中漫游，从相机的视角拍摄视频和照片。

（图片来源于：计算机视觉中心）

软件可以区分摄像头捕捉到的完整准确性，系统可以生成很大的现实集合，很好地注释图片和视频，研究人员称之为“Synthia”（城市场景的合成图像的集合和注释）。数据通过真实世界图片反馈到神经网络，进行训练，减少了耗时耗力的手工注释，帮助驾驶软件识别一些很难区分的物体。

“人工智能变得很擅长识别，例如行人或者车辆之类的物体。”Ross说，“然而，人行道的界线和识别交通灯，却很具挑战性。人行道在每个国家，每个城市，每个小镇都会动态改变。通过Synthia，我们无风险的模拟了极端情况，加以关注和研究。”

（图片来源于：计算机视觉中心）

具体实施

研究人员搜集了213000张虚拟图片和视频序列，并且尝试验证以下问题。基于真实和虚拟图片的神经网络，是否可以提高软件对于真实世界的识别能力？他们使用一下的组合，2%或者更少的真实世界，手动注释的图片，剩下的来自Synthiad的数据库。

团队使用8个不同的算法作为基线，处理低分辨率（240 * 180像素）图片，将合成图片添加进人工的注释的图片中，充分提供图片的识别能力。当他们尝试将这些图片的小区域分为11类时候，平均成功率从45%提高到55%。

未来

商用的驾驶软件，使用更高质量的资源图片，所以他们的准确率会更高。但是Ros，说这种分析是Synthia效力的一个清晰提示。

科学家们通过非商业使用授权，发布了由Synthia制造的所有数据，并且获取反馈，进一步提高平台性能。Ros也说，已经和汽车制造商达成的商业协议，使用了Synthiad的“虚拟汽车”摄像头配置，来适配汽车制造商的规格说明。

如果大家有什么关于物联网，智能硬件，创新方向的技术或者产品问题想了，请写评论告诉IntelligentThings，我会定期参看大家的问题，并选择一些来回答。

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？