她如何用一个申不到经费、被称作学校之耻的项目，革新了整个研究领域、掀起了如今的AI浪潮？

2017-08-30 Dave Gershgorn 中科院物理所

▲点击图片为你喜欢的作品投票

本文由微信公众号“科研圈”（ID：keyanquan）授权转载

转载请先联系keyanquan@huanqiukexue.com

斯坦福大学副教授、谷歌云（Google cloud）首席科学家李飞飞图片来源：stanford.edu

毕业于普林斯顿大学的华裔女科学家李飞飞，在不被看好的情况下，带领团队创健了名为 ImageNet 的数据集和人工智能挑战赛。ImageNet 大赛不但带动了人工智能（AI）的高速发展，更为Google、facebook 等企业培养了一众优秀的 AI 专家，重新定义了人们研究人工智能的思考方式，推动了如今如火如荼的人工智能浪潮。

撰文 Dave Gershgorn

翻译许黎珊

审校魏潇

2006 年，李飞飞开始酝酿一个大胆的想法。

当时，她还是伊利诺伊大学香槟分校的一名刚刚上任的计算机科学（computer science）教授，她发现自己在学术界和人工智能行业的同事正在苦心钻研同一件事情：无论数据如何，只要算法越高效，决策就会越准确。

但是，李飞飞清楚地意识到这种做法的局限性——如果数据不能反映真实世界的情况，即使用最好的算法也不会得出理想的结果。

她的解决办法是——建造一个更加真实的数据库。

“我们决定要干一件史无前例的事情，”李飞飞谈到最初跟她一起创建数据集的伙伴们时说道：“我们要把整个世界的物体一一映射到数据集中。”

李飞飞团队把他们的成果命名为 ImageNet，并在 2009 年发表论文中将其公之于众。这个数据集当时还籍籍无名，它的宣传海报贴在迈阿密海滩的某个会议中心的小角落里，无人问津。但是，没过多久，ImageNet 就迅速发展成一项年度竞赛，这项比赛通过识别数据集中的物体，选出识别错误率最低的算法为优胜者。许多人认为正是这一比赛推动了如今如火如荼的人工智能浪潮。

参与 ImageNet 挑战赛的团队遍布科技领域的各个角落：在 2010 年举办的第一场挑战赛的优胜者曾经出任百度、谷歌和华为等公司的高层领导；马修 · 泽勒（Matthew Zeiler）在 2013 年 ImageNet 挑战赛上赢得冠军，他在优胜算法的基础上创办 Clarifai 公司，目前获得高达 4000 万美元的风险投资；2014 年，谷歌与两位牛津大学的研究人员共同赢得比赛冠军，随后，谷歌很快招募这两位获奖者加入它最近收购的 DeepMind 实验室。

目前，李飞飞身兼谷歌云（Google Cloud）首席科学家、斯坦福大学教授和斯坦福大学人工智能实验室主任等多重身份。

今年 7 月 26 日，她最后一次在计算机视觉与模式识别会议（Computer Vision and Pattern Recognition, CVPR）上对 ImageNet 挑战赛进行回顾与总结—— 2017 年是该竞赛举办的最后一年。短短 8 年时间，冠军算法识别物体的准确率从 71.8 %上升到现在的 97.3 %，精确度已经远远超过人类。这无疑证明了训练数据越庞大，越有助于算法做出更好的决策。

尽管挑战赛结束了，但是它在行业中造成的影响依旧没有褪去。自 2009 年以来，计算机视觉技术、神经语言处理和语音识别等人工智能的分支领域诞生了数十个新的研究数据集。

“在 ImageNet 的影响下，固有的思维模式开始发生转变——当人们的重心都放在如何做出更好的算法模型的时候，我们转而研究如何改善数据。”李飞飞说道，“数据重新定义了我们对模型的思考方式。”

ImageNet 的诞生

在 20 世纪 80 年代末，普林斯顿大学的心理学家乔治 · 米勒（George Miller）开展了一项名为 WordNet 的项目，旨在建立英语的层级结构模型。WorldNet 类似于某种词典，只是其中的单词并不按照字母 A-Z 的顺序排列，而是根据一个单词与其他单词的关系来排序，这种语言组织方式是基于机器可读的逻辑。例如，在 WordNet 里面，dog（狗）放在 canine（犬科）目录下，canine 又放在 mammal（哺乳动物）目录下，以此类推，形成多重层级结构。它所汇集的索引单词数量超过 15.5 万个。

基于 WorldNet 的 ImageNet 层级结构来源：ImageNet

李飞飞刚刚担任伊利诺伊大学香槟分校教授的时候，一直致力于解决机器学习中一个关键问题：过度拟合和过度泛化。过拟合指一个算法模型过分拟合训练样本，只能识别与之前的样本相似的对象，也就是说，它无法处理除训练数据以外的其他数据，而过度泛化指一个算法模型在训练后无法准确地分类数据。

李飞飞表示，当时，要找到解决拟合和泛化问题的算法似乎只是妄想，因为以前的数据集没有体现世界的多样性——哪怕是识别图像上的猫，对当时的算法而言也太过复杂，难以实现。但是，训练算法时使用更多反映物体多样性的数据可以有效优化算法，这在数学意义上是成立的。例如，如果你只看过 5 张猫咪的图片，那你得到的数据只有 5 个拍摄角度、5 种光线明暗程度或者 5 个品种的猫。但是，如果你看过 500 张猫咪的图片，那你就有更多的样本来确定不同猫咪之间的共同点。

李飞飞开始研究其他人是如何较好地归纳、分类并用数据表示世界上的物体。在寻找的过程中，她注意到了 WordNet 。

李飞飞在仔细研读过 WordNet 的分类方法后，从中受到启发。2006 年，她访问普林斯顿，与一直从事 WordNet 研究的教授克里斯蒂安 · 菲尔鲍姆（Christiane Fellbaum）见面。菲尔鲍姆表示，在 WordNet 中，每一个单词都可以和一张图片相关联，但是图片主要是为了提供解释单词意思的参考，而不是用来构建计算机视觉的数据集。在那次会面后不久，李飞飞设想一个更宏大的想法——建立一个规模庞大的数据集，其中包含了每一个单词的图像实例。

申请不到经费的项目

几个月之后，李飞飞到她的母校普林斯顿大学任职。在 2007 年年初，她启动 ImageNet 的项目研究。最开始组建项目团队时，她首先招募了研究员李凯教授，随后李凯说服了博士生邓嘉转到李飞飞的实验室。直到 2017 年项目结束之前，邓嘉一直在负责协助运营 ImageNet 。

“我认为，ImageNet 显然不同于其他人所作的研究。”邓嘉说道，“我当时明确感觉这将会改变视觉研究领域的运作模式，但我不知道它会以怎样的方式改变。”ImageNet 数据集既包括熊猫和教堂等实际物体，也包括爱情这样的抽象概念。

李飞飞最初的想法是以每小时 10 美元的价格聘用本科生，手动寻找合适的图片添加进数据集。但是，随手一算就会发现，按本科生收集图片的速度，要完成 ImageNet 项目大约需要 90 年。

随后，她解散了本科生团队，李飞飞和她的团队重新回到了起点。他们考虑，是否可以利用计算机视觉算法从网络中筛选图片，他们只需负责组织和管理这些图片？但是，经过几个月反复修改算法后，得出了一个结论：这个方法依旧不可行——未来使用数据集的算法同样会受到制作数据集的识别算法的影响，因为其所能达到的识别准确度不会高于制作数据集时所具备的识别能力。

人工筛选和添加图片浪费时间，使用识别算法又存在弊病，屋漏偏逢连夜雨，李飞飞的团队还资金短缺：李飞飞说，虽然她多次申请资金，但是 ImageNet 项目未能获得任何联邦政府的拨款，甚至有人批评道：这个课题是普林斯顿之耻，这个项目的唯一优势是，申请人是个女的。

转机出现

最终，李飞飞在与一个研究生闲聊时突然发现项目的转机。当时，那位研究生问李飞飞，有没有听说过亚马逊旗下的“土耳其机器人（Mechanical Turk）”——它是一个众包网络平台，“请求者”在该平台上以低廉的薪资召集世界各地的网络用户完成各种的琐碎工作。

“他给我看了这个网站，我可以告诉你，就在那一天，我确认 ImageNet 肯定能成功。”李飞飞说，“我们突然之间找到扩大数据集规模的方法，如果单纯依靠本科生人工找图片，我们根本没办法完成这个项目。”

亚马逊“土耳其机器人”图片分类的界面

使用“土耳其机器人”并不意味着一劳永逸，平台本身具有的许多问题都需要交由李飞飞的博士生邓嘉和奥尔加 · 鲁萨科夫斯基（Olga Russakovsky）来解决。例如，每张图片需要经过多少人过目？要确认图片显示的是猫咪或许只需 2 个人，但是要辨别出图片上出现的是一只微型哈士奇可能需要经过 10 次验证；如果参与该平台的“工作者”偷懒，试图操纵或者欺骗系统又该如何发现错误？李飞飞的团队最终针对参与者的行为开发了一批统计模型，确保数据集中只包含正确的图片。

虽然他们通过“土耳其机器人”提供的服务收集数据，但是数据集工程浩大，历经两年的辛苦工作才得以完成。ImageNet 中包含 320 万张标记过的图片，共分成 5247 个种类，归类到 12 个子目录树下，比如哺乳动物、汽车和家具等等。

2009 年，李飞飞和他的团队发表了关于 ImageNet 的论文，其中介绍了数据集这一构想——但他们只能低调地宣传。李飞飞回忆道，国际计算机视觉与模式识别会议（CVPR）作为计算机视觉研究领域的顶尖会议，只允许他们发一张海报，不接受任何演讲宣传。于是，他们免费发放印有 ImageNet 牌子的钢笔来吸引注意力。当时，人们很怀疑训练更多的样本就能改善算法这样一个简单的道理。

邓嘉谈到了当时大家对 ImageNet 的质疑态度：“当时有人说，‘如果你连一个物体都不能准确识别，为什么还尝试做几千个、几万个物体？’”

如果数据是新时代的石油，那么在2009年，它还只是原始的恐龙骨头。

ImageNet 挑战赛带来的意外收获

同年，在京都举办的一个计算机视觉大会上，与会的研究人员之一的亚历山大 · 伯格（Alex Berg）在会场叫住李飞飞，他提议 ImageNet 挑战赛应该不仅要求算法判定物体是否存在，还需拓展规则，要求选手用算法定位目标物体在图像中的位置。李飞飞在交流之后表示：不如你加入我的团队吧。

伯格、邓嘉和李飞飞三人基于这些数据集一共撰写了五篇论文，用来解释算法识别大规模数据的过程。其中第一篇论文成了为算法如何识别成千上万的图片的比赛标准，也就是 ImageNet 挑战赛规则的雏形。

李飞飞在第一篇论文中写道：“我们意识到，如果要普及这个数据集，我们仍需开展进一步的研究。”

随后，李飞飞奔赴欧洲与著名的国际计算机视觉算法竞赛（PASCAL VOC）的组委会交流，组委会表示愿意同她合作联合比赛，共同使用 ImageNet 和 PASCAL 的数据集。在当时，PASCAL 数据集具有一定影响力，但它只包含 20 个物体类别，而 ImageNet 有 1000 个类别，明显比它更加庞大。

随着国际计算机视觉算法竞赛在 2011 年顺利开幕，到了 2012 年，该数据集迅速成为一项基准，用于衡量图像分类算法在识别当时最复杂的数据集时的表现。

ImageNet 数据集的网络截图

但是，除了比赛成绩以外，研究人员开始注意到另一个有趣的结果——参赛的算法经过 ImageNet 数据集训练后能更准确地识别图像。

“我们发现用 ImageNet 训练过的算法可以作为其他识别任务的初始模型，这真是意外之喜，也就是说，这些原本用于图像识别的算法经过微调之后就能完成其他任务，”伯格说道，“这不仅是神经网络的巨大突破，还是模式识别的一大进步。”

ImageNet 引领的人工智能浪潮

2012 年，在第三届 ImageNet 挑战赛上发生了一件大事——如果将如今风靡全球的人工智能浪潮的归功于一件大事，那么这份荣耀应当属于当年挑战赛宣布冠军成绩的那一刻。

来自多伦多大学的三位挑战者，杰弗里 · 辛顿（Geoffrey Hinton），伊利亚 · 施克斯克（Ilya Sutskever）和亚历克斯 · 克里杰夫斯基（Alex Krizhevsky），共同创造了一个名为 AlexNet 深度卷积神经网络结构，以压倒性的优势一举夺得冠军——他们将算法准确率提高了 10.8 个百分点，足足比第二名高了 41 %。直到今天 AlexNet 仍被用于研究。

随着时间的推移，ImageNet 大赛中参赛算法的错误率越来越低

对杰弗里 · 辛顿和他的两位学生而言，ImageNet 数据集出现的时间恰到好处。自 1980 年辛顿开始研究人工神经网络以来，他一直苦于没有良好的研究平台。与他的苦境相比，同在人工智能领域的雅恩 · 乐昆（Yann LeCun）等人作为贝尔实验室的研究员，将开发出来的卷积神经网络技术应用在 ATM 机的支票读取器上。就在几年前，显卡制造商英伟达（Nvidia）的研究人员已经知道如何使这些神经网络模型加快数据处理，但是经过优化的算法速度依旧无法超越其他技术。

在使用 ImageNet 数据集之前，辛顿和他的团队已经证明其研发的神经网络可以基于更小的数据集开展笔迹识别等小型任务，但是辛顿的团队需要更多的数据来实现神经网络在现实世界的应用。

施克斯克说道：“如果你的算法在 ImageNet 上的表现得很好，那么图像识别对于你来说明显不成问题。”

现在，卷积神经网络的应用十分广泛，基本上任何涉及识别图像或视频中物体的应用都采用这种神经网络——乐昆作为 Facebook 的人工智能实验室主任用它来进行照片分类；自动驾驶汽车用它辨别障碍物。卷积神经网络能通过在每层抽象概念上进行上千次甚至百万次小数量级的计算，按照从底层往上层递增的顺序寻找像素之间的联系，以此来辨别图片中包含什么物体。每新输入一个图像，神经网络会把图像的模式与已经分类出来的模式进行匹配。辛顿多次向他的同事表示自己团队的研究十分重要，但是，现在他终于有证据证明神经网络计算优于其它最先进的技术。

“更令人惊奇的是，人们可以通过深度学习不断优化神经网络技术，”施克斯克提及目前人工智能领域最受欢迎的技术时，表示神经网络的层级结构让它可以识别更加复杂的模式：“深度学习是改进算法最行之有效的方法。”

2012 年，ImageNet 的比赛结果让很多研究人员争相复制这种深度学习技术。马修 · 泽勒（Matthew Zeiler）曾是辛顿的学生，目前在纽约大学攻读博士学位。他在知道 ImageNet 的比赛结果不久后，通过与多伦多大学的关系，获得了 ImageNet 的论文和代码的早期访问权限。随后，泽勒联手纽约大学研究神经网络的教授罗伯 · 弗格斯（Rob Fergus），开始为 2013 年的挑战赛研究参赛算法。泽勒甚至在两人组队的前几周，为了更加专注于比赛，辞去谷歌的实习工作。

天道酬勤，他们获得了当年挑战赛的冠军。李飞飞回忆道，到 2014 年，所有获得高分的参赛团队都采用了深度神经网络。

“2012 年的 ImageNet 竞赛的确促成了现在 AI 繁荣发展的局面，”泽勒在接受邮件采访时说道，“在 2012 年挑战赛开始不久前，有一些语音识别领域算法表现出很高的准确性，但是它们与 ImageNet 在 2012 年以及之后 5 年所达到的辉煌相比，其知名度远不如 ImageNet。”

如今，许多人认为 ImageNet 解决了诸多难题，比如在它的帮助下，图像识别错误率降至低于 2 %的程度。但是，这仅仅指分类问题或者图像识别问题的进步，并不代表算法了解这些物体的特性——物体的来源、用途、制造者或者物体如何与周围环境进行交互。简单来说，算法不能理解它识别的物体，这在语音识别中，甚至在自然语言处理中也同理。所以，目前，人工智能领域的研究人员的下一个目标是让算法理解在特性环境下的物体，至于他们通过什么途径达成这一目标，仍旧有许多谜题有待解开。

ImageNet 的未来

虽然竞赛已经落幕，但是 ImageNet 数据集造成的影响却长久不衰——数据集经多年的更新后拥有的图片数量已经达到 1300 万之多。

伯格表示自己的团队曾经在 2014 年时试图去掉挑战赛的某项规则，但是遭到来自谷歌和 Facebook 等公司的强烈反对，这些大公司通常偏爱中心化的基准，因为这样一来，科技行业就可以指着一个数据说：“你看，我们做的算法远超这个指标，就是这么完美。”

由于深度学习技术已经证明优化算法需要如 ImageNet 一样大量的数据，自 2010 年以来有许多企业和学术机构，包括谷歌，微软、Facebook 和加拿大高等研究所等等，开始高调地宣传他们自主研发的数据集。

数据集变得越来越高端：创业公司和风投在各种媒体平台上发帖子，写文章宣传自己刚推出的数据集，以及他们的算法在 ImageNet 上的表现是多么的好；谷歌，Facebook 和亚马逊等互联网公司开始利用每天出现在其平台上的出现的数以百万的图片、语音片段和文字段落，推出自己的内部数据集。与此同时，每个创业公司也在努力为各自的数据集收集数据：TwentyBN 是一个专注于视讯认知的人工智能公司，它使用“亚马逊土耳其机器人”平台收集影像片段，要求参与者在录像中表演的简单手势和动作，该公司已经面向学术界推出两款免费使用的数据集，每个数据集包含的视频数量超过 10 万段。

李飞飞说：“各种各样的数据集如雨后春笋般纷纷涌现，涉足的领域从视频、语音到游戏不一而足。”

人们往往认为数据库免费是理所应当的事情，其实数据集的收集、整理和审查工作相当耗时。当然，公开和免费是 ImageNet 的初衷之一，也正是因为如此，它和它的数据集可以经受住长期考验。

2016 年，谷歌发布了 Open Image 数据集，其中囊括了 900 万张图片，分为 6000 多种类别。最近，谷歌升级改造了数据集，标明了图像中每个物体的位置，这也是受 2014 年 ImageNet 挑战赛的最重要的一项规则的影响。DeepMind 实验室在被谷歌收购之后，迅速转变成谷歌的核心产业，最近 DeepMind 也推出自己的数据集，其中里面包含了很多人各种各样的动作。

“ ImageNet 对人工智能领域的改变之一就是它让人们开始真正意识到数据在研究中的地位，哪怕创作数据集是件吃力不讨好的研究，”李飞飞说：“数据毫无疑问是优化算法的重要一环，跟算法本身一样重要。”

原文链接：

https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/

本文由微信公众号“科研圈”（ID：keyanquan）授权转载。

转载请先联系keyanquan@huanqiukexue.com

编辑：yangfz

近期热门文章Top10

↓ 点击标题即可查看 ↓

1. 当理科生真玩起段子，也就没文科生什么事了

2. 物理所小编的心情不好，一个字也不想说，所以今天的头条就这样吧……

3. 宇宙是唯一的吗？

4. 风扇为什么逆时针旋转？