查看原文
其他

人工智能现在的技术“好玩”到了什么程度?

傅一平 与数据同行 2021-10-16

这是傅一平的第302篇原创



作者:傅一平

个人微信:fuyipingmnb


先打个广告,“与数据同行”开通了微信群,已经汇聚了1000位小伙伴了,加我为微信好友(微信号:fuyipingmnb)申请即可,我会拉你入群。

正文开始

要说人工智能“好玩”到了什么程度,首先得说说人工智能发展到了什么程度,以下简要阐述了人工智能取得的成果,确实是之前十几年完全想不到的。

现在人工智能干的事情概括起来包括三个方面:感知、决策、反馈。

首先说感知。

1、人工智能在语音识别、语音合成及语义理解上面最近都取得了非常瞩目的结果,2016年10月份由微软美国研究院发布的一个语音识别的最新结果实现了错误率为5.9%的新突破,这是第一次用人工智能技术取得了跟人类似的语音识别的错误率。比如科大讯飞就是这一领域的佼佼者。

图片转自腾讯云社区腾讯 AI Lab 主任张潼博士分享

2、在图像方面,人工智能在图像识别、图像理解及图像理解方面也有很多长足的进步,在2015年,来自微软亚洲研究院的技术——ResNet,获得了2015年ImageNet的冠军,错误率是3.5%,而人的错误率大概是5.1%。所以可看出在特定领域、特定类别下,其实计算机在图像识别上的能力已经超过了人的水平,现在诸如人脸识别等的应用已经比较成熟了。

图片转自腾讯云社区腾讯 AI Lab 主任张潼博士分享

3、人工智能在自然语言上面也取得了很大的进展,包括机器翻译、语义理解及情感分析。下面左边这张图描述了各大公司都在不断地提高各自语音机器翻译的水准和技术,右边这张图展示的是去年12月微软发布了Microsoft Translator的一个新功能,它支持50多种语言,可以实现多个人多种语言的实时翻译,比如大家每个人可能来自不同的国家,只要拿着手机用这个APP我们就可以互相交流。你说一句话或者输入文字,对方听到/看到的就是他的母语。(以上引用自参考文献【1】)

图片转自微软亚洲研究院刘铁岩博士的分享

再来说决策。

决策系统的发展是随着棋类问题的解决而不断提升,从 80 年代西洋跳棋开始,到 90 年代的国际象棋对弈,到最近几年的Alphago,机器的胜利都标志了科技的进步,决策系统可以在自动化、量化投资。游戏AI等系统上广泛应用。

特别一提的是Alphago,使用了深度增强学习的技术,经过了非常长的训练时间,引用了大量数据做自我对弈,比如训练了价值网络和策略网络,就是怎么样根据现在的棋局去评估胜率,去决定下一步该走什么子,而不是走简单的穷举,用价值网络来对搜索树进行有效的剪枝,从而在有限的时间内完成一个非常有意义的探索,所有这些都是人工智能技术在决策上取得的本质进步。

图片转自腾讯云技术社区腾讯 AI Lab 主任张潼博士分享

最后就是反馈。

一个完整的人工智能系统一定还会有反馈的环节,现在的机器人或是自动驾驶汽车是典型的应用了。

比如已经有超过100辆Google的自动驾驶汽车Waymo行驶在美国亚利桑那州的凤凰城的路上了。依靠深度学习技术,电脑可以将收集到的图像、雷达、声音等信息经过处理生成一个真实世界的信息化模拟,从而能让车辆顺利完成从A点到达B点的任务。


又比如在2015年,机器抓取物体的成功率只有65%,16年有了一定的进步到达78%。但到了2018年这项技术在深度增强学习的帮助下达到了96%的成功率,而且识别的物体种类更加丰富。流水线上的分拣工人看来会在不久的将来会受到最直面的冲击。(以上引用自参考文献【2】)


但人工智能无论发展到什么程度,都是为了应用,比如腾讯 AI Lab 主任张潼就认为,当前在计算机视觉上,人工智能应更加注重效果的优化,加强其在不同场景、问题上的应用。

在以上这些技术的支撑下,最近几年,人工智能的确产生了很多好玩、有趣又有料的应用,今天就站在“好玩”的角度来聊一聊,看完后,一方面你会感叹人工智能的发展超出你的想象,另一方面也会对未来的个人隐私多了一份担忧。

1、一键换脸

不知道各位还记得2年前横空出世的Fakes吗?例如:杨mi版黄蓉。

说实话,你第一眼认出来了吗?这让我们想起了视频最早的起步并不是现在的主流媒体网站,而是成人网站,但从AI技术的角度讲,这种换脸技术是很现实的。


AI换脸用对地方会有奇效,比如电影,《速度与激情7》中已逝演员保罗沃克的脸就利用了类似技术嫁接上去。


但这种技术也面临着较大的风险,首先是信息的真实性面临严峻的挑战,PS发明后,有图不再有真相;而AI视频换脸技术的出现,则让视频也开始变得镜花水月了起来——人们普遍认为视频可以担当“实锤”,而现在这把实锤竟可凭空制造。

其次,会大大增加侵犯肖像权的可能。没人愿意自己的脸庞出现在莫名其妙的视频当中。和多用途的PS等修图软件不同,AI换脸技术的功能只有一个,那就是换脸,从这个角度来说它的存在天然就是一种对肖像权的威胁。

再次,随着FakeApp、ZAO等应用的出现也使得换脸的门槛进一步降低,从而推高风险。国内换脸应用ZAO在一夜爆红之后引发隐私争议,就被工信部约谈。

5G时代的到来,身临其境的AR、VR的出现,AI的技术进一步提升,将创造一个更为虚拟的亦真亦幻的世界,我们在享受技术红利的同时,也需要系统思考其对个人隐私的冲击。

2、黑白图像转彩色

国庆70周年之际,中央档案馆公布开国大典彩色视频12分钟完整版,这是目前公开的关于开国大典时间最长、内容最完整的视频,70年过去了,此刻再回看,依然热血澎湃!


此外,最近开国大典彩色高清版也首次出现在大荧幕,作为庆祝新中国成立70周年的献礼之作,主旋律电影《决胜时刻》发布了一组新剧照——开国大典历史影像经过修复后的彩色4K画面。这是开国大典历史影像资料第一次以彩色超清画质出现在大荧幕上。


当历史的真容不再囿于黑白,当时代的面貌清晰可见,看着镜头中的天安门城楼由黑白变换成彩色,仿佛见证了中华人民共和国不平凡的发展历程。

事实上,以上原始的旧胶片时隔70年已经变得极差, AI的神经网络则能将这些黑白摄影机的质差图像自动还原成高清彩色的图像。

这里介绍一个测试网站,https://demos.algorithmia.com/colorize-photos,以下左边是黑白原图,右边是这个神经网络输出的彩色图像。


通过这个网站,笔者测试了自己年轻时候拍的黑白照,还原的彩色照还是很自然的,不过记得当年穿的毛衣颜色是金黄色的,它这个还原的有点暗,年轻真是好啊。


3、一键高精度抠图

最近在写文章时要引用某个PDF的图片,但这个PDF打了水印,怎么办?发现很多软件提供了一键去除水印的功能,我就去试了下,呵呵。

当然这里要谈的不是PDF去除水印,而是具有广泛用途的高精度抠图技术(本段参考见【6】)。

曾几何时,「抠图」是一个难度系数想当高的活儿,但今天要介绍的这款神工具,只要 3 行代码 5 秒钟就可以完成高精度抠图,甚至都不用会代码,点两下鼠标就完成了。感受下这款抠图工具抠地有多精细:


这款工具叫:Remove.bg 。基于 Python、Ruby 和深度学习技术开发,通过强大的 AI 人工智能算法实现自动识别出前景主体与背景图,分分钟秒秒钟完成抠图。这样下去PS 设计师都快要下岗了。

你可以到官网在线抠图,网址https://www.remove.bg,只需要上传照片即可,不限图片处理次数,笔者试了上次在参加交通大会时的照片,细节做得到位,可以随意替换成自己想要的背景。



想来未来跟明星要个合照都不是事了,随意抠一个合并就可以了,AI真的可以改变很多东西,现在法律也应该开始考虑新型肖像权的问题了。


4、语音合成歌曲

最近,日本语音合成技术有了最新突破,只要时长2小时的某歌手的歌声数据,通过深度学习技术,就可以合成出跟这个人一模一样的歌声(本段参考见【5】)。

近日,一段歌声听起来像佐藤莎莎拉演唱的Rolling in the Deep的声音,让微博上的二次元粉丝惊呼:我的老婆要重生了!


在音乐界,这个新技术能让我们欣赏更多不同的歌曲。举个例子,只要让AI听林俊杰的三张专辑,AI就可以用林俊杰的声音,唱出周杰伦、五月天、孙燕姿他们的任何一首歌。

以下是语音合成的英文歌《Rolling In The Deep》和《Everytime》两首,英文版的清唱已经听起来跟正常人类唱歌没什么区别了。


以下是中文歌,陈奕迅的《爱情转移》,虽然是一个字一个字的蹦,但潜力是有的。


当然,唱歌跟说话不同,对情感表达的要求非常高,嗓音、气息都会影响到最后的效果,所以如何更具情感是唱歌合成的难点,但AI也有独特的优势,它可以唱得调子高啊。

5、AI创作音乐

在音乐领域,索尼巴黎计算机科学实验室研究人员编写的 “DeepBach” (深度巴赫)的神经网络,通过学习了352部巴赫的作品之后几乎可以能创造出以假乱真的巴赫曲目。

经过训练,DeepBach能够创作出与巴赫风格高度相近的作品,几乎到了“以假乱真”的地步。研究团队对1600多人进行了测试,其中包括400多位音乐家或音乐系的学生。

测试结果表明,超过50%的人认为,DeepBach生成的作品就是巴赫本人的作品。相比之下,巴赫本人的作品也仅被75%的人正确识别。以下是DeepBach创作的一个曲目,你可以听一听。


当然,AI创作的音乐的版权问题,也是需要考虑的。

6、以视频搜视频

这里要谈的不是以图搜图,如今,一个以视频搜视频的新技能上线了(本段参考见【3】)。

比如,你捕捉了一只可爱的妹子,想要看到更多她的影像,只要点一下抖音的“识图”圆圈:


就收获了一大波带有这位妹子的视频,体验之丝滑,令幸福感油然而生。这是抖音刚刚上线的新功能,就算不知道名字,也能一键获取妹子的大量影像 (不论是不是她自己发布的) ,连截图扔进搜索引擎的步骤都省了。

按照官方的宣传口径,人脸识别搜视频并不是这个新功能的重点。比起帮你找到妹子的视频,引诱你去买买买,才是抖音识图的首要目标。你看功能详情,一是购物、二是吸猫、三才是追星:


当你喜欢哪个博主穿的衣服,就可以用识图,找到同款,还能直接跳到购买链接。


当然需要手工开启抖音实验室这个功能,遗憾的是,等到笔者去设置的时候,发现已经没有这个选项了。但以视频搜视频的AI技术,绝对是有大量的商业应用场景的,说真的,笔者刚看到的时候是很吃惊的,未来,多媒体搜索将逐步成为一种标配吧,这是个极其有应用场景的AI技术。

当然这种技术更加会引发对于个人隐私的担忧,哪天你穿了一身漂亮的衣服出门,如果总有人对着你拍照,让人会感觉到不舒服!

7、一键生成海报

双十一进入了倒计时,为了填满自己的购物车,最近大家打开淘宝有点多,但细心的网友发现,每次打开淘宝,页面上的海报Banner都不一样,这么多的海报,到底是谁设计的呢?(本段参考文献见【4】)


阿里的“人工智能设计师”鲁班。

去年双十一鲁班搞定1.7亿张Banner的数据设计,而今年,这个数字更超乎想象——有4亿张Banner由鲁班设计。

鲁班的“养成”就和人脑的思考过程一样,借助了图像深度学习,增强学习,蒙特卡洛树搜索,图像搜索等技术,AI设计实验室团队为鲁班建立起一套由“图像生成”到“成果评估”组成的系统化工程,其实就如同普通设计师一样,鲁班的工作从拿到需求开始,接着到草图、框架、细节元素、系统评选最优方案,最终输出消费者所能看到的成果,但其效率是人工设计师无法比拟的。



原本我们认为机械重复、缺乏创造力的职业最容易被人工智能代替,而现在,人工智能也能做一些创意类的工作了。

不仅是阿里,现在已经有不少好用的人工智能设计网站了,比如Arkie作图(http://www.arkie.cn),这是“十秒生成一张海报”的设计神器,ARkie会根据文字内容自动生成海报,而这个过程,非常的快!你可以自己上去试一试,但我试了大数据主题的,感觉不太好,可能素材少吧。

8、AI写作

自动写作技术能够让机器自主的完成文章写作。当前计算机已经能够自动的撰写新闻快讯、热点组稿、春联等类型的文章。下图给出了三种典型的自动写作样例(本段参考见【7】)。


上方左侧的样例是一篇百度自动写作的财经新闻,这类自动写作通常以结构化数据为输入,智能写作算法按照人类习惯的方式描述数据中蕴含的主要信息。由于机器对数据的处理速度远超人类,因此非常擅长完成时效性新闻的报道任务,这种自动写作的典型例子包括地震快讯、财经快讯、体育战报等。


上方中间的样例是一篇热点组稿写作,这类自动写作通常以海量素材为基础,按照应用需求线索(例如事件、人物等)筛选合适的内容,并基于对内容的分析抽取关注的信息,最后按照写作逻辑组织为篇章结果。由于机器能够快速处理海量数据,因此非常擅长挖掘大数据中蕴含的分布、关联等信息。这种自动写作的典型例子包括热点组稿、事件脉络、排行盘点等。


上方右侧的样例是百度NLP的智能春联,在这类自动写作任务中,机器基于充分的训练数据,训练模型并得到创作能力,可以根据人类的指令,产出符合特定格式要求的创作结果。模型产出的结果是无法事先预期的,因此其产出具备和人类文字创作类似的创造性。这种自动写作的典型例子包括智能写诗、智能对联等。

比如微软有一个人工智能叫少女小冰,它可以根据你上传的图片和文字写出配套的诗歌,我就去试了下(https://poem.msxiaobing.com/),配的图片是马尔代夫度假戴墨镜的头像,配的文字是“度假,轻松,快乐,好玩,清澈,潜水,兴奋,家庭”,简单步骤如下:


下面是小冰写出的诗歌,好短,难道它认为我度假是因为心慌,出去一下但还是要回来的?


随着人工智能技术的推进和实践,智能写作已经在越来越多的应用场景中发挥其价值,但和人类数千年积累的创作能力相比,其智能水平和实用程度还有很大的发展潜力,要解决的问题包括如何引入知识与常识、如何更好的传达情感和感受、如何减少人工评估的成本等等,但写写体育新闻啥的那是毫无问题,毕竟那种靠速度取胜的记者再快也快不过机器。

9、制造以假乱真的图片

首先请看下面的这些图片,有没有发现特别之处?




上面的这些人脸看上去似乎没有什么特别之处,很容易就能在百度、谷歌上找到这样的面孔,然而事实上,世界上根本没有这些人,因为这些人脸是由一种新的人工智能算法生成的,其能以惊人的、近乎怪异的逼真程度制作出完全虚构的假脸,这就是生成对抗网络(简称GAN)。

记得2008年的奥运的时候,张艺谋特意从世界上寻找了10000张笑脸图片来表达“北京欢迎你”的内涵,我想这个工程肯定耗费了不少人力,但如果换到现在,纯粹从技术的角度讲,用GAN想生成多少就生成多少,你只要给我一些笑脸图片,再结合其他的图片,我就能变换出各种笑脸图片。

从“好玩”的角度讲,以上的一些人工智能应用让人眼前一亮,可以从一个侧面了解到了人工智能的巨大潜力,图像识别在一个点的突破,竟然可以幻化出如此多变有趣的应用。

但人工智能现在一方面面临着巨大的技术挑战,你会发现很多应用其实并不成熟,他们并没有来到爆发的拐点,很多人工智能公司可能会死在黎明前,正如微软亚洲研究院机器学习组的首席研究员刘铁岩博士说得那样,挑战主要包括:

1、深度学习需要大量的标注数据,如何解决这个瓶颈?

2、深度学习神经网络涉及的层次和参数太多,梯度消失的训练问题和模型爆炸的性能问题如何解决?

3、深度学习调参难度远超过传统机器学习,工作量过大的问题如何解决?

4、神经网络是黑箱算法,其具备超强的数据拟合能力,但一旦出现问题,往往无法解释和排错,不知因果会让我们走很多很多弯路。

5、神经网络训练只关注了上下文,但人类理解事物不仅考虑上下文,也考虑了每个字或词本身的含义,即历史以来所有的传承,这些人类的精髓在今天的人工智能技术里面是并没有充分体现,而没有它们怎么能指望深度神经网络达到人的智商呢?

另一方面,正如大数据一样,人工智能也会对个人隐私造成侵犯,但其更为复杂和隐蔽,未来你穿着漂亮衣服上街就好比是个行动着的模特,以前人家最多看几眼,谈不上侵犯,但现在一堆人对着你拍照以获取各种角度的衣服样式照片,你会是什么感受?

你的照片被嫁接到了各种图像、视频中去,你会有什么想法?你说要维护自己的肖像权,但什么是肖像权,把你的图像加工改动后你还拥有这个肖像权吗?比如三个明星的混合图,既像他,也像她,还像她。而这对于AI是很简单的,而且还不突兀。

现在原始的大数据被加工后,大数据处理者可是拥有这个大数据的财产性权益的,但人工智能普及后,人人都具备快速的AI加工能力,这对现行法律的挑战前所未有。

当然以上所有的都是笔者的猜想,但万一出现了呢?

最后,如果你要问当前人工智能到底达到了什么水平,这边有一张美国卡耐基梅隆大学Hans Moravec 做出来一张图,叫「人类能力景观图(Landscape of Human Competence)」。


这张图很有趣,把人工智能的发展水平看作是海平面,把人类的技能/任务目标按照难易程度,看作是不同的海拔高度,比如说科研(Science)就是人类能力中的高峰,驾驶(Driving)是小山坡,棋类运动(Chess & Go etc)则都没入海洋了,投资(Investment)、翻译(Translation)、图像处理(Vision)则像太平洋上的岛国图鲁瓦一样岌岌可危了。

大概这张图里的海平面就是当前人工智能的发展阶段了。

注1:点击左下角原文链接可以查看我分门别类好的所有历史文章。

注2:参考文献:

【1】微软亚洲研究院,知乎,链接

 https://www.zhihu.com/question/46563853/answer/153380355

【2】余瀚中,知乎,链接 

 https://www.zhihu.com/question/46563853/answer/702746907

【3】量子位(ID:QbitAI)的文章 痴栗子 鱼羊 发自 凹非寺 出品

《抖音AI火了!以视频搜视频,不知小姐姐叫什么,也能搜出她的影像》

【4】搜狐新闻《设计师要失业了,每秒能做8000张海报》

 http://www.sohu.com/a/202150652_99987393

【5】量子位(ID:QbitAI)的文章 郭一璞 晓查 乾明 发自 凹非寺 出品

《你听不出是AI在唱歌!这个日本虚拟歌姬,横扫中英日 三种语言》

【6】高级农民工(ID:Mocun6)《3 行代码 5 秒抠图的 AI 神器,根本无需 PS》)

【7】飞桨PaddlePaddle,知乎

https://www.zhihu.com/question/277668258/answer/641264893



如果你觉得这篇文章有用,欢迎推荐和转发朋友圈,如果你有独到的见解和意见,欢迎到我的知识星球进行探讨。


作者:傅一平 (微信号:fuyipingmnb)


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存