20个令人惊叹的深度学习应用（Demo+Paper+Code）

　　从计算机视觉到自然语言处理，在过去的几年里，深度学习技术被应用到了数以百计的实际问题中。诸多案例也已经证明，深度学习能让工作比之前做得更好。

　　今天，量子位为大家收集了20个深度学习方面的优秀应用——当然，这份榜单可能并不详尽，但相信看过之后，你对这项技术在某些领域的潜力会有更清晰的认识。

　　针对每个应用，我们还尽量收集了相关的Demo、Paper和Code等信息。

　　1、Face2Face：扮演特朗普

　　斯坦福大学的一个小组做了一款名为Face2Face的应用，这套系统能够利用人脸捕捉，让你在视频里实时扮演另一个人，简单来讲，就是可以把你的面部表情实时移植到视频里正在发表演讲的美国总统身上。

　　同样的原理也可以用于对视频里场景的3D重建、电影特效也可以这么干。

　　这个应用的实际效果是这样的：

　　Paper：

　　http://www.graphics.stanford.edu/~niessner/papers/2016/1facetoface/thies2016face.pdf

　　2、Let there be color！：给黑白照片/视频自动上色

　　左图是拍摄于1937年的一幅矿工的照片，右图是用Let there be color！重新自动上色后的效果。

　　上图是拍摄于1909年的一张保龄球馆的照片，下图是用Let there be color！重新上色后的效果。

　　实际上，这是运用深度学习网络学习自然存在于照片中的某些模式——比如，天通常是蓝的，云是白的或者灰的，草是绿的。通过这类规则，Let there be color！不需要人类的介入就能对照片进行重新上色。虽然有时它也会犯错，但这种错误很难被发现。

　　同样地，Let there be color！也可以把黑白视频变成彩色的。

　　Demo：

　　http://hi.cs.waseda.ac.jp:8082/

　　Paper：

　　http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf

　　Code：

　　https://github.com/satoshiiizuka/siggraph2016_colorization

　　3、Pixel Recursive Super Resolution：告别马赛克

　　我为什么不看美剧CSI？原因很简单：太假了。里面的主角动不动就把一段视频拉近、放大——然后他们就得到了一幅分辨率远超真实情况的影像。这根本不现实……

　　直到深度学习出现。今年早些时候，谷歌大脑的研究者们训练了一个深度学习网络，他们让后者根据一些分辨率极低的人脸图像来预测这些面孔真实的样子。如下图：

　　最左边是输入的8×8像素的原始影像，最右一列是被拍摄的人脸在照片中的真实效果，中间则是电脑的猜测。

　　可以看到，虽然并不完美，但电脑预估出的结果已经与实际情况十分接近。Google的研究者将这种方法命名为 Pixel Recursive Super Resolution（像素递归超分辨率），用这种方法能显著提升图像的质量。

　　Paper：

　　https://arxiv.org/abs/1702.00783

　　4、实时多人动作预估

　　深度学习网络已经能在预估动作方面帮动画师很大的忙，如今，我们甚至能做到实时预估。康奈尔大学Zhe Cao等人教会了一个神经网络估算人类骨架位置的变化。

　　在如下的视频中，你可以看到一群人在街头跳舞，而通过这种神经网络，我们能知道他们在哪、如何做动作。当然，他们并没有佩戴任何设备。

　　Paper：

　　https://arxiv.org/abs/1611.08050

　　5、Neural Talk：描述照片

　　用电脑来对照片进行自动分类已经很常见了。比如，Facebook能在分享的照片里标记出你的好友，Google可以为你的照片打上标签以便更有效率地进行搜索。

　　而如今，深度学习已经可以对照片中的各种元素进行描述。在Andrej Karpathy和李飞飞所做的一项工作中，他们训练了一个能对照片中不同区域内元素进行识别，并用一句话来描述照片的深度学习系统。

　　Demo：

　　http://cs.stanford.edu/people/karpathy/deepimagesent/generationdemo/

　　Paper：

　　http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Karpathy_Deep_Visual-Semantic_Alignments_2015_CVPR_paper.pdf

　　6、DeepWarp：你瞅啥？再瞅把你做成表情包！

　　这个应用有点恶搞的意思。现在，不管你手里拿到了谁的照片，用Ganin等人开发的这个深度学习网络过一下，你就可以让他的眼睛动起来：你可以让他上下看、左右看，甚至绕着圈看……好吧，除了生产表情包，其实也不知道它还能干什么用……

　　这是一些例子，里面有伊丽莎白女王、奥巴马、莎拉波娃……等等：

　　http://sites.skoltech.ru/compvision/projects/deepwarp/

　　Demo：

　　http://163.172.78.19/

　　Paper：

　　http://sites.skoltech.ru/compvision/projects/deepwarp/files/deepwarp_eccv2016.pdf

　　7、生成新照片

　　来自怀俄明州立大学的Anh Nguyen以及其他几位研究者开发了一套能用迭代的方式从已有照片中合成全新照片的深度学习网络。以下是一些电脑合成的样片，结果令人惊艳：

　　Paper：

　　https://arxiv.org/pdf/1612.00005.pdf

　　8、用卷积神经网络来拯救鲸鱼

　　众所周知，卷积神经网络在图像识别分类领域有着非常好的前景。利用深度学习，我们可以将抓拍到的珍稀动物（比如鲸鱼）照片进行分类，从而更好地估算某种动物的存活数量。

　　其他的例子包括浮游生物、植物等等。

　　分类浮游生物的介绍：

　　http://benanne.github.io/2015/03/17/plankton.html

　　Code：

　　https://github.com/benanne/kaggle-ndsb

　　9、Pix2Pix：灵魂画师

　　这个点子与之前提到的Let there be color！有点类似，不过要更有创造力一点。你可以往电脑中输入一幅简笔画，甚至一些色块，然后让电脑发挥自己的创造力输出新的图片。类似地，你也可以把衣服航拍照片变成一幅地图，将白天的场景变成夜晚。

　　前段时间特别火的信手画猫(传送门)，也是基于这个技术。

　　Paper：

　　https://arxiv.org/pdf/1611.07004v1.pdf

　　Code：

　　https://github.com/phillipi/pix2pix

　　10、Reading text in the Wild：用图片找文字

　　牛津视觉几何小组运用深度学习技术开发了一项应用，它可以读出视频中的文字，输入文字，就可以直接搜出图像中包含这些文字的BBC新闻视频。比如，这是对“London”的一部分搜索结果：

　　Demo：

　　http://www.robots.ox.ac.uk/~vgg/research/text/#sec-demo

　　Paper：

　　http://arxiv.org/abs/1412.1842

　　11、Google Sunroof：看你家房顶能收到多少太阳能

　　Google Sunroof首先会根据Google地球的航拍地图为你家的屋顶创建一个3D模型，然后再用深度学习将屋顶和周围的数目区分开，接着根据太阳运行轨迹以及天气状况，就可以估算出安装了太阳能电池板的房顶能收集到多少太阳能。

　　项目首页：

　　https://www.google.com/get/sunroof#p=0

　　12、AI制霸打砖块

　　Google的Deepmind团队用深度强化技术教会了AI玩《打砖块》（Breakout，基本大家都玩过，具体是什么请看下图）。

　　测试过程中，电脑并没有依据任何游戏规则被进行特殊的编成，他们只是将键盘的控制权交给AI，然后对它进行不断地训练。起初，AI玩得十分糟糕；但经过两个小时的训练之后，画风就变成了这个样子的：

　　Paper：

　　https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf

　　Code：

　　https://sites.google.com/a/deepmind.com/dqn/

　　13、制霸全场~

　　打砖块还不够？深度学习技术还被用来在更多游戏领域训练AI，包括：《小蜜蜂》、《毁灭公爵》、《乒乓》等几十种游戏。在大多数的游戏里，深度学习网络已经玩的比有经验的玩家更好，同样所有的玩法都是AI自己摸索的。

　　Paper：

　　http://www.davidqiu.com:8888/research/nature14236.pdf

　　14、LipNet：让AI读唇语

　　来自牛津大学和Deepmind的科学家共同完成了这一项目。LipNet在读唇的准确率方面达到了惊人93%，远超人类读唇者52%的平均水平。

　　这是AI读唇的实际效果：

　　Paper：

　　https://arxiv.org/pdf/1611.01599.pdf

　　Code：

　　https://github.com/bshillingford/LipNet

　　15、真·灵魂画师

　　如今，运用深度学习技术，可以让AI对某一幅画的风格、色彩、明暗等元素进行学习，然后将这幅画上的风格移植到另一幅上，而且效果非常不错。

　　这么说可能不够直观，来看几个例子：

　　下面从左到右，依次是毕加索、梵·高和莫奈风格的蒙娜丽莎。

　　而这是某位老哥用AI创作的谷歌地图风格的蒙娜丽莎……

　　Demo：

　　https://deepart.io/

　　Paper：

　　http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Gatys_Image_Style_Transfer_CVPR_2016_paper.pdf

　　16、AI写字

　　现在电脑不光能用来打字，还能用来写字了：多伦多大学的Alex Graves教会了电脑用多种不同的风格来书写。

　　Demo：

　　http://www.cs.toronto.edu/~graves/handwriting.html

　　Paper：

　　https://arxiv.org/abs/1308.0850

　　17、深度学习预测城市热人口和选举结果

　　Gebru等人收集了5000万张Google街景照片，然后用深度学习技术加以挖掘看看能发现什么。结果，深度学习不仅识别出了2200万辆汽车的材质、车型、年份等，还从中发现了一些关联，比如可以通过对车型的识别来分析某片区域的人口状况。

　　更有趣的是，AI发现，如果在一段15分钟长的驾驶路程上遇到的轿车比皮卡更多，那么这个城市在下届的总统选举中有88%的几率将选票投给民主党；否则，则有82%的几率投给共和党。

　　Paper：

　　https://arxiv.org/pdf/1702.06683.pdf

　　18、Deep Dreaming：AI也会白日做梦

　　2015年，Google的研究者找到了一种用深度学习来增强图像特征的方法，随后，他们就开发了Deep Dreaming——它能够在图片中生成一些不可思议的幻象。因为有些和梦境十分相似，因此取名Deep Dreaming。具体生成什么样的幻想与这个深度学习系统最近被暴露在什么样的环境下有关，有时它甚至能生成吓人的噩梦。

　　视频中展示了AI可能生成的一部分梦境效果，有些略惊悚，慎入：

　　项目首页：

　　https://research.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html

　　影集：

　　http://www.telegraph.co.uk/technology/google/11730050/deep-dream-best-images.html?frame=3370674

　　Code：

　　https://github.com/google/deepdream

　　19、反复攻破和修补自己的防火墙

　　Google大脑的研究团队创建了两个深度学习网络用于安全工具开发，他们让其中一个不断创造自己的加密算法，然后让另一个网络去尽力攻破它。在两套系统的反复缠斗后，第一个系统已经能生成非常优秀的安全加密算法。

　　然而，第二套算法也总是表现得比它更好……

　　Paper：

　　https://arxiv.org/pdf/1610.06918v1.pdf

　　20、预测地震

　　哈佛的科学家们运用深度学习技术让电脑学会“粘弹性计算”——一种被用于预测地震的计算方法。结果，计算的效果在AI上大大被增强了。

　　然而，计算机同时将计算时间提高了50000%。在地震中，时间就是生命。因此，目前用AI来预测地震还为时尚早。

　　Paper：

　　https://arxiv.org/pdf/1701.08884v1.pdf

　　好啦，先介绍到这里。深度学习固然厉害，不过也有不同的声音。兼听则明，不妨继续移步今天推送的第二条~��

20个令人惊叹的深度学习应用（Demo+Paper+Code）的更多相关文章

[转]20个令人惊叹的桌面Docker容器
大家好,今天我们会列出一些运行在Docker容器中的很棒的桌面软件,我们可以在自己的桌面系统中运行它们.Docker 是一个开源项目,提供了一个可以打包.装载和运行任何应用的轻量级容器的开放平台.它没 ...
NLP文本情感分类传统模型+深度学习（demo）
文本情感分类: 文本情感分类(一):传统模型摘自:http://spaces.ac.cn/index.php/archives/3360/ 测试句子:工信处女干事每月经过下属科室都要亲口交代24口交 ...
20个令人惊叹的音乐应用程序UI，值得收藏
我们无法想象世界上没有手机.他们已经成为日常生活中不可缺失的一部分.今天的手机可以让你不只是拨打电话和发送消息.它可以让你浏览网页空间,拍照,看书,听音乐等等. 回顾一下互联网,你会看到不同的音乐AP ...
GitHub 上 57 款最流行的开源深度学习项目
转载:https://www.oschina.net/news/79500/57-most-popular-deep-learning-project-at-github GitHub 上 57 款最 ...
GitHub 上 57 款最流行的开源深度学习项目【转】
GitHub 上 57 款最流行的开源深度学习项目[转] 2017-02-19 20:09 334人阅读评论(0) 收藏举报分类: deeplearning(28) from: https:// ...
ApacheCN 深度学习译文集 20201218 更新
新增了四个教程: Python 人工智能中文版 0 前言 1 人工智能简介 2 人工智能的基本用例 3 机器学习管道 4 特征选择和特征工程 5 使用监督学习的分类和回归 6 集成学习的预测分析 7 ...
深度学习中的batch_size,iterations,epochs等概念的理解
在自己完成的几个有关深度学习的Demo中,几乎都出现了batch_size,iterations,epochs这些字眼,刚开始我也没在意,觉得Demo能运行就OK了,但随着学习的深入,我就觉得不弄懂这 ...
[源码解析] 深度学习分布式训练框架 horovod (20) --- Elastic Training Operator
[源码解析] 深度学习分布式训练框架 horovod (20) --- Elastic Training Operator 目录 [源码解析] 深度学习分布式训练框架 horovod (20) --- ...
【转】TensorFlow练习20: 使用深度学习破解字符验证码
验证码是根据随机字符生成一幅图片,然后在图片中加入干扰象素,用户必须手动填入,防止有人利用机器人自动批量注册.灌水.发垃圾广告等等 . 验证码的作用是验证用户是真人还是机器人:设计理念是对人友好,对机 ...

随机推荐

Swift使用AlamoFire超时设置和事件处理
一直在写swift项目,正好碰到服务器部署,请求超时或者请求失败的问题,页面就卡着不动了.顺手解决一下吧差了些资料,说要设置超时时间方法一: static let sharedSessionMan ...
网络对抗技术 2017-2018-2 20152515 Exp2 后门原理与实践
1.实验内容 (1)使用netcat获取主机操作Shell,cron启动 (0.5分) 关于netcat:是一个底层工具,进行基本的TCP UDP数据收发.常被与其他工具结合使用,起到后门的作用. 相 ...
实验的方差分析（R语言）
实验设计与数据处理(大数据分析B中也用到F分布,故总结一下,加深印象)第3课小结--实验的方差分析(one-way analysis of variance) 概述实验结果\(S\)受多个因素\(A ...
【转载】WINAPI宏
原文:http://blog.sina.com.cn/s/blog_3f27dee60100qi4j.html 一直搞不懂为什么在函数前面加上WINAPI.CALLBACK等是什么意思又不是返回值 ...
Join 和 Apply 用法全解
在关系型数据库系统中,为了满足第三范式(3NF),需要将满足“传递依赖”的表分离成单独的表,通过Join 子句将相关表进行连接,Join子句共有三种类型:外连接,内连接,交叉连接:外连接分为:left ...
npm install —— 从一个简单例子，看本地安装与全局安装的区别
npm的包安装分为本地安装(local).全局安装(global)两种,从敲的命令行来看,差别只是有没有-g而已,比如 npm install grunt # 本地安装 npm install -g ...
Github pages + Minimal-Mistakes + Disqus建立个人博客记录
本文详细记录了利用Github pages建立个人博客的步骤. github pages官方推荐使用Jekyll生成静态网页,jekyll支持各种不同的主题,Minimal-Mistakes是一个功能 ...
ConceptVector: Text Visual Analytics via Interactive Lexicon Building using Word Embedding
论文简介本文是对词嵌入的一种应用,用户可以根据自己的需要创建concept,系统根据用户提供的seed word推荐其他词汇,以帮助用户更高的构建自己的concept.同时用户可以利用自己创建的 ...
初识Redux Middleware
前言原先改变store是通过dispatch(action) = > reducer:那Redux的Middleware是什么呢?就是dispatch(action) = > reduc ...
更新k8s镜像版本的三种方式
一.知识准备更新镜像版本是在k8s日常使用中非常常见的一种操作,本文主要介绍更新介绍的三种方法二.环境准备组件版本 OS Ubuntu 18.04.1 LTS docker 18.06.0-c ...

20个令人惊叹的深度学习应用（Demo+Paper+Code）

20个令人惊叹的深度学习应用（Demo+Paper+Code）

20个令人惊叹的深度学习应用（Demo+Paper+Code）的更多相关文章

随机推荐

热门专题