前言

前面两篇主要写了一些机器学习的基础概念,从本篇开始我们来了解下深度学习。深度学习是机器学习的一个子集,是一种特殊的数学模型。同样是从输入到输出,深度学习在这两者之间会有很多层称为“隐层”(Hidden Layers)的层,每一层将会将输入内容进行计算并自我调节,最终得到合理模型,这种数学模型非常像人类目前对大脑工作原理的认知,所以也称之为“人工神经网络”。

现在市面上有数十种深度学习框架:Wiki传送门。一个个学过来肯定精力不够,那我们就学综合评分最高的那个:Tensorflow

Tensorflow是由Google团队在2015年11月9日以Apache 2.0开源许可证开源的,但刚发布的版本有诸多缺陷:bug比较多、性能比较差、使用难度比较高。在2017年2月16日,Google宣布Tensorflow 1.0正式发布,该版本适用于工业生产场景。所以在该版本发布之后,对深度学习领域产生了极大的影响,其大大简化了编写深度学习的代码难度,并且在Google这面大旗下,被各种专业人员以及机器学习爱好者所推崇(截止2018年1月9日,TensorflowGithub上已经有7193个Watch,85038个Star和41555个Fork)。

Tensorflow在短短发布后的一年不到的时间里,已经跃居为综合排名第一的深度学习框架。为什么会如此火爆呢?我个人猜测理由如下:

  • 深度学习目前是大趋势(所以得抓紧学习,抓住机遇)

  • Google的技术实力太强大,开源过很多项目都非常成功(比如Android),所以跟着Google走可能不会让我们失望

  • 接口丰富易用且支持多种语言(底层是C++实现的,这里指的是客户端调用底层API的语言),如Python、C++、Java、Go

  • 易于部署,包括分布式部署

本机安装Tensorflow

如果你的电脑性能还不错,可以考虑直接在本机安装Tensorflow官方安装文档传送门),优先考虑使用Anaconda来安装,按照官方教程一步步执行即可。

安装之后,需要在Pycharm中执行Tensorflow的代码,我们这里先用简单的输出常量的代码为例(此代码也是后文中demo1.py中的代码):

import tensorflow as tf

node1 = tf.constant(3.0, dtype=tf.float32)
node2 = tf.constant(4.0) # also tf.float32 implicitly
print(node1, node2) sess = tf.Session()
print(sess.run([node1, node2]))

常见错误汇总

执行代码的时候,你可能会遇到很多错误,我这里整理了一份我在此过程中遇到的错误以及对应的解决方案供大家参考:

错误提示 解决方案
Anaconda installation is not found https://stackoverflow.com/questions/47624777/pycharm-anaconda-installation-is-not-found
ImportError: Could not find 'cudart64_80.dll'. TensorFlow requires that this DLL be installed in a directory that is named in your %PATH% environment variable. 由于目前Tensorflow是建立在CUDA 8.0之上的,而NVIDIA官网上默认是下载CUDA最新版本的(比如目前是9.0),所以需要打开如下页面: https://developer.nvidia.com/cuda-downloads 在页面的最下面找到Lagacy Releases并下载CUDA 8.0
ImportError: Could not find 'cudnn64_6.dll'. TensorFlow requires that this DLL be installed in a directory that is named in your %PATH% environment variable. Note that installing cuDNN is a separate step from installing CUDA, and this DLL is often found in a different directory from the CUDA DLLs. You may install the necessary DLL by downloading cuDNN 6 from this URL: https://developer.nvidia.com/cudnn 注册一个NVEDIA的开发者账号,然后下载cudnn64 for cuda8 on windows。 下载下来的文件解压之后,放到cuda目录下对应的地方(cuda比如是在C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0)

解决了所有问题之后,如果看到以下输出内容,就表示能正常运行Tensorflow了:

Tensor("Const:0", shape=(), dtype=float32) Tensor("Const_1:0", shape=(), dtype=float32)
2018-01-09 16:48:59.940050: I C:\tf_jenkins\home\workspace\rel-win\M\windows\PY\36\tensorflow\core\platform\cpu_feature_guard.cc:137] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX AVX2
[3.0, 4.0] Process finished with exit code 0

使用阿里云PAI来实验Tensorflow

概述

因为机器学习的过程非常耗性能,如果在一个比较大的数据集上进行学习,本机CPU使用就会达到99%,而且要持续很久,这个时候就无法干点别的事了。很幸运,阿里云提供了机器学习平台PAI(Platform for Artificial Intelligence),里面集成了很多主流的算法以及Tensorflow的不同版本(目前是1.0、1.1、1.2),而且目前公测阶段也可以开启2个GPU来加快执行。

PAI的优势有:

  • 不需要本地繁琐的安装和解决各种安装坑

  • 可以调用云服务器资源,比起本地性能更好

  • 不影响、阻塞本机其他程序的使用,开始执行之后等着执行完毕即可

  • 算法、组件都是现成的,而且可以用拖拽的方式编排算法,非常方便、傻瓜化,我们唯一要做的就是提供数据和编写核心执行脚本

  • 现成的机器学习案例以及相关文档,可以快速从别人的经验中来帮助自己理解机器学习

  • 将实验直接共享到社区

  • 公测阶段免费

操作概览

开通PAI的过程并不复杂,大致步骤如下:

  • 首先你要有一个阿里云账号

  • 在阿里云后台进入大数据(数加)->机器学习菜单

  • 创建一个项目,如: my_project_name

  • 在项目管理页面,勾选my_project_name开启GPU选项

  • 为了方便上传本地资源到PAI,建议安装OSS-Browser工具,下载地址: https://help.aliyun.com/document_detail/61872.html?spm=5176.doc31886.2.5.qwodVb (以阿里云后台最新下载地址为准),如果是少量文件上传的话,使用web版OSS文件管理系统来管理文件也可以(本例中我们直接使用web版)

PS:开启GPU选项示意图:

目前公测阶段虽然PAI本身是免费的,但是OSS是收费的,好在费用很低,仅作学习用的话,一天最多几分钱。

详细实验步骤

  1. 在OSS中创建测试目录tensorflowtest

  2. 进入tensorflowtest目录并上传脚本文件demo1.py(内容详见“本机安装Tensorflow”一节):

  3. 进入PAI后台首页,创建空白实验tensorflowdemo



  4. 在空白实验中加入读OSS Bucket组件和TensorFlow(V1.2)组件,并选中Tensorflow节点,在右侧的参数设置中,将Python代码参数选为我们在步骤1、2中上传的demo1.py文件:

  5. 点击屏幕最下方的运行按钮执行实验:

本例中读OSS Bucket组件并没有什么用,由于PAI实验中必须要数据源节点,因此添加空的读OSS Bucket组件作为数据源,因此在执行实验的时候,阿里云将检测并提示当前实验室作业实验,将会在24小时内删除。

查看执行结果

  1. 在实验运行后,每个节点右侧出现一个绿色的勾,表示已正确执行完毕,此时右键该节点,选择查看日志选项:

  2. 在“查看日志”弹出框中,滚动到中间的位置,找到 http://logview.odps.aliyun.com 的链接,如图位置:

  3. 鼠标左键点击进入之后,点击下图中红色框中的detail图标:

  4. 在弹出的Log Detail页面上,按下图中的1、2、3顺序依次点击:

  5. 在弹出的Logview[Stdout]页面上,可以最终看到脚本的实际输出内容,与在本地IDE中的输出一致:

结语

我已经用两种不同的方式,执行了第一个基于Tensorflow的demo,这个demo目前跟深度学习还完全搭不上边,只是能成功运行Tensorflow而已,后续的博文中,我将进一步深入研究。


本文在我的博客园我的个人博客上同步发布,作者保留版权,转载请注明来源。

机器学习笔记3-Tensorflow简介的更多相关文章

  1. Google TensorFlow 学习笔记一 —— TensorFlow简介

    "TensorFlow is an Open Source Software Library for Machine INtenlligence" 本笔记参考tensorflow. ...

  2. [机器学习笔记]奇异值分解SVD简介及其在推荐系统中的简单应用

    本文先从几何意义上对奇异值分解SVD进行简单介绍,然后分析了特征值分解与奇异值分解的区别与联系,最后用python实现将SVD应用于推荐系统. 1.SVD详解 SVD(singular value d ...

  3. [机器学习笔记]主成分分析PCA简介及其python实现

    主成分分析(principal component analysis)是一种常见的数据降维方法,其目的是在“信息”损失较小的前提下,将高维的数据转换到低维,从而减小计算量. PCA的本质就是找一些投影 ...

  4. 【Machine Learning】机器学习及其基础概念简介

    机器学习及其基础概念简介 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

  5. 机器学习笔记5-Tensorflow高级API之tf.estimator

    前言 本文接着上一篇继续来聊Tensorflow的接口,上一篇中用较低层的接口实现了线性模型,本篇中将用更高级的API--tf.estimator来改写线性模型. 还记得之前的文章<机器学习笔记 ...

  6. 第四百一十六节,Tensorflow简介与安装

    第四百一十六节,Tensorflow简介与安装 TensorFlow是什么 Tensorflow是一个Google开发的第二代机器学习系统,克服了第一代系统DistBelief仅能开发神经网络算法.难 ...

  7. Python机器学习笔记:使用Keras进行回归预测

    Keras是一个深度学习库,包含高效的数字库Theano和TensorFlow.是一个高度模块化的神经网络库,支持CPU和GPU. 本文学习的目的是学习如何加载CSV文件并使其可供Keras使用,如何 ...

  8. Python机器学习笔记:不得不了解的机器学习知识点(2)

    之前一篇笔记: Python机器学习笔记:不得不了解的机器学习知识点(1) 1,什么样的资料集不适合用深度学习? 数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势. 数据集没有局 ...

  9. tensorflow学习笔记——使用TensorFlow操作MNIST数据(1)

    续集请点击我:tensorflow学习笔记——使用TensorFlow操作MNIST数据(2) 本节开始学习使用tensorflow教程,当然从最简单的MNIST开始.这怎么说呢,就好比编程入门有He ...

  10. Python机器学习笔记:SVM(1)——SVM概述

    前言 整理SVM(support vector machine)的笔记是一个非常麻烦的事情,一方面这个东西本来就不好理解,要深入学习需要花费大量的时间和精力,另一方面我本身也是个初学者,整理起来难免思 ...

随机推荐

  1. spring,springmvc,mybatis基本整合(一)--xml文件配置方式(1)

    **这个整合.仅仅是最主要的整合,而且是xml配置文件的方式之中的一个,即当中的mybatis是採用非mapper接口的方式.(第二遍採用mapper接口方式.第三遍採用注解的方式:第四篇採用注解基于 ...

  2. “command line option syntax error,Type command/?for help

    VS2010安装WDT时出现"command line option syntax error.Type command/?for help错误 解决:可能是由于你的安装源文件所在的路径中有 ...

  3. JAVA入门[2]-安装Maven

    一.资料 1.官网: https://maven.apache.org/ 二.下载Maven 下载地址:https://maven.apache.org/download.cgi# 三.Windows ...

  4. sql语句百万数据量优化方案

    一:理解sql执行顺序 在sql中,第一个被执行的是from语句,每一个步骤都会产生一个虚拟表,该表供下一个步骤查询时调用,比如语句:select top 10 column1,colum2,max( ...

  5. 盘点selenium phantomJS使用的坑

    参考:http://www.jianshu.com/p/9d408e21dc3a   http://www.cnblogs.com/luxiaojun/p/6144748.html 豆瓣应该是ip被封 ...

  6. 「mysql优化专题」高可用性、负载均衡的mysql集群解决方案(12)

    一.为什么需要mysql集群? 一个庞大的分布式系统的性能瓶颈中,最脆弱的就是连接.连接有两个,一个是客户端与后端的连接,另一个是后端与数据库的连接.简单如图下两个蓝色框框(其实,这张图是我在悟空问答 ...

  7. Android系统拍照之后回显并且获取文件路径

    /*调用拍照返回*/ case PHOTO_REQUEST_GALLERY: if (data != null) { Uri uri = data.getData(); String photopat ...

  8. The Movie db (TMDB)的API申请

    在共享API TMDB中申请时,一只报错Application summary please elaborate on how you plan to use our API,我是用汉字描述的,开始以 ...

  9. ASP.NET MVC下自定义错误页和展示错误页的几种方式

    在网站运行中,错误是不可避免的,错误页的产生也是不可缺少的. 这几天看了博友的很多文章,自己想总结下我从中学到的和实际中配置的. 首先,需要知道产生错误页的来源,一种是我们的.NET平台抛出的,一种是 ...

  10. Java 管程解决生产者消费者问题

    同样是实验存档.//.. 依然以生产者消费者问题作为背景. 管程(=“资源管理程序”)将资源和对资源的操作封装起来,资源使用者通过接口操作资源就 ok,不用去考虑进程同步的问题. 管程: packag ...