最近在研究Tensorflow Serving生产环境部署，尤其是在做服务器GPU环境部署时，遇到了不少坑。特意总结一下，当做前车之鉴。

1 系统背景

系统是ubuntu16.04

ubuntu@ubuntu:/usr/bin$ cat /etc/issue

Ubuntu 16.04.5 LTS \n \l

或者

ubuntu@ubuntu:/usr/bin$ uname -m && cat /etc/*release

x86_64

DISTRIB_ID=Ubuntu

DISTRIB_RELEASE=16.04

DISTRIB_CODENAME=xenial

DISTRIB_DESCRIPTION="Ubuntu 16.04.5 LTS"

NAME="Ubuntu"

VERSION="16.04.5 LTS (Xenial Xerus)"

ID=ubuntu

ID_LIKE=debian

PRETTY_NAME="Ubuntu 16.04.5 LTS"

VERSION_ID="16.04"

HOME_URL="http://www.ubuntu.com/"

SUPPORT_URL="http://help.ubuntu.com/"

BUG_REPORT_URL="http://bugs.launchpad.net/ubuntu/"

VERSION_CODENAME=xenial

UBUNTU_CODENAME=xenial

显卡是Tesla的P40

ubuntu@ubuntu:~$ nvidia-smi

Thu Jan  3 16:53:36 2019

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 384.130                Driver Version: 384.130                   |

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|===============================+======================+======================|

|   0  Tesla P40           Off  | 00000000:3B:00.0 Off |                    0 |

| N/A   34C    P0    49W / 250W |  22152MiB / 22912MiB |      0%      Default |

+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+

| Processes:                                                       GPU Memory |

|  GPU       PID   Type   Process name                             Usage      |

|=============================================================================|

|    0    108329      C   python                                      4963MiB |

|    0    133840      C   tensorflow_model_server                    17179MiB |

+-----------------------------------------------------------------------------+

TensorFlow则是当下最新的1.12.0版本。

2 背景知识

在介绍如何部署之前，先来了解一下相关的概念。

2.1 TensorFlow Serving

参考资料

TensorFlow Serving是google提供的一种生产环境部署方案，一般来说在做算法训练后，都会导出一个模型，在应用中直接使用。

正常的思路是在flask这种web服务中嵌入tensorflow的模型，提供rest api的云服务接口。考虑到并发高可用性，一般会采取多进程的部署方式，即一台云服务器上同时部署多个flask，每个进程独享一部分GPU资源，显然这样是很浪费资源的。

Google提供了一种生产环境的新思路，他们开发了一个tensorflow-serving的服务，可以自动加载某个路径下的所有模型，模型通过事先定义的输入输出和计算图，直接提供rpc或者rest的服务。

一方面，支持多版本的热部署（比如当前生产环境部署的是1版本的模型，训练完成后生成一个2版本的模型，tensorflow会自动加载这个模型，停掉之前的模型）。
另一方面，tensorflow serving内部通过异步调用的方式，实现高可用，并且自动组织输入以批次调用的方式节省GPU计算资源。

因此，整个模型的调用方式就变成了：

客户端 ----> web服务(flask或者tornado) --grpc或者rest--> tensorflow serving

如果我们想要替换模型或者更新版本，只需要训练模型并将训练结果保存到固定的目录下就可以了。

2.2 Docker

参考资料：

docker简单来说就是一种容器技术，如果有做过技术支持的朋友肯定了解安装软件的痛苦——各种系统环境，导致各种安装报错...docker解决的问题就是，只要你再服务器上安装上docker，那么它会自动屏蔽所有的硬件信息，拉取一个镜像，就能直接启动提供服务。

搭建docker也很简单，如果是mac直接下载dmg文件就可以双击运行；如果是ubuntu直接运行

sudo apt-get install docker

不过Ubuntu安装后只能通过root使用，如果想让其他用户使用，需要调整docker组，细节百度一下即可。

常用的命令也比较少：

# 查看当前部署的服务

docker ps

# 运行一个容器服务

docker run

# 删除一个服务

docker kill xxx

2.3 Nvidia-docker

参考资料：

nvidia-docker github官网

因为docker是虚拟在操作系统之上的，屏蔽了很多底层的信息。如果想使用显卡这种硬件，一种思路是docker直接把操作系统上的驱动程序和算法库映射到容器内，但是这样就丧失了可移植性。

另一种方法就是在docker启动的时候挂载一个类似驱动的插件——这就是nvidia-docker的作用。

总的来说，如果想要在docker中使用tensorflow-gpu，需要首先安装docker-ce（社区版，其他版本nvidia-docker不一定支持），然后安装nvidia-container-runtime，最后安装nvidia-docker2。

当使用的时候，需要直接指定nvidia-docker2运行, 如：

sudo nvidia-docker run -p 8500:8500 --mount type=bind,source=/home/ubuntu/data/east_serving/east_serving,target=/models/east -e MODEL_NAME=east -t tensorflow/serving:1.12.0-gpu &

3 部署实战

下面就进入部署的实战篇了：

3.1 Docker\Nvidia-Docker、Tensorflow部署

主要参考：

首先安装docker-ce：

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -

sudo apt-key fingerprint 0EBFCD88

sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable"

sudo apt-get update

sudo apt-get install docker-ce

sudo service docker restart

如果之前安装了nvidia-docker1需要删除掉：

docker volume ls -q -f driver=nvidia-docker | xargs -r -I{} -n1 docker ps -q -a -f volume={} | xargs -r docker rm -f

sudo apt-get purge -y nvidia-docker

修改docker的镜像地址vi /etc/docker/daemon.json：

{

    "registry-mirrors":["https://registry.docker-cn.com","http://hub-mirror.c.163.com"]

}

然后重启docker配置服务systemctl restart docker.service。

更新nvidia-docker地址:

curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -

curl -s -L https://nvidia.github.io/nvidia-docker/ubuntu16.04/amd64/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

sudo apt-get update

执行安装命令：

sudo apt-get install -y nvidia-docker2

sudo pkill -SIGHUP dockerd

测试：

ubuntu@ubuntu:~$ sudo nvidia-docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi

Thu Jan  3 09:52:06 2019

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 384.130                Driver Version: 384.130                   |

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|===============================+======================+======================|

|   0  Tesla P40           Off  | 00000000:3B:00.0 Off |                    0 |

| N/A   35C    P0    49W / 250W |  22152MiB / 22912MiB |      0%      Default |

+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+

| Processes:                                                       GPU Memory |

|  GPU       PID   Type   Process name                             Usage      |

|=============================================================================|

+-----------------------------------------------------------------------------+

可以看到，已经能再docker内部看到显卡的使用信息了。

在docker容器外，执行nvidia-smi可以看到有个tensorflow serving的服务

ubuntu@ubuntu:~$ nvidia-smi

Thu Jan  3 17:52:43 2019

+-----------------------------------------------------------------------------+

| NVIDIA-SMI 384.130                Driver Version: 384.130                   |

|-------------------------------+----------------------+----------------------+

| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |

| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

|===============================+======================+======================|

|   0  Tesla P40           Off  | 00000000:3B:00.0 Off |                    0 |

| N/A   35C    P0    49W / 250W |  22152MiB / 22912MiB |      0%      Default |

+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+

| Processes:                                                       GPU Memory |

|  GPU       PID   Type   Process name                             Usage      |

|=============================================================================|

|    0    108329      C   python                                      4963MiB |

|    0    133840      C   tensorflow_model_server                    17179MiB |

+-----------------------------------------------------------------------------+

注意正常需要配置docker占用的显存比例！

4 总结

搞深度学习还是需要全栈基础的，涉及到各种linux底层动态库、硬件、容器等等相关的知识，虽然踩了不少坑，但是很多概念性的东西都得到了实践，这才是工作最大的意义。

深度学习Tensorflow生产环境部署（上·环境准备篇）的更多相关文章

深度学习Tensorflow生产环境部署（下·模型部署篇）
前一篇讲过环境的部署篇,这一次就讲讲从代码角度如何导出pb模型,如何进行服务调用. 1 hello world篇部署完docker后,如果是cpu环境,可以直接拉取tensorflow/servin ...
深度学习-tensorflow学习笔记(1)-MNIST手写字体识别预备知识
深度学习-tensorflow学习笔记(1)-MNIST手写字体识别预备知识在tf第一个例子的时候需要很多预备知识. tf基本知识香农熵交叉熵代价函数cross-entropy 卷积神经网络 s ...
深度学习-tensorflow学习笔记(2)-MNIST手写字体识别
深度学习-tensorflow学习笔记(2)-MNIST手写字体识别超级详细版这是tf入门的第一个例子.minst应该是内置的数据集. 前置知识在学习笔记(1)里面讲过了这里直接上代码 # -*- ...
深度学习---tensorflow简介
个core可以有不同的代码路径.对于反向传播算法来说,基本计算就是矩阵向量乘法,对一个向量应用激活函数这样的向量化指令,而不像在传统的代码里会有很多if-else这样的逻辑判断,所以使用GPU加速非常 ...
深度学习Tensorflow相关书籍推荐和PDF下载
深度学习Tensorflow相关书籍推荐和PDF下载 baihualinxin关注 32018.03.28 10:46:16字数 481阅读 22,673 1.机器学习入门经典<统计学习方法&g ...
深度学习入门者的Python快速教程 - 基础篇
5.1 Python简介本章将介绍Python的最基本语法,以及一些和深度学习还有计算机视觉最相关的基本使用. 5.1.1 Python简史 Python是一门解释型的高级编程语言,特点是简单明 ...
深度学习动手入门：GitHub上四个超棒的TensorFlow开源项目
作者简介:akshay pai,数据科学工程师,热爱研究机器学习问题.Source Dexter网站创办人. TensorFlow是Google的开源深度学习库,你可以使用这个框架以及Python编程 ...
【深度学习笔记】Anaconda及开发环境搭建
在学习了一段时间台大李宏毅关于deep learning的课程,以及一些其他机器学习的书之后,终于打算开始动手进行一些实践了. 感觉保完研之后散养状态下,学习效率太低了,于是便想白天学习,晚上对白天学 ...
AI学习---深度学习&TensorFlow安装
深度学习深度学习学习目标: 1. TensorFlow框架的使用 2. 数据读取(解决大数据下的IO操作) + 神经网络基础 3. 卷积神经网络的学习 + 验证码识别的案例机器学习与深度学 ...

随机推荐

mysql启动服务
mysql.server start 启动mysql服务mysql.server stop 停止mysql服务 mysql密码:123456Az_
Python开发——目录
Python基础 Python开发——解释器安装 Python开发——基础 Python开发——变量 Python开发——[选择]语句 Python开发——[循环]语句 Python开发——数据类型[ ...
基于Linux环境，创建PHP后台守护进程（转载）
应用场景:某些情况下,我们需要持续的周期性的提供一些服务,比如监控内存或cpu的运行状况,这些应用与客户端是没有关系的,不是说客户端(如web界面,手机app等)关闭了,我们就不监控内存或cpu了,为 ...
用同一台PC的两个网口实现Iperf的server端和client端
用同一台PC的两个网口实现Iperf的server端和client端 2015年10月20日 20:35:11 阅读数:2943 有时候需要发包,仅仅需要一定速率的流量,并不需要关心收到报文的大小,一 ...
win10修改TXT文件的关联软件
打开注册表,按下面路径找: HKEY_CLASSES_ROOT -> txtfile -> shell -> open -> command 在右边可以看到一个默认文件,原来的 ...
EasyPR源码剖析（5）：车牌定位之偏斜扭转
一.简介通过颜色定位和Sobel算子定位可以计算出一个个的矩形区域,这些区域都是潜在车牌区域,但是在进行SVM判别是否是车牌之前,还需要进行一定的处理.主要是考虑到以下几个问题: 1.定位区域存在一 ...
oracle primary key & foreign key
主键:一个表中只有一个主键约束,但是一个主键约束可以由数据表中的多个列组成:primary key alter table TName add constraints pk_name PRIMARY ...
dom4j移除节点不成功
在使用dom4j的时候想移除xml节点,经常使用remove来移除节点,通过整个文档或者根节点删除某一个子节点,但如果子节点不是儿子节点,在dom4j中就无法删除.在dom4j中移除节点必须使用父节点 ...
Quartz错过任务执行时间的处理机制(Misfire处理规则 )
调度(scheduleJob)或恢复调度(resumeTrigger,resumeJob)后不同的misfire对应的处理规则 CronTrigger withMisfireHandlingInstr ...
IDEA 错误: 找不到符号
在IDEA添加了一个新的Mapper.xml文件,然后删除,重新编译该文件所在的模块时,提示我编写的类找不到符合. 解决方法:右键.java文件,选择“complile ....”(ctrl+shif ...

深度学习Tensorflow生产环境部署（上·环境准备篇）