TensorFlow分布式实践

大数据时代，基于单机的建模很难满足企业不断增长的数据量级的需求，开发者需要使用分布式的开发方式，在集群上进行建模。而单机和分布式的开发代码有一定的区别，本文就将为开发者们介绍，基于TensorFlow进行分布式开发的两种方式，帮助开发者在实践的过程中，更好地选择模块的开发方向。

基于TensorFlow原生的分布式开发

分布式开发会涉及到更新梯度的方式，有同步和异步的两个方案，同步更新的方式在模型的表现上能更快地进行收敛，而异步更新时，迭代的速度则会更加快。两种更新方式的图示如下：

同步更新流程

（图片来源：TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems）

异步更新流程

（图片来源：TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems）

TensorFlow是基于ps、work 两种服务器进行分布式的开发。ps服务器可以只用于参数的汇总更新，让各个work进行梯度的计算。

基于TensorFlow原生的分布式开发的具体流程如下：

首先指定ps 服务器启动参数 –job_name=ps:

python distribute.py --ps_hosts=192.168.100.42:2222 --worker_hosts=192.168.100.42:2224,192.168.100.253:2225 --job_name=ps --task_index=0

接着指定work服务器参数(启动两个work 节点) –job_name=work2:

python distribute.py --ps_hosts=192.168.100.42:2222 --worker_hosts=192.168.100.42:2224,192.168.100.253:2225 --job_name=worker --task_index=0

python distribute.py --ps_hosts=192.168.100.42:2222 --worker_hosts=192.168.100.42:2224,192.168.100.253:2225 --job_name=worker --task_index=1

之后，上述指定的参数 worker_hosts ps_hosts job_name task_index 都需要在py文件中接受使用：

tf.app.flags.DEFINE_string("worker_hosts", "默认值", "描述说明")

接收参数后，需要分别注册ps、work，使他们各司其职：

ps_hosts = FLAGS.ps_hosts.split(",")

worker_hosts = FLAGS.worker_hosts.split(",")

cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker": worker_hosts})

server = tf.train.Server(cluster,job_name=FLAGS.job_name,task_index=FLAGS.task_index)

issync = FLAGS.issync

if FLAGS.job_name == "ps":

   server.join()

elif FLAGS.job_name == "worker":

   with tf.device(tf.train.replica_device_setter(

                   worker_device="/job:worker/task:%d" % FLAGS.task_index,

                   cluster=cluster)):

继而更新梯度。

（1）同步更新梯度：

rep_op = tf.train.SyncReplicasOptimizer(optimizer,

                                               replicas_to_aggregate=len(worker_hosts),

                                               replica_id=FLAGS.task_index,

                                               total_num_replicas=len(worker_hosts),

                                               use_locking=True)

train_op = rep_op.apply_gradients(grads_and_vars,global_step=global_step)

init_token_op = rep_op.get_init_tokens_op()

chief_queue_runner = rep_op.get_chief_queue_runner()

（2）异步更新梯度：

train_op = optimizer.apply_gradients(grads_and_vars,global_step=global_step)

最后，使用tf.train.Supervisor 进行真的迭代

另外，开发者还要注意，如果是同步更新梯度，则还需要加入如下代码：

sv.start_queue_runners(sess, [chief_queue_runner])

sess.run(init_token_op)

需要注意的是，上述异步的方式需要自行指定集群IP和端口，不过，开发者们也可以借助TensorFlowOnSpark，使用Yarn进行管理。

基于TensorFlowOnSpark的分布式开发

作为个推面向开发者服务的移动APP数据统计分析产品，个数所具有的用户行为预测功能模块，便是基于TensorFlowOnSpark这种分布式来实现的。基于TensorFlowOnSpark的分布式开发使其可以在屏蔽了端口和机器IP的情况下，也能够做到较好的资源申请和分配。而在多个千万级应用同时建模的情况下，集群也有良好的表现，在sparkUI中也能看到相对应的资源和进程的情况。最关键的是，TensorFlowOnSpark可以在单机过度到分布式的情况下，使代码方便修改，且容易部署。

基于TensorFlowOnSpark的分布式开发的具体流程如下：

首先，需要使用spark-submit来提交任务，同时指定spark需要运行的参数（–num-executors 6等）、模型代码、模型超参等，同样需要接受外部参数：

parser = argparse.ArgumentParser()

parser.add_argument("-i", "--tracks", help="数据集路径")

args = parser.parse_args()

之后，准备好参数和训练数据(DataFrame)，调用模型的API进行启动。

其中，soft_dist.map_fun是要调起的方法，后面均是模型训练的参数。

estimator = TFEstimator(soft_dist.map_fun, args) \

     .setInputMapping({'tracks': 'tracks', 'label': 'label'}) \

     .setModelDir(args.model) \

     .setExportDir(args.serving) \

     .setClusterSize(args.cluster_size) \

     .setNumPS(num_ps) \

     .setEpochs(args.epochs) \

     .setBatchSize(args.batch_size) \

     .setSteps(args.max_steps)

   model = estimator.fit(df)

接下来是soft_dist定义一个 map_fun(args, ctx)的方法：

def map_fun(args, ctx):

...

worker_num = ctx.worker_num  # worker数量

job_name = ctx.job_name  # job名

task_index = ctx.task_index  # 任务索引

if job_name == "ps":  # ps节点(主节点)

  time.sleep((worker_num + 1) * 5)

  cluster, server = TFNode.start_cluster_server(ctx, 1, args.rdma)

  num_workers = len(cluster.as_dict()['worker'])

  if job_name == "ps":

       server.join()

  elif job_name == "worker":

       with tf.device(tf.train.replica_device_setter(worker_device="/job:worker/task:%d" % task_index, cluster=cluster)):

之后，可以使用tf.train.MonitoredTrainingSession高级API，进行模型训练和预测。

总结

基于TensorFlow的分布式开发大致就是本文中介绍的两种情况，第二种方式可以用于实际的生产环境，稳定性会更高。

在运行结束的时候，开发者们也可通过设置邮件的通知，及时地了解到模型运行的情况。

同时，如果开发者使用SessionRunHook来保存最后输出的模型，也需要了解到，框架代码中的一个BUG，即它只能在规定的时间内保存，超出规定时间，即使运行没有结束，程序也会被强制结束。如果开发者使用的版本是未修复BUG的版本，则要自行处理，放宽运行时间。

TensorFlow分布式实践的更多相关文章

TensorFlow 分布式实践
此wiki主要介绍分布式环境使用的一些条件,一直所要注意的内容: 确保在此之前阅读过TensorFlow for distributed 1.集群描述当前tensorflow 的版本(0.8.0), ...
tensorflow分布式训练
https://blog.csdn.net/hjimce/article/details/61197190 tensorflow分布式训练 https://cloud.tencent.com/dev ...
[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑
[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑目录 [源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑 1. 总述 2. 接口 2.1 ...
基于Python玩转人工智能最火框架 TensorFlow应用实践
慕K网-299元-基于Python玩转人工智能最火框架 TensorFlow应用实践需要联系我,QQ:1844912514
【原创深度学习与TensorFlow 动手实践系列 - 4】第四课：卷积神经网络 - 高级篇
[原创深度学习与TensorFlow 动手实践系列 - 4]第四课:卷积神经网络 - 高级篇提纲: 1. AlexNet:现代神经网络起源 2. VGG:AlexNet增强版 3. GoogleN ...
【原创深度学习与TensorFlow 动手实践系列 - 3】第三课：卷积神经网络 - 基础篇
[原创深度学习与TensorFlow 动手实践系列 - 3]第三课:卷积神经网络 - 基础篇提纲: 1. 链式反向梯度传到 2. 卷积神经网络 - 卷积层 3. 卷积神经网络 - 功能层 4. 实 ...
Python玩转人工智能最火框架 TensorFlow应用实践 ☝☝☝
Python玩转人工智能最火框架 TensorFlow应用实践 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 全民人工智能时代,不甘心只做一个旁观者,那就现在 ...
java 分布式实践
java 分布式实践 spring boot cloud实践开源的全链路跟踪很多,比如 Spring Cloud Sleuth + Zipkin,国内有美团的 CAT 等等. 其目的就是当一个请求经 ...
基于Python玩转人工智能最火框架 TensorFlow应用实践✍✍✍
基于Python玩转人工智能最火框架 TensorFlow应用实践随着 TensorFlow 在研究及产品中的应用日益广泛,很多开发者及研究者都希望能深入学习这一深度学习框架.而在昨天机器之心发起 ...

随机推荐

Luogu P2341 [HAOI2006]受欢迎的牛
这道题应该也是经典的SCC题了吧印象中不知道在在班里上课的时候在紫书,ACM竞赛的那些书上看到多少次(有点奇怪) 首先思路很明显,就是要找出有多少个点,以它们为起点可以遍历整个图首先考虑一种情况, ...
Hadoop开发第3期---Hadoop的伪分布式安装
一.准备工作 1. 远程连接工具的安装 PieTTY 是在PuTTY 基础上开发的,改进了Putty 的用户界面,提供了多语种支持.Putty 作为远程连接linux 的工具,支持SSH 和telne ...
P2463 [SDOI2008]Sandy的卡片
写一种\(O(nm)\)的做法,也就是\(O(\sum 串长)\)的. 先通过差分转化,把每个数变成这个数与上一个数的差,第一个数去掉,答案就是最长公共子串+1 按照套路把所有串拼起来,中间加一个分隔 ...
idea 开启 tomcat 访问日志记录
all 为设置为查看所有类型的请求 (包括ajax)
SSIS 你真的了解事务吗？
事务用于处理数据的一致性,事务的定义是,处于同一个事务中的操作是一个工作单元,要么全部执行成功,要么全部执行失败.把事务的概念应用到在实际的SSIS Package场景中,如何在Package中实现事 ...
Linux下设置和查看环境变量
Linux的变量种类按变量的生存周期来划分,Linux变量可分为两类: 1 永久的:需要修改配置文件,变量永久生效. 2 临时的:使用export命令声明即可,变量在关闭shell时失效. 设置变量 ...
Asp.Net_获取IP地址
//方法一 HttpContext.Current.Request.UserHostAddress; //方法二 HttpContext.Current.Request.ServerVariables ...
解决coursera无法观看视频的问题
问题最近开始看coursera的一个课程,遇到一个问题,可以正常登录网站(未使用VPN),也可以下载资源(除了视频)但是却没有办法在线观看视频. 解决方法使用VPN 这个方法应该可以解决任何访问国 ...
PAT甲题题解-1063. Set Similarity (25)-set的使用
题意:两个整数集合,它们的相似度定义为:nc/nt*100%nc为两个集合都有的整数nt为两个集合一共有的整数注意这里的整数都是各不相同的,即重复的不考虑在内.给出n个整数集合,和k个询问,让你输出每 ...
Java中的基本数据据类型
1.整数类型类型字节数表示范围 byte 1 -128~127 short 2 -32768 ~ 32767 int 4 -2147483648~2147483647 long 8 -92233 ...

TensorFlow分布式实践

TensorFlow分布式实践的更多相关文章

随机推荐

热门专题