基于ray的分布式机器学习（一）

基本思路：
1、对数据分块，使用多个worker分别处理一个数据块，每个worker暴露两个接口，分别是损失计算的接口loss和梯度计算的接口grad；
2、同时定义full_loss和full_grad接口对每个worker的loss和grad进行聚合；
3、使用bfgs算法进行参数优化，分别使用full_loss和full_grad作为bfgs的损失函数和梯度函数，即可进行网络参数优化；
注意：在此实现中，每个worker内部每次均计算一个数据块上的损失和梯度，而非一个batch。

#0、导入依赖

import numpy as np

import os

import scipy.optimize

import tensorflow as tf

from tensorflow.examples.tutorials.mnist import input_data

import ray

import ray.experimental.tf_utils

#1、定义模型

class LinearModel(object):

    def __init__(self, shape):

        """Creates a LinearModel object."""

        x = tf.placeholder(tf.float32, [None, shape[0]])

        w = tf.Variable(tf.zeros(shape))

        b = tf.Variable(tf.zeros(shape[1]))

        self.x = x

        self.w = w

        self.b = b

        y = tf.nn.softmax(tf.matmul(x, w) + b)

        y_ = tf.placeholder(tf.float32, [None, shape[1]])

        self.y_ = y_

        cross_entropy = tf.reduce_mean(

            -tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))

        self.cross_entropy = cross_entropy

        self.cross_entropy_grads = tf.gradients(cross_entropy, [w, b])

        self.sess = tf.Session()

        self.variables = ray.experimental.tf_utils.TensorFlowVariables(

            cross_entropy, self.sess)

    def loss(self, xs, ys):

        """计算loss"""

        return float(

            self.sess.run(

                self.cross_entropy, feed_dict={

                    self.x: xs,

                    self.y_: ys

                }))

    def grad(self, xs, ys):

        """计算梯度"""

        return self.sess.run(

            self.cross_entropy_grads, feed_dict={

                self.x: xs,

                self.y_: ys

            })

#2、定义远程worker，用于计算模型loss、grads

@ray.remote

class NetActor(object):

    def __init__(self, xs, ys):

        os.environ["CUDA_VISIBLE_DEVICES"] = ""

        with tf.device("/cpu:0"):

            self.net = LinearModel([784, 10])

            self.xs = xs

            self.ys = ys

    # 计算一个数据块的loss

    def loss(self, theta):

        net = self.net

        net.variables.set_flat(theta)

        return net.loss(self.xs, self.ys)

    # 计算一个数据块的梯度

    def grad(self, theta):

        net = self.net

        net.variables.set_flat(theta)

        gradients = net.grad(self.xs, self.ys)

        return np.concatenate([g.flatten() for g in gradients])

    def get_flat_size(self):

        return self.net.variables.get_flat_size()

#3、获取远程worker损失的函数

def full_loss(theta):

    theta_id = ray.put(theta)

    loss_ids = [actor.loss.remote(theta_id) for actor in actors]

    return sum(ray.get(loss_ids))

#4、获取远程worker梯度的函数

def full_grad(theta):

    theta_id = ray.put(theta)

    grad_ids = [actor.grad.remote(theta_id) for actor in actors]

    # 使用fmin_l_bfgs_b须转换为float64数据类型

    return sum(ray.get(grad_ids)).astype("float64")

#5、使用lbfgs进行训练

if __name__ == "__main__":

    ray.init()

    mnist = input_data.read_data_sets("MNIST_data", one_hot=True)

　　# 数据分块，每个worker跑一个数据块

    num_batches = 10

    batch_size = mnist.train.num_examples // num_batches

    batches = [mnist.train.next_batch(batch_size) for _ in range(num_batches)]

    actors = [NetActor.remote(xs, ys) for (xs, ys) in batches]

　　# 参数初始化

    dim = ray.get(actors[0].get_flat_size.remote())

    theta_init = 1e-2 * np.random.normal(size=dim)

　　# 优化

    result = scipy.optimize.fmin_l_bfgs_b(

        full_loss, theta_init, maxiter=10, fprime=full_grad, disp=True)

基于ray的分布式机器学习（一）的更多相关文章

基于ray的分布式机器学习（二）
基本思路:基于parameter server + multiple workers模式.同步方式:parameter server负责网络参数的统一管理,每次迭代均将参数发送给每一个worker,多 ...
Angel 实现FFM 一、对于Angel 和分布式机器学习的简单了解
Angel是腾讯开源的一个分布式机器学习框架.是一个PS模式的分布式机器学习框架. https://github.com/Angel-ML/angel 这是github地址. 我了解的分布式机器学 ...
分布式机器学习系统笔记（一）——模型并行，数据并行，参数平均，ASGD
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 文章索引::"机器学 ...
Adam：大规模分布式机器学习框架
引子转载请注明:http://blog.csdn.net/stdcoutzyx/article/details/46676515 又是好久没写博客,记得有一次看Ng大神的訪谈录,假设每周读三篇论文, ...
分布式机器学习框架：MxNet 前言
原文连接:MxNet和Caffe之间有什么优缺点一.前言: Minerva: 高效灵活的并行深度学习引擎不同于cxxnet追求极致速度和易用性,Minerva则提供了一个高效灵活的平台 ...
[转帖]Greenplum ：基于 PostgreSQL 的分布式数据库内核揭秘 (上篇)
Greenplum :基于 PostgreSQL 的分布式数据库内核揭秘 (上篇) https://www.infoq.cn/article/3IJ7L8HVR2MXhqaqI2RA 学长的文章.. ...
分布式机器学习：逻辑回归的并行化实现（PySpark）
1. 梯度计算式导出我们在博客<统计学习:逻辑回归与交叉熵损失(Pytorch实现)>中提到,设\(w\)为权值(最后一维为偏置),样本总数为\(N\),\(\{(x_i, y_i)\} ...
分布式机器学习：同步并行SGD算法的实现与复杂度分析（PySpark）
1 分布式机器学习概述大规模机器学习训练常面临计算量大.训练数据大(单机存不下).模型规模大的问题,对此分布式机器学习是一个很好的解决方案. 1)对于计算量大的问题,分布式多机并行运算可以基本解决. ...
分布式机器学习：模型平均MA与弹性平均EASGD（PySpark）
计算机科学一大定律:许多看似过时的东西可能过一段时间又会以新的形式再次回归. 1 模型平均方法(MA) 1.1 算法描述与实现我们在博客<分布式机器学习:同步并行SGD算法的实现与复杂度分析( ...

随机推荐

android 调用js，js调用android
Java调用JavaScript 1.main.xml 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 <?xml v ...
杨辉三角的实现（Java）
杨辉三角的实现一.什么是杨辉三角杨辉三角是二项式系数在三角形中的一种几何排列.每个数等于它上方两数之和.每行数字左右对称,由1开始逐渐变大.第n行的数字有n项.前n行共[(1+n)n]/2 个数. ...
2018ICPC南京I. Magic Potion
题目: 题意:n个士兵打m个怪兽,每个士兵只能打一个,但是如果有魔法药水就可多打一个问最多能打几个. 题解:如果没有魔法药就是一道裸二分图,因为现在有魔法要我们可以这样建图: 多建一个i+n的节点存放 ...
DAOS 分布式异步对象存储｜架构设计
分布式异步对象存储 (DAOS) 是一个开源的对象存储系统,专为大规模分布式非易失性内存 (NVM, Non-Volatile Memory) 设计,利用了SCM(Storage-Class Memo ...
第三单元总结——JML契约式编程
OO第三单元博客作业--JML与契约式编程 OO第三单元的三次作业都是在课程组的JML规格下完成.完成作业的过程是契约式编程的过程:设计者完成规格设计,实现者按照规格具体实现.作业正确性的检查同样围绕 ...
单链表c语言实现的形式
包括初始化,创建,查询,长度,删除,清空,销毁等操作代码如下: #include<stdio.h> #include<stdlib.h> //定义单链表的数据类型 typed ...
KMP字符串匹配学习笔记
部分内容引自皎月半洒花的博客模式串匹配问题模型给定一个需要处理的文本串和一个需要在文本串中搜索的模式串,查询在该文本串中,给出的模式串的出现有无.次数.位置等.算法思想每次失配之后不会从头开始枚举, ...
redis的线程模型
一.单进程模型来处理客户端的请求 Redis 基于 Reactor 模式开发了自己的网络事件处理器: 这个处理器被称为文件事件处理器(file event handler): 文件事件处理器是单线程的 ...
两种纯CSS方式实现hover图片pop-out弹出效果
实现原理主要图形的组成元素由背景和前景图两个元素,以下示例代码中,背景元素使用伪元素 figure::before 表示, 前景元素使用 figure img 表示,当鼠标 hover 悬浮至 fi ...
记一次metasploitable2内网渗透之512，513，514端口攻击
512,513,514端口都是R服务: TCP端口512,513和514为著名的rlogin提供服务.在系统中被错误配置从而允许远程访问者从任何地方访问(标准的,rhosts + +). 默认端口:5 ...

基于ray的分布式机器学习（一）

基于ray的分布式机器学习（一）的更多相关文章

随机推荐

热门专题