Spark新愿景:让深度学习变得更加易于使用

 
转自:https://www.jianshu.com/p/07e8200b7cea

前言

Spark成功的实现了当年的承诺,让数据处理变得更容易,现在,雄心勃勃的Databricks公司展开了一个新的愿景:让深度学习变得更容易。 当然牛好吹,也是要做些实际行动的,所有便有了spark-deep-learning项目。这件事情已经有很多人尝试做了,但显然太浅了,DB公司则做的更深入些。

原理

要做深度学习,肯定不能离开TensorFlow, MXNet之类的。 spark-deep-learning也是如此,尝试和Tensorflow进行整合。那么如何进行整合呢? 我们知道Tensorflow其实是C++开发的,平时训练啥的我们主要使用python API。Spark要和TensorFlow 进行整合,那么有三种方式:

  1. 走Tensorflow的Java API
  2. 走Tensorflow的Python API
  3. 通过JNI直接走Tensorflow的C++ API

因为Spark自己也可以使用Python,虽然有性能的上的损耗(据说>30%),但是终究是能跑起来。实际上Spark采用了2和3的结合。 第二条容易理解,第三条则主要依赖于另外一个项目tensorframes。这个项目主要是实现tensorflow和spark的互相调用。简单的来说,在spark的dataframe运算可以通过JNI调用tensorflow来完成,反之Spark的dataframe也可以直接喂给tensorflow(也就是tensorflow可以直接输入dataframe了)。有了这个之后,spark-deep-learning 则无需太多关注如何进行两个系统完成交互的功能,而是专注于完成对算法的集成了。

为了给出一个直观的感受,我们看个示例代码(来源于官方):

  1. import tensorflow as tf
  2. import tensorframes as tfs
  3. from pyspark.sql import Row
  4. data = [Row(x=float(x)) for x in range(10)]
  5. df = sqlContext.createDataFrame(data)
  6. with tf.Graph().as_default() as g:
  7. # The TensorFlow placeholder that corresponds to column 'x'.
  8. # The shape of the placeholder is automatically inferred from the DataFrame.
  9. x = tfs.block(df, "x")
  10. # The output that adds 3 to x
  11. z = tf.add(x, 3, name='z')
  12. # The resulting dataframe
  13. df2 = tfs.map_blocks(z, df)
  14. # The transform is lazy as for most DataFrame operations. This will trigger it:
  15. df2.collect()

在这里,通过tensorframes 我可以对spark dataframe里列使用tensorflow来进行处理。

  1. x = tfs.block(df, "x")

相当于

  1. x = tf.placeholder(shape=..., dtype=..., name='x')

程序自动从df可以知道数据类型。

  1. df2 = tfs.map_blocks(z, df)

则相当于将df 作为tf的feed_dict数据。最终f2.collect 触发实际的计算。

spark-deep-learning 提出了三个新的东西:

  1. 首先是,Spark的数据终于可以用DF的方式无缝的喂给Tensorflow/Keras了,而且对Tensorflow/Keras的适配了一套Mllib的库,方便以Spark Mllib的方式进行编程。当然,为了使得原先是Tensorflow/Keras的用户感觉爽,如果你使用Python API你也可以完全使用Keras/Tensorflow 的Style来完成代码的编写。
  2. 其次是多个TF模型同时训练,给的一样的数据,但是不同的参数,从而充分利用分布式并行计算来选择最好的模型。
  3. 另外是模型训练好后如何集成到Spark里进行使用呢?没错,SQL UDF函数,你可以很方便的把一个训练好的模型注册成UDF函数,从而实际完成了模型的部署。

方便理解,我们也简单看看一些代码:

  1. from pyspark.ml.classification import LogisticRegression
  2. from pyspark.ml.evaluation import MulticlassClassificationEvaluator
  3. from pyspark.ml import Pipeline
  4. from sparkdl import DeepImageFeaturizer
  5. from sparkdl import readImages
  6. from pyspark.sql.functions import lit
  7. //读取图片,设置为1分类
  8. tulips_df = readImages(img_dir + "/tulips").withColumn("label", lit(1))
  9. //读取图片,设置为2分类
  10. daisy_df = readImages(img_dir + "/daisy").withColumn("label", lit(0))
  11. //构成训练集
  12. train_df = tulips_train.unionAll(daisy_train)
  13. //使用已经配置好的模型(InceptionV3)
  14. featurizer = DeepImageFeaturizer(inputCol="image", outputCol="features", modelName="InceptionV3")
  15. //接一个分类器,也就是传说中的迁移学习
  16. lr = LogisticRegression(maxIter=20, regParam=0.05, elasticNetParam=0.3, labelCol="label")
  17. //组装下
  18. p = Pipeline(stages=[featurizer, lr])
  19. //训练,和Mllib保持了一致
  20. model = p.fit(image_df) # train_images_df is a dataset of images (SpImage) and labels
  21. //预测
  22. df = model.transform(train_df.limit(10)).select("image", "probability", "uri", "label")
  23. predictionAndLabels = df.select("prediction", "label")

整个模型一气呵成。

对于上面的例子比较特殊,DeepImageFeaturizer那块其实因为是使用别人已经训练好的参数,所以本身是分布式的,直接透过tensorrames 调用tensorflow把输入的图片转换为经过InceptionV3处理后的向量,然后到了LogisticRegression,因为这个算法本身是Mllib里的,所以也是分布式的。

如何开发

spark-deep-learning 还处于早期,很多东西还不太完善。
为了方便看源码以及编写实际的代码,你可以clone最新的代码,然后使用intellij idea
可以很方便的导入进来。导入进来后,添加python framework的支持,然后把根目录下的python目录作为source
目录,接着进入project structured 添加pyspark 的zip(一般放在spark home
里的lib目录),这样你在spark-deep-learning里就可以直接做开发了。

spark-deep-learning使用的是spark 2.1.1 以及python 2.7 ,不过我的环境是spark 2.2.0, python 3.6。 所以你需要在build.sbt里第一行修改为

  1. val sparkVer = sys.props.getOrElse("spark.version", "2.2.0")

同时保证你的python为2.7版本(你可以通过一些python的管理工具来完成版本的切换),然后进行编译:

  1. build/sbt assembly

编译的过程中会跑单元测试,在spark 2.2.0会报错,原因是udf函数不能包含“-”,所以你找到对应的几个测试用例,修改里面的udf函数名称即可。

编译好后,你就可以直接写个脚本,比如:

  1. import os
  2. from pyspark import *
  3. from sparkdl import readImages
  4. os.environ['PYSPARK_PYTHON'] = '/Users/allwefantasy/python2.7/tensorflow/bin/python'
  5. sc = SparkContext.getOrCreate()
  6. image_df = readImages("/Users/allwefantasy/resources/images/flower_photos/daisy/")
  7. image_df.show()

比如我这里简单的读取图片文件,并且显示出来。你可以直接点击右键运行,也可以通过spark-submit运行:

  1. ./bin/spark-submit --driver-memory 8g
  2. --py-files spark-deep-learning-assembly-0.1.0-spark2.2.jar \
  3. --jars spark-deep-learning-assembly-0.1.0-spark2.2.jar \
  4. --master local[*] spark-deep-learning/python/tests/Test.py

因为比较消耗内存,这里可以通过driver-memory 设置spark submit 内存。

如果你导入项目,想看python相关的源码,但是会提示找不到pyspark相关的库,你可以使用:

  1. pip install pyspark

这样代码提示的问题就被解决了。

Spark新愿景:让深度学习变得更加易于使用——见https://github.com/yahoo/TensorFlowOnSpark的更多相关文章

  1. 用Apache Spark和TensorFlow进行的深度学习

    原文:https://databricks.com/blog/2016/01/25/deep-learning-with-apache-spark-and-tensorflow.html by Tim ...

  2. 微软的深度学习框架cntk ,我目前见过 安装方式最简单的一个框架,2.0之后开始支持C# 咯

    wiki:https://github.com/Microsoft/CNTK/wiki 嗨,你也是我这种手残党么?之前试着安装着mxnet和tensorflow,但是因为时间比较短所以往往来不及安装完 ...

  3. [源码解析] 深度学习分布式训练框架 horovod (8) --- on spark

    [源码解析] 深度学习分布式训练框架 horovod (8) --- on spark 目录 [源码解析] 深度学习分布式训练框架 horovod (8) --- on spark 0x00 摘要 0 ...

  4. [源码解析] 深度学习分布式训练框架 Horovod (1) --- 基础知识

    [源码解析] 深度学习分布式训练框架 Horovod --- (1) 基础知识 目录 [源码解析] 深度学习分布式训练框架 Horovod --- (1) 基础知识 0x00 摘要 0x01 分布式并 ...

  5. [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入

    [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 目录 [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 0x00 摘要 0 ...

  6. [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架

    [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 目录 [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 0x00 摘要 0x01 架构图 ...

  7. [源码解析] 深度学习分布式训练框架 horovod (6) --- 后台线程架构

    [源码解析] 深度学习分布式训练框架 horovod (6) --- 后台线程架构 目录 [源码解析] 深度学习分布式训练框架 horovod (6) --- 后台线程架构 0x00 摘要 0x01 ...

  8. 一个基于深度学习回环检测模块的简单双目 SLAM 系统

    转载请注明出处,谢谢 原创作者:Mingrui 原创链接:https://www.cnblogs.com/MingruiYu/p/12634631.html 写在前面 最近在搞本科毕设,关于基于深度学 ...

  9. 开源项目(9-0)综述--基于深度学习的目标跟踪sort与deep-sort

    基于深度学习的目标跟踪sort与deep-sort https://github.com/Ewenwan/MVision/tree/master/3D_Object_Detection/Object_ ...

随机推荐

  1. Android MediaRecorder自定义分辨率

    Android MediaRecorder自定义分辨率 工作这么久了,确实积累了不少东西,但都是以文档的形式存在U盘里的,为什么不写博客呢?因为懒啊!!!总感觉博客太难写了(大概是上学时候写作文恐惧症 ...

  2. 人工机器:NDC-谷歌机器翻译破世界纪录,仅用Attention模型,无需CNN和RNN

    终于找到ML日报的微信链接,抄之...................................... 请拜访原文链接:[谷歌机器翻译破世界纪录]仅用Attention模型,无需CNN和RNN. ...

  3. 三维重建:SLAM相关的一些术语解释

    SLAM是一个工程问题,再次复习一下工程中可能用到的名词解释. 还是不要看了,高翔的科普读物已经出版了,读他的<slam十四讲>就可以了. 一.度量相关: 世界坐标系:描述图像的平面坐标系 ...

  4. error C3859: 超过了PCH的虚拟内存范围;请使用“-Zm33”或更大的命令行选项重新编译

    编译 ORB_SLAM的Release版本时,出现了此问题: 错误 2 error C3859: 超过了 PCH 的虚拟内存范围;请使用"-Zm465"或更大的命令行 修改方法: ...

  5. Matlab/Eigen矩阵填充问题

    Matlab进行矩阵填充时可以填充空矩阵,相当于空矩阵不存在,例如一下代码: P_RES = [ P_xv P_xvy P_xv*dy_dxv'; P_yxv P_y P_yxv*dy_dxv'; d ...

  6. [实战经验][SQL Sever 2008 (R)解决方法累积

    SQL Sever 2008 (R)的安装图解及配置 http://www.soft6.com/v9/2009/jcsj_1030/115821.html 产品密钥,选择“输入产品密钥”,输入:PTT ...

  7. 【sqli-labs】 less38 GET -Stacked Query Injection -String based (GET型堆叠查询字符型注入)

    这个直接用union select就可以 http://192.168.136.128/sqli-labs-master/Less-38/?id=0' union select 1,2,3%23 看一 ...

  8. Pjax无刷新跳转页面实现,支持超链接与表单提交

    什么是pjax? 当你点击一个站内的链接的时候,不是做页面跳转,而是只是站内页面刷新.这样的用户体验,比起整个页面都闪一下来说, 好很多. 其中有一个很重要的组成部分, 这些网站的ajax刷新是支持浏 ...

  9. Coreldraw软件反盗版提示x8有优惠活动 cdr x8提示盗版怎么办?

    CorelDRAW X8装不上,我的悲伤有这么大,或者比这还大一点...♥♥♥如果你遇到这样的断了网,卸了装,装了卸,然后再安装的...╮(-_-)╭这样的保存和另存为都点不了,不敢关电脑的亦或是这样 ...

  10. 关于JsonArray与JsonObject的使用

    学习地址:http://blog.csdn.net/lishuangzhe7047/article/details/28880009 关于前台向后台传递数组(里面包含json格式) [{"i ...