Spark机器学习7·降维模型(scala&python)

PCA(主成分分析法，Principal Components Analysis)
SVD(奇异值分解法，Singular Value Decomposition)

http://vis-www.cs.umass.edu/lfw/lfw-a.tgz

0 运行环境

export SPARK_HOME=/Users/erichan/Garden/spark-1.5.1-bin-hadoop2.6

cd $SPARK_HOME

bin/spark-shell --name my_mlib --packages org.jblas:jblas:1.2.4-SNAPSHOT --driver-memory 4G --executor-memory 4G --driver-cores 2

1 抽取特征

1.1 载入脸部数据

val PATH = "/Users/erichan/sourcecode/book/Spark机器学习"

val path = PATH+"/lfw/*"

val rdd = sc.wholeTextFiles(path)

val files = rdd.map { case (fileName, content) => fileName.replace("file:", "") }

println(files.count)

1054

1.2 可视化脸部数据(python)

ipython -pylab

PATH = "/Users/erichan/sourcecode/book/Spark机器学习"

path = PATH+"/lfw/Aaron_Eckhart/Aaron_Eckhart_0001.jpg"

ae = imread(path)

imshow(ae)

tmpPath = "/tmp/aeGray.jpg"

aeGary = imread(tmpPath)

imshow(aeGary, cmap=plt.cm.gray)

1.3 提取脸部图片作为向量

1.3.1 载入图片

import java.awt.image.BufferedImage

def loadImageFromFile(path: String): BufferedImage = {

    import javax.imageio.ImageIO

    import java.io.File

    ImageIO.read(new File(path))

}

val aePath = PATH+"/lfw/Aaron_Eckhart/Aaron_Eckhart_0001.jpg"

val aeImage = loadImageFromFile(aePath)

1.3.2 转换灰度、改变尺寸

def processImage(image: BufferedImage, width: Int, height: Int): BufferedImage = {

    val bwImage = new BufferedImage(width, height, BufferedImage.TYPE_BYTE_GRAY)

    val g = bwImage.getGraphics()

    g.drawImage(image, 0, 0, width, height, null)

    g.dispose()

    bwImage

}

val grayImage = processImage(aeImage, 100, 100)

import javax.imageio.ImageIO

import java.io.File

ImageIO.write(grayImage, "jpg", new File("/tmp/aeGray.jpg"))

1.3.3 提取特征向量

def getPixelsFromImage(image: BufferedImage): Array[Double] = {

    val width = image.getWidth

    val height = image.getHeight

    val pixels = Array.ofDim[Double](width * height)

    image.getData.getPixels(0, 0, width, height, pixels)

    // pixels.map(p => p / 255.0)       // optionally scale to [0, 1] domain

}

// put all the functions together

def extractPixels(path: String, width: Int, height: Int): Array[Double] = {

    val raw = loadImageFromFile(path)

    val processed = processImage(raw, width, height)

    getPixelsFromImage(processed)

}

val pixels = files.map(f => extractPixels(f, 50, 50))

println(pixels.take(10).map(_.take(10).mkString("", ",", ", ...")).mkString("\n"))

1.0,1.0,1.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0, ...
247.0,173.0,159.0,144.0,139.0,155.0,32.0,7.0,4.0,5.0, ...
253.0,254.0,253.0,253.0,253.0,253.0,253.0,253.0,253.0,253.0, ...
242.0,242.0,246.0,239.0,238.0,239.0,225.0,165.0,140.0,167.0, ...
47.0,221.0,205.0,46.0,41.0,154.0,127.0,214.0,232.0,232.0, ...
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, ...
75.0,76.0,72.0,72.0,72.0,74.0,71.0,78.0,54.0,26.0, ...
25.0,27.0,24.0,22.0,26.0,27.0,19.0,16.0,22.0,25.0, ...
240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0,240.0, ...
0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0, ...

import org.apache.spark.mllib.linalg.Vectors

val vectors = pixels.map(p => Vectors.dense(p))

vectors.setName("image-vectors")

vectors.cache

1.4 正则化

import org.apache.spark.mllib.feature.StandardScaler

val scaler = new StandardScaler(withMean = true, withStd = false).fit(vectors)

val scaledVectors = vectors.map(v => scaler.transform(v))

2 训练降维模型

2.1 前k个主成分

import org.apache.spark.mllib.linalg.Matrix

import org.apache.spark.mllib.linalg.distributed.RowMatrix

val matrix = new RowMatrix(scaledVectors)

val K = 10

val pc = matrix.computePrincipalComponents(K)

val rows = pc.numRows

val cols = pc.numCols

println(rows, cols)

(2500,10)

2.2 可视化特征脸

import breeze.linalg.DenseMatrix

val pcBreeze = new DenseMatrix(rows, cols, pc.toArray)

import breeze.linalg.csvwrite

import java.io.File

csvwrite(new File("/tmp/pc.csv"), pcBreeze)

pc = np.loadtxt("/tmp/pc.csv", delimiter=",")

print(pc.shape)

def plot_gallery(images, h, w, n_row=2, n_col=5):

    """Helper function to plot a gallery of portraits"""

    plt.figure(figsize=(1.8 * n_col, 2.4 * n_row))

    plt.subplots_adjust(bottom=0, left=.01, right=.99, top=.90, hspace=.35)

    for i in range(n_row * n_col):

        plt.subplot(n_row, n_col, i + 1)

        plt.imshow(images[:, i].reshape((h, w)), cmap=plt.cm.gray)

        plt.title("Eigenface %d" % (i + 1), size=12)

        plt.xticks(())

        plt.yticks(())

plot_gallery(pc, 50, 50)

3 使用降维模型

3.1 PCA投影（图像矩阵x主成分矩阵）

val projected = matrix.multiply(pc)

println(projected.numRows, projected.numCols)

println(projected.rows.take(5).mkString("\n"))

3.2 PCA与SVD

val svd = matrix.computeSVD(10, computeU = true)

println(s"U dimension: (${svd.U.numRows}, ${svd.U.numCols})")

println(s"S dimension: (${svd.s.size}, )")

println(s"V dimension: (${svd.V.numRows}, ${svd.V.numCols})")

U dimension: (1054, 10)
S dimension: (10, )
V dimension: (2500, 10)

def approxEqual(array1: Array[Double], array2: Array[Double], tolerance: Double = 1e-6): Boolean = {

    // note we ignore sign of the principal component / singular vector elements

    val bools = array1.zip(array2).map { case (v1, v2) => if (math.abs(math.abs(v1) - math.abs(v2)) > 1e-6) false else true }

    bools.fold(true)(_ & _)

}

println(approxEqual(Array(1.0, 2.0, 3.0), Array(1.0, 2.0, 3.0)))

println(approxEqual(Array(1.0, 2.0, 3.0), Array(3.0, 2.0, 1.0)))

println(approxEqual(svd.V.toArray, pc.toArray))

true
false
true

// compare projections

val breezeS = breeze.linalg.DenseVector(svd.s.toArray)

val projectedSVD = svd.U.rows.map { v =>

    val breezeV = breeze.linalg.DenseVector(v.toArray)

    val multV = breezeV :* breezeS

    Vectors.dense(multV.data)

}

projected.rows.zip(projectedSVD).map { case (v1, v2) => approxEqual(v1.toArray, v2.toArray) }.filter(b => true).count

4 评价降维模型

4.1 评估SVD的k值

val sValues = (1 to 5).map { i => matrix.computeSVD(i, computeU = false).s }

val svd300 = matrix.computeSVD(300, computeU = false)

val sMatrix = new DenseMatrix(1, 300, svd300.s.toArray)

csvwrite(new File("/tmp/s.csv"), sMatrix)

s = np.loadtxt("/tmp/s.csv", delimiter=",")

print(s.shape)

plot(s)

plot(cumsum(s))

plt.yscale('log')

Spark机器学习7·降维模型(scala&python)的更多相关文章

Spark机器学习5·回归模型(pyspark)
分类模型的预测目标是:类别编号回归模型的预测目标是:实数变量回归模型种类线性模型最小二乘回归模型应用L2正则化时--岭回归(ridge regression) 应用L1正则化时--LASSO ...
Spark机器学习6·聚类模型(spark-shell)
K-均值(K-mean)聚类目的:最小化所有类簇中的方差之和类簇内方差和(WCSS,within cluster sum of squared errors) fuzzy K-means 层次聚类 ...
Spark机器学习4·分类模型(spark-shell)
线性模型逻辑回归--逻辑损失(logistic loss) 线性支持向量机(Support Vector Machine, SVM)--合页损失(hinge loss) 朴素贝叶斯(Naive Ba ...
Spark机器学习1·编程入门(scala/java/python)
Spark安装目录 /Users/erichan/Garden/spark-1.4.0-bin-hadoop2.6 基本测试 ./bin/run-example org.apache.spark.ex ...
吴裕雄 python 机器学习——等度量映射Isomap降维模型
# -*- coding: utf-8 -*- import numpy as np import matplotlib.pyplot as plt from sklearn import datas ...
吴裕雄 python 机器学习——局部线性嵌入LLE降维模型
# -*- coding: utf-8 -*- import numpy as np import matplotlib.pyplot as plt from sklearn import datas ...
Mac 配置Spark环境scala+python版本（Spark1.6.0）
1. 从官网下载Spark安装包,解压到自己的安装目录下(默认已经安装好JDK,JDK安装可自行查找): spark官网:http://spark.apache.org/downloads.html ...
梯度迭代树（GBDT）算法原理及Spark MLlib调用实例（Scala/Java/python）
梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python) http://blog.csdn.net/liulingyuan6/article/details ...
Spark机器学习MLlib系列１（for python）－－数据类型，向量，分布式矩阵，API
Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API 关键词:Local vector,Labeled point,Local matrix,Distrib ...

随机推荐

SmartUI2.0后续声明
感谢很多朋友关注,因为今年一直在另外一个公司做顾问,网络环境管制相当严格,所以一直没有更新博客. 同时也很抱歉,SmartUI 2.0一直都没有下文.在次声明一下,SmartUI一直都在做,只不过Sm ...
bootstrap基础学习十一篇
bootstrap下拉菜单(Dropdowns) 下拉菜单是可切换的,是以列表格式显示链接的上下文菜单.如需使用下列菜单,只需要在 class .dropdown 内加上下拉菜单即可. a.代码示例如 ...
文件夹进行MD5校验的实现算法
每份相同数据(文件夹)都可以生成一份唯一的md5校验文件,我们可以通过直接校验整个数据文件夹的方法来确定数据是否有误. 1.针对整个文件夹生成md5校验文件方法: 以data文件夹为例,我们需要得到d ...
Office Developer Tools for Visual Studio 2012现在可用了
[原文发表地址] Now Available: Office Developer Tools for Visual Studio 2012 正如我以前写过的,我们正在为构建下一代Office和 S ...
51、自定义View基础和原理
一.编写自己的自定义View最简单的自定义View,继承View通过覆盖View的onDraw方法来实现自主显示利用Canvas和paint来绘制显示元素(文字,几何图形等) <com.myvi ...
jQuery选择器概览
层级 ancestor descendant parent > child prev + next prev ~ siblings 基本筛选器 :first :not(selector) :ev ...
学习使用turtlebot2——turtlebot2上使用Hokuyo激光雷达(型号UST-10LX)
目标在turtlebot2上添加Hokuyo激光雷达传感器,使用激光雷达调用gmapping进行建图. 配置情况电脑使用Ubuntu 14.04版本,ROS为 Indigo,激光雷 ...
PageCache 在查询中的作用很大
百度Elasticsearch-产品描述-介绍-百度云 https://cloud.baidu.com/doc/BES/FAQ.html#.51.46.57.73.73.7E.71.4C.6F.AA. ...
聊聊 Java 中日期的几种常见操作 —— 取值、转换、加减、比较
Java 的开发过程中免不了与 Date 类型纠缠,准备总结一下项目经常使用的日期相关操作,JDK 版本 1.7,如果能够帮助大家节约那么几分钟起身活动一下,去泡杯咖啡,便是极好的,嘿嘿.当然,我只提 ...
windows7下搭建django开发环境
Django 是 Python 编程语言驱动的一个开源模型-视图-控制器(MVC)风格的 Web 应用程序框架. 使用 Django,我们在几分钟之内就可以创建高品质.易维护.数据库驱动的应用程序. ...

Spark机器学习7·降维模型(scala&python)

0 运行环境

1 抽取特征

1.1 载入脸部数据

1.2 可视化脸部数据(python)

1.3 提取脸部图片作为向量

1.3.1 载入图片

1.3.2 转换灰度、改变尺寸

1.3.3 提取特征向量

1.4 正则化

2 训练降维模型

2.1 前k个主成分

2.2 可视化特征脸

3 使用降维模型

3.1 PCA投影（图像矩阵x主成分矩阵）

3.2 PCA与SVD

4 评价降维模型

4.1 评估SVD的k值

Spark机器学习7·降维模型(scala&python)的更多相关文章

随机推荐

热门专题