Apache Spark MLlib的简介

　　MLlib 是构建在 Spark 上的分布式机器学习库，充分利用了 Spark 的内存计算和适合迭代型计算的优势，将性能大幅度提升。同时由于 Spark 算子丰富的表现力，让大规模机器学习的算法开发不再复杂。
　　MLlib 是一些常用的机器学习算法和库在Spark 平台上的实现。MLlib 是 AMPLab 的在研机器学习项目 MLBase 的底层组件。

　　 MLBase 是一个机器学习平台，详细见 http://www.cnblogs.com/zlslch/p/5726445.html

　　 MLI 是一个接口层，提供很多结构， MLlib 是底层算法实现层，如图1 所示。
　　

　　　　　　　　　　　　　　　　图 1 MLbase

　　MLlib 中包含分类与回归、聚类、协同过滤、数据降维组件以及底层的优化库，如图 2所示。

　　　　　　　　　　　　　　　　　　图 2 MLlib 组件图

　　通过图 2，我们可以对 MLlib 的整体组件和依赖库有一个宏观的把握。
　　

　　底层组件简要介绍：
　　BLAS/LAPACK 层： LAPACK 是用 Fortran 编写的算法库，顾名思义， LinearAlgebra PACKage，是为了解决通用的线性代数问题的。另外必须要提的算法包是BLAS（Basic Linear Algebra Subprograms），其实 LAPACK 底层是使用了 BLAS 库的。不少计算机厂商都提供了针对不同处理器进行了优化的 BLAS/LAPACK 算法包。
　　Netlib-java（官网为： https://github.com/fommil/netlib-java/）是一个对底层 BLAS,LAPACK 封装的 Java 接口层。
　　Breeze（官网为： https://github.com/scalanlp/breeze）是一个 Scala 写的数值处理库，提供向量、矩阵运算等 API。

　　库依赖： MLlib 底层使用到了 Scala 书写的线性代数库 Breeze， Breeze 底层依赖netlib-java 库。 netlib-java 底层依赖原生的 Fortran routines。所以，当用户使用时需要
在节点上预先安装 gfortran runtime library（下载地址： https://github.com/mikiobraun/jblas/wiki/Missing-Libraries）。由于许可证（license）问题，官方的 MLlib 依赖集中没有
引入 netlib-java 原生库的依赖。如果运行时环境没有可用原生库，用户将会看到警告信息。如果程序中需要使用 netlib-java 的库，用户需要在项目中引入 com.github.fommil.netlib:all:1.1.2 的依赖或者参照指南（网址为： https://github.com/fommil/netlib-java/blob/master/README.md#machine-optimised-system-libraries）来建立用户自己的项目。如果用户需要使用 python 接口，则需要 1.4 或者更高版本的 NumPy（注意： MLlib 源码中注释有 Experimental/DeveloperApi 的 API 在未来的发布版本中可能会进行调整和改变，官方会在不同版本发布时提供迁移指南）。

Apache Spark MLlib的简介的更多相关文章

3 分钟学会调用 Apache Spark MLlib KMeans
Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块.只是,眼下对此网上介绍的文章不是非常多.拿KMeans来说,网上有些文章提供了一些演示样例程序 ...
Apache Spark Shark的简介
Shark是构建在Spark和Hive基础之上的数据仓库. 目前,Shark已经完成学术使命,终止开发,但其架构和原理仍具有借鉴意义. 它提供了能够查询Hive中所存储数据的一套SQL接口,兼容现有的 ...
Apache Spark Streaming的简介
Spark Streaming通过将流数据按指定时间片累积为RDD,然后将每个RDD进行批处理,进而实现大规模的流数据处理.其吞吐量能够超越现有主流流处理框架Storm,并提供丰富的API用于流数据计 ...
Apache Spark GraphX的简介
简单地说,GraphX是大规模图计算框架. GraphX 是 Spark 中的一个重要子项目,它利用 Spark 作为计算引擎,实现了大规模图计算的功能,并提供了类似 Pregel 的编程接口. Gr ...
Apache Spark Tachyon的简介
Tachyon是一个分布式内存文件系统,可以理解为内存中的HDFS. 为了提供更高的性能,将数据存储剥离Java Heap. 用户可以基于Tachyon实现RDD或者文件的跨应用共享,并提供高容错机制 ...
Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .机器学习概念 1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义: l“机器学 ...
Apache Spark源码走读之22 -- 浅谈mllib中线性回归的算法实现
欢迎转载,转载请注明出处,徽沪一郎. 概要本文简要描述线性回归算法在Spark MLLib中的具体实现,涉及线性回归算法本身及线性回归并行处理的理论基础,然后对代码实现部分进行走读. 线性回归模型 ...
使用 Spark MLlib 做 K-means 聚类分析[转]
原文地址:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice4/ 引言提起机器学习 (Machine Lear ...
Spark MLlib FPGrowth关联规则算法
一.简介 FPGrowth算法是关联分析算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息.在算法中使用了一种称为频繁模式树(Frequent ...

随机推荐

Javascript如何判断一个变量是数字类型?
isNaN()不能判断一个变量是否为数字类型,isNaN(123)值为false,isNaN('123')值也为false.isNaN() 的实际作用跟它的名字isNaN并不一致,isNaN(NaN) ...
《Linux/Unix系统编程手册》读书笔记2
<Linux/Unix系统编程手册>读书笔记目录第5章: 主要介绍了文件I/O更深入的一些内容. 原子操作,将一个系统调用所要完成的所有动作作为一个不可中断的操作,一次性执行:这样可以 ...
Anchor和Dock的区别
Dock的Bottom,整个控件填充下半部分,控件会被横向拉长 Anchor,仅仅是控件固定在下方,位置不会发生移动,自动锚定了此控件和父容器的底部的间隔 Anchor可以确定控件的相对位置不发生变化
java6 新特新
JAVA6新特性介绍 1. 使用JAXB来实现对象与XML之间的映射 JAXB是Java Architecture for XML Binding的缩写,可以将一个Java对象转变成为XML格式, ...
UVa 11916 (离散对数) Emoogle Grid
因为题目要求同列相邻两格不同色,所以列与列之间不影响,可以逐列染色. 如果一个格子的上面相邻的格子,已经被染色则染这个格子的时候,共有k-1中选择. 反过来,如果一个格子位于第一列,或者上面相邻的格子 ...
出现错误ActivityManager: Warning: Activity not started, its current task has been
1.在学习两个Activity的切换时,重新把新的工程部署上模拟器时候出现错误:ActivityManager: Warning: Activity not started, its current ...
RTP协议分析
目录(?)[-] 第1章 RTP概述 RTP是什么 RTP的应用环境相关概念流媒体第2章 RTP详解 RTP的协议层次传输层的子层应用层的一部分 RTP的封装 RTCP的 ...
VS2013密匙
在网上找到的,亲测有用: BWG7X-J98B3-W34RT-33B3R-JVYW9
iOS-利用AFNetworking（AFN 1.x)-实现文件断点下载
转:http://www.kaifazhe.com/ios_school/380066.html 官方建议AFN的使用方法 1. 定义一个全局的AFHttpClient:包含有 1> baseU ...
Winfrom 开发系统导航菜单
先上图看效果在说. 效果图如上,在Web中这个一点难度都没有,几行Css+JS就搞定了.但是在Winfrom中.本来就是半杯水的水准,想做这个个导航菜单,发现真难找,找了很多都不合胃口,只能自己写个了 ...

Apache Spark MLlib的简介

Apache Spark MLlib的简介的更多相关文章

随机推荐

热门专题