【Scala-ML】怎样利用Scala构建并行机器学习系统
引言
在学习Scala的过程中,我发现其在构建大规模分布式计算系统上有与生俱来的特质。
其丰富的类型系统能够帮助编程设计提供非常好的信息隐藏和抽象,其monoids和monads概念利用Scala高阶函数实现计算并行和数据处理流水线,其Actor系统帮助编写可伸缩性的应用程序,事实上现特定领域语言的优势帮助开发用户非常好克服不同语言的障碍。
尽管以上Scala长处说起来不会感同身受,但这能够作为我学习的一大动力。让我開始尝试编写并行机器学习系统。
在学习过程中,我主要參考《Scala for Machine Learning》一书和相关网上的资料。
希望这些分享能帮助自己学习。也更好的服务有兴趣的读者。
为何使用Scala构建机器学习系统
抽象
Monoids和Monads是函数式编程的重要概念。
Monoids定义了在具有闭包性质(property of closure)的数据集上的二元操作op,恒等操作(identity operation)和结合性(associativity)。
以下是代码描写叙述:
trait Monoid[T] {
def zero: T
def op(a: T, b: T): T
}
Monoids具有结合性的操作。如果ts1、ts2、ts3是三个时间序列,该性质保证ts1+(ts2+ts3) = (ts1+ts2)+ts3。Monoid的结合性对于计算流的并行化是非常关键的。
Monads能够被觉得是容器的结构,它是Monoids的推广。像是Scala标准库中的List,Map等集合被设计成monads的结构。
Monads提供了以下的功能:1. 创建集合; 2. 对集合的元素进行转换; 3. 压平嵌套的集合。
以下是Scala代码描写叙述:
trait Monad[M[_]] {
def apply[T](a: T): M[T]
def flatMap[T, U](m: M[T])(f: T=>M[U]): M[U]
}
Monads同意集合或者容器连接起来产生一个工作流。该性质能够应用在不论什么科学计算中。
可扩展性
Actors系统使得Scala编程变得可伸缩、可扩展。Actors作为协程(coroutines)。通过异步消息进行通信,管理底层的线程池。
机器学习的工作流被实现成一系列的计算任务。这些任务包括了Scala的高阶方法(如flatMap,map,fold,reduce,collect,join,filter)对数据集合的操作。Scala同意actors集群对这些数据进行切割来完毕计算任务。Scala还支持本地或远程的actor之间进行消息分发和消息路由。
上图中,主节点作为控制器,管理和调度四步任务。这些详细的任务通过Scala的actors实现的多个工作节点运行。
主节点通过和工作节点交换消息来管理工作流的运行状态。负责可靠性。
通过监督actors的层次结构来实现计算任务的高可用性。
可配置性
Scala支持依赖注入(dependency injection)。通过抽象变量(abstract variables)、自引用成分(self-referenced composition)和可堆叠的特质(stackable traits)的组合来实现。最经常使用的依赖注入的模式成为cake pattern,该模式在构建动态计算工作流中经经常使用到。
可维护性
Scala内嵌了领域专用语言(Domain Specific Languages,DSL)。
DSLs是在Scala原生库上建立的语法层,DSLs同意软件开发人员抽象计算细节,更好让使用者理解。DSLs最有名的应用案例就是在Matlab中的语法形式。
计算工作流
一个计算工作流(computational workflow)能够分为以下几个步骤:
1. 从文件或数据库中加载数据集
2. 将数据集进行切割,用于并行的数据处理
3. 运用过滤技术、方差分析等进行数据预处理
4. 应用机器学习模型
在使用训练数据进行分析的过程还须要一些详细的处理:
- 从清洗的输入数据中选择训练集、測试集、验证集
- 抽取关键特征、利用聚类技术从一组类似观測中简历亲近关系
- 降低特征数量。避免训练数据过拟合
- 反复进行多次上述步骤来验证模型和调整模型
- 将模型进行持久化,用于新观測数据的预測和处理
- 评估模型表现
转载请注明作者Jason Ding及其出处
Github博客主页(http://jasonding1354.github.io/)
GitCafe博客主页(http://jasonding1354.gitcafe.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)
Google搜索jasonding1354进入我的博客主页
【Scala-ML】怎样利用Scala构建并行机器学习系统的更多相关文章
- 利用Scala语言开发Spark应用程序
Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可 以阅读网络教程A Scala Tutorial for Ja ...
- 使用 Kafka 在生产环境构建大规模机器学习
智能实时应用为所有行业带来了革命性变化.机器学习及其分支深度学习正蓬勃发展,因为机器学习让计算机能够在无人指引的情况下挖掘深藏的洞见.这种能力正是多种领域所需要的,如非结构化数据分析.图像识别.语音识 ...
- Spark:利用Eclipse构建Spark集成开发环境
前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上 ...
- 分布式机器学习系统笔记(一)——模型并行,数据并行,参数平均,ASGD
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 文章索引::"机器学 ...
- 《Scala程序设计》暨Scala简介
JVM语言 JVM上的语言越来越多了,从前几年的groovy.Scala和Clojure,现在又听说一门Kotlin.对于前三种语言,groovy算是JVM平台上的动态脚本语言,可以类比Python: ...
- R︱foreach+doParallel并行+联用迭代器优化内存+并行机器学习算法
要学的东西太多,无笔记不能学~~ 欢迎关注公众号,一起分享学习笔记,记录每一颗"贝壳"~ --------------------------- 接着之前写的并行算法paralle ...
- 使用ML.NET和Azure Function进行机器学习 - 第1部分
介绍 一提到机器学习,总是让人望而生畏.幸运的是,Azure正在想方设法让开发人员更容易进入机器学习.ML.NET是Microsoft Research专为.NET开发人员开发的机器学习框架,因此您可 ...
- Scala进阶之路-Scala中的Ordered--Ordering
Scala进阶之路-Scala中的Ordered--Ordering 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 说道对象的比较,在Java中大家最熟悉不过的就是实现类本身实 ...
- Scala进阶之路-Scala中的泛型介绍
Scala进阶之路-Scala中的泛型介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 通俗的讲,比如需要定义一个函数,函数的参数可以接受任意类型.我们不可能一一列举所有的参数类 ...
随机推荐
- webpack最佳入门实践系列(6)
10.css模块化 10.1.什么是css模块? CSS模块就是所有的类名都只有局部作用域的CSS文件,当你在一个JavaScript模块中导入一个CSS文件时,CSS模块将会定义一个对象,将文件中类 ...
- 转:LinkedHashMap使用(可以用来实现LRU缓存)
1. LinkedHashMap概述: LinkedHashMap是HashMap的一个子类,它保留插入的顺序,如果需要输出的顺序和输入时的相同,那么就选用LinkedHashMap. LinkedH ...
- 转:android service总结2
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/11952435 相信大多数朋友对Service这个名词都不会陌生,没错,一个老练的A ...
- ubuntu14 简单安装ffmpeg
1.简单安装 sudo add-apt-repository ppa:kirillshkrogalev/ffmpeg-next sudo apt-get update sudo apt ...
- 【Apache Nutch系列】Nutch2.0配置安装异常集锦
1.java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration Exception in thread &qu ...
- 洛谷 P1463 [SDOI2005]反素数ant && codevs2912反素数
题目描述 对于任何正整数x,其约数的个数记作g(x).例如g(1)=1.g(6)=4. 如果某个正整数x满足:g(x)>g(i) 0<i<x,则称x为反质数.例如,整数1,2,4,6 ...
- 华为上机测试题(Excel表格纵列字母数字转换-java)
PS:这是我刚做的一道题,题目不难,满分60,得分40,大家看看哪里有问题,欢迎提意见,感谢! /* * 题目:Excel表格纵列字母数字转换 * 描述: 在Excel中列的编号为A-Z,AA-AZ, ...
- MyBatis报错 Parameter '0' not found. Available parameters are [arg1, arg0, param1, param2]
修改 <update id="updateStatusById" parameterType="java.lang.Integer"> update ...
- VS2005调试无法进入断点,暂停、停止、重编按钮为灰色
没装IE8之前(IE7),Vs2005调试还好用,装了IE8之后, Vs2005的WebSite程序按F5无法正常调试. 需要手动附加到进程, 比较麻烦, 据说还有种方法, 把所有IE窗口都关掉, 再 ...
- 2-SAT浅谈
2-SAT浅谈 一.2-SAT问题 首先,什么是$2-SAT$问题.现在给出这样一类问题:给出$n$个点和关于这$n$个点的$m$条限制条件,并且这$n$个点中,每一个点只有两种状态.对于上述问题,我 ...