FP-Growth in Spark MLLib
并行FP-Growth算法思路
上图的单线程形成的FP-Tree。
分布式算法事实上是对FP-Tree进行分割,分而治之
首先,假设我们只关心...|c这个conditional transaction,那么可以把每个transaction中的...|c保留,并发送到一个计算节点中,必然能在该计算节点构造出FG-Tree
root
| \
f:3 c:1
|
c:3
进而得到频繁集(f,c)->3.
同样,如果把所有transaction中的...|b保留,并发送到一个计算节点中,必然能在该几点构造出FG-tree
root
/ \
f:2 c:1
| \ \
c:1 b:1 b:1
|
a:1
|
b:1
进而得到(b)->3。
以上两个例子得到了两个tree,并且分别得到了部分结果。
事实上算法的思路就是把transaction的conditional transaction进行分割(分组),分割的依据就是conditional transaction的suffix(的hash,如果直接是suffix也可以,但是使得spark任务有过多task)。对每个分组分别构建FP-tree,然后在每个子树中获得部分结果,合并得到最终结果。
Spark Mllib中算法
遍历一次数据集输出F-List,类似wordcount,得出频繁出现的items,将F-List划分为G-List,即将频繁items进行分组:
- F-List包含item全集I中的频繁item,F-List={f_1,...},f_i在Transaction中出现的频率>support阈值。
- G-List={g_1,...}, g_i=hash_of(f_i)=H(f_i).
实际上,计算的f_i hash值作为partition_id,在MLLib过程中将conditional transaction f'1,f'2,...|f_i 分发到partition_id=H(f_i)对应的计算节点。
// data即所有的transaction,每个trans是Item数组
def run[Item: ClassTag](data: RDD[Array[Item]]): FPGrowthModel[Item] = {
// 计算support阈值
val count = data.count()
val minCount = math.ceil(minSupport * count).toLong
val numParts = if (numPartitions > 0) numPartitions else data.partitions.length
val partitioner = new HashPartitioner(numParts)
// 第一次遍历,统计frequency,过滤掉低于support阈值的item
val freqItems:Array[Item] = genFreqItems(data, minCount, partitioner)
// 第二次遍历
val freqItemsets = genFreqItemsets(data, minCount, freqItems, partitioner)
new FPGrowthModel(freqItemsets)
}
各组构建FP-tree
再次遍历数据集,每个trans中的items按照frequency进行降序排列,并构造conditional transactions,例如一个trans={a,b,c,d,e},a的frequency最高,以此降低,构造其相应的conditional transactions:
a,b,c,d,e:
condition trans ; partition_id
a,b,c,d|e ; partition = H(e)
a,b,c|d ; partition = H(d)
a,b|c ; partition = H(c)
a|b ; partition = H(b)
a ; partition = H(a)
对应code在genFreqItemsets
.
- 每个transaction的conditional transaction,并且按照suffix计算hash作为partition_id分组
- 各个partition_id对应的[condition items]所有集合,即G-List,对G-List的agg即为构造FP-Tree过程
- 在各个part中提取该part包含的频繁集。在part子树中,node x,若hash(x)=part_id,并且x到root路径能形成频繁集,则输出path(x->root)中的各个节点作为频繁集。
- 将rank转为对应的item
private def genFreqItemsets[Item: ClassTag](
data: RDD[Array[Item]], // transactions
minCount: Long, // support threshold
freqItems: Array[Item], // FP-List
partitioner: Partitioner): RDD[FreqItemset[Item]] = {
// freqItems已经排序了,zip出每个Item的rank
val itemToRank = freqItems.zipWithIndex.toMap
// 形成partition_id->[condition items]
data.flatMap { transaction =>
// 计算conditional transactions
genCondTransactions(transaction, itemToRank, partitioner)
}
// 各个partition_id对应的[condition items]所有集合,即G-List,
// 对G-List的agg即为构造FP-Tree过程
.aggregateByKey(new FPTree[Int], partitioner.numPartitions)(
(tree, transaction) => tree.add(transaction, 1L),
(tree1, tree2) => tree1.merge(tree2))
// 在各个part中提取该part包含的频繁集
.flatMap { case (part, tree) =>
tree.extract(minCount, x => partitioner.getPartition(x) == part)
}
// 将rank转为对应的item
.map { case (ranks, count) =>
new FreqItemset(ranks.map(i => freqItems(i)).toArray, count)
}
}
计算conditional transactions
- itemToRank,rank越小对应的frequency是越大的
- 每个trans中筛出frequent Item,并对rank排序,得到的item即按照frequency由大到小排序
- FP_list={a,b,c,d,e,f}
- 一个trans=[f,e,d,a,c], 那么将得到[0,2,3,4,5]
- 构造conditional transaction
- 例如0,2|3 计算3的partition_id(3), 形成partition_id(3)->[0,2,3]
private def genCondTransactions[Item: ClassTag](
transaction: Array[Item],
itemToRank: Map[Item, Int],
partitioner: Partitioner): mutable.Map[Int, Array[Int]] = {
val output = mutable.Map.empty[Int, Array[Int]]
// Filter the basket by frequent items pattern and sort their ranks.
val filtered = transaction.flatMap(itemToRank.get)
ju.Arrays.sort(filtered)
val n = filtered.length
var i = n - 1
while (i >= 0) {
val item = filtered(i)
val part = partitioner.getPartition(item)
if (!output.contains(part)) {
output(part) = filtered.slice(0, i + 1)
}
i -= 1
}
output
}
FP-Growth in Spark MLLib的更多相关文章
- 《Spark MLlib机器学习实践》内容简介、目录
http://product.dangdang.com/23829918.html Spark作为新兴的.应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相 ...
- Spark MLlib 机器学习
本章导读 机器学习(machine learning, ML)是一门涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多领域的交叉学科.ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识.新 ...
- Spark MLlib - LFW
val path = "/usr/data/lfw-a/*" val rdd = sc.wholeTextFiles(path) val first = rdd.first pri ...
- Spark MLlib 之 Basic Statistics
Spark MLlib提供了一些基本的统计学的算法,下面主要说明一下: 1.Summary statistics 对于RDD[Vector]类型,Spark MLlib提供了colStats的统计方法 ...
- Spark MLlib Data Type
MLlib 支持存放在单机上的本地向量和矩阵,也支持通过多个RDD实现的分布式矩阵.因此MLlib的数据类型主要分为两大类:一个是本地单机向量:另一个是分布式矩阵.下面分别介绍一下这两大类都有哪些类型 ...
- Spark MLlib - Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
- Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学 ...
- Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .MLlib实例 1.1 聚类实例 1.1.1 算法说明 聚类(Cluster analys ...
- spark mllib配置pom.xml错误 Multiple markers at this line Could not transfer artifact net.sf.opencsv:opencsv:jar:2.3 from/to central (https://repo.maven.apache.org/maven2): repo.maven.apache.org
刚刚spark mllib,在maven repository网站http://mvnrepository.com/中查询mllib后得到相关库的最新dependence为: <dependen ...
- Apache Spark源码走读之23 -- Spark MLLib中拟牛顿法L-BFGS的源码实现
欢迎转载,转载请注明出处,徽沪一郎. 概要 本文就拟牛顿法L-BFGS的由来做一个简要的回顾,然后就其在spark mllib中的实现进行源码走读. 拟牛顿法 数学原理 代码实现 L-BFGS算法中使 ...
随机推荐
- hdoj1260 Tickets (简单DP)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1260 思路: 很简单的DP题,状态方程也比较容易想到,用f[i]表示到第i个人所耗的最短时间,详见代码 ...
- Tree(树链剖分+线段树延迟标记)
Tree http://poj.org/problem?id=3237 Time Limit: 5000MS Memory Limit: 131072K Total Submissions: 12 ...
- Graph Coloring I(染色)
Graph Coloring I https://www.nowcoder.com/acm/contest/203/J 题目描述 修修在黑板上画了一些无向连通图,他发现他可以将这些图的结点用两种颜色染 ...
- python之三级菜单作业
作业需求如下 1.根据用户的输入打印相应的省.市.县的信息 2.每次只要用户输入b,则返回上一级菜单 3.每次只要用户输入q,则直接退出 4.用户输错需要有提示 homework_dict = {'内 ...
- 分割回文串 II · Palindrome Partitioning II
[抄题]: 给定一个字符串s,将s分割成一些子串,使每个子串都是回文. 返回s符合要求的的最少分割次数. [思维问题]: 不知道要用预处理字符串降低复杂度 [一句话思路]: 先把预处理获得s中回文串的 ...
- java文件读写操作指定编码格式
读文件: BufferedReader 从字符输入流中读取文本,缓冲各个字符,从而提供字符.数组和行的高效读取. 可以指定缓冲区的大小,或者可使用默认的大小.大多数情况下,默认值就足够大了. 通常,R ...
- pthread_exit pthread_join
int pthread_join(pthread_t thread, void **retval); int pthread_detach(pthread_t thread); void pthrea ...
- 【hh】我胡汉三又回来了
hh 差不多半年没来机房了,高一的都已经碾压我100题了 开始得比较晚,估计比高一的早两三个月吧,停了这半年落下了不少. 但是没有关系啊,学OI纯粹是好玩嘛,一开始报名的时候根本不知道有联赛这回事(其 ...
- dedecms连表查询参照
ixingmeib2c/ds/entity_clas/tc_coupon_index.ls.php下面的getIndexInfo()方法
- TLS/SSL简单过程
.wcf的认证分为两种 1.1 transport模式,在传输层完成认证(只能在传输层完成认证,利用硬件加速效率更高) a.在使用transport模式,非windows凭证的情况下默认使用TLS/S ...