[数据挖掘课程笔记]SLIQ算法

【[数据挖掘课程笔记]SLIQ算法】的更多相关文章

[数据挖掘课程笔记]SLIQ算法

1.数据结构主要的数据结构有:1.Attribute List 2.Class List 对于数据集,每一个属性都有一个对应的Attribute List.如上图所示,每个Attribute List有两列,分别是对应的属性值和该条记录在Class List里的索引.根据不同的索引值,可以得到记录的类标.对于连续型的属性,Attribute List应当是有序的. 对于Class List,存储的是每条记录对应的类标以及记录所在的当前叶节点.Class List 需常驻内存当中. 2.算法过…

[数据挖掘课程笔记]关联规则挖掘 - Apriori算法

两种度量: 支持度(support) support(A→B) = count(AUB)/N (N是数据库中记录的条数) 自信度(confidence)confidence(A→B) = count(AUB)/count(A) 关联规则挖掘的基本两个步骤: 1.找出所有的频繁项集 2.由频繁项集产生强关联规则由于整个数据库十分庞大,所以对第一步来说,若使用穷举法,搜索空间将是2d,d是项的个数.所以优化算法主要需要优化第一步.而频繁项集里的项的数目远小于数据库数据的数目,所以,在第二步中,我…

[数据挖掘课程笔记]基于规则的分类-顺序覆盖算法（sequential covering algorithm）

Rule_set = {}; //学习的规则集初试为空 for 每个类c do repeat Rule = Learn_One_Rule(D,Att-vals,c) 从D中删除被Rule覆盖的元组; until终止条件被满足 Rule_set = Rule_set +Rule end for 返回Rule_set 以上是顺序覆盖算法的基本过程 Learn_One_Rule采用一种贪心的深度优先策略.每当面临添加一个新的属性测试到当前规则时,它根据训练样本选择最能提高规则质量属性的测试. 而什么样…

数据挖掘学习笔记--AdaBoost算法(一)

声明: 这篇笔记是自己对AdaBoost原理的一些理解,如果有错,还望指正,俯谢- 背景: AdaBoost算法,这个算法思路简单,但是论文真是各种晦涩啊-,以下是自己看了A Short Introduction to Boosting和PRML的一些笔记. 摔- 正文: AdaBoost算法,是一种组合算法(通过多个弱分类器,组合成一个强分类器): 关于AdaBoost算法的流程,简单的描述,我们以A Short Introduction to Boosting中提到的用AdaBoosting…

[数据挖掘课程笔记]无监督学习——聚类（clustering）

什么是聚类(clustering) 个人理解:聚类就是将大量无标签的记录,根据它们的特点把它们分成簇,最后结果应当是相同簇之间相似性要尽可能大,不同簇之间相似性要尽可能小. 聚类方法的分类如下图所示: 一.如何计算样本之间的距离? 样本属性可能有的类型有:数值型,命名型,布尔型……在计算样本之间的距离时,需要将不同类型属性分开计算,最后统一相加,得到两个样本之间的距离.下面将介绍不同类型的属性的数据计算方法. 对于全部都是连续的数值型的样本来说,首先,对于值相差较大的属性来说,应该进行归一化,变…

[数据挖掘课程笔记]人工神经网络（ANN）

人工神经网络(Artificial Neural Networks)顾名思义,是模仿人大脑神经元结构的模型.上图是一个有隐含层的人工神经网络模型.X = (x1,x2,..,xm)是ANN的输入,也就是一条记录的在m个属性上的值.每个属性对应一个输入节点. 对于输入层来说,输入层的输出Oi就是输入层的输入xi. 对于隐含层的其中一个节点j来说,节点j的输入为ΣOiwij (i的取值为所有与节点j相连的输入层节点).可以发现,节点与节点之间的连接是有一个权重的,这个权重将会影响最后的分类结果.而我…