机器学习与R语言：C5.0

【机器学习与R语言：C5.0】的更多相关文章

【机器学习与R语言】13- 如何提高模型的性能？

目录 1.调整模型参数来提高性能 1.1 创建简单的调整模型 2.2 定制调整参数 2.使用元学习来提高性能 2.1 集成学习(元学习)概述 2.2 bagging 2.3 boosting 2.4 随机森林 1)训练随机森林 2)评估随机森林性能 1.调整模型参数来提高性能参数调整:调节模型合适的选项的过程,如股票C5.0决策树模型中的trials参数,神经网络中的调节节点.隐层数目,SVM中的核函数等等. caret包自动调整参数:train函数,为分类和回归的150种不同机器学习模型自动…

【机器学习与R语言】12- 如何评估模型的性能？

目录 1.评估分类方法的性能 1.1 混淆矩阵 1.2 其他评价指标 1)Kappa统计量 2)灵敏度与特异性 3)精确度与回溯精确度 4)F度量 1.3 性能权衡可视化(ROC曲线) 2.评估未来的性能 2.1 保持法 2.2 交叉验证 2.3 自助法抽样 1.评估分类方法的性能拥有能够度量实用性而不是原始准确度的模型性能评价方法是至关重要的. 3种数据类型评价分类器:真实的分类值:预测的分类值:预测的估计概率.之前的分类算法案例只用了前2种. 对于单一预测类别,可将predict函数设定为…

【机器学习与R语言】5-规则学习算法

目录 1.分类规则原理 1.1 1R单规则算法 1.2 RIPPER算法 2. 规则学习应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估性能 5)提高性能 6)选择决策树中的分类规则 1.分类规则原理 if-else逻辑:前件由特征值的特定组合构成,在满足规则的条件下,后件描述用来指定的分类值. 决策树必须从上至下应用,而规则是单独存在的事实.通常比决策树更简洁.直接和理解. 规则学习应用于以名义特征为主,或全部是名义特征的问题. "独立而治之":与决策树的"…

【机器学习与R语言】4-决策树

目录 1.决策树原理 2.决策树应用示例 2.1)收集数据 2.2)探索和准备数据 2.3)训练模型 2.4)评估模型性能 2.5)提高模型性能通过自适应增强算法(boosting) 将惩罚因子分配到不同类型的错误上 1.决策树原理决策树:树形结构流程图(漏斗型),模型本身包含一些列逻辑决策.数据分类从根节点开始,根据特征值遍历树上的各个决策节点. 几乎可应用于任何类型的数据建模,且性能不错.但当数据有大量多层次的名义特征或者大量的数值特征时,可能会生成一个过于复杂的决策树. 递归划分/分而…

【机器学习与R语言】11- Kmeans聚类

目录 1.理解Kmeans聚类 1)基本概念 2)kmeans运作的基本原理 2.Kmeans聚类应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解Kmeans聚类 1)基本概念聚类:无监督分类,对无标签案例进行分类. 半监督学习:从无标签的数据入手,是哦那个聚类来创建分类标签,然后用一个有监督的学习算法(如决策树)来寻找这些类中最重要的预测指标. kmeans聚类算法特点: kmeans算法涉及将n个案例中的每一个案例分配到指定k个类中的一个(…

【机器学习与R语言】10- 关联规则

目录 1.理解关联规则 1)基本认识 2)Apriori算法 2.关联规则应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解关联规则 1)基本认识购物篮分析:用来判别事务型数据中商品之间关联的机器学习方法,在零售店之间广泛使用. 购物篮分析的结果是一组指定商品之间关系模式的关联规则. 表现形式:{花生酱,果冻}-->{面包},即如果购买了花生酱和果冻,就很有可能购买面包.商品的集合称为项集. 特点:无监督学习,不能预测,智能发现知识:不能衡量算法…

【机器学习与R语言】8- 神经网络

目录 1.理解神经网络 1)基本概念 2)激活函数 3)网络拓扑 4)训练算法 2.神经网络应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 1.理解神经网络 1)基本概念人工神经网络(ANN):对一组输入信号和一组输出信号之间的关系进行建模,模型来源于人类大脑对来自感觉输入刺激反应的理解.使用人工神经元或节点的网络来学习. 图灵测试:如果一个人不能把机器行为和一种生物行为区分开来,那么将该机器划分为智能类. ANN应用方法:分类/数值预测/无监督模式识别…

【机器学习与R语言】6-线性回归

目录 1.理解回归 1)简单线性回归 2)普通最小二乘估计 3)相关系数 4)多元线性回归 2.线性回归应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理解回归确定一个唯一的因变量(需预测的值)和一个或多个数值型的自变量(预测变量)之间的关系. 回归分析对数据间复杂关系建立模型,用来估计一种处理方法对结果影响和推断未来.也可用于假设检验. 线性回归:直线回归模型简单线性回归:单一自变量多元回归:多变量也可对分类变量做回归: 逻辑回归:对二元分…

【机器学习与R语言】3-概率学习朴素贝叶斯（NB）

目录 1.理解朴素贝叶斯 1)基本概念 2)朴素贝叶斯算法 2.朴素贝斯分类应用 1)收集数据 2)探索和准备数据 3)训练模型 4)评估模型性能 5)提升模型性能 1.理解朴素贝叶斯 1)基本概念依据概率原则进行分类.如天气预测概率. 朴素贝叶斯(Naive Bayes, NB)适合场景:为估计一个结果的概率,从众多属性中提取的信息应该被同时考虑. 很多算法忽略了弱影响的特征(若有大量弱影响的特征,它们组合在一起的影响可能会很大),但NB算法利用了所有可以获得的证据来修正预测. 贝叶斯方法的…

【机器学习与R语言】1-机器学习简介

目录 1.基本概念 2.选择机器学习算法 3.使用R进行机器学习 1.基本概念机器学习:发明算法将数据转化为智能行为数据挖掘 VS 机器学习:前者侧重寻找有价值的信息,后者侧重执行已知的任务.后者是前者的先期准备过程:数据-->抽象化-->一般化.或者:收集数据--推理数据--归纳数据--发现规律抽象化: 训练:用一个特定模型来拟合数据集的过程用方程来拟合观测的数据:观测现象--数据呈现--模型建立.通过不同的格式来把信息概念化一般化: 一般化:将抽象化的知识转换成可用于行动的形式…