目录 1.基本概念 2.选择机器学习算法 3.使用R进行机器学习 1.基本概念 机器学习:发明算法将数据转化为智能行为 数据挖掘 VS 机器学习:前者侧重寻找有价值的信息,后者侧重执行已知的任务.后者是前者的先期准备 过程:数据-->抽象化-->一般化.或者:收集数据--推理数据--归纳数据--发现规律 抽象化: 训练:用一个特定模型来拟合数据集的过程 用方程来拟合观测的数据:观测现象--数据呈现--模型建立.通过不同的格式来把信息概念化 一般化: 一般化:将抽象化的知识转换成可用于行动的形式…
目录 1.调整模型参数来提高性能 1.1 创建简单的调整模型 2.2 定制调整参数 2.使用元学习来提高性能 2.1 集成学习(元学习)概述 2.2 bagging 2.3 boosting 2.4 随机森林 1)训练随机森林 2)评估随机森林性能 1.调整模型参数来提高性能 参数调整:调节模型合适的选项的过程,如股票C5.0决策树模型中的trials参数,神经网络中的调节节点.隐层数目,SVM中的核函数等等. caret包自动调整参数:train函数,为分类和回归的150种不同机器学习模型自动…
目录 1.评估分类方法的性能 1.1 混淆矩阵 1.2 其他评价指标 1)Kappa统计量 2)灵敏度与特异性 3)精确度与回溯精确度 4)F度量 1.3 性能权衡可视化(ROC曲线) 2.评估未来的性能 2.1 保持法 2.2 交叉验证 2.3 自助法抽样 1.评估分类方法的性能 拥有能够度量实用性而不是原始准确度的模型性能评价方法是至关重要的. 3种数据类型评价分类器:真实的分类值:预测的分类值:预测的估计概率.之前的分类算法案例只用了前2种. 对于单一预测类别,可将predict函数设定为…
目录 1.理解Kmeans聚类 1)基本概念 2)kmeans运作的基本原理 2.Kmeans聚类应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解Kmeans聚类 1)基本概念 聚类:无监督分类,对无标签案例进行分类. 半监督学习:从无标签的数据入手,是哦那个聚类来创建分类标签,然后用一个有监督的学习算法(如决策树)来寻找这些类中最重要的预测指标. kmeans聚类算法特点: kmeans算法涉及将n个案例中的每一个案例分配到指定k个类中的一个(…
目录 1.理解关联规则 1)基本认识 2)Apriori算法 2.关联规则应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解关联规则 1)基本认识 购物篮分析:用来判别事务型数据中商品之间关联的机器学习方法,在零售店之间广泛使用. 购物篮分析的结果是一组指定商品之间关系模式的关联规则. 表现形式:{花生酱,果冻}-->{面包},即如果购买了花生酱和果冻,就很有可能购买面包.商品的集合称为项集. 特点:无监督学习,不能预测,智能发现知识:不能衡量算法…
目录 1.理解支持向量机(SVM) 1)SVM特点 2)用超平面分类 3)对非线性空间使用核函数 2. 支持向量机应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 1.理解支持向量机(SVM) 1)SVM特点 支持向量机和神经网络都是"黑箱模型"的代表:潜在的模型基于复杂的数学系统,而且结果难以解释. SVM的目标是创建一个平面边界("超平面"),使得任何一边的数据划分都是均匀的.结合了kNN和线性回归. 几乎适用于所有的学习任务…
目录 1.理解神经网络 1)基本概念 2)激活函数 3)网络拓扑 4)训练算法 2.神经网络应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 1.理解神经网络 1)基本概念 人工神经网络(ANN):对一组输入信号和一组输出信号之间的关系进行建模,模型来源于人类大脑对来自感觉输入刺激反应的理解.使用人工神经元或节点的网络来学习. 图灵测试:如果一个人不能把机器行为和一种生物行为区分开来,那么将该机器划分为智能类. ANN应用方法:分类/数值预测/无监督模式识别…
目录 1.理解回归树和模型树 2.回归树和模型树应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理解回归树和模型树 决策树用于数值预测: 回归树:基于到达叶节点的案例的平均值做出预测,没有使用线性回归的方法. 模型树:在每个叶节点,根据到达该节点的案例建立多元线性回归模型.因此叶节点数目越多,一颗模型树越大,比同等回归树更难理解,但模型可能更精确. 将回归加入到决策树: 分类决策树中,一致性(均匀性)由熵值来度量:数值决策树,则通过统计量(如方差.标…
目录 1.理解回归 1)简单线性回归 2)普通最小二乘估计 3)相关系数 4)多元线性回归 2.线性回归应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理解回归 确定一个唯一的因变量(需预测的值)和一个或多个数值型的自变量(预测变量)之间的关系. 回归分析对数据间复杂关系建立模型,用来估计一种处理方法对结果影响和推断未来.也可用于假设检验. 线性回归:直线回归模型 简单线性回归:单一自变量 多元回归:多变量 也可对分类变量做回归: 逻辑回归:对二元分…
目录 1.分类规则原理 1.1 1R单规则算法 1.2 RIPPER算法 2. 规则学习应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估性能 5)提高性能 6)选择决策树中的分类规则 1.分类规则原理 if-else逻辑:前件由特征值的特定组合构成,在满足规则的条件下,后件描述用来指定的分类值. 决策树必须从上至下应用,而规则是单独存在的事实.通常比决策树更简洁.直接和理解. 规则学习应用于以名义特征为主,或全部是名义特征的问题. "独立而治之":与决策树的"…