本章讲决策树 决策树,一种多功能且强大的机器学习算法.它实现了分类和回归任务,甚至多输出任务. 决策树的组合就是随机森林. 本章的代码部分不做说明,具体请到我的GitHub上自行获取. 决策树的每个节点都是一种属性的判断,每个分支是判断结果的输出,是一种监督学习的算法. 决策树的类别有很多,最广泛使用的决策树的生成算法是CART(Classification And Regression Tree). CART: 首先,使用单个特征k和阈值h将训练集分为两个子集.对于上述两个参数的选择,需要经过…
本章在讲支持向量机(Support Vector Machine). 支持向量机,一个功能强大的机器学习模型,能够执行线性或非线性数据的分类.回归甚至异常值检测的任务.它适用于中小型数据集的分类. 线性SVM分类 线性SVM分类大体分为两类,一种叫硬间隔分类,另一种叫软间隔分类.两者间的区别在于是否一定要把数据全部正确分类. SVM分类器的目标可以等价视作为在类别之间拟合最宽的街道的工作.而确定街道的数据点就是分类器的支持向量. SVM对特征的缩放很敏感,因此是否进行特征缩放对于SVM最终的决策…
本章主要讲述了“集成学习”和“随机森林”两个方面. 重点关注:bagging/pasting.boosting.stacking三个方法. 首先,提出一个思想,如果想提升预测的准确率,一个很好的方法就是用集成的方法.让多种预测器尽可能相互独立,使用不同的算法进行训练.最后以预测器中的预测结果的多数作为最终结果或者将平均概率最高的结果作为最后的结果. 还有没有其他的方法呢,有的. Bagging/Pasting方法:每个预测器使用的算法相同,但是在不同的训练集随机子集上进行训练,采样时将样本放回就…
下载:https://pan.baidu.com/s/1qKaDd9PSUUGbBQNB3tkDzw <机器学习实战:基于Scikit-Learn和TensorFlow>高清中文版PDF+高清英文版PDF+源代码 下载:https://pan.baidu.com/s/1IAfr-tigqGE_njrfSATT_w <深度学习之TensorFlow:入门.原理与进阶实战>,李金洪 著. 下载:https://pan.baidu.com/s/1NYYpsxbWBvMn9U7jvj6XS…
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的常见准则有: 1.      均方误差(mean squared error,MSE): 2.      平均绝对误差(mean absolute error,MAE) 3.      R2 score:scikit learn线性回归模型的缺省评价准则,既考虑了预测值与真值之间的差异,也考虑了问题…
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉验证 交叉验证用于评估模型性能和进行参数调优(模型选择).分类任务中交叉验证缺省是采用StratifiedKFold. sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jo…
数据挖掘作业,要实现决策树,现记录学习过程 win10系统,Python 3.7.0 构建一个决策树,在鸢尾花数据集上训练一个DecisionTreeClassifier: from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier iris = load_iris() X = iris.data[:,2:] y = iris.target tree_clf = DecisionTr…
数据挖掘作业,需要实现支持向量机进行分类,记录学习记录 环境:win10,Python 3.7.0 SVM的基本思想:在类别之间拟合可能的最宽的间距,也叫作最大间隔分类 书上提供的源代码绘制了两个图,一个是没用SVM的一个是用了SVM的,我做出了修改只画出使用了硬间隔SVM的图像,图像保存在当前目录的images文件夹下,如果没有此文件夹则需要进行创建 代码如下: import numpy as np import os import matplotlib import matplotlib.p…
Voting classifier 多种分类器分别训练,然后分别对输入(新数据)预测/分类,各个分类器的结果视为投票,投出最终结果: 训练: 投票: 为什么三个臭皮匠顶一个诸葛亮.通过大数定律直观地解释: 一个硬币P(H)=0.51.大数定律保证抛硬币很多次之后,平均得到的正面频数接近\(0.51 \times N\),并且N越大,越接近.那么换个角度,N表示同时掷硬币的人数,即为这边的N个臭皮匠,他们的结果合到一起就得到的是接近真实结果的值. 进一步根据中心极限定理,即二项分布以正态分布为其极…
[.NET Core项目实战-统一认证平台]开篇及目录索引 一.什么是RPC RPC是"远程调用(Remote Procedure Call)"的一个名称的缩写,并不是任何规范化的协议,也不是大众都认知的协议标准,我们更多时候使用时都是创建的自定义化(例如Socket,Netty)的消息方式进行调用,相比http协议,我们省掉了不少http中无用的消息内容.因此很多系统内部调用仍然采用自定义化的RPC调用模式进行通信,毕竟速度和性能是内网的关键指标之一,而标准化和语义无关性在外网中举足…