本章在讲支持向量机(Support Vector Machine). 支持向量机,一个功能强大的机器学习模型,能够执行线性或非线性数据的分类.回归甚至异常值检测的任务.它适用于中小型数据集的分类. 线性SVM分类 线性SVM分类大体分为两类,一种叫硬间隔分类,另一种叫软间隔分类.两者间的区别在于是否一定要把数据全部正确分类. SVM分类器的目标可以等价视作为在类别之间拟合最宽的街道的工作.而确定街道的数据点就是分类器的支持向量. SVM对特征的缩放很敏感,因此是否进行特征缩放对于SVM最终的决策…
本章讲决策树 决策树,一种多功能且强大的机器学习算法.它实现了分类和回归任务,甚至多输出任务. 决策树的组合就是随机森林. 本章的代码部分不做说明,具体请到我的GitHub上自行获取. 决策树的每个节点都是一种属性的判断,每个分支是判断结果的输出,是一种监督学习的算法. 决策树的类别有很多,最广泛使用的决策树的生成算法是CART(Classification And Regression Tree). CART: 首先,使用单个特征k和阈值h将训练集分为两个子集.对于上述两个参数的选择,需要经过…
本章主要讲述了“集成学习”和“随机森林”两个方面. 重点关注:bagging/pasting.boosting.stacking三个方法. 首先,提出一个思想,如果想提升预测的准确率,一个很好的方法就是用集成的方法.让多种预测器尽可能相互独立,使用不同的算法进行训练.最后以预测器中的预测结果的多数作为最终结果或者将平均概率最高的结果作为最后的结果. 还有没有其他的方法呢,有的. Bagging/Pasting方法:每个预测器使用的算法相同,但是在不同的训练集随机子集上进行训练,采样时将样本放回就…
下载:https://pan.baidu.com/s/1qKaDd9PSUUGbBQNB3tkDzw <机器学习实战:基于Scikit-Learn和TensorFlow>高清中文版PDF+高清英文版PDF+源代码 下载:https://pan.baidu.com/s/1IAfr-tigqGE_njrfSATT_w <深度学习之TensorFlow:入门.原理与进阶实战>,李金洪 著. 下载:https://pan.baidu.com/s/1NYYpsxbWBvMn9U7jvj6XS…
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的常见准则有: 1.      均方误差(mean squared error,MSE): 2.      平均绝对误差(mean absolute error,MAE) 3.      R2 score:scikit learn线性回归模型的缺省评价准则,既考虑了预测值与真值之间的差异,也考虑了问题…
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉验证 交叉验证用于评估模型性能和进行参数调优(模型选择).分类任务中交叉验证缺省是采用StratifiedKFold. sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jo…
本章主要内容如下: 静态资源服务器的配置.学会如何使用静态资源服务器引入静态资源.并给大家推荐一个免费可使用的oss服务器~ 页面的开发由于近期做出的更改较大.就放在下一篇中. 静态资源服务器 静态资源服务器一般我叫他oss服务器,我们一般都会将一些静态资源文件,比如图片或者其他的视频,音频文件,脚本文件等都可以进行存放.而我们在开发中也仅仅通过连接引入即可进行使用.减少了本地图片的加载.在通过CDN加速后,起响应速度也不用担心啦~ 免费的静态资源服务器体验 七牛云确实是一个挺良心的平台哈.说真…
数据挖掘作业,要实现决策树,现记录学习过程 win10系统,Python 3.7.0 构建一个决策树,在鸢尾花数据集上训练一个DecisionTreeClassifier: from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier iris = load_iris() X = iris.data[:,2:] y = iris.target tree_clf = DecisionTr…
数据挖掘作业,需要实现支持向量机进行分类,记录学习记录 环境:win10,Python 3.7.0 SVM的基本思想:在类别之间拟合可能的最宽的间距,也叫作最大间隔分类 书上提供的源代码绘制了两个图,一个是没用SVM的一个是用了SVM的,我做出了修改只画出使用了硬间隔SVM的图像,图像保存在当前目录的images文件夹下,如果没有此文件夹则需要进行创建 代码如下: import numpy as np import os import matplotlib import matplotlib.p…
Voting classifier 多种分类器分别训练,然后分别对输入(新数据)预测/分类,各个分类器的结果视为投票,投出最终结果: 训练: 投票: 为什么三个臭皮匠顶一个诸葛亮.通过大数定律直观地解释: 一个硬币P(H)=0.51.大数定律保证抛硬币很多次之后,平均得到的正面频数接近\(0.51 \times N\),并且N越大,越接近.那么换个角度,N表示同时掷硬币的人数,即为这边的N个臭皮匠,他们的结果合到一起就得到的是接近真实结果的值. 进一步根据中心极限定理,即二项分布以正态分布为其极…