Python数据科学手册-机器学习：线性回归

【Python数据科学手册-机器学习：线性回归】的更多相关文章

Python数据科学手册-机器学习介绍

机器学习分为俩类: 有监督学习 supervised learning 和无监督学习 unsupervised learning 有监督学习: 对数据的若干特征与若干标签之间的关联性进行建模的过程. 只要模型被确定,就可以应用到新的未知的数据上. 进一步可以分为分类 classification 任务和回归 regression 任务. 分类任务: 标签是离散值. 回归任务: 标签是连续值. 无监督学习: 指对不带任何标签的数据特征进行建模. 让数据自己介绍自己. 包括聚类 clu…

Python数据科学手册-机器学习：朴素贝叶斯分类

朴素贝叶斯模型朴素贝叶斯模型是一组非常简单快速的分类方法,通常适用于维度非常高的数据集.因为运行速度快,可调参数少.是一个快速粗糙的分类基本方案. naive Bayes classifiers 贝叶斯分类朴素贝叶斯分类器建立在贝叶斯分类方法的基础上.数学基础是贝叶斯定理. 一个描述统计量条件概率关系的公式. 在贝叶斯分类中,我们希望确定一个具有某些特征的样本属于某类标签的概率. 通常记为 P(L|特征) 需要确定俩种标签,定义为L1和L2. 计算俩个标签的后验概率的比值现在需要一种模…

Python数据科学手册-机器学习：线性回归

朴素贝叶斯是解决分类任务的好起点,线性回归是解决回归任务的好起点. 简单线性回归将数据拟合成一条直线. y = ax + b , a 是斜率, b是直线截距原始数据如下: 使用LinearRegression评估器来拟合数据除了简单的直线拟合,还可以处理多维度的线性回归模型. 基函数回归使用基函数对原始数据进行变换,从而将变量间的线性回归模型转换为非线性回归模型. 一维的输入变量x 转换成了三维变量 x1 x2 x3. 转换后的模型仍然是一个线性模型.将一维的x投影到了高维空间多…

Python数据科学手册-机器学习之特征工程

特征工程常见示例: 分类数据.文本.图像. 还有提高模型复杂度的衍生特征和处理缺失数据的填充方法.这个过程被叫做向量化.把任意格式的数据转换成具有良好特性的向量形式. 分类特征比如房屋数据: 房价.面积.地点信息. 方案1:把分类特征用映射关系编码成整数 . {'Queen Anne': 1, 'Fremont': 2, 'Wallingford': 3}; 在scikit-learn中并不好,数值特征可以反映代数量.会产生 1<2<3的方案2:使用独热编码有效增加额外的…

Python数据科学手册-机器学习之模型验证

模型验证 model validation 就是在选择模型和超参数之后.通过对训练数据进行学习.对比模型对已知数据的预测值和实际值的差异. 错误的模型验证方法. 用同一套数据训练和评估模型. 准确率总是100% . 模型验证正确方法: 留出集. 从训练模型的数据中留出一部分.用这部分数据来验证模型的性能. 使用train_test_split 工具. 交叉检验用留出集进行模型验证有一个缺点,就是模型失去了一部分训练机会.有一半数据都没有为模型训练做出贡献. 每个子集既是训练…

Python数据科学手册-机器学习: k-means聚类/高斯混合模型

前面学习的无监督学习模型:降维另一种无监督学习模型:聚类算法. 聚类算法直接冲数据的内在性质中学习最优的划分结果或者确定离散标签类型. 最简单最容易理解的聚类算法可能是 k-means聚类算法了. k-means简介在不带标签的多维数据集中寻找确定数量的簇. 最优的聚类结果需要符合以下俩个假设: 簇中心点 cluster center 是属于该簇的所有数据点坐标的算术平均值一个簇的每个点到该簇中心点的距离比到其他簇中心点的距离短. 原始数据,包含4个明显的簇评估器拟合数据: 高…

Python数据科学手册-机器学习: 流形学习

PCA对非线性的数据集处理效果不太好. 另一种方法流形学习 manifold learning 是一种无监督评估器,试图将一个低维度流形嵌入到一个高纬度空间来描述数据集 . 类似一张纸 (二维) 卷起弄皱 (三维).二维流形嵌入到一个三维空间, 就不再是线性的了. 流形方法技巧: 多维标度法 multidimensional scaling MSD 局部线性嵌入法 locally linear embedding LLE 保距映射法 isometric mapping Isomap 流…

Python数据科学手册-机器学习: 主成分分析

PCA principal component analysis 主成分分析是一个快速灵活的数据降维无监督方法, 可视化一个包含200个数据点的二维数据集 x 和 y有线性关系,无监督学习希望探索x值和y值之间的相关性在主成分分析中.一种量化俩变量之间关系的方法是在数据中找到一组主轴,并用这些主轴来描述数据集. 利用PCA评估器该拟合从数据中心学习到了一些指标,其中最重要的是 "成分" 和 "可解释差异" 在数据图上将这些指标以向量形式画出来. 成分定义向…

Python数据科学手册-机器学习: 决策树与随机森林

无参数算法随机森林随机森林是一种集成方法,集成多个比较简单的评估器形成累计效果. 导入标准程序库随机森林的诱因: 决策树随机森林是建立在决策树基础上的集成学习器建一颗决策树二叉决策树在一颗合理的决策书中.每个问题基本上都可将种类的可能性减半. 决策树的难点在于如何设计每一步的问题. 创建一颗决策树原始数据: 四种标签使用DecisionTreeClassifier评估器辅助函数,分类器结果可视化检查决策树分类的结果在深度为5的时候,在黄色与蓝色区域中间有一个浅紫色区…

Python数据科学手册-机器学习: 支持向量机

support vector machine SVM 是非常强大. 灵活的有监督学习算法, 可以用于分类和回归. 贝叶斯分类器,对每个类进行了随机分布的假设,用生成的模型估计新数据点的标签.是属于生成分类方法. 判别分类:不再为每类数据建模,而是用一条分割线或者流形体将各种类型分开. 原始数据: 线性判别分类器尝试化一条将数据分成俩部分的直线,这样就构成了一个分类模型. 可以发现不止一条直线可以将它们完美分割. 不同的分割线,会让新数据分配到不同的标签. 支持向量机:边界…