python大战机器学习——半监督学习

【python大战机器学习——半监督学习】的更多相关文章

python大战机器学习——半监督学习

半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数.它是一类可以自动地利用未标记的数据来提升学习性能的算法 1.生成式半监督学习优点:方法简单,容易实现.通常在有标记数据极少时,生成式半监督学习方法比其他方法性能更好缺点:假设的生成式模型必须与真实数据分布吻合.如果不吻合则可能效果很差.而如何给出与真实数据分布吻合的生成式模型,这就需要对问题领域的充分了解 2.图半监督学习 (1)标记传播算法: 优点:概念清晰缺点:存储开销大,难以直接处理大规模数据:而且对于新的样本加…

吴裕雄 python 机器学习——半监督学习LabelSpreading模型

import numpy as np import matplotlib.pyplot as plt from sklearn import metrics from sklearn import datasets from sklearn.semi_supervised.label_propagation import LabelSpreading def load_data(): ''' 加载数据集 ''' digits = datasets.load_digits() ###### 混洗样…

吴裕雄 python 机器学习——半监督学习标准迭代式标记传播算法LabelPropagation模型

import numpy as np import matplotlib.pyplot as plt from sklearn import metrics from sklearn import datasets from sklearn.semi_supervised import LabelPropagation def load_data(): ''' 加载数据集 ''' digits = datasets.load_digits() ###### 混洗样本 ######## rng =…

python大战机器学习——模型评估、选择与验证

1.损失函数和风险函数 (1)损失函数:常见的有 0-1损失函数绝对损失函数平方损失函数对数损失函数 (2)风险函数:损失函数的期望经验风险:模型在数据集T上的平均损失根据大数定律,当N趋向于∞时,经验风险趋向于风险函数 2.模型评估方法 (1)训练误差与测试误差训练误差:关于训练集的平均损失测试误差:定义模型关于测试集的平均损失.其反映了学习方法对未知测试数据集的预测能力 (2)泛化误差:学到的模型对未知数据的预测能力.其越小,该模型越有效.泛化误差定义为所学习模…

python大战机器学习——数据预处理

数据预处理的常用流程: 1)去除唯一属性 2)处理缺失值 3)属性编码 4)数据标准化.正则化 5)特征选择 6)主成分分析 1.去除唯一属性如id属性,是唯一属性,直接去除就好 2.处理缺失值 (1)直接使用含有缺失值的特征如决策树算法就可以直接使用含有缺失值的特征 (2)删除含有缺失值的特征 (3)缺失值补全 1)均值插补若样本属性的距离是可度量的,则该属性的缺失值就以该属性有效值的平均值来插补缺失的值.如果样本的属性的距离是不可度量的,则该属性的缺失值就以该属性有效值的众数来插补缺失…

python大战机器学习——集成学习

集成学习是通过构建并结合多个学习器来完成学习任务.其工作流程为: 1)先产生一组“个体学习器”.在分类问题中,个体学习器也称为基类分类器 2)再使用某种策略将它们结合起来. 通常使用一种或者多种已有的学习算法从训练数据中产生个体学习器.通常选取个体学习器的准则是: 1)个体学习器要有一定的准确性,预测能力不能太差 2)个体学习器之间要有多样性,即学习器之间要有差异根据个体学习器的生成方式,目前的集成学习方法大概可以分为以下两类: 1)Boosting算法:在Boosting算法中,个体学习器之…

python大战机器学习——人工神经网络

人工神经网络是有一系列简单的单元相互紧密联系构成的,每个单元有一定数量的实数输入和唯一的实数输出.神经网络的一个重要的用途就是接受和处理传感器产生的复杂的输入并进行自适应性的学习,是一种模式匹配算法,通常用于解决分类和回归问题. 常用的人工神经网络算法包括:感知机神经网络(Perceptron Neural Nerwork).反向传播网络(Back Propagation,BP).HopField网络.自组织映射网络(Self-Organizing Map,SOM).学习矢量量化网络(Learn…

python大战机器学习——支持向量机

支持向量机(Support Vector Machine,SVM)的基本模型是定义在特征空间上间隔最大的线性分类器.它是一种二类分类模型,当采用了核技巧之后,支持向量机可以用于非线性分类. 1)线性可分支持向量机(也称硬间隔支持向量机):当训练数据线性可分是,通过硬间隔最大化,学得一个线性可分支持向量机 2)线性支持向量机(也称为软间隔支持向量机):当训练数据近似线性可分时,通过软间隔最大化,学得一个线性支持向量机 3)非线性支持向量机:当训练数据不可分时,通过使用核技巧以及软间隔最大化,学得一…

python大战机器学习——聚类和EM算法

注:本文中涉及到的公式一律省略(公式不好敲出来),若想了解公式的具体实现,请参考原著. 1.基本概念 (1)聚类的思想: 将数据集划分为若干个不想交的子集(称为一个簇cluster),每个簇潜在地对应于某一个概念.但是每个簇所具有现实意义由使用者自己决定,聚类算法仅仅会进行划分. (2)聚类的作用: 1)可以作为一个单独的过程,用于寻找数据的一个分布规律 2)作为分类的预处理过程.首先对分类数据进行聚类处理,然后在聚类结果的每一个簇上执行分类过程. (3)聚类的性能度量: 1)外部指标:该指标是…

python大战机器学习——数据降维

注:因为公式敲起来太麻烦,因此本文中的公式没有呈现出来,想要知道具体的计算公式,请参考原书中内容降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中 1.主成分分析(PCA) 将n维样本X通过投影矩阵W,转换为K维矩阵Z 输入:样本集D,低维空间d 输出:投影矩阵W 算法步骤: 1)对所有样本进行中心化操作 2)计算样本的协方差矩阵 3)对协方差矩阵做特征值分解 4)取最大的d个特征值对应的特征向量,构造投影矩阵W 注:通常低维空间维数d的选取有两种方法:1)通过交叉验证法选…