李航《统计学习方法》CH02】的更多相关文章

2.4.1 构造kd树 给定一个二维空间数据集,T={(2,3),(5,4),(9,6)(4,7),(8,1),(7,2)} ,构造的kd树见下图 2.4.2 kd树最近邻搜索算法 三.实现算法 下面算法实现并没有从构建kd树再搜索kd树开始,首先数据分为两部分,train数据和predict的数据,将train的数据抽取k个作为predict的最临近k节点,计算这k个数据和predict的距离,继续计算train中其他数据和predict的欧式距离,若小于k中欧式距离,那么替换较大的原始最临近…
KNN算法 基本模型:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例.这k个实例的多数属于某个类,就把输入实例分为这个类. KNN没有显式的学习过程. KNN使用的模型实际上对应于特征空间的划分.特征空间中,对每个训练实例点\(x_i\),距离该点比其它点更近的所有点组成一个区域,叫作单元(cell).每个训练实例拥有一个单元.所有的训练实例点的单元构成对特征空间的一个划分.如下图所示. 三要素:KNN模型由三个基本要素--距离度量,K值选择,分类决策决定.当三要…
1. kd树简介 构造kd树的方法如下:构造根结点,使根结点对应于k维空间中包含所有实例点的超矩形区域;通过下面的递归方法,不断地对k维空间进行切分,生成子结点.在超矩形区域(结点)上选择一个坐标轴和在此坐标轴上的一个切分点,确定一个超平面,这个超平面通过选定的切分点并垂直于选定的坐标轴,将当前超矩形区域切分为左右两个子区域(子结点);这时,实例被分到两个子区域.这个过程直到子区域内没有实例时终止(终止时的结点为叶结点).在此过程中,将实例保存在相应的结点上. 2. kd树建立 3. kd树搜索…
1 简介 k近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类.k近邻法假设给定一个训练数据集,其中的实例类别已定.分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测.因此,k近邻法不具有显式的学习过程.k近邻法实际上利用训练数据集对一特征向量空间进行划分,并作为其分类的“模型”.k值的选择.距离度量及分类决策规则是k近邻法的三个基本要素. 2 模型 2.1 简介 k近邻法中,当训练集.距离度量(如欧氏距离).k值及分类决策规则(如多数表…
1 简介 1.1 介绍 1.2 生成步骤 CART树算法由以下两步组成:(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;(2)决策树剪枝:用验证数据集对己生成的树进行剪枝并选择最优子树,这时用损失函数址小作为剪枝的标准. 2 算法 2.1 回归树 对回归树用平方误差最小化准则,生成二叉树. 2.1.1 回归树生成 2.2 分类树 对分类树用基尼指数(Gini imlex)最小化准则,进行特征选择,生成二叉树. 2.2.1 分类树生成 2.3 剪枝 CART剪枝算法由两步组成:…
最近阅读了李航的<统计学习方法(第二版)>,对AdaBoost算法进行了学习. 在第八章的8.1.3小节中,举了一个具体的算法计算实例.美中不足的是书上只给出了数值解,这里用代码将它实现一下,算作一个课后作业. 一.算法简述 Adaboost算法最终输出一个全局分类模型,由多个基本分类模型组成,每个分类模型有一定的权重,用于表示该基本分类模型的可信度.最终根据各基本分类模型的预测结果乘以其权重,通过表决来生成最终的预测(分类)结果. AdaBoost算法的训练流程图如下: AdaBoost在训…
K近邻法 1基本概念 K近邻法,是一种基本分类和回归规则.根据已有的训练数据集(含有标签),对于新的实例,根据其最近的k个近邻的类别,通过多数表决的方式进行预测. 2模型相关 2.1 距离的度量方式 定义距离 (1)欧式距离:p=2. (2)曼哈顿距离:p=1. (3)各坐标的最大值:p=∞. 2.2 K值的选择 通常使用交叉验证法来选取最优的k值. k值大小的影响: k越小,只有距该点较近的实例才会起作用,学习的近似误差会较小.但此时又会对这些近邻的实例很敏感,如果紧邻点存在噪声,预测就会出错…
朴素贝叶斯法 首先训练朴素贝叶斯模型,对应算法4.1(1),分别计算先验概率及条件概率,分别存在字典priorP和condP中(初始化函数中定义).其中,计算一个向量各元素频率的操作反复出现,定义为count函数. # 初始化函数定义了先验概率和条件概率字典,并训练模型 def __init__(self, data, label): self.priorP = {} self.condP = {} self.train(data, label) count函数,输入一个向量,输出一个字典,包含…
CH01 统计学方法概论 前言 章节目录 统计学习 监督学习 基本概念 问题的形式化 统计学习三要素 模型 策略 算法 模型评估与模型选择 训练误差与测试误差 过拟合与模型选择 正则化与交叉验证 正则化 交叉验证 泛化能力 泛化误差 泛化误差上界 生成模型与判别模型 分类问题 标注问题 回归问题 导读 直接看目录结构,会感觉有点乱,就层级结构来讲感觉并不整齐. 可以看本章概要部分,摘录几点,希望对本章内容编排的理解有帮助: 1. 统计学习三要素对理解统计学习方法起到提纲挈领的作用 2. 本书主要…
基于统计学习方法角度谈谈CRF 作者:白宁超 2016年8月2日13:59:46 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务中都有应用.本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用.成文主要源于自然语言处理.机器学习.统计学习方法和部分网上资料对CRF介绍的相关的相关,最后进行大量研究整理汇总成体系知识.文章布局如下:第一节介绍CRF相关的基础统计知识:第二节介绍基于自然语…