作者:桂. 时间:2017-04-19  21:20:09 链接:http://www.cnblogs.com/xingshansi/p/6736385.html 声明:欢迎被转载,不过记得注明出处哦~ 前言 本文为<统计学习方法>第三章:KNN(k-Nearest Neighbor),主要包括: 1)KNN原理及代码实现: 2)K-d tree原理: 内容为自己的学习记录,其中多有借鉴他人的地方,最后一并给出链接. 一.KNN原理及代码实现 KNN对应算法流程: 其实就是在指定准则下,最近的…
作者:桂. 时间:2017-04-21  21:11:23 链接:http://www.cnblogs.com/xingshansi/p/6743780.html 前言 看到最近大家都在用Tensorflow,一查才发现火的不行.想着入门看一看,Tensorflow使用手册第一篇是基于MNIST的手写数字识别的,用到softmax regression,而这个恰好与我正在看的<统计信号处理>相关.本文借此梳理一下: 1)罗杰斯特回归 2)Softmax Regression 3)基于Tenso…
作者:桂. 时间:2017-04-26  12:17:42 链接:http://www.cnblogs.com/xingshansi/p/6767980.html 前言 之前分析的感知机.主成分分析(Principle component analysis, PCA)包括后面看的支撑向量机(Support vector machines, SVM),都有用到核函数.核函数是将信号映射到高维,而PCA一般用来降维.这里简单梳理一下核函数的知识: 1)核函数基本概念; 2)核函数的意义; 内容为自己…
CH01 统计学方法概论 前言 章节目录 统计学习 监督学习 基本概念 问题的形式化 统计学习三要素 模型 策略 算法 模型评估与模型选择 训练误差与测试误差 过拟合与模型选择 正则化与交叉验证 正则化 交叉验证 泛化能力 泛化误差 泛化误差上界 生成模型与判别模型 分类问题 标注问题 回归问题 导读 直接看目录结构,会感觉有点乱,就层级结构来讲感觉并不整齐. 可以看本章概要部分,摘录几点,希望对本章内容编排的理解有帮助: 1. 统计学习三要素对理解统计学习方法起到提纲挈领的作用 2. 本书主要…
作者:桂. 时间:2017-05-13  14:19:14 链接:http://www.cnblogs.com/xingshansi/p/6847334.html . 前言 内容主要是CART算法的学习笔记. CART算法是一个二叉树问题,即总是有两种选择,而不像之前的ID3以及C4.5B可能有多种选择.CART算法主要有回归树和分类树,二者常用的准则略有差别:回归树是拟合问题,更关心拟合效果的好坏,此处用的是均方误差准则; 分类树是分类问题,更像是离散变量的概率估计,用与熵类似的Gini系数进…
作者:桂. 时间:2017-05-13  21:52:14 链接:http://www.cnblogs.com/xingshansi/p/6850684.html 前言 主要记录SVM的相关知识,参考的是李航的<统计学习方法>,最后的SMO优化算法(Sequential minimal optimization)是二次规划的优化算法,不涉及整体思路的理解,这里打算跳过,以后用到了再来回顾. 一.线性可分支撑向量机 A-问题分析 不同于感知器Perceptron,SVM希望所有点到分离面的最小距…
当前,机器学习和数据科学都是很重要和热门的相关学科,需要深入地研究学习才能精通. <机器学习与数据科学基于R的统计学习方法>试图指导读者掌握如何完成涉及机器学习的数据科学项目.为数据科学家提供一些在统计学习领域会用到的工具和技巧,涉及数据连接.数据处理.探索性数据分析.监督机器学习.非监督机器学习和模 型评估.选用的是R统计环境,所有代码示例都是用R语言编写的,涉及众多流行的R包和数据集. 适合数据科学家.数据分析师.软件开发者以及需要了解数据科学和机器学习方法的科研人员阅读参考. 学习参考:…
目录 logistic回归和最大熵模型 1. logistic回归模型 1.1 logistic分布 1.2 二项logistic回归模型 1.3 模型参数估计 2. 最大熵模型 2.1 最大熵原理 2.2 最大熵模型 2.3 最大熵模型的学习 3. 极大似然估计 4. 最大熵与logistic回归的关系 5. 总结 6. Reference logistic回归和最大熵模型 1. logistic回归模型   logistic回归是一种广义线性回归(generalized linear mod…
目录 SVM 1. 定义 1.1 函数间隔和几何间隔 1.2 间隔最大化 2. 线性可分SVM 2.1 对偶问题 2.2 序列最小最优算法(SMO) 3. 线性不可分SVM 3.1 松弛变量 3.2 求解对偶问题 3.3 支持向量求解参数\(w,b\) 4. 非线性SVM 5. Reference: SVM   支持向量机是一种二分类模型,它以间隔最大作为优化目标,因此它比感知机仅仅以误分类推动的模型要优胜不少.数据线性可分时,SVM直接以间隔最大训练出一个线性分类模型.当数据线性不可分时,SV…