ML笔记-sklearn.classification_report】的更多相关文章

主要用于显示主要分类指标的文本报告,在报告中显示每个类的精确度.召回率.F1等信息 首先数据测试结果分为以下4种情况: TP:预测为正,实现为正 FP:预测为正,实现为负 FN:预测为负,实现为正 TN:预测为负,实现为负 准确率:所有识别为“1”的数据中,正确的比率是多少. eg.有100个样本被识别为“1”,但是其实只有80个结果是正确的,20个实际上是非“1”-->准确率=80% TP/(TP+FP) 召回率:所有样本为“1“的数据中,最后真正识别出为”1“的比率是多少. eg.有100个…
<Hands-on ML with Sklearn & TF> Chapter 1 what is ml from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. what problems to solve exist solution but a…
[机器学习] Coursera ML笔记 - 监督学习(Supervised Learning) - Representation http://blog.csdn.net/walilk/article/details/50922854…
1  定义 机器学习 (Machine Learning):improving some performance measure with experience computed from data 2  应用举例 ML:an alternative route to build complicated systems 2.1  股票预测   2.2  图像识别 2.3  衣食住行    2.4  关键要素 在决定某些应用场景,是否适合使用机器学习时,常考虑以下三个要素: 1) exists s…
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px solid #000; } .table { border-collapse: collapse !important; } .table td, .table th { background-color: #fff !important; } .table-bordered th, .table-bordere…
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px solid #000; } .table { border-collapse: collapse !important; } .table td, .table th { background-color: #fff !important; } .table-bordered th, .table-bordere…
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px solid #000; } .table { border-collapse: collapse !important; } .table td, .table th { background-color: #fff !important; } .table-bordered th, .table-bordere…
前言 机器学习栏目记录我在学习Machine Learning过程的一些心得笔记,涵盖线性回归.逻辑回归.Softmax回归.神经网络和SVM等等,主要学习资料来自Standford Andrew Ng老师在Coursera的教程,同时也参考了大量网上的相关资料(在后面列出). 本文主要记录我在学习神经网络过程中的心得笔记,共分为三个部分: Neural network - Representation:神经网络的模型描述: Neural network - Learning:神经网络的模型训练…
1.SKlearn 是什么 Sklearn(全称 SciKit-Learn),是基于 Python 语言的机器学习工具包. Sklearn 主要用Python编写,建立在 Numpy.Scipy.Pandas 和 Matplotlib 的基础上,也用 Cython编写了一些核心算法来提高性能. Sklearn 包括六大功能模块: 分类(Classification):识别样本属于哪个类别,常用算法有 SVM(支持向量机).nearest neighbors(最近邻).random forest(…
1.什么是线性回归? 回归分析(Regression analysis)是一种统计分析方法,研究自变量和因变量之间的定量关系.回归分析不仅包括建立数学模型并估计模型参数,检验数学模型的可信度,也包括利用建立的模型和估计的模型参数进行预测或控制.按照输入输出变量关系的类型,回归分析可以分为线性回归和非线性回归. 线性回归(Linear regression) 假设样本数据集中的输出变量(y)与输入变量(X)存在线性关系,即输出变量是输入变量的线性组合.线性模型是最简单的模型,也是非常重要和应用广泛…
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px solid #000; } .table { border-collapse: collapse !important; } .table td, .table th { background-color: #fff !important; } .table-bordered th, .table-bordere…
Chapter 3-Classification .caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px solid #000; } .table { border-collapse: collapse !important; } .table td, .table th { background-color: #fff !important; } .table-bo…
第八部分内容:  1.正则化Regularization 2.在线学习(Online Learning) 3.ML 经验 1.正则化Regularization 1.1通俗解释 引用知乎作者:刑无刀 解释之前,先说明这样做的目的:如果一个模型我们只打算对现有数据用一次就不再用了,那么正则化没必要了,因为我们没打算在将来他还有用,正则化的目的是为了让模型的生命更长久,把它扔到现实的数据海洋中活得好,活得久. 俗气的解释1: 让模型参数不要在优化的方向上纵欲过度.<红楼梦>里,贾瑞喜欢王熙凤得了相…
1.朴素贝叶斯的多项式事件模型: 趁热打铁,直接看图理解模型的意思:具体求解可见下面大神给的例子,我这个是流程图. 在上篇笔记中,那个最基本的NB模型被称为多元伯努利事件模型(Multivariate Bernoulli Event Model,以下简称 NB-MBEM).该模型有多种扩展,一种是在上一篇笔记中已经提到的每个分量的多值化,即将p(xi|y)由伯努利分布扩展到多项式分布:还有一种在上一篇笔记中也已经提到,即将连续变量值离散化.本文将要介绍一种与多元伯努利事件模型有较大区别的NB模型…
第三部分: 1.指数分布族 2.高斯分布--->>>最小二乘法 3.泊松分布--->>>线性回归 4.Softmax回归 指数分布族: 结合Ng的课程,在看这篇博文:http://blog.csdn.net/acdreamers/article/details/44663091 泊松分布: 这里是一个扩展,看不看都可以:http://www.ruanyifeng.com/blog/2015/06/poisson-distribution.html Softmax回归:…
适用情况: 1 exists some 'underlying pattern' to be learned --so 'performance measure' can be imporoved 例:小孩哭泣,没有内在模式 2 but no programmable(easy) definition --so 'ML' is needed 例:识别图片中是否有圆圈,可用编程方法 3 somehow there is data about the pattern --so ML has some…
引言 机器学习栏目记录我在学习Machine Learning过程的一些心得笔记,涵盖线性回归.逻辑回归.Softmax回归.神经网络和SVM等等.主要学习资料来自Standford Andrew Ng老师在Coursera的教程以及UFLDL Tutorial,Stanford CS231n等在线课程和Tutorial,同一时候也參考了大量网上的相关资料(在后面列出). 前言 本文主要介绍逻辑回归的基础知识.文章小节安排例如以下: 1)逻辑回归定义 2)如果函数(Hypothesis func…
1.分类的分类 分类的分类?没错,分类也有不同的种类,而且在数学建模.机器学习领域常常被混淆. 首先我们谈谈有监督学习(Supervised learning)和无监督学习(Unsupervised learning),是指有没有老师,有没有纪委吗?差不多.有老师,就有正确解法,就有标准答案:有纪委,就会树学习榜样,还有反面教材. 有监督学习,是指样本数据已经给出了正确的分类,我们通过对正确分类的样本数据进行学习,从中总结规律,获取知识,付诸应用.所以,监督学习的样本数据,既提供了特征值又提供了…
主成分分析(Principal Components Analysis,PCA)是一种数据降维技术,通过正交变换将一组相关性高的变量转换为较少的彼此独立.互不相关的变量,从而减少数据的维数. 1.数据降维 1.1 为什么要进行数据降维? 为什么要进行数据降维?降维的好处是以略低的精度换取问题的简化. 人们在研究问题时,为了全面.准确地反映事物的特征及其发展规律,往往要考虑很多相关指标的变化和影响.尤其在数据挖掘和分析工作中,前期收集数据阶段总是尽量收集能够获得的各种数据,能收尽收,避免遗漏.多变…
支持向量机(Support vector machine, SVM)是一种二分类模型,是按有监督学习方式对数据进行二元分类的广义线性分类器. 支持向量机经常应用于模式识别问题,如人像识别.文本分类.手写识别.生物信息识别等领域. 1.支持向量机(SVM)的基本原理 SVM 的基本模型是特征空间上间隔最大的线性分类器,还可以通过核函数方法扩展为非线性分类器. SVM 的分割策略是间隔最大化,通过寻求结构化风险最小来提高模型的泛化能力,实现经验风险和置信范围的最小化.SVM 可以转化为求解凸二次规划…
kmeans算法的python实现: 参考与样本来源<Machine Learning in Action> #-*-coding:UTF-8-*- ''' Created on 2015年8月19日 @author: Ayumi Phoenix ''' import numpy as np def distL2(a,b): """ 计算两个向量之间的L2距离 """ return np.sqrt(np.sum((a-b)**2))…
error来自哪? 来自于偏差Bias和方差Variance. 就如打靶时瞄准一个点f平均,打出的点f星分布在该点周围. 该点与实际靶心f帽的距离就是偏差Bias, 打出的点与该点的分布距离就是方差Variance. 可将偏差理解为没瞄准,方差理解为瞄准了但是打得太散. 简单模型的方差小于复杂模型的方差. 因为简单模型比较集中,其权重W不太会受到data变化的影响, 可考虑极端例子f(x)=c,该模型方差为0. 简单模型的偏差大于复杂模型的偏差. 因为模型是个函数/假设集,定好模型后,funct…
Review: Gradient Descent Tip 1: Tuning your learning rates eta恰好,可以走到局部最小值点; eta太小,走得太慢,也可以走到局部最小值点; eta太大,很可能走不到局部最小值点,卡在某处上; eta太太大,很可能走出去. 可以自动调节eta, 大原则是eta随更新次数的增长而减小,---time dependent 同时也要针对不同的参数设置不同的eta.---parameter dependent 有很多这样的自动调节eta的梯度下…
非DL:要找好的特征 DL:无需找好的特征,但新问题:要设计好的网络架构…
用回归来做分类: 远大于1的点对于回归来说就是个error, 为了让这些点更接近1,会得到紫色线. 可见,回归中定义模型好坏的方式不适用于分类中.---回归会惩罚那些太过正确的点 如何计算未出现在训练数据中的点属于某类的概率? 假设该类对应的训练数据采样于一个高斯分布. 可以用该训练数据来估计该高斯分布的参数. 基本思路: 很多不同参数的高斯分布都可以采样出训练数据,但是可能性不同, 选出其中可能性最大的那个高斯分布对应的参数.---最大似然估计 假设sigma相同时,可以得到线性函数. 该生成…
非常好的书,最近发现了pdf版本,链接:http://www.finelybook.com/hands-on-machine-learning-with-scikit-learn-and-tensorflow-concepts-tools-and-techniques-to-build-intelligent-systems/ 因为此pdf版本图片都不是很清楚,所以使用epub版本和出版社发布的sample版本里面的清楚一些的图替换了下... 链接: https://pan.baidu.com/…
第十部分: 1.PCA降维 2.LDA 注释:一直看理论感觉坚持不了,现在进行<机器学习实战>的边写代码边看理论…
第九部分: 1.高斯混合模型 2.EM算法的认知 1.高斯混合模型 之前博文已经说明:http://www.cnblogs.com/wjy-lulu/p/7009038.html 2.EM算法的认知 2.1理论知识之前已经说明:http://www.cnblogs.com/wjy-lulu/p/7010258.html 2.2公式的推导 2.2.1. Jensen不等式 回顾优化理论中的一些概念.设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数.当x是向量时,如果其hessian…
第六部分内容: 1.偏差/方差(Bias/variance) 2.经验风险最小化(Empirical Risk Minization,ERM) 3.联合界(Union bound) 4.一致收敛(Uniform Convergence) 第七部分内容: 1. VC 维 2.模型选择(Model Selection) 2017.11.3注释:这两个部分都是讲述理论过程的,第一方面太难了,第二方面现在只想快速理解Ng的20节课程.所以这部分以后回头再看!  2017.11.4注释:这理论还是得掌握,…