关于缺失值(missing value)的处理 在sklearn的preprocessing包中包含了对数据集中缺失值的处理,主要是应用Imputer类进行处理. 首先需要说明的是,numpy的数组中可以使用np.nan/np.NaN(Not A Number)来代替缺失值,对于数组中是否存在nan可以使用np.isnan()来判定. 使用type(np.nan)或者type(np.NaN)可以发现改值其实属于float类型,代码如下: 1 2 3 4 5 6 7 8 >>> type(…
本章中,你会假装作为被一家地产公司刚刚雇佣的数据科学家,完整地学习一个案例项目.下面是主要步骤: 项目概述. 获取数据. 发现并可视化数据,发现规律. 为机器学习算法准备数据. 选择模型,进行训练. 微调模型. 给出解决方案. 部署.监控.维护系统. 使用真实数据 学习机器学习时,最好使用真实数据,而不是人工数据集.幸运的是,有上千个开源数据集可以进行选择,涵盖多个领域.以下是一些可以查找的数据的地方: 流行的开源数据仓库: UC Irvine Machine Learning Reposito…
--------------------------------------------------------------------------------------- 本系列文章为<机器学习实战>学习笔记,内容整理自书本,网络以及自己的理解,如有错误欢迎指正. 源码在Python3.5上测试均通过,代码及数据 --> https://github.com/Wellat/MLaction -----------------------------------------------…
第5章 Logistic回归 Logistic 回归 概述 Logistic 回归虽然名字叫回归,但是它是用来做分类的.其主要思想是: 根据现有数据对分类边界线建立回归公式,以此进行分类. 须知概念 Sigmoid 函数 回归 概念 假设现在有一些数据点,我们用一条直线对这些点进行拟合(这条直线称为最佳拟合直线),这个拟合的过程就叫做回归.进而可以得到对这些点的拟合直线方程,那么我们根据这个回归方程,怎么进行分类呢?请看下面. 二值型输出分类函数 我们想要的函数应该是: 能接受所有的输入然后预测…
    关于本文说明,本人原博客地址位于http://blog.csdn.net/qq_37608890,本文来自笔者于2017年12月17日 19:18:31所撰写内容(http://blog.csdn.net/qq_37608890/article/details/78827013). 本文根据最近学习机器学习书籍 网络文章的情况,特将一些学习思路做了归纳整理,详情如下.如有不当之处,请各位大拿多多指点,在此谢过. (今天发现第二部分 第4点中,部分代码不整齐,重新梳理了.2017.12.2…
机器学习实战(Machine Learning in Action)学习笔记————05.Logistic回归 关键字:Logistic回归.python.源码解析.测试作者:米仓山下时间:2018-10-26机器学习实战(Machine Learning in Action,@author: Peter Harrington)源码下载地址:https://www.manning.com/books/machine-learning-in-actiongit@github.com:pbharri…
#缺失值 Missing Value > #NaN不可识别NA> x <- c(1,NA,2,NA,3) > is.na(x)[1] FALSE TRUE FALSE TRUE FALSE > is.nan(x)[1] FALSE FALSE FALSE FALSE FALSE > #NA可识别NaN> y <- c(1,NaN,2,NaN,3) > is.na(y)[1] FALSE TRUE FALSE TRUE FALSE > is.nan…
一.缺失值的处理方法 由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格.nans或者是其他的占位符.但是这样的数据集并不能被scikit - learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义. 使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会浪费大量有价值的数据.下面是处理缺失值的常用方法: 1.忽略元组 当缺少类别标签时通常这样做(假定挖掘任务涉及分类时),除非元组有…
一.概述 这会是激动人心的一章,因为我们将首次接触到最优化算法.仔细想想就会发现,其实我们日常生活中遇到过很多最优化问题,比如如何在最短时间内从A点到达B点?如何投入最少工作量却获得最大的效益?如何设计发动机使得油耗最少而功率最大?可见,最优化的作用十分强大.接下来,我们介绍几个最优化算法,并利用它们训练出一个非线性函数用于分类. 假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归.利用Logistic回归进行分类的主要思想是:根据现有数据对分类…
Logistic回归一.概述 1. Logistic Regression 1.1 线性回归 1.2 Sigmoid函数 1.3 逻辑回归 1.4 LR 与线性回归的区别 2. LR的损失函数 3. LR 正则化 3.1 L1 正则化 3.2 L2 正则化 3.3 L1正则化和L2正则化的区别 4. RL 损失函数求解 4.1 基于对数似然损失函数 4.2 基于极大似然估计 二. 梯度下降法 1. 梯度 2. 梯度下降的直观解释 3. 梯度下降的详细算法 3.1 梯度下降法的代数方式描述 3.2…