机器学习简易入门（四）- logistic回归

摘要：使用logistic回归来预测某个人的入学申请是否会被接受

声明：（本文的内容非原创，但经过本人翻译和总结而来，转载请注明出处）

本文内容来源：https://www.dataquest.io/mission/59/logistic-regression

原始数据展示

这是一份美国入学申请的录取记录表，admit – 是否录取，1代表录取，0代表否定；gpa – gpa成绩，gre – 绩点

import pandas

admissions = pandas.read_csv('admissions.csv')

在之前已经介绍过了线性回归，现在同样使用线性回归来进行预测

from sklearn.linear_model import LinearRegression

model = LinearRegression()

#训练模型

model.fit(admissions[['gre', 'gpa']], admissions["admit"])

admit_prediction = model.predict(admissions[['gre', 'gpa']])

plt.xlabel('gpa')

plt.ylabel('admit_prediction')

plt.scatter(admissions["gpa"], admit_prediction)

plt.show()

在上图中可见，有些预测结果小于0，而这明显是不对的，因为预测结果应该只能为0或者1，我们现在需要获取一个介于0和1之间的概率，然后通过之前的文章中介绍过的分类算法（机器学习简易入门（二）- 分类）来确定录取一个人的概率的阀值来决定录取结果，最终生成只有0和1的结果

logistic回归函数

logistic回归产生的输出都位于0和1之间，通常用来产生预测某个事件的发生概率，该函数的格式为，其中的e是一个无理数常量，该函数有一个很漂亮的形状

# logistic回归函数

def logit(x):

return np.exp(x) / (1 + np.exp(x)) 

# 在-6到6之间等差产生50个数

t = np.linspace(-6,6,50, dtype=float)

ylogit = logit(t)

#作图

plt.plot(t, ylogit, label="logistic")

plt.ylabel("Probability")

plt.xlabel("t")

plt.title("Logistic Function")

plt.show()

logistic回归

在线性回归方程中，可以将该方程产生的结果y放入到logistic回归方程，从而将线性方程产生的结果转换为一个概率，对于本文来说，这个logistic回归方程为，现在根据这个logistic回归方程就能产生一个录取概率。

类似于之前使用scikit-learn库中的线性回归，现在也可以直接使用该库中的logistic回归

from sklearn.linear_model import LogisticRegression

#对数据集进行随机重排序

admissions = admissions.loc[np.random.permutation(admissions.index)]

# 将随机排序后的前700条数据作为训练集，后面的作为测试集

num_train = 700

data_train = admissions[:num_train]

data_test = admissions[num_train:]

logistic_model = LogisticRegression()

logistic_model.fit(data_train[['gpa', 'gre']], data_train['admit'])

# 进行测试

fitted_test = logistic_model.predict_proba(data_test[['gpa', 'gre']])[:, 1] #因为predict_proba返回的是一个两列的矩阵，矩阵的每一行代表的是对一个事件的预测结果，第一列代表该事件不会发生的概率，第二列代表的是该事件会发生的概率。而这里需要的是第二列的数据

plt.scatter(data_test['gre'], fitted_test)

plt.xlabel('gre')

plt.ylabel('probability ')

plt.show()

评估模型

准确率

现在假设只要录取概率大于0.5的就能录取，计算一下这个模型的准确性

# predict()函数会自动把阀值设置为0.5

predicted = logistic_model.predict(data_train[['gpa','gre']])

# 计算在训练集中正确预测的准确率

accuracy_train = (predicted == data_train['admit']).mean()

#计算在测试集中正确预测的准确率

predicted = logistic_model.predict(data_test[['gpa','gre']])

accuracy_test = (predicted == data_test['admit']).mean()

ROC曲线

分别计算训练集和测试集的ROC曲线和AUC

from sklearn.metrics import roc_curve, roc_auc_score

train_probs = logistic_model.predict_proba(data_train[['gpa', 'gre']])[:,1]

test_probs = logistic_model.predict_proba(data_test[['gpa', 'gre']])[:,1]

#计算AUC

auc_train = roc_auc_score(data_train["admit"], train_probs)

auc_test = roc_auc_score(data_test["admit"], test_probs)

print('Auc_train: {}'.format(auc_train))

print('Auc_test: {}'.format(auc_test))

# 计算ROC曲线

roc_train = roc_curve(data_train["admit"], train_probs)

roc_test = roc_curve(data_test["admit"], test_probs)

# 作图

plt.plot(roc_train[0], roc_train[1])

plt.plot(roc_test[0], roc_test[1])

机器学习简易入门（四）- logistic回归的更多相关文章

机器学习入门-逻辑(Logistic)回归（1）
原文地址:http://www.bugingcode.com/machine_learning/ex3.html 关于机器学习的教程确实是太多了,处于这种变革的时代,出去不说点机器学习的东西,都觉得自 ...
机器学习算法( 五、Logistic回归算法)
一.概述这会是激动人心的一章,因为我们将首次接触到最优化算法.仔细想想就会发现,其实我们日常生活中遇到过很多最优化问题,比如如何在最短时间内从A点到达B点?如何投入最少工作量却获得最大的效益?如何设 ...
机器学习实战笔记5(logistic回归)
1:简单概念描写叙述如果如今有一些数据点,我们用一条直线对这些点进行拟合(改线称为最佳拟合直线),这个拟合过程就称为回归.训练分类器就是为了寻找最佳拟合參数,使用的是最优化算法. 基于sigmoid ...
机器学习（六）— logistic回归
最近一直在看机器学习相关的算法,今天学习logistic回归,在对算法进行了简单分析编程实现之后,通过实例进行验证. 一 logistic概述个人理解的回归就是发现变量之间的关系,也就是求回归系数, ...
【机器学习】分类算法——Logistic回归
一.LR分类器(Logistic Regression Classifier) 在分类情形下,经过学习后的LR分类器是一组权值w0,w1, -, wn,当测试样本的数据输入时,这组权值与测试数据按照线 ...
《机器学习实战》-逻辑(Logistic)回归
目录 Logistic 回归本章内容回归算法 Logistic 回归的一般过程 Logistic的优缺点基于 Logistic 回归和 Sigmoid 函数的分类 Sigmoid 函数 Logi ...
<机器学习实战>读书笔记--logistic回归
1. 利用logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类. 2.sigmoid函数的分类 Sigmoid函数公式定义 3.梯度上升法基本思想:要找 ...
机器学习之线性回归以及Logistic回归
1.线性回归回归的目的是预测数值型数据的目标值.目标值的计算是通过一个线性方程得到的,这个方程称为回归方程,各未知量(特征)前的系数为回归系数,求这些系数的过程就是回归. 对于普通线性回归使用的损失 ...
机器学习入门 - 逻辑(Logistic)回归（5）
原文地址:http://www.bugingcode.com/machine_learning/ex7.html 把所有的问题都转换为程序问题,可以通过程序来就问题进行求解了. 这里的模拟问题来之于C ...

随机推荐

phpmyadmin #2003 无法登录 MySQL服务器的解决方法
本文章向大家介绍phpmyadmin #2003 无法登录 MySQL服务器的解决方法,需要的码农可以参考一下. 通过phpmyadmin连接mysql数据库时提示:"2003 无法登录 M ...
纯CSS最小响应网格布局
lemonade.css是一个超级小的CSS可以帮助你创建一个完全响应和灵活自如的网格布局,包括所需网页的头部. 样式链接 <link rel= href=> HTML结构这样创建一个多列 ...
【教程】【FLEX】#002 请求服务端数据（UrlLoader）
为什么Flex需要请求服务端读取数据,而不是自己读取? Flex 是一门界面语言,主要是做界面展示的,它能实现很多绚丽的效果,这个是传统Web项目部能比的. 但是它对数据库和文件的读写没有良好的支持 ...
DDDD
if (list != null && list.Count > 0) { result = ...
IIS装好了无法访问localhost
解决办法: [1]: 检查你的DTC服务(全名:Distributed Transaction Coordinator)是否可以正常启动 ...
linux使用flock文件锁解决crontab冲突问题
* * * * * flock -xn /dev/shm/redis.lock -c "/usr/local/bin/redis-server" 可以用flock命令,配合使用rs ...
DWR基本配置
DWR——Direct Web Remoter Servlet 供给那些想要以一种简单的方式使用Ajax和XMLHttpRequest的开发者.它具有一套JavaScript功能集,它们把从HTML页 ...
spring batch学习笔记
Spring Batch是什么? Spring Batch是一个基于Spring的企业级批处理框架,按照我师父的说法,所有基于Spring的框架都是使用了spring的IoC特性,然后加上 ...
MacOSX和Windows 8的完美融合
MacOSX和Windows8的完美融合一般情况下我们要在MACOS系统下运行Windows软件怎么办呢?一种方法我们可以装CrossOver这款软件,然后在configuration->in ...
navicat 连接oracle
Navicat远程连接oracle数据库数据库需要设置一下oci.dll. 下面介绍如何进行设置. 工具/原料 Navicat Pre instantclient-basiclite-nt-12. ...

机器学习简易入门（四）- logistic回归

机器学习简易入门（四）- logistic回归的更多相关文章

随机推荐

热门专题