更新、更全的《机器学习》的更新网站，更有python、go、数据结构与算法、爬虫、人工智能教学等着你：https://www.cnblogs.com/nickchen121/p/11686958.html

RANSAC算法线性回归(波斯顿房价预测)

虽然普通线性回归预测结果总体而言还是挺不错的，但是从数据上可以看出数据集中有较多的离群值，因此本节将使用RANSAC算法针对离群值做处理，即根据数据子集（所谓的内点）拟合回归模型。

一、RANSAC算法流程

随机选择一定数量的样本作为内点拟合模型
用模型测试其他所有的点，把落在给定范围内的点放入内点集
调整模型中使用的所有内点
用内点重新拟合模型
评估模型预测结果与内点集相比较的误差
如果性能达到自定义的阈值或指定的迭代次数，则终止，否则返回步骤1

二、导入模块

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

from matplotlib.font_manager import FontProperties

from sklearn.linear_model import RANSACRegressor

from sklearn.linear_model import LinearRegression

%matplotlib inline

font = FontProperties(fname='/Library/Fonts/Heiti.ttc')

三、获取数据

df = pd.read_csv('housing-data.txt', sep='\s+', header=0)

X = df[['RM']].values

y = df['MEDV'].values

四、训练模型

# max_trials=88即最大迭代次数为88次

# min_samples=66即样本最低数量为66个

# loss=‘absolute_loss’即使用均方误差损失函数

# residual_threshold=6即只允许与拟合线垂直距离在6个单位以内的采样点被包括在内点集

ransac = RANSACRegressor(LinearRegression(),

                         max_trials=88,

                         min_samples=66,

                         loss='absolute_loss',

                         residual_threshold=6)

ransac.fit(X, y)

# 获取内点集

inlier_mask = ransac.inlier_mask_

# 获取非内点集

outlier_mask = np.logical_not(inlier_mask)

# 建立回归线

line_X = np.arange(3, 10, 1)

# 由于ransac模型期望数据存储在二维阵列中，因此使用line_X[:, np.newaxis]方法给X增加一个新维度

line_y_ransac = ransac.predict(line_X[:, np.newaxis])

五、可视化

plt.scatter(X[inlier_mask], y[inlier_mask], c='r',

            edgecolor='white', marker='s', label='内点')

plt.scatter(X[outlier_mask], y[outlier_mask], c='g',

            edgecolor='white', marker='o', label='离群点')

plt.plot(line_X, line_y_ransac, color='k')

plt.xlabel('平均房间数目[MEDV]', fontproperties=font)

plt.ylabel('以1000美元为计价单位的房价[RM]', fontproperties=font)

plt.title('波士顿房价预测', fontproperties=font, fontsize=20)

plt.legend(prop=font)

plt.show()

print('RANSAC算法线性回归斜率:{}'.format(ransac.estimator_.coef_[0]))

RANSAC算法线性回归斜率:9.546893365978166

使用RANSAC算法之后可以发现线性回归拟合的线与未用RANSAC算法拟合出来的线的斜率（普通线性回归斜率:9.10210898118031）不同，可以说RANSAC算法降低了离群值潜在的影响，但是这并不能说明这种方法对未来新数据的预测性能是否有良性影响。

02-11 RANSAC算法线性回归(波斯顿房价预测)的更多相关文章

Python之机器学习-波斯顿房价预测
目录波士顿房价预测导入模块获取数据打印数据特征选择散点图矩阵关联矩阵训练模型可视化波士顿房价预测导入模块 import pandas as pd import numpy as ...
掌握Spark机器学习库-07.14-保序回归算法实现房价预测
数据集 house.csv 数据集概览代码 package org.apache.spark.examples.examplesforml import org.apache.spark.ml.cl ...
机器学习实战二：波士顿房价预测 Boston Housing
波士顿房价预测 Boston housing 这是一个波士顿房价预测的一个实战,上一次的Titantic是生存预测,其实本质上是一个分类问题,就是根据数据分为1或为0,这次的波士顿房价预测更像是预测一 ...
使用sklearn进行数据挖掘-房价预测(5)—训练模型
使用sklearn进行数据挖掘系列文章: 1.使用sklearn进行数据挖掘-房价预测(1) 2.使用sklearn进行数据挖掘-房价预测(2)-划分测试集 3.使用sklearn进行数据挖掘-房价预 ...
Ames房价预测特征工程
最近学人工智能,讲到了Kaggle上的一个竞赛任务,Ames房价预测.本文将描述一下数据预处理和特征工程所进行的操作,具体代码Click Me. 原始数据集共有特征81个,数值型特征38个,非数值型特 ...
梯度消失、梯度爆炸以及Kaggle房价预测
梯度消失.梯度爆炸以及Kaggle房价预测梯度消失和梯度爆炸考虑到环境因素的其他问题 Kaggle房价预测梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸( ...
使用pmml跨平台部署机器学习模型Demo——房价预测
基于房价数据,在python中训练得到一个线性回归的模型,在JavaWeb中加载模型完成房价预测的功能. 一. 训练.保存模型工具:PyCharm-2017.Python-39.sklearn2 ...
RANSAC算法详解
给定两个点p1与p2的坐标,确定这两点所构成的直线,要求对于输入的任意点p3,都可以判断它是否在该直线上.初中解析几何知识告诉我们,判断一个点在直线上,只需其与直线上任意两点点斜率都相同即可.实际操作 ...
使用sklearn进行数据挖掘-房价预测(4)—数据预处理
在使用机器算法之前,我们先把数据做下预处理,先把特征和标签拆分出来 housing = strat_train_set.drop("median_house_value",axis ...

随机推荐

Scrum团队的最佳规模？
无论你在小型创业公司工作还是在大公司的新产品线工作,当团队人数越来越多时总会达到一个临界点.尽早识别这个临界点可以让您的团队避免进入低效阶段.每个产品都是不同的,团队合作也是如此.因此,拆分团队也需要 ...
CVE-2014-6271 Shellshock 破壳漏洞复现
补坑. 什么是shellshock ShellShock是一个BashShell漏洞(据说不仅仅是Bash,其他shell也可能有这个漏洞). 一般情况来说,系统里面的Shell是有严格的权限控制的, ...
054 Python程序设计思维
目录一.单元开篇二.计算思维与程序设计 2.1 计算思维 2.1.1 第3种人类思维特征 2.1.2 抽象和自动化 2.1.3 计数求和:计算1-100的计数和 2.1.4 圆周率的计算 2.1. ...
(转)为什么HashMap中链表长度超过8会转换成红黑树
原博地址:https://blog.csdn.net/xingfei_work/article/details/79637878 HashMap在jdk1.8之后引入了红黑树的概念,表示若桶中链表元素 ...
redis持久化的两种方式RDB和AOF
原文链接:http://www.cnblogs.com/tdws/p/5754706.html Redis的持久化过程中并不需要我们开发人员过多的参与,我们要做的是什么呢?除了深入了解RDB和AOF的 ...
.NET Core 3.0之深入源码理解Host(二)
写在前面停了近一个月的技术博客,随着正式脱离996的魔窟,接下来也正式恢复了.本文从源码角度进一步讨论.NET Core 3.0 中关于Host扩展的一些技术点,主要讨论Long Run Pro ...
树、图、堆、STL(来自菜鸡的"炒鸡"干粮)
树.图.堆.STL 图论基础简单图: 没有自环,两个顶点之间最多只有一条边. 完全图: 一个简单图,每两个顶点之间都有一条边.一共有(n-1)*n/2条边. 二分图: 一个简单图,设G=(V,E)是 ...
CentOS7 自定义登录前后欢迎信息
博客地址:http://www.moonxy.com 一.摘要本人当前使用的是阿里云 ECS 服务器,操作系统为 linux,发行版为 CentOS 7.4.1708.系统默认都已经提供了欢迎信息, ...
charles 客户端进程
本文参考:charles 客户端进程客户端进程工具/client_process 显示使每个请求的本地客户端进程; 客户端进程工具显示负责进行每个请求的本地客户端进程的名称. 客户端进程通常是您的W ...
C++程序设计学习
第一章预备知识 1.C++历史起源由于C语言具有许多优点,比如语言简洁灵活:运算符和数据类型丰富:具有结构化控制语句:程序执行效率高:同时具有高级语言和汇编语言的优点等.与其他高级语言相比,C语言 ...

02-11 RANSAC算法线性回归(波斯顿房价预测)