吴裕雄--天生自然 python数据分析：医疗费数据分析

import numpy as np

import pandas as pd

import os

import matplotlib.pyplot as pl

import seaborn as sns

import warnings

warnings.filterwarnings('ignore')

data = pd.read_csv('F:\\kaggleDataSet\\MedicalCostPersonal\\insurance.csv')

data.head()

data.isnull().sum()

from sklearn.preprocessing import LabelEncoder

#sex

le = LabelEncoder()

le.fit(data.sex.drop_duplicates())

data.sex = le.transform(data.sex)

# smoker or not

le.fit(data.smoker.drop_duplicates())

data.smoker = le.transform(data.smoker)

#region

le.fit(data.region.drop_duplicates())

data.region = le.transform(data.region)

data.corr()['charges'].sort_values()

f, ax = pl.subplots(figsize=(10, 8))

corr = data.corr()

sns.heatmap(corr, mask=np.zeros_like(corr, dtype=np.bool), cmap=sns.diverging_palette(240,10,as_cmap=True),square=True, ax=ax)

from bokeh.io import output_notebook, show

from bokeh.plotting import figure

output_notebook()

import scipy.special

from bokeh.layouts import gridplot

from bokeh.plotting import figure, show, output_file

p = figure(title="Distribution of charges",tools="save",background_fill_color="#E8DDCB")

hist, edges = np.histogram(data.charges)

p.quad(top=hist, bottom=0, left=edges[:-1], right=edges[1:],fill_color="#036564", line_color="#033649")

p.xaxis.axis_label = 'x'

p.yaxis.axis_label = 'Pr(x)'

show(gridplot(p,ncols = 2, plot_width=400, plot_height=400, toolbar_location=None))

f= pl.figure(figsize=(12,5))

ax=f.add_subplot(121)

sns.distplot(data[(data.smoker == 1)]["charges"],color='c',ax=ax)

ax.set_title('Distribution of charges for smokers')

ax=f.add_subplot(122)

sns.distplot(data[(data.smoker == 0)]['charges'],color='b',ax=ax)

ax.set_title('Distribution of charges for non-smokers')

sns.catplot(x="smoker", kind="count",hue = 'sex', palette="pink", data=data)

sns.catplot(x="sex", y="charges", hue="smoker",kind="violin", data=data, palette = 'magma')

pl.figure(figsize=(12,5))

pl.title("Box plot for charges of women")

sns.boxplot(y="smoker", x="charges", data =  data[(data.sex == 1)] , orient="h", palette = 'magma')

pl.figure(figsize=(12,5))

pl.title("Box plot for charges of men")

sns.boxplot(y="smoker", x="charges", data =  data[(data.sex == 0)] , orient="h", palette = 'rainbow')

pl.figure(figsize=(12,5))

pl.title("Distribution of age")

ax = sns.distplot(data["age"], color = 'g')

sns.catplot(x="smoker", kind="count",hue = 'sex', palette="rainbow", data=data[(data.age == 18)])

pl.title("The number of smokers and non-smokers (18 years old)")

g = sns.jointplot(x="age", y="charges", data = data[(data.smoker == 0)],kind="kde", color="m")

g.plot_joint(pl.scatter, c="w", s=30, linewidth=1, marker="+")

g.ax_joint.collections[0].set_alpha(0)

g.set_axis_labels("$X$", "$Y$")

ax.set_title('Distribution of charges and age for non-smokers')

g = sns.jointplot(x="age", y="charges", data = data[(data.smoker == 1)],kind="kde", color="c")

g.plot_joint(pl.scatter, c="w", s=30, linewidth=1, marker="+")

g.ax_joint.collections[0].set_alpha(0)

g.set_axis_labels("$X$", "$Y$")

ax.set_title('Distribution of charges and age for smokers')

#non - smokers

p = figure(plot_width=500, plot_height=450)

p.circle(x=data[(data.smoker == 0)].age,y=data[(data.smoker == 0)].charges, size=7, line_color="navy", fill_color="pink", fill_alpha=0.9)

show(p)

#smokers

p = figure(plot_width=500, plot_height=450)

p.circle(x=data[(data.smoker == 1)].age,y=data[(data.smoker == 1)].charges, size=7, line_color="navy", fill_color="red", fill_alpha=0.9)

show(p)

sns.lmplot(x="age", y="charges", hue="smoker", data=data, palette = 'inferno_r', size = 7)

ax.set_title('Smokers and non-smokers')

pl.figure(figsize=(12,5))

pl.title("Distribution of bmi")

ax = sns.distplot(data["bmi"], color = 'm')

pl.figure(figsize=(12,5))

pl.title("Distribution of charges for patients with BMI greater than 30")

ax = sns.distplot(data[(data.bmi >= 30)]['charges'], color = 'm')

pl.figure(figsize=(12,5))

pl.title("Distribution of charges for patients with BMI less than 30")

ax = sns.distplot(data[(data.bmi < 30)]['charges'], color = 'b')

g = sns.jointplot(x="bmi", y="charges", data = data,kind="kde", color="r")

g.plot_joint(pl.scatter, c="w", s=30, linewidth=1, marker="+")

g.ax_joint.collections[0].set_alpha(0)

g.set_axis_labels("$X$", "$Y$")

ax.set_title('Distribution of bmi and charges')

pl.figure(figsize=(10,6))

ax = sns.scatterplot(x='bmi',y='charges',data=data,palette='magma',hue='smoker')

ax.set_title('Scatter plot of charges and bmi')

sns.lmplot(x="bmi", y="charges", hue="smoker", data=data, palette = 'magma', size = 8)

sns.catplot(x="children", kind="count", palette="ch:.25", data=data, size = 6)

sns.catplot(x="smoker", kind="count", palette="rainbow",hue = "sex",

            data=data[(data.children > 0)], size = 6)

ax.set_title('Smokers and non-smokers who have childrens')

from sklearn.linear_model import LinearRegression

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import PolynomialFeatures

from sklearn.metrics import r2_score,mean_squared_error

from sklearn.ensemble import RandomForestRegressor

x = data.drop(['charges'], axis = 1)

y = data.charges

x_train,x_test,y_train,y_test = train_test_split(x,y, random_state = 0)

lr = LinearRegression().fit(x_train,y_train)

y_train_pred = lr.predict(x_train)

y_test_pred = lr.predict(x_test)

print(lr.score(x_test,y_test))

X = data.drop(['charges','region'], axis = 1)

Y = data.charges

quad = PolynomialFeatures (degree = 2)

x_quad = quad.fit_transform(X)

X_train,X_test,Y_train,Y_test = train_test_split(x_quad,Y, random_state = 0)

plr = LinearRegression().fit(X_train,Y_train)

Y_train_pred = plr.predict(X_train)

Y_test_pred = plr.predict(X_test)

print(plr.score(X_test,Y_test))

forest = RandomForestRegressor(n_estimators = 100,criterion = 'mse',random_state = 1,n_jobs = -1)

forest.fit(x_train,y_train)

forest_train_pred = forest.predict(x_train)

forest_test_pred = forest.predict(x_test)

print('MSE train data: %.3f, MSE test data: %.3f' % (

mean_squared_error(y_train,forest_train_pred),

mean_squared_error(y_test,forest_test_pred)))

print('R2 train data: %.3f, R2 test data: %.3f' % (

r2_score(y_train,forest_train_pred),

r2_score(y_test,forest_test_pred)))

pl.figure(figsize=(10,6))

pl.scatter(forest_train_pred,forest_train_pred - y_train,c = 'black', marker = 'o', s = 35, alpha = 0.5,label = 'Train data')

pl.scatter(forest_test_pred,forest_test_pred - y_test,c = 'c', marker = 'o', s = 35, alpha = 0.7,label = 'Test data')

pl.xlabel('Predicted values')

pl.ylabel('Tailings')

pl.legend(loc = 'upper left')

pl.hlines(y = 0, xmin = 0, xmax = 60000, lw = 2, color = 'red')

pl.show()

吴裕雄--天生自然 python数据分析：医疗费数据分析的更多相关文章

吴裕雄--天生自然 PYTHON数据分析：糖尿病视网膜病变数据分析（完整版）
# This Python 3 environment comes with many helpful analytics libraries installed # It is defined by ...
吴裕雄--天生自然 PYTHON数据分析：所有美国股票和etf的历史日价格和成交量分析
# This Python 3 environment comes with many helpful analytics libraries installed # It is defined by ...
吴裕雄--天生自然 python数据分析：健康指标聚集分析（健康分析）
# This Python 3 environment comes with many helpful analytics libraries installed # It is defined by ...
吴裕雄--天生自然 python数据分析：葡萄酒分析
# import pandas import pandas as pd # creating a DataFrame pd.DataFrame({'Yes': [50, 31], 'No': [101 ...
吴裕雄--天生自然 PYTHON数据分析：人类发展报告——HDI, GDI，健康，全球人口数据数据分析
import pandas as pd # Data analysis import numpy as np #Data analysis import seaborn as sns # Data v ...
吴裕雄--天生自然 PYTHON语言数据分析：ESA的火星快车操作数据集分析
import os import numpy as np import pandas as pd from datetime import datetime import matplotlib imp ...
吴裕雄--天生自然 python语言数据分析：开普勒系外行星搜索结果分析
import pandas as pd pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]}) pd.DataFrame({'Bob': ['I liked i ...
吴裕雄--天生自然 PYTHON数据分析：基于Keras的CNN分析太空深处寻找系外行星数据
#We import libraries for linear algebra, graphs, and evaluation of results import numpy as np import ...
吴裕雄--天生自然 python数据分析：基于Keras使用CNN神经网络处理手写数据集
import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.image as mp ...

随机推荐

Java并发编程(二)：volatile关键字
volatile是Java虚拟机提供的轻量级的同步机制.volatile关键字有如下两个作用,一句话概括就是内存可见性和禁止重排序. 1)保证被volatile修饰的共享变量对所有线程总是可见的,也就 ...
CCF_201512-1_数位之和
水. #include<iostream> #include<cstdio> using namespace std; int main() { ; cin >> ...
Disk：磁盘管理之LVM和系统磁盘扩容
简介小伙伴们好,好久不见,今天想给大家介绍一下关于磁盘管理的方法和心得:磁盘管理可谓运维工作中的重要内容,主要包括磁盘的合理规划以及扩缩容常用的磁盘管理方法为LVM(Logical Volume ...
强烈推荐 10 款珍藏的 Chrome 浏览器插件
Firebug 的年代,我是火狐(Mozilla Firefox)浏览器的死忠:但后来不知道为什么,该插件停止了开发,导致我不得不寻求一个新的网页开发工具.那段时间,不少人开始推荐 Chrome 浏览 ...
Keras学习系列——神经网络层组件
对Keras提供的对各种层的抽象进行相对全面的概括 1 基础常用层名称作用原型参数 Dense 实现全连接层 Dense(units,activation,use_bias=True, kern ...
图像里的"白噪声"——电视机搜不到台时雪花斑点的形成原因
作者:❄️固态二氧化碳❄️ (主页) 链接:图像里的"白噪声"--电视机搜不到台时雪花斑点的形成原因 - 固态二氧化碳的博客 - CSDN博客来源:CSDN博客发表时间:201 ...
k8s系列---故障
kubectl get namespace prom Terminating 45h namespace 出现Terminating 状态,一直删不掉解决: 1:导出namespace的json文件 ...
Android Webview H5资源本地化
Android Webview H5资源本地化一. 创建读取资源项目独立模块 1. 项目依赖的好处符合模块化的思想,他们相互独立.一个项目持有另一个项目的引用,修改更加方便. (注:compile ...
java之时间戳处理
●时间戳(timestamp)定义时间戳指的是从格林威治时间1970年01月01日00时00分00秒起至现在的总秒数.严格来说,不管你处在地球上的哪个地方,任意时间点的时间戳都是相同的.这点有利于线 ...
html语义化的意义
易于用户阅读,样式丢失的时候能让页面呈现清晰的结构. 有利于SEO,搜索引擎根据标签来确定上下文和各个关键字的权重. 方便其他设备解析,如盲人阅读器根据语义渲染网页有利于开发和维护,语义化更具可读性 ...

吴裕雄--天生自然 python数据分析：医疗费数据分析

吴裕雄--天生自然 python数据分析：医疗费数据分析的更多相关文章

随机推荐

热门专题