kaggle——贷款信用评估介绍
介绍
对于金融机构的贷款业务来说,一个顾客的信用信息是极其重要的。因为只有了解客户的信用情况,才能决定是否通过客户的贷款申请。本次将会介绍如何根据用户的一些基本信息来判断顾客的信用或贷款偿还能力。
知识点
- 数据导入与预览
- 数据可视化-plotly
- 特征工程
- 预测模型的选择
贷款信用评估介绍
本次的内容主要来自于在 Kaggle 上关于贷款信用分析的一个竞赛:贷款偿还能力评估 。该竞赛是一个含奖竞赛,是由 Home Credit 公司发起,并提供相关的数据。我们来简单看一下相关的信息。
Home Credit 是一家借贷公司,其主要是为那些无银行账户客户或信用记录的客户服务。但为了确保贷款的安全性,需要对这些客户的信用或者还款能力进行评估。因此 Home Credit 利用各种数据,例如:电话缴费记录,网购交易信息等来预测其客户的还款能力。例如:电话缴费记录、网购交易信息等
而本次的任务则是使用 Kaggle 提供的数据,构建一个模型。使其能够预测一个顾客的信用或贷款偿还能力。
数据导入并预览
由于原始的数据比较大,考虑到运行时间的问题。这里只取了一部份数据来进行分析。如果你想分析所有的数据,可以去 Kaggle 下载完整的数据。接下来直接导入数据,并预览前 5 行。
链接:https://pan.baidu.com/s/1C-YAhx7qIQPhs7hlDJ3cXg 提取码:vq1h
import pandas as pd
df = pd.read_csv("HomeCredit.csv")
df.head()
从上面的结果可以看到,该数据集中总共含有 122 列。查看一下数据描述。
df.describe()
查看一下数据的形状。
df.shape
由上面的输出结果可知,该数据集总共包含 5000 份数据。
查看一下数据集中都包含哪些列。
df.columns
由于列数较多,这里只选几个重要的列来讲解。如下:
- AMT_CREDIT:贷款金额
- AMT_INCOME_TOTAL:申请人的收入
- AMT_GOODS_PRICE:如果贷款是一个商品的话,商品的价格
- NAME_TYPE_SUITE:陪同申请者来申请的人
- TARGET:申请者是否有能力偿还
- NAME_CONTRACT_TYPE:贷款类型
- NAME_INCOME_TYPE:申请者的收入来源情况
- NAME_FAMILY_STATUS:申请者的婚姻状况
- OCCUPATION_TYPE:申请者的职业类型
- NAME_EDUCATION_TYPE:申请者的受教育情况
- NAME_HOUSING_TYPE:申请者的住房情况
- DAYS_BIRTH:申请人出生到申请当天的总日子数
- DAYS_EMPLOYED:该特征列表示申请人的工作年限
数据可视化分析
现在先来对数据进行可视化,我们来看一下在数据集中申请贷款金额的分布情况。
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
%matplotlib inline
plt.figure(figsize=(12, 5))
plt.title("Distribution of AMT_CREDIT")
ax = sns.distplot(df["AMT_CREDIT"]) # 画出数据分布图
从上图可以看出,大部分申请人的申请贷款金额为 0 到 2000000 区间。
来看一下申请人的收入情况。
plt.figure(figsize=(12, 5))
plt.title("Distribution of AMT_INCOME_TOTAL")
# 画出数据分布图
ax = sns.distplot(df["AMT_INCOME_TOTAL"].dropna())
从上图可以看到,大部分申请人的收入都为 0 。现在看一下,如果贷款的对象是货物的话,看一下这些货物的价格分布。
plt.figure(figsize=(12, 5))
plt.title("Distribution of AMT_GOODS_PRICE")
ax = sns.distplot(df["AMT_GOODS_PRICE"].dropna())
上面主要查看几个常见参数的数据分布。现在我们使用 ploty 绘图库来进行更具体的分析。先安装 Plotly 库。
!pip install plotly
导入绘图工具库。
import plotly.offline as offline
import plotly.graph_objs as go
import plotly.offline as py
from plotly.offline import init_notebook_mode, iplot
init_notebook_mode(connected=True)
offline.init_notebook_mode()
查看一下,这些申请贷款的人来贷款时,都有哪些人陪同。
temp = df["NAME_TYPE_SUITE"].value_counts()
# 画出柱状图
trace = [go.Bar(x=temp.index, y=(temp / temp.sum())*100,)]
# 设置图的字体颜色等
layout = go.Layout(
title="Who accompanied client when applying for the application in % ",
xaxis=dict(title='Name of type of the Suite',
tickfont=dict(size=14, color='rgb(107, 107, 107)')),
yaxis=dict(title='Count of Name of type of the Suite in %',
titlefont=dict(size=16, color='rgb(107, 107, 107)'),
tickfont=dict(size=14, color='rgb(107, 107, 107)'))
)
fig = go.Figure(data=trace, layout=layout)
iplot(fig, filename='schoolStateNames')
从上图的显示结果可以看到,几乎 80% 的人都没有人陪同。而只有少部分人有家人或合伙人陪同。现在查看一下,申请人的还款能力。
temp = df["TARGET"].value_counts()
# 画出饼状图
trace = [go.Pie(labels=temp.index, values=temp.values)]
# 设置图题
layout = go.Layout(
title='Loan Repayed or not',
)
# 显示图形
fig = go.Figure(data=trace, layout=layout)
iplot(fig)
在上图中,1 表示有偿还能力,0 表示没有偿还能力。从上图可以看到,有超过 90% 的人没有还款能力。现在查看一下贷款的类型。
temp = df["NAME_CONTRACT_TYPE"].value_counts()
# 画出饼状图
trace = [go.Pie(labels=temp.index, values=temp.values, hole=0.6)]
# 设置图题
layout = go.Layout(
title='Types of loan',
)
# 显示图形
fig = go.Figure(data=trace, layout=layout)
iplot(fig)
在上图中,Revolving loan 表示周期性贷款,类似于分期贷款。 Cash loans 贷款表示现金贷款。由上图可知,有超过 90% 的人申请的贷款为现金贷款。接下来我们看这些申请人贷款的目的是什么。
temp1 = df["FLAG_OWN_CAR"].value_counts()
temp2 = df["FLAG_OWN_REALTY"].value_counts()
# 画出饼状图
trace = [go.Pie(labels=temp1.index, values=temp1.values, domain={"x": [0, .48]}, hole=0.6),
go.Pie(labels=temp2.index, values=temp2.values, domain={"x": [0.5, 1]}, hole=0.6)]
# 设置图中的字体,图题等
layout = go.Layout(
title='Purpose of loan',
annotations=[{"font": {
"size": 20},
"showarrow": False,
"text": "Own Car",
"x": 0.15,
"y": 0.5},
{"font": {
"size": 20},
"showarrow": False,
"text": "Own Realty",
"x": 0.85,
"y": 0.5}])
# 显示图形
fig = go.Figure(data=trace, layout=layout)
iplot(fig)
从上图可知,有接近 34% 的人贷款的钱要花在车上, 30% 的人要花在物业上。接下来看一下这些申请人的收入来源。
temp = df["NAME_INCOME_TYPE"].value_counts()
# 画出饼状图
trace = [go.Pie(labels=temp.index, values=temp.values, hole=0.4)]
# 设置图题
layout = go.Layout(
title='Income sources of Applicant',
)
# 画出图题
fig = go.Figure(data=trace, layout=layout)
iplot(fig)
从上图可知,52.1% 的人收入来源于工作,有 23.5% 的人收入来源于商业合作,有 18% 的申请者的收入主要来自于养老金。现在看一下这些申请人的婚姻状况。
temp = df["NAME_FAMILY_STATUS"].value_counts()
# 画出饼状图
trace = [go.Pie(labels=temp.index, values=temp.values)]
# 设置图题
layout = go.Layout(
title='Family Status of Applicant',
)
# 显示图形
fig = go.Figure(data=trace, layout=layout)
iplot(fig)
从上图可以看到,有 63.7% 的申请都是已婚的,有 14.7% 为单身或未婚。现在看一下这些申请者的职业。
temp = df["OCCUPATION_TYPE"].value_counts()
# 画出柱状图
trace = [go.Bar(x=temp.index, y=temp.values)]
# 设置图题
layout = go.Layout(
title='Occupation of Applicant',
)
# 显示图形
fig = go.Figure(data=trace, layout=layout)
iplot(fig)
从上图可以看到,人数最多的职业为工人,其次是销售员等。现在来看一下申请人的受教育情况。
temp = df["NAME_EDUCATION_TYPE"].value_counts()
# 画出饼状图
trace = [go.Pie(labels=temp.index, values=temp.values, hole=0.5)]
# 设置图题
layout = go.Layout(
title='Education of Applicant',
)
# 显示图形
fig = go.Figure(data=trace, layout=layout)
iplot(fig)
有 71.5% 的人为中等学历,24% 的人为高等学历。接下来来看这些申请人的房子类型。
temp = df["NAME_HOUSING_TYPE"].value_counts()
# 画出饼状图
trace = [go.Pie(labels=temp.index, values=temp.values)]
# 设置图题
layout = go.Layout(
title='Loan Repayed or not',
)
# 显示图形
fig = go.Figure(data=trace, layout=layout)
iplot(fig)
从上图可知,有 88.7% 的申请者有自己的房子或住在公寓,有 4.54% 的人跟父母一起住。
上面主要是通过可视化来观察数据集中一些基本的信息。现在来分析一下信息与是否有能力偿还贷款的关系。
import numpy as np
temp = df["NAME_INCOME_TYPE"].value_counts()
temp_y0 = [] # 没有偿还能力
temp_y1 = [] # 有偿还能力
for val in temp.index:
temp_y1.append(np.sum(df["TARGET"][df["NAME_INCOME_TYPE"] == val] == 1))
temp_y0.append(np.sum(df["TARGET"][df["NAME_INCOME_TYPE"] == val] == 0))
temp_y1 = np.array(temp_y1)
temp_y0 = np.array(temp_y0)
# 画出柱状图
trace = [go.Bar(x=temp.index, y=(temp_y1 / temp.sum()) * 100, name='YES'),
go.Bar(x=temp.index, y=(temp_y0 / temp.sum()) * 100, name='NO'),
go.Bar(x=temp.index, y=(temp_y1 / (temp_y0+temp_y1)) * 100, name='RATE'),
]
# 设置图题,字体等
layout = go.Layout(
title="Income sources of Applicant's in terms of loan is repayed or not in %",
xaxis=dict(title='Income source', tickfont=dict(
size=14, color='rgb(107, 107, 107)')),
yaxis=dict(title='Count in %', titlefont=dict(size=16, color='rgb(107, 107, 107)'),
tickfont=dict(size=14, color='rgb(107, 107, 107)'))
)
# 显示图形
fig = go.Figure(data=trace, layout=layout)
iplot(fig)
在上图中,YES 表示有偿还能力,NO 表示无偿还能力,RATE 表示在该取值中有偿还能力所占的比例,例如,在 Working 中,RATE 的取值越高表示当一个人的收入来源于 Working 时,该人有很大的可能有偿还能力。
从上图可知,无业人员和产假人员的偿还能力反而是最高的。当然,这两个取值的统计数量都较少,不足以说明什么问题。
接下来来看一下婚姻状况与是否有偿还能力的关系。
temp = df["NAME_FAMILY_STATUS"].value_counts()
temp_y0 = [] # 没有偿还能力
temp_y1 = [] # 有偿还能力
for val in temp.index:
temp_y1.append(np.sum(df["TARGET"][df["NAME_FAMILY_STATUS"] == val] == 1))
temp_y0.append(np.sum(df["TARGET"][df["NAME_FAMILY_STATUS"] == val] == 0))
temp_y1 = np.array(temp_y1)
temp_y0 = np.array(temp_y0)
# 画出柱状图
trace = [go.Bar(x=temp.index, y=(temp_y1 / temp.sum()) * 100, name='YES'),
go.Bar(x=temp.index, y=(temp_y0 / temp.sum()) * 100, name='NO'),
go.Bar(x=temp.index, y=(temp_y1 / (temp_y0+temp_y1)) * 100, name='RATE')]
# 设置字体、图题等
layout = go.Layout(
title="Family Status of Applicant's in terms of loan is repayed or not in %",
xaxis=dict(title='Family Status', tickfont=dict(
size=14, color='rgb(107, 107, 107)')),
yaxis=dict(title='Count in %', titlefont=dict(size=16, color='rgb(107, 107, 107)'),
tickfont=dict(size=14, color='rgb(107, 107, 107)')))
# 显示图形
fig = go.Figure(data=trace, layout=layout)
iplot(fig)
从上图可知,偿还能力似乎与婚姻状况无关。现在来看申请者职业与偿还能力的关系。
temp = df["OCCUPATION_TYPE"].value_counts()
temp_y0 = [] # 没有偿还能力
temp_y1 = [] # 有偿还能力
for val in temp.index:
temp_y1.append(np.sum(df["TARGET"][df["OCCUPATION_TYPE"] == val] == 1))
temp_y0.append(np.sum(df["TARGET"][df["OCCUPATION_TYPE"] == val] == 0))
temp_y1 = np.array(temp_y1)
temp_y0 = np.array(temp_y0)
# 画出柱状图
trace = [go.Bar(x=temp.index, y=(temp_y1 / temp.sum()) * 100, name='YES'),
go.Bar(x=temp.index, y=(temp_y0 / temp.sum()) * 100, name='NO'),
go.Bar(x=temp.index, y=(temp_y1 / (temp_y0+temp_y1)) * 100, name='RATE'),
]
# 设置图题、字体等
layout = go.Layout(
title="Occupation of Applicant's in terms of loan is repayed or not in %",
width=1000,
xaxis=dict(title='Occupation of Applicant\'s',
tickfont=dict(size=14, color='rgb(107, 107, 107)')),
yaxis=dict(title='Count in %', titlefont=dict(size=16, color='rgb(107, 107, 107)'),
tickfont=dict(size=14, color='rgb(107, 107, 107)'))
)
# 显示图形
fig = go.Figure(data=trace, layout=layout)
iplot(fig)
由上图可知,像管理员、核心员工等这些职业的偿还能力都较低,而像工人、驾驶司机等职业要高一点。
当然我们还可以继续分析其他信息与偿还能力的关系,不过方法都是大同小异,因此这里不再列出。下面我们来构建预测模型。
构建预测模型
因为数据集比较复杂,而且涉及到的金融术语比较多,这里不再对数据集进行精细的预处理和特征提取工作。此外,为了方便,我们之间删除掉存在缺失值的特征列。
df_drop = df.dropna(axis=1)
df_drop.head()
编码特征
因为数据中存在一列是字符串形式的,现在将其编码成为数值形式。
from sklearn import preprocessing
# 取出非数值的列
categorical_feats = [
f for f in df_drop.columns if df_drop[f].dtype == 'object'
]
# 对非数值的列进行编码
for col in categorical_feats:
lb = preprocessing.LabelEncoder()
lb.fit(list(df_drop[col].values.astype('str')))
df_drop[col] = lb.transform(list(df_drop[col].values.astype('str')))
查看编码结果。
df_drop.head()
划分数据
在上面显示的数据中,SK_ID_CURR 列为顾客的 ID ,因此要将此列删除掉。
df_drop1 = df_drop.drop("SK_ID_CURR", axis=1)
提取训练特征数据和目标值。这里的目标值就是申请者的偿还能力,在数据集中为 TARGET 列。
data_X = df_drop1.drop("TARGET", axis=1)
data_y = df_drop1['TARGET']
为了测试预测模型的性能,划分数据集为训练数据集和测试数据集。因为数据集较大,所以只取了 20% 的数据来作为训练集。
from sklearn import model_selection
train_x, test_x, train_y, test_y = model_selection.train_test_split(data_X.values,
data_y.values,
test_size=0.8,
random_state=0)
构建预测模型
当我们完成上面所有的操作之后,得到的是一份训练集和一份测试集。现在就可以构建模型了。由于这里是一个分类任务,所以我们选用随机森林来完成。
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier() # 构建模型
model.fit(train_x, train_y) # 训练模型
上面完成了模型的构建和训练,现在测试一下模型的准确率。
from sklearn import metrics
y_pred = model.predict(test_x) # 预测测试集
metrics.accuracy_score(y_pred, test_y) # 评价预测结果
我们可以使用 sklaern 提供的分类报告方法来得到一个全面的评估。
print(metrics.classification_report(y_pred, test_y))
我们还可以通过模型的结果来得到特征的重要性。
features = data_X.columns.values # 取出数据集中的列名,即特征名
# 得到特征与其重要性
x, y = (list(x) for x in zip(*sorted(zip(model.feature_importances_, features),
reverse=False)))
# 画出柱状图
trace2 = go.Bar(x=x, y=y, marker=dict(color=x, colorscale='Viridis', reversescale=True),
name='Random Forest Feature importance', orientation='h',)
# 设置图题、字体等
layout = dict(title='Barplot of Feature importances', width=900, height=2000,
yaxis=dict(showgrid=False, showline=False, showticklabels=True,), margin=dict(l=300,))
# 显示图形
fig1 = go.Figure(data=[trace2])
fig1['layout'].update(layout)
iplot(fig1, filename='plots')
从上面的结果可以看到,不同的特征具有不同的重要性。
上面我们主要使用逻辑回归来构建预测模型,当然还有许多中方法,现在尝试一下其他方法。
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
# 构建 7 种算法
models = [LogisticRegression(solver='lbfgs'), # 逻辑回归
RandomForestClassifier(n_estimators=100), # 随机森林
DecisionTreeClassifier(), # 决策树
MLPClassifier(max_iter=100), # 多层感知机
AdaBoostClassifier(), # 自适应梯度提升
BaggingClassifier(), # 装袋算法
GradientBoostingClassifier()] # 梯度提升算法
model_name = ['LogisticRegression',
'RandomForestClassifier',
"DecisionTreeClassifier",
'MLPClassifier',
'AdaBoostClassifier',
'BaggingClassifier',
'GradientBoostingClassifier']
acc = [] # 存放各算法的准确率
f1 = [] # 存放各算法的 f1 值
recall = [] # 存放各算法的召回率
for model in models: # 训练每个算法
model.fit(train_x, train_y)
acc.append(model.score(test_x, test_y))
y_pred = model.predict(test_x)
f1.append(metrics.f1_score(y_pred, test_y))
recall.append(metrics.recall_score(y_pred, test_y))
# 打印每种算法的评估结果
pd.DataFrame({"name": model_name, "acc": acc, "f1": f1, "recall": recall})
从上面的结果可知,除了决策树分类(DecisionTreeClassifier)和感知机分类(MLPClassifier)之外,大部分算法的准确率均超过了 90% 。
总结
本次主要完成了对贷款数据集的可视化分析,其中主要使用 Plotly 库来完成,本次的重点也是可视化分析,而特征提取与数据预处理等问题中并未做过多的探讨,这主要是由于该数据集提供的数据较多,信息量较多,专业知识较强。如果你有兴趣,可以自行在线下完成。
kaggle——贷款信用评估介绍的更多相关文章
- Kaggle Challenge简要介绍
https://en.wikipedia.org/wiki/Kaggle 以下内容,直接摘自维基百科,主要起到一个记录的作用,提醒自己有时间关注关注这个竞赛. Kaggle is a platform ...
- Kaggle八门神器(一):竞赛神器之XGBoost介绍
Xgboost为一个十分有效的机器学习模型,在各种竞赛中均可以看到它的身影,同时Xgboost在工业届也有着广泛的应用,本文以Titanic数据集为研究对象,简单地探究Xgboost模型建模过程,同时 ...
- Kaggle:Home Credit Default Risk 特征工程构建及可视化(2)
博主在之前的博客 Kaggle:Home Credit Default Risk 数据探索及可视化(1) 中介绍了 Home Credit Default Risk 竞赛中一个优秀 kernel 关于 ...
- Kaggle:Home Credit Default Risk 数据探索及可视化(1)
最近博主在做个 kaggle 竞赛,有个 Kernel 的数据探索分析非常值得借鉴,博主也学习了一波操作,搬运过来借鉴,原链接如下: https://www.kaggle.com/willkoehrs ...
- kaggle 欺诈信用卡预测——Smote+LR
from:https://zhuanlan.zhihu.com/p/30461746 本项目需解决的问题 本项目通过利用信用卡的历史交易数据,进行机器学习,构建信用卡反欺诈预测模型,提前发现客户信用卡 ...
- 【干货】Kaggle 数据挖掘比赛经验分享(mark 专业的数据建模过程)
简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 C ...
- Kaggle 数据挖掘比赛经验分享(转)
原作者:陈成龙 简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台.笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比 ...
- Kaggle 数据挖掘比赛经验分享
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 腾讯广告算法大赛 作者 | 陈成龙 Kaggle 于 2010 年创立,专注数据科学,机器学 ...
- 准备熟悉Kaggle -菜鸟进阶
原文链接http://www.bubuko.com/infodetail-525389.html 1.Kaggle简介 Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle ...
随机推荐
- Google的搜索API的Delphi封装
这个东西实现了已经有一段时间了,那个时候谷歌还没有退出中国内地呢!而现在呢,谷歌都退了有一些日子了!紧以此纪念一番! 话说谷歌API,我相信很多人应该都知道!不晓得在实际应用中,用的人多不多(我说的不 ...
- NASA航天技术演示实验集
为了支持太空探索NASA开起了一系列先进太空技术演示实验. 具体的实验实验地址在:https://www.nasa.gov/mission_pages/tdm/main/overview.html 通 ...
- maven爬坑
版本问题 maven源的问题 找不到的jar包 http://www.cnblogs.com/geektown/p/5705405.html http://blog.csdn.net/beyondlp ...
- ubuntu18.04.2 hadoop3.1.2+zookeeper3.5.5高可用完全分布式集群搭建
ubuntu18.04.2 hadoop3.1.2+zookeeper3.5.5高可用完全分布式集群搭建 集群规划: hostname NameNode DataNode JournalNode Re ...
- 实验吧-隐写术-guess(outguess)
给了一张图片: 看了看属性,没啥东西. 根据题目:guess guess guess不出你就out了 猜测是用outguess,于是上linux,进入outguess文件夹,执行命令:outguess ...
- jdk的配置和安装
1.Jdk的安装和配置 一.安装JDK与配置环境与检验配置成功: 1.进入java.com网站,然后按照以下步骤进行 =>=>等会出现java茶杯双击,一次一次的按下一步,最后会在同一个j ...
- 每天一点点之vue框架开发 - vue 动态替换路由(地址栏)参数
import merge from 'webpack-merge': // 修改原有参数 this.$router.push({ query:merge(this.$route.query,{'max ...
- 业务全都在yun上能放心吗?
导读 组织将其业务在云上进行“全押”,这与扑克游戏中的这个激动人心时刻有着同样的吸引力.这种举动感觉很大胆,但却向外界传达了自己的信心,表明将会果断行动赢得比赛. 大多数银行对处理零售银行业务方式需要 ...
- HDU 5461:Largest Point
Largest Point Time Limit: 1500/1000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others) To ...
- 创建简单web项目
Intellij Idea直接安装(可根据需要选择自己设置的安装目录),jdk使用1.6/1.7/1.8都可以,主要是配置好系统环境变量,tomcat7上tomcat的官网下载压缩包解压即可. 一.创 ...