基于python 信用卡评分系统的数据分析

import pandas as pd

import matplotlib.pyplot as plt #导入图像库

from sklearn.ensemble import RandomForestRegressor

# 用随机森林对缺失值预测填充函数

def set_missing(df):

    # 把已有的数值型特征取出来

    process_df = df.ix[:,[5,0,1,2,3,4,6,7,8,9]]

    # 分成已知该特征和未知该特征两部分

    known = process_df[process_df.MonthlyIncome.notnull()].as_matrix()

    unknown = process_df[process_df.MonthlyIncome.isnull()].as_matrix()

    # X为特征属性值

    X = known[:, 1:]

    # y为结果标签值

    y = known[:, 0]

    # fit到RandomForestRegressor之中

    rfr = RandomForestRegressor(random_state=0, n_estimators=200,max_depth=3,n_jobs=-1)

    rfr.fit(X,y)

    # 用得到的模型进行未知特征值预测

    predicted = rfr.predict(unknown[:, 1:]).round(0)

    print(predicted)

    # 用得到的预测结果填补原缺失数据

    df.loc[(df.MonthlyIncome.isnull()), 'MonthlyIncome'] = predicted

    return df

data = pd.read_csv(r'E:\Python\Source\CreditScore\cs-training.csv')

process_df = data.iloc[:,[5,0,1,2,3,4,6,7,8,9]]

known = process_df[process_df.MonthlyIncome.notnull()].as_matrix()

unknown = process_df[process_df.MonthlyIncome.isnull()].as_matrix()

X = known[:, 1:]

y = known[:, 0]

# fit到RandomForestRegressor之中

rfr = RandomForestRegressor(random_state=0, n_estimators=200,max_depth=3,n_jobs=-1)

rfr.fit(X,y)

# 用得到的模型进行未知特征值预测

predicted = rfr.predict(unknown[:, 1:]).round(0)

print(predicted)

data.loc[(data.MonthlyIncome.isnull()), 'MonthlyIncome'] = predicted

[8311. 1159. 8311. ... 1159. 2554. 2554.]

data=data.dropna()#删除比较少的缺失值

data = data.drop_duplicates()#删除重复项

#异常值处理

#x1 = data["age"]

x2 = data["RevolvingUtilizationOfUnsecuredLines"]

x3 = data["DebtRatio"]

fig = plt.figure(1)

ax = fig.add_subplot(111)

ax.boxplot([x2,x3])

ax.set_xticklabels(["RevolvingUtilizationOfUnsecuredLines","DebtRatio"])

Out[48]:

[Text(0,0,'RevolvingUtilizationOfUnsecuredLines'), Text(0,0,'DebtRatio')]

#异常值处理

data = data[data["age"] > 0]

data = data[data['NumberOfTime30-59DaysPastDueNotWorse'] < 90]#剔除异常值

# 好坏客户的整体分析

data['SeriousDlqin2yrs']=1-data['SeriousDlqin2yrs']

grouped = data["SeriousDlqin2yrs"].groupby(data["SeriousDlqin2yrs"]).count()

print("坏客户占比：{:.2%}".format(grouped[0]/grouped[1]))

print(grouped)

grouped.plot(kind="bar")

坏客户占比：7.16%

SeriousDlqin2yrs

0      9706

1    135648

Name: SeriousDlqin2yrs, dtype: int64

Out[54]:

<matplotlib.axes._subplots.AxesSubplot at 0x126eecc0>

 Y = data['SeriousDlqin2yrs']

本文通过对kaggle上的Give Me Some Credit数据的挖掘分析，结合信用评分卡的建立原理，从数据的预处理、变量选择、建模分析到创建信用评分，创建了一个简单的信用评分系统。本项目还有许多不足之处，比如分箱应当使用最优分箱或卡方分箱，减少人为分箱的随机性，此外模型采用的是逻辑回归算法，还可以多多尝试其他模型。

基于python 信用卡评分系统的数据分析的更多相关文章

基于Python实现的系统SLA可用性统计
基于Python实现的系统SLA可用性统计 1. 介绍 SLA是Service Level Agreement的英文缩写,也叫服务质量协议.根据SRE Google运维解密一书中的定义: SLA是服务 ...
数据分析：基于Python的自定义文件格式转换系统
*:first-child { margin-top: 0 !important; } body>*:last-child { margin-bottom: 0 !important; } /* ...
基于Python的信用评分卡模型分析（二）
上一篇文章基于Python的信用评分卡模型分析(一)已经介绍了信用评分卡模型的数据预处理.探索性数据分析.变量分箱和变量选择等.接下来我们将继续讨论信用评分卡的模型实现和分析,信用评分的方法和自动评分 ...
基于Python的信用评分卡模型分析（一）
信用风险计量体系包括主体评级模型和债项评级两部分.主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡.B卡.C卡和F卡:债项评级模型通常按照主体的融资用途,分为 ...
基于Python的数据分析(2)：字符串编码
在上一篇文章<基于Python的数据分析(1):配置安装环境>中的第四个步骤中我们在python的启动步骤中强制要求加载sitecustomize.py文件并设置其默认编码为"u ...
【Machine Learning】决策树案例：基于python的商品购买能力预测系统
决策树在商品购买能力预测案例中的算法实现作者:白宁超 2016年12月24日22:05:42 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本 ...
基于Python的数据分析(1)：配置安装环境
数据分析是一个历史久远的东西,但是直到近代微型计算机的普及,数据分析的价值才得到大家的重视.到了今天,数据分析已经成为企业生产运维的一个核心组成部分. 据我自己做数据分析的经验来看,目前数据分析按照使 ...
性能测试基于Python结合InfluxDB及Grafana图表实时监控Android系统和应用进程
基于Python结合InfluxDB及Grafana图表实时监控Android系统和应用进程 By: 授客 QQ:1033553122 1．测试环境 2．实现功能 3．使用前提 4． ...
基于 Python 和 Pandas 的数据分析(1)
基于 Python 和 Pandas 的数据分析(1) Pandas 是 Python 的一个模块(module), 我们将用 Python 完成接下来的数据分析的学习. Pandas 模块是一个高性 ...

随机推荐

js金额转中文大写
基础参数: var AIW_number = {0:'零', 1:'壹', 2:'贰', 3:'叁', 4:'肆', 5:'伍', 6:'陆', 7:'柒', 8:'捌', 9:'玖'} var AI ...
给 zsh 自定义命令添加参数自动补全
有时我会自定义一些 zsh 命令,以便提升某些高频操作的效率.本文记录我给一个自定义命令添加参数自动补全的方法. 场景我自定义了一个 zsh 命令 gmt,执行 gmt <b2>,可以将 ...
python多版本切换
环境:Macbook MacOS自带的python2.7,在命令行中输入python后会显示2.7版本如何切换成新版本? 一.修改用户配置环境变量~/.bash_profile 确定新版本的安装位置 ...
spring boot 配置静态路径
一前言最近有个项目,需要上传一个zip文件(zip文件就是一堆的html压缩组成)的压缩文件,然后后端解压出来,用户可以预览上传好的文件. 查看资料,spring boot对静态文件,可以通过配 ...
基于GDAL库，读取.grd文件（以海洋地形数据为例）C++版
技术背景海洋地形数据主要是通过美国全球地形起伏数据(GMT)获得,数据格式为grd(GSBG)二进制数据,打开软件通过是Surfer软件,surfer软件可进行数据的编辑处理,以及进一步的可视化表达 ...
Solution -「多校联训」最大面积
\(\mathcal{Description}\) Link. 平面上有 \(n\) 个点 \(A_{1..n}\),\(q\) 次询问,每次给出点 \(P\),求 \[\max_{1\le ...
Java在算法题中的输入问题
Java在算法题中的输入问题在写算法题的时候,经常因为数据的输入问题而导致卡壳,其中最常见的就是数据输入无法结束. 1.给定范围,确定输入几个数据直接使用普通的Scanner输入数据范围,然后使用 ...
当gitlab的数据库坏了，或者其他的组件坏了，修复教程。
一般企业的gitlab都承载着多个项目的源码和提交记录如果gitlab的数据库 PostgreSQL 坏掉了,基本很难修复,那这是不是意味着源码丢失了呢. 本文章只针对 gitlab传统存储方式的修 ...
mysql学习+再复习
mysql 函数单行函数 exists 是否存在字符函数 concat(a,b)拼接两个字符串 ifnull(a+b,0) 如果a+b等于null,则返回0 upper,lower 大小写 ...
[SuperSocket2.0]SuperSocket 2.0从入门到懵逼
SuperSocket 2.0从入门到懵逼 SuperSocket 2.0从入门到懵逼 1 使用SuperSocket 2.0在AspNetCore项目中搭建一个Socket服务器 1.1 引入Sup ...

基于python 信用卡评分系统 的数据分析

基于python 信用卡评分系统 的数据分析

基于python 信用卡评分系统 的数据分析的更多相关文章

随机推荐

热门专题

基于python 信用卡评分系统的数据分析

基于python 信用卡评分系统的数据分析

基于python 信用卡评分系统的数据分析的更多相关文章