Python数据处理实例

使用python进行数据处理的实例（数据为某公司HR部门关于员工信息的部分摘录，kaggle上面的一次赛题）

https://www.kaggle.com/c/kfru-dbm-hr-analytics

该实例是根据其他所给属性预测员工是否会离职，代码实现如下所示



import pandas as pd

from sklearn.preprocessing import MinMaxScaler,StandardScaler

from sklearn.preprocessing import LabelEncoder,OneHotEncoder

from sklearn.decomposition import PCA

def hr_preprocessing(sl=False,le=False,npr=False,amh=False,tsc=False,wa=False,pl5=False,dp=False,slr=False,lower_id=False,ld_n=1):

    df=pd.read_csv('C:\\Users\\Administrator\Desktop\\network\\HR.csv')

    #1 清洗数据，根据探索性数据分析出的结果来去掉空值

    df=df.dropna(subset=['satisfaction_level','last_evaluation'])

    df=df[df['satisfaction_level']&lt;=1][df['salary']!='nme']

    #2 得到标注

    label=df['left']

    df=df.drop('left',axis=1)

    #3 特征选择（因为本文的特征本来就不多，暂时不做）

    # 4 特征处理（归一化，标准化，降维）

    scaler_lst=[sl,le,npr,amh,tsc,wa,pl5]

    column_lst = ["satisfaction_level", "last_evaluation", "number_project",

                  "average_monthly_hours", "time_spend_company", "Work_accident",

                  "promotion_last_5years"]

    for i in range(len(scaler_lst)):

        if not scaler_lst[i]:

            df[column_lst[i]]=MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(1,-1)[0]

        else:

            df[column_lst[i]]=StandardScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(1,-1)[0]

    #针对离散值的处理

    scaler_lst=[slr,dp]

    column_lst=['salary','department']

    for i in range(len(scaler_lst)):

        if not scaler_lst[i]:

            if column_lst[i]=='salary':

                df[column_lst[i]]=[map_salary(s)for s in df['salary'].values]

            else:

                df[column_lst[i]]=LabelEncoder().fit_transform(df[column_lst[i]])

            df[column_lst[i]]=MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(1,-1)[0]

        else:

            df=pd.get_dummies(df,columns=[column_lst[i]])

    if lower_id:

        return PCA(n_components=ld_n).fit_transform(df.values),label

    return df,label

d=dict([('low',0),('medium',1),('high',2)])

def map_salary(s):

    return d.get(s,0)

#建模

def hr_modeling_nn(features,label):

    from sklearn.model_selection import train_test_split

    #sklearn中没有可以一次性将数据划分成验证集、训练集、测试集的包，所以需要进行两步划分

    f_v=features.values

    l_v=label.values

    X_tt,X_validation,Y_tt,Y_validation=train_test_split(f_v,l_v,test_size=0.2)

    X_train,X_test,Y_train,Y_test=train_test_split(X_tt,Y_tt,test_size=0.25)

    #print(len(X_train),len(X_test),len(X_validation))

    #分类

    from sklearn.metrics import accuracy_score,recall_score,f1_score

    from sklearn.neighbors import NearestNeighbors,KNeighborsClassifier

    from sklearn.naive_bayes import GaussianNB,BernoulliNB

    from sklearn.tree import DecisionTreeClassifier

    from sklearn.svm import SVC

    from sklearn.ensemble import RandomForestClassifier

    from sklearn.ensemble import AdaBoostClassifier

    from sklearn.linear_model import LogisticRegression

    from sklearn.ensemble import GradientBoostingClassifier

    models=[]

    models.append(('KNN',KNeighborsClassifier(n_neighbors=3)))

    models.append(('GaussianNB',GaussianNB()))

    models.append(('BernoulliNB',BernoulliNB()))

    models.append(('DecisionTreeGini',DecisionTreeClassifier()))

    models.append(('DecisionTreeEntropy',DecisionTreeClassifier(criterion='entropy')))

    models.append(('SVM:',SVC(C=1000)))

    models.append(('OriginalRandomForest',RandomForestClassifier()))

    models.append(('RandomForest',RandomForestClassifier(n_estimators=11,max_features=None)))

    models.append(('Adaboost',AdaBoostClassifier(n_estimators=100)))

    models.append(('LogisticRegression',LogisticRegression(C=1000,tol=1e-10,solver='sag',max_iter=10000)))

    models.append(('GBDT',GradientBoostingClassifier(max_depth=6,n_estimators=100)))

    for clf_name ,clf in models:

        clf.fit(X_train,Y_train)

        xy_list=[(X_train,Y_train),(X_validation,Y_validation),(X_test,Y_test)]

        for i in range(len(xy_list)):

            X_part=xy_list[i][0]

            Y_part=xy_list[i][1]

            Y_pred=clf.predict(X_part)

            print(i)

            print(clf_name,'-ACC',accuracy_score(Y_part,Y_pred))

            print(clf_name,'-REC:',recall_score(Y_part,Y_pred))

            print(clf_name,'-F1:',f1_score(Y_pred,Y_part))

#回归

def regr_t(features,label):

    print('X',features)

    print('Y',label)

    from sklearn.linear_model import LinearRegression,Ridge,Lasso

    regr=Ridge(alpha=1)

    regr.fit(features.values,label.values)

    Y_pred=regr.predict(features.values)

    print('Coef:',regr.coef_)

    from sklearn.metrics import mean_squared_error,mean_absolute_error,r2_score

    print('MSE:',mean_squared_error(label.values,Y_pred))

    print('MAE:',mean_absolute_error(label.values,Y_pred))

    print('R2:',r2_score(label.values,Y_pred))

def main():

    features,label=hr_preprocessing()

    hr_modeling_nn(features,label)

    regr_t(features[['number_project','average_monthly_hours']],features['last_evaluation'])

if __name__=='__main__':

    main()

来源：https://blog.csdn.net/weixin_39667003/article/details/85632885

Python数据处理实例的更多相关文章

Python 数据处理库pandas教程（最后附上pandas_datareader使用实例）
0 简单介绍 pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有 ...
Python 数据处理库 pandas 入门教程
Python 数据处理库 pandas 入门教程2018/04/17 · 工具与框架 · Pandas, Python 原文出处: 强波的技术博客 pandas是一个Python语言的软件包,在我们使 ...
Python 数据处理之对 list 数据进行数据重排（为连续的数字序号）
Python 数据处理之对 list 数据进行数据重排(为连续的数字序号) # user ID 序号重新排,即,原来是 1,3,4,6 ,排为 1,2,3,4 # item ID 序号重新排,too ...
Python数据处理pdf （中文版带书签）、原书代码、数据集
Python数据处理前言 xiii第1 章 Python 简介 11.1 为什么选择Python 41.2 开始使用Python 41.2.1 Python 版本选择 51.2.2 安装Python ...
最全总结 | 聊聊 Python 数据处理全家桶（Sqlite篇）
1. 前言上篇文章聊到 Python 处理 Mysql 数据库最常见的两种方式,本篇文章继续说另外一种比较常用的数据库:Sqlite Sqlite 是一种嵌入式数据库,数据库就是一个文件,体积很 ...
最全总结 | 聊聊 Python 数据处理全家桶（Redis篇）
1. 前言前面两篇文章聊到了 Python 处理 Mysql.Sqlite 数据库常用方式,本篇文章继续说另外一种比较常用的数据存储方式:Redis Redis:Remote Dictionary ...
最全总结 | 聊聊 Python 数据处理全家桶（Memcached篇）
1. 前言本篇文章继续继续另外一种比较常用的数据存储方式:Memcached Memcached:一款高性能分布式内存对象缓存系统,通过内存缓存,以减少数据库的读取,从而分担数据库的压力,进而提高 ...
python基础——实例属性和类属性
python基础——实例属性和类属性由于Python是动态语言,根据类创建的实例可以任意绑定属性. 给实例绑定属性的方法是通过实例变量,或者通过self变量: class Student(objec ...
python 发送邮件实例
留言板回复作者邮件提醒 -----------2016-5-11 15:03:58-- source:python发送邮件实例

随机推荐

将socket5代理转换为http代理
归根结底还是万恶的ZFW,MD弄得现在Google,gmail,dropbox都用不了了,看来这是要万民欢迎大中华局域网的到来了.最近在使用一同学的Shadowsocks来突破GFW的限制,可是电脑o ...
Django(模板语言-自定义filter和simple_tag)
Django(模板语言-自定义filter和simple_tag) filter过滤器的主要形式:变量|函数,意思是将变量交给函数处理,而自定义filter就是自己定义函数,因为用到已有的很少. ...
Django Admin后台管理模块的使用
Admin后台管理模块的使用 Django的管理员模块是Django的标准库django.contrib的一部分.这个包还包括其它一些实用的模块: django.contrib.auth django ...
Jmeter JDBC执行多条SQL
今天在编写自动化回归脚本的时候,需要在jmeter的jdbc请求中执行多条sql,在百度里搜索了一些文章,按照网上提供的步骤,发现不起作用,后来发现是作者的截图误导了,为了让后面的同学少走弯路,这里我 ...
Leetcode-Recover BST
Two elements of a binary search tree (BST) are swapped by mistake. Recover the tree without changing ...
[Algorithms] Graph Traversal (BFS and DFS)
Graph is an important data structure and has many important applications. Moreover, grach traversal ...
ubuntu搭建java web环境
java web环境即jdk+tomcat+mysql jdk:http://www.oracle.com/technetwork/java/javase/downloads/index.html t ...
《挑战程序设计竞赛》2.6 数学问题-素数 AOJ0009 POJ3126 3421 3292 3641
AOJ0009 http://judge.u-aizu.ac.jp/onlinejudge/description.jsp?id=0009 题意求不大于n的素数个数. 思路素数筛法可解,筛法过程中 ...
unix_timestamp 和 from_unixtime 时间戳函数区别
1.unix_timestamp 将时间转化为时间戳.(date 类型数据转换成 timestamp 形式整数) 没传时间参数则取当前时间的时间戳 mysql> select unix_time ...
centos7 Dockerfile安装nginx
1.写一个Dockerfile文件 FROM centos MAINTAINER apeng apeng@apenglinux-002.com RUN yum install -y pcre-deve ...

Python数据处理实例

Python数据处理实例的更多相关文章

随机推荐

热门专题