使用python进行数据处理的实例(数据为某公司HR部门关于员工信息的部分摘录,kaggle上面的一次赛题)

https://www.kaggle.com/c/kfru-dbm-hr-analytics

该实例是根据其他所给属性预测员工是否会离职,代码实现如下所示


import pandas as pd
from sklearn.preprocessing import MinMaxScaler,StandardScaler
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from sklearn.decomposition import PCA def hr_preprocessing(sl=False,le=False,npr=False,amh=False,tsc=False,wa=False,pl5=False,dp=False,slr=False,lower_id=False,ld_n=1):
df=pd.read_csv('C:\\Users\\Administrator\Desktop\\network\\HR.csv')
#1 清洗数据,根据探索性数据分析出的结果来去掉空值
df=df.dropna(subset=['satisfaction_level','last_evaluation'])
df=df[df['satisfaction_level']<=1][df['salary']!='nme'] #2 得到标注
label=df['left']
df=df.drop('left',axis=1) #3 特征选择(因为本文的特征本来就不多,暂时不做) # 4 特征处理(归一化,标准化,降维)
scaler_lst=[sl,le,npr,amh,tsc,wa,pl5]
column_lst = ["satisfaction_level", "last_evaluation", "number_project",
"average_monthly_hours", "time_spend_company", "Work_accident",
"promotion_last_5years"]
for i in range(len(scaler_lst)):
if not scaler_lst[i]:
df[column_lst[i]]=MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(1,-1)[0]
else:
df[column_lst[i]]=StandardScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(1,-1)[0] #针对离散值的处理
scaler_lst=[slr,dp]
column_lst=['salary','department']
for i in range(len(scaler_lst)):
if not scaler_lst[i]:
if column_lst[i]=='salary':
df[column_lst[i]]=[map_salary(s)for s in df['salary'].values]
else:
df[column_lst[i]]=LabelEncoder().fit_transform(df[column_lst[i]])
df[column_lst[i]]=MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1,1)).reshape(1,-1)[0]
else:
df=pd.get_dummies(df,columns=[column_lst[i]])
if lower_id:
return PCA(n_components=ld_n).fit_transform(df.values),label
return df,label d=dict([('low',0),('medium',1),('high',2)])
def map_salary(s):
return d.get(s,0) #建模
def hr_modeling_nn(features,label):
from sklearn.model_selection import train_test_split
#sklearn中没有可以一次性将数据划分成验证集、训练集、测试集的包,所以需要进行两步划分
f_v=features.values
l_v=label.values
X_tt,X_validation,Y_tt,Y_validation=train_test_split(f_v,l_v,test_size=0.2)
X_train,X_test,Y_train,Y_test=train_test_split(X_tt,Y_tt,test_size=0.25)
#print(len(X_train),len(X_test),len(X_validation)) #分类
from sklearn.metrics import accuracy_score,recall_score,f1_score
from sklearn.neighbors import NearestNeighbors,KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB,BernoulliNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier models=[]
models.append(('KNN',KNeighborsClassifier(n_neighbors=3)))
models.append(('GaussianNB',GaussianNB()))
models.append(('BernoulliNB',BernoulliNB()))
models.append(('DecisionTreeGini',DecisionTreeClassifier()))
models.append(('DecisionTreeEntropy',DecisionTreeClassifier(criterion='entropy')))
models.append(('SVM:',SVC(C=1000)))
models.append(('OriginalRandomForest',RandomForestClassifier()))
models.append(('RandomForest',RandomForestClassifier(n_estimators=11,max_features=None)))
models.append(('Adaboost',AdaBoostClassifier(n_estimators=100)))
models.append(('LogisticRegression',LogisticRegression(C=1000,tol=1e-10,solver='sag',max_iter=10000)))
models.append(('GBDT',GradientBoostingClassifier(max_depth=6,n_estimators=100))) for clf_name ,clf in models:
clf.fit(X_train,Y_train)
xy_list=[(X_train,Y_train),(X_validation,Y_validation),(X_test,Y_test)]
for i in range(len(xy_list)):
X_part=xy_list[i][0]
Y_part=xy_list[i][1]
Y_pred=clf.predict(X_part)
print(i)
print(clf_name,'-ACC',accuracy_score(Y_part,Y_pred))
print(clf_name,'-REC:',recall_score(Y_part,Y_pred))
print(clf_name,'-F1:',f1_score(Y_pred,Y_part)) #回归
def regr_t(features,label):
print('X',features)
print('Y',label)
from sklearn.linear_model import LinearRegression,Ridge,Lasso
regr=Ridge(alpha=1)
regr.fit(features.values,label.values)
Y_pred=regr.predict(features.values)
print('Coef:',regr.coef_)
from sklearn.metrics import mean_squared_error,mean_absolute_error,r2_score
print('MSE:',mean_squared_error(label.values,Y_pred))
print('MAE:',mean_absolute_error(label.values,Y_pred))
print('R2:',r2_score(label.values,Y_pred)) def main():
features,label=hr_preprocessing()
hr_modeling_nn(features,label)
regr_t(features[['number_project','average_monthly_hours']],features['last_evaluation'])
if __name__=='__main__':
main()

来源:https://blog.csdn.net/weixin_39667003/article/details/85632885

Python数据处理实例的更多相关文章

  1. Python 数据处理库pandas教程(最后附上pandas_datareader使用实例)

    0 简单介绍 pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库.本文是对它的一个入门教程. pandas提供了快速,灵活和富有 ...

  2. Python 数据处理库 pandas 入门教程

    Python 数据处理库 pandas 入门教程2018/04/17 · 工具与框架 · Pandas, Python 原文出处: 强波的技术博客 pandas是一个Python语言的软件包,在我们使 ...

  3. Python 数据处理之对 list 数据进行数据重排(为连续的数字序号)

    Python 数据处理之对 list 数据进行数据重排(为连续的数字序号) # user ID 序号重新排,即,原来是 1,3,4,6 ,排为 1,2,3,4 # item ID 序号重新排,too ...

  4. Python数据处理pdf (中文版带书签)、原书代码、数据集

    Python数据处理 前言 xiii第1 章 Python 简介 11.1 为什么选择Python 41.2 开始使用Python 41.2.1 Python 版本选择 51.2.2 安装Python ...

  5. 最全总结 | 聊聊 Python 数据处理全家桶(Sqlite篇)

    1. 前言 上篇文章 聊到 Python 处理 Mysql 数据库最常见的两种方式,本篇文章继续说另外一种比较常用的数据库:Sqlite Sqlite 是一种 嵌入式数据库,数据库就是一个文件,体积很 ...

  6. 最全总结 | 聊聊 Python 数据处理全家桶(Redis篇)

    1. 前言 前面两篇文章聊到了 Python 处理 Mysql.Sqlite 数据库常用方式,本篇文章继续说另外一种比较常用的数据存储方式:Redis Redis:Remote Dictionary ...

  7. 最全总结 | 聊聊 Python 数据处理全家桶(Memcached篇)

    1. 前言 本篇文章继续继续另外一种比较常用的数据存储方式:Memcached Memcached:一款高性能分布式内存对象缓存系统,通过 内存缓存,以减少数据库的读取,从而分担数据库的压力,进而提高 ...

  8. python基础——实例属性和类属性

    python基础——实例属性和类属性 由于Python是动态语言,根据类创建的实例可以任意绑定属性. 给实例绑定属性的方法是通过实例变量,或者通过self变量: class Student(objec ...

  9. python 发送邮件实例

    留言板回复作者邮件提醒 -----------2016-5-11 15:03:58-- source:python发送邮件实例

随机推荐

  1. json 字符串 对象 互转

    json对象,json字符串,不注意的话,很容易忽视混淆.例举几个容易混的情况 1,php将变量放到input框中,通过js去读取出来的是json字符串,要想使用就要将json字段串转成json对象 ...

  2. mybatis 入门学习

    所须要jar包:mybatis-3.x.x.jar .假设须要和spring整合,还须要增加相关的包 1:看项目文件夹 红颜色不要关心 2:依照步骤: 1:增加jar包 2:创建数据源(configu ...

  3. 蓝桥杯 第三届C/C++预赛真题(7) 放棋子(水题)

    今有 6 x 6 的棋盘格.其中某些格子已经预先放好了棋子.现在要再放上去一些,使得:每行每列都正好有3颗棋子.我们希望推算出所有可能的放法.下面的代码就实现了这个功能. 初始数组中,“1”表示放有棋 ...

  4. 对IOS设备中UDID的一些思考

    本文转载至 http://blog.csdn.net/happyrabbit456/article/details/11565209 http://blog.csdn.net/xiaoguan2008 ...

  5. 面试之Java持久层(十)

    91,什么是ORM?         对象关系映射(Object-Relational Mapping,简称ORM)是一种为了解决程序的面向对象模型与数据库的关系模型互不匹配问题的技术: 简单的说,O ...

  6. zookeeper 事务日志与快照日志

    zookeeper日志各类日志简介 zookeeper服务器会产生三类日志:事务日志.快照日志和log4j日志. 在zookeeper默认配置文件zoo.cfg(可以修改文件名)中有一个配置项data ...

  7. 从global到mooncake迁移SQL Azure

    之前遇到了问题,在此备注一下: 因为两个环境基本上可以认为是隔离的,所以迁移过程基本上只有通过导出.导入的方式(也是官方推荐的方式): 1.从global上进行数据库的export操作(扩展名bacp ...

  8. 哈哈哈 迫于c#的语言特性java才加的注解

  9. Setting IE11 with Group Policy Preferences

    一.Setting Home Page with Group Policy Preferences 1.Open the Group Policy Management Console and cre ...

  10. Android 短信箱操作

    package blackice.android.product; import java.sql.Date; import java.text.SimpleDateFormat; import ja ...