【集成学习】lightgbm使用案例

github地址

  1 #!/usr/bin/env python2

  2 # -*- coding: utf-8 -*-

  3 """

  4 Created on Sat Mar 31 21:19:09 2018

  5

  6 @author: hello4720

  7 """

  8 import numpy as np

  9 import pandas as pd

 10 import lightgbm as lgb

 11 from sklearn import metrics

 12 from sklearn.model_selection import train_test_split

 13

 14 ### 读取数据

 15 print("载入数据")

 16 dataset1 = pd.read_csv('G:/ML/ML_match/IJCAI/data3.22/3.22ICJAI/data/7_train_data1.csv')

 17 dataset2 = pd.read_csv('G:/ML/ML_match/IJCAI/data3.22/3.22ICJAI/data/7_train_data2.csv')

 18 dataset3 = pd.read_csv('G:/ML/ML_match/IJCAI/data3.22/3.22ICJAI/data/7_train_data3.csv')

 19 dataset4 = pd.read_csv('G:/ML/ML_match/IJCAI/data3.22/3.22ICJAI/data/7_train_data4.csv')

 20 dataset5 = pd.read_csv('G:/ML/ML_match/IJCAI/data3.22/3.22ICJAI/data/7_train_data5.csv')

 21

 22 dataset1.drop_duplicates(inplace=True)

 23 dataset2.drop_duplicates(inplace=True)

 24 dataset3.drop_duplicates(inplace=True)

 25 dataset4.drop_duplicates(inplace=True)

 26 dataset5.drop_duplicates(inplace=True)

 27

 28 ### 数据合并

 29 print("数据合并")

 30 trains = pd.concat([dataset1,dataset2],axis=0)

 31 trains = pd.concat([trains,dataset3],axis=0)

 32 trains = pd.concat([trains,dataset4],axis=0)

 33

 34 online_test = dataset5

 35

 36 ### 数据拆分

 37 print("数据拆分")

 38 train_xy,offline_test = train_test_split(trains, test_size = 0.2,random_state=21)

 39 train,val = train_test_split(train_xy, test_size = 0.2,random_state=21)

 40

 41 print("训练集")

 42 y = train.is_trade                                                  # 训练集标签

 43 X = train.drop(['instance_id','is_trade'],axis=1)                   # 训练集特征矩阵

 44

 45 print("验证集")

 46 val_y = val.is_trade                                                # 验证集标签

 47 val_X = val.drop(['instance_id','is_trade'],axis=1)                 # 验证集特征矩阵

 48

 49 print("测试集")

 50 offline_test_X=offline_test.drop(['instance_id','is_trade'],axis=1) # 线下测试特征矩阵

 51 online_test_X=online_test.drop(['instance_id'],axis=1)              # 线上测试特征矩阵

 52

 53 ### 数据转换

 54 lgb_train = lgb.Dataset(X, y, free_raw_data=False)

 55 lgb_eval = lgb.Dataset(val_X, val_y, reference=lgb_train,free_raw_data=False)

 56

 57 ### 开始训练

 58 print('设置参数')

 59 params = {

 60             'boosting_type': 'gbdt',

 61             'boosting': 'dart',

 62             'objective': 'binary',

 63             'metric': 'binary_logloss',

 64

 65             'learning_rate': 0.01,

 66             'num_leaves':25,

 67             'max_depth':3,

 68

 69             'max_bin':10,

 70             'min_data_in_leaf':8,

 71

 72             'feature_fraction': 0.6,

 73             'bagging_fraction': 1,

 74             'bagging_freq':0,

 75

 76             'lambda_l1': 0,

 77             'lambda_l2': 0,

 78             'min_split_gain': 0

 79 }

 80

 81 print("开始训练")

 82 gbm = lgb.train(params,                     # 参数字典

 83                 lgb_train,                  # 训练集

 84                 num_boost_round=2000,       # 迭代次数

 85                 valid_sets=lgb_eval,        # 验证集

 86                 early_stopping_rounds=30)   # 早停系数

 87 ### 线下预测

 88 print ("线下预测")

 89 preds_offline = gbm.predict(offline_test_X, num_iteration=gbm.best_iteration) # 输出概率

 90 offline=offline_test[['instance_id','is_trade']]

 91 offline['preds']=preds_offline

 92 offline.is_trade = offline['is_trade'].astype(np.float64)

 93 print('log_loss', metrics.log_loss(offline.is_trade, offline.preds))

 94

 95 ### 线上预测

 96 print("线上预测")

 97 preds_online =  gbm.predict(online_test_X, num_iteration=gbm.best_iteration)  # 输出概率

 98 online=online_test[['instance_id']]

 99 online['preds']=preds_online

100 online.rename(columns={'preds':'predicted_score'},inplace=True)

101 online.to_csv("./data/20180405.txt",index=None,sep=' ')

102

103 ### 保存模型

104 from sklearn.externals import joblib

105 joblib.dump(gbm,'gbm.pkl')

106

107 ### 特征选择

108 df = pd.DataFrame(X.columns.tolist(), columns=['feature'])

109 df['importance']=list(gbm.feature_importance())

110 df = df.sort_values(by='importance',ascending=False)

111 df.to_csv("./data/feature_score_20180405.csv",index=None,encoding='gbk')

【集成学习】lightgbm使用案例的更多相关文章

笔记︱集成学习Ensemble Learning与树模型、Bagging 和 Boosting
本杂记摘录自文章<开发 | 为什么说集成学习模型是金融风控新的杀手锏?> 基本内容与分类见上述思维导图. . . 一.机器学习元算法随机森林:决策树+bagging=随机森林梯度提升树 ...
使用sklearn进行集成学习——实践
系列 <使用sklearn进行集成学习——理论> <使用sklearn进行集成学习——实践> 目录 1 Random Forest和Gradient Tree Boosting ...
[转]使用sklearn进行集成学习——实践
转:http://www.cnblogs.com/jasonfreak/p/5720137.html 目录 1 Random Forest和Gradient Tree Boosting参数详解2 如何 ...
集成学习之Boosting —— AdaBoost原理
集成学习大致可分为两大类:Bagging和Boosting.Bagging一般使用强学习器,其个体学习器之间不存在强依赖关系,容易并行.Boosting则使用弱分类器,其个体学习器之间存在强依赖关系, ...
集成学习算法汇总----Boosting和Bagging（推荐AAA）
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
集成学习二: Boosting
目录集成学习二: Boosting 引言 Adaboost Adaboost 算法前向分步算法前向分步算法 Boosting Tree 回归树提升回归树 Gradient Boosting 参 ...
6. 集成学习（Ensemble Learning）算法比较
1. 集成学习(Ensemble Learning)原理 2. 集成学习(Ensemble Learning)Bagging 3. 集成学习(Ensemble Learning)随机森林(Random ...
3. 集成学习（Ensemble Learning）随机森林（Random Forest）
1. 集成学习(Ensemble Learning)原理 2. 集成学习(Ensemble Learning)Bagging 3. 集成学习(Ensemble Learning)随机森林(Random ...
集成学习之Boosting —— XGBoost
集成学习之Boosting -- AdaBoost 集成学习之Boosting -- Gradient Boosting 集成学习之Boosting -- XGBoost Gradient Boost ...
集成学习之Boosting —— Gradient Boosting原理
集成学习之Boosting -- AdaBoost原理集成学习之Boosting -- AdaBoost实现集成学习之Boosting -- Gradient Boosting原理集成学习之Bo ...

随机推荐

brpc编译运行
自百度开源brpc后就一直在关注,看了下brpc都源码,感觉大牛写的果然不一样,由于之前我做c++游戏服务器开发,所以主要看了下网络底层代码,收益颇多,果然一天不学习就要落伍. 现在主要和大家说下我编 ...
JavaScript高级程序设计-读书笔记（2）
第6章面向对象的程序设计创建对象 1.最简单方式创建Object的实例,如 var person = new Object(); person.name = “Greg”; person.age ...
jqueryUI之datepicker日历插件的介绍和使用
jQuery UI很强大,其中的日期选择插件Datepicker是一个配置灵活的插件.我们可以自定义其展示方式,包括日期格式.语言.限制选择日期范围.添加相关按钮以及其它导航等.
【三小时学会Kubernetes！（零）】系统结构及相关示例微服务介绍
写在前面牢牢占据容器技术统治地位的 Kubernetes,其重要性想必不言而喻,我保证本文是最详尽的 Kubernetes 技术文档,从我在后台排版了这么漫长的时间就能看出来.废话不多说 — — 以 ...
算法总结1：K-邻近算法
1. 算法原理: K-邻近算法的原理很简单,就是用你的“邻居”来推断出你的类别.用于离散型数据分析处理. 例子1:如下图有ABCD四个用于参考的样本点,都已知晓自己的坐标位置,这时E来了,不清楚自己的 ...
15.并发容器之ConcurrentLinkedQueue
1.ConcurrentLinkedQueue简介在单线程编程中我们会经常用到一些集合类,比如ArrayList,HashMap等,但是这些类都不是线程安全的类.在面试中也经常会有一些考点,比如Ar ...
[nodejs]解决mysql和连接池(pool)自动断开问题
最近在做一个个人项目,数据库尝试使用了mongodb.sqlite和mysql.分享一下关于mysql的连接池用法.项目部署于appfog,项目中我使用连接池链接数据库,本地测试一切正常.上线以后,经 ...
获取代理服务器ip列表的方法
开源项目:https://github.com/SpiderClub/haipproxy,看爬代理的网址列表应该是最多的. CRAWLER_TASKS = [ { 'name': 'mogumiao. ...
适配器模式（Adapter Pattern）/包装器
将一个类的接口转换成客户希望的另外一个接口.Adapter模式使得原本由于接口不兼容而不能一起工作的那些类可以在一起工作. 模式中的角色目标接口(Target):客户所期待的接口.目标可以是具体的或 ...
【zznu-夏季队内积分赛3-G】2333
题目描述 “别人总说我瓜,其实我一点也不瓜,大多数时候我都机智的一批“ 宝儿姐考察你一道很简单的题目.给你一个数字串,你能判断有多少个连续子串能整除3吗? 输入多实例输入,以EOF结尾,每行一个数字 ...

【集成学习】lightgbm使用案例

【集成学习】lightgbm使用案例的更多相关文章

随机推荐

热门专题