机器学习 xgboost 笔记

一、数据预处理、特征工程

类别变量 labelencoder就够了，使用onehotencoder反而会降低性能。其他处理方式还有均值编码（对于存在大量分类的特征，通过监督学习，生成数值变量）、转换处理（低频分类合并）、特征构造（结合其他数值变量生成新特征）。

二、模型调参

网格调参、随机调参。

模型参数没必要太过于纠结，调参到合适的地步就好了，太过沉迷会导致过拟合。

三、样本划分

一般是对数据集按7:3、8:2、7.5:2.5等划分为训练集和测试集。

更用心一点，把数据集随机划分为k折，以任意一部分为测试集，其余部分为训练集，建立k个模型。分别调参。最后对预测结果求平均值（加权或单纯求平均）。这种思路原理在于每个模型都会存在一定方差，会学到部分特征，通过对多个模型求平均值，可以起到消除误差的作用。

我在sofasofa上，第一个练习题排名25/257。rmse：14.925

代码如下：

# -*- coding: utf-8 -*-
"""
Created on Sat Sep 1 21:20:29 2018
@author: 蚂蚁不在线
从原理上来说，机器学习最靠谱的调参方法就是对训练集进行n折交叉验证。
单纯划分训练集和测试集调参的过程中，不可避免地在训练集上过拟合。
k折交叉划分训练集、测试集。
"""
import pandas as pd
import numpy as np
from xgboost import XGBRegressor
#from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import KFold
from sklearn import metrics

##网格搜索

def gsearcher(f_train,t_train,param_test):
    gs=GridSearchCV(estimator=XGBRegressor(objective='reg:linear',
                                           eval_metric='rmse'),
                    param_grid=param_test,
                    verbose=1,
                    cv=3)
    gs.fit(f_train,t_train)
    gs.score=np.sqrt(abs(gs.best_score_))
    return gs
##随机搜索
def rsearcher(f_train,t_train,param_test):
    rs=RandomizedSearchCV(estimator=XGBRegressor(objective='reg:linear'),
                          param_distributions=param_test,
                          verbose=1,
                          n_iter=100,
                          cv=3,
                          scoring='neg_mean_squared_error')
    rs.fit(f_train,t_train)
    rs.score=np.sqrt(abs(rs.best_score_))
    return rs
#k折交叉验证
def kmodel(train,y_train,param,test):
    result,col,score=pd.DataFrame(),0,[]
    kf = KFold(n_splits=5,shuffle=True,random_state=0)
    model=XGBRegressor(objective='reg:linear',
                       eval_metric='rmse',
                       n_estimators=param['n_estimators'],
                       max_depth=param['max_depth'],
                       learning_rate=param['learning_rate'],
                       subsample=param['subsample'],
                       colsample_bytree=param['colsample_bytree'],
                       min_child_weight=param['min_child_weight'],
                       reg_lambda=param['reg_lambda'],
                       reg_alpha=param['reg_alpha'],
                       gamma=param['gamma']
                       )
    scores=[]
    for train_index , test_index in kf.split(train):
        col+=1
        ktrain=train.iloc[list(train_index),:]
        ktest=train.iloc[list(test_index),:]
        y_ktrain=y_train[list(train_index)]
        y_ktest=y_train[list(test_index)]
        model.fit(ktrain,y_ktrain)
        yp=model.predict(ktest)
        score=np.sqrt(abs(metrics.mean_squared_error(y_ktest,yp)))
        print(score)
        scores.append(score)
        yp=model.predict(test)
        result['result_'+str(col)]=yp
        result['result_'+str(col)]=result['result_'+str(col)].apply(lambda x:0 if x<0 else x)
    result['score']=result.apply(lambda x:x.mean(),axis=1)
    print(sum(scores)/5)
    return result

# 读取数据
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")
submit = pd.read_csv("sample_submit.csv")
# 删除id
train.drop(['id'], axis=1, inplace=True)
test.drop(['id'], axis=1, inplace=True)
# 取出训练集的y
t_train = train.pop('y')
#train,test=data_process(train,test)
param_test={'n_estimators':range(100,120,1),
            'max_depth':range(5,11,1),
            'learning_rate':[0.1+0.01*x for x in range(6)],
            'subsample':[0.7+0.01*x for x in range(11)],
            'colsample_bytree':[0.7+0.01*x for x in range(11)],
            'min_child_weight':range(5,15,1),
            'reg_lambda':range(1,3,2),
            'reg_alpha':range(2,8,1),
            'gamma':range(2,6,1)
            }
rs=rsearcher(train,t_train,param_test)
print('最优参数:',rs.best_params_,rs.score)
with open('log.txt','a+',encoding='utf-8') as f:
    f.write(str(rs.score)+str(rs.best_params_)+'\n')
result=kmodel(train,t_train,rs.best_params_,test)
submit['y']=result['score']
submit.to_csv('submit_0903_1.csv',index=False)

机器学习 xgboost 笔记的更多相关文章

机器学习&数据挖掘笔记_14（GMM-HMM语音识别简单理解）
为了对GMM-HMM在语音识别上的应用有个宏观认识,花了些时间读了下HTK(用htk完成简单的孤立词识别)的部分源码,对该算法总算有了点大概认识,达到了预期我想要的.不得不说,网络上关于语音识别的通俗 ...
机器学习&数据挖掘笔记（常见面试之机器学习算法思想简单梳理）
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 作者:tornadomeet 出处:http://www.cnblogs.com/tornadomeet 前言: 找工作时( ...
[转]机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 转自http://www.cnblogs.com/tornadomeet/p/3395593.html 前言: 找工作时(I ...
Andrew Ng机器学习课程笔记（五）之应用机器学习的建议
Andrew Ng机器学习课程笔记(五)之应用机器学习的建议版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.h ...
Andrew Ng机器学习课程笔记--week1（机器学习介绍及线性回归）
title: Andrew Ng机器学习课程笔记--week1(机器学习介绍及线性回归) tags: 机器学习, 学习笔记 grammar_cjkRuby: true --- 之前看过一遍,但是总是模 ...
Andrew Ng机器学习课程笔记--汇总
笔记总结,各章节主要内容已总结在标题之中 Andrew Ng机器学习课程笔记–week1(机器学习简介&线性回归模型) Andrew Ng机器学习课程笔记--week2(多元线性回归& ...
Andrew 机器学习课程笔记
Andrew 机器学习课程笔记完成 Andrew 的课程结束至今已有一段时间,课程介绍深入浅出,很好的解释了模型的基本原理以及应用.在我看来这是个很好的入门视频,他老人家现在又出了一门 deep l ...
ng机器学习视频笔记（一）——线性回归、代价函数、梯度下降基础
ng机器学习视频笔记(一) --线性回归.代价函数.梯度下降基础 (转载请附上本文链接--linhxx) 一.线性回归线性回归是监督学习中的重要算法,其主要目的在于用一个函数表示一组数据,其中横轴是 ...
ng机器学习视频笔记（二） ——梯度下降算法解释以及求解θ
ng机器学习视频笔记(二) --梯度下降算法解释以及求解θ (转载请附上本文链接--linhxx) 一.解释梯度算法梯度算法公式以及简化的代价函数图,如上图所示. 1)偏导数由上图可知,在a点 ...

随机推荐

SQL Server Management Studio 执行超大脚本文件
SQL Server Management Studio 执行超大脚本文件启动cmd.exe , cd 到C:\Program Files (x86)\Microsoft SQL Server\11 ...
Ubuntu 18.04 LTS 常用软件安装杂记
之前个人笔记本装的是 Linux Mint,用了一段时间但是体验不佳,所以打算换成 Ubuntu .作为一个 Linux 小白,当时配置一些软件环境费了不少时间.这次打算简单记录下,和大家分享一下我的 ...
springAOP实现操作日志记录，并记录请求参数与编辑前后字段的具体改变
本文为博主原创,未经允许不得转载: 在项目开发已经完成多半的情况下,需要开发进行操作日志功能的开发,由于操作的重要性,需要记录下操作前的参数和请求时的参数, 在网上找了很多,没找到可行的方法.由于操作 ...
深入浅出ES6：不定参数和默认参数
不定参数我们通常使用可变参函数来构造API,可变参函数可接受任意数量的参数.例如,String.prototype.concat方法就可以接受任意数量的字符串参数.ES6提供了一种编写可变参函数的新 ...
动态 DP 学习笔记
不得不承认,去年提高组 D2T3 对动态 DP 起到了良好的普及效果. 动态 DP 主要用于解决一类问题.这类问题一般原本都是较为简单的树上 DP 问题,但是被套上了丧心病狂的修改点权的操作.举个例子 ...
Confluence-6.10.0+Jira-7.13+Crowd-3.2.1最全破解文档，附下载包
=========================================2019.4.19更改================================================ ...
python2和python3的range（100）的区别
python2返回列表,python3返回迭代器,节约内存
Kotlin 继承
Kotlin 中所有类都继承该 Any 类,它是所有类的超类,对于没有超类型声明的类是默认超类: class Example // 从 Any 隐式继承 Any 默认提供了三个函数: equals() ...
[转]osgconv工具简介
osgconv是一种用来读取3D数据库以及对它们实施一些简单的操作的实用应用程序,同时也被称作一种专用3D数据库工具. 用osgconv把其他格式的文件转换为OSG所支持的格式 osgconv是一种 ...
解决Git Revert操作后再次Merge代码被冲掉的问题
转:https://blog.csdn.net/paul_wei2008/article/details/77477932 https://blog.csdn.net/cxn945/article/d ...

机器学习 xgboost 笔记

机器学习 xgboost 笔记的更多相关文章

随机推荐

热门专题