[1] first day
一、几个工具包
【1】pandas(数据分析工具)
https://zhuanlan.zhihu.com/p/33230331
https://zhuanlan.zhihu.com/p/25013519
【2】lightbgm(梯度boosting框架,使用基于学习算法的决策树)
XGBOOST与LightGBM的区别: https://zhuanlan.zhihu.com/p/25308051 https://www.msra.cn/zh-cn/news/features/lightgbm-20170105
XGBOOST/LightGBM/CatBoost: https://www.jiqizhixin.com/articles/2018-03-18-4
二、遇到的问题
1. ['nunique'] 表示有多少个种类
对a来说只有一个种类one,对b来说有两个种类one/two,对c来说有一个种类one。
2. ('_'.join(col))
在两个字符串之间添加连接符 _
3. agg_new_trans.columns.values与agg_new_trans.columns
两者在for迭代取值的时候一样
4. groupby+agg(np.ptp) 群体中最大值和最小值之间的差异
结合 pd.DatetimeIndex
5. 日期相关的类型区别
df['first_active_month'] = pd.to_datetime(df['first_active_month']) #经过函数 pd.to_datetime,dtype: datetime64[ns]
df['year'] = df['first_active_month'].dt.year (或者.dt.month/.dt.days)int64类型
df['first_active_month'].dt.date #dtype: object date可以做减法,获取两个日期之间有多少days
6. pandas中.value_counts()的用法
value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。(返回两个结果)
value_counts()是Series拥有的方法,一般在DataFrame中使用时,需要指定对哪一列或行使用
7. LabelEncoder 将Label标准化,用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。
https://blog.csdn.net/u010412858/article/details/78386407
https://blog.csdn.net/quintind/article/details/79850455
8. pd.concat: 使用pd.concat[train,test]时,当train与test有相同的列名称的时候,如feature,会自动区分两个feature,并命名为feature_1与feature_2。
9. set(df['class label']) python中set表示集合,元素只出现一次
list:链表,有序的项目, 通过索引进行查找,使用方括号”[]”;
tuple:元组,元组将多样的对象集合到一起,不能修改,通过索引进行查找, 使用括号”()”;
dict:字典,字典是一组键(key)和值(value)的组合,通过键(key)进行查找,没有顺序, 使用大括号”{}”;
set:集合,无序,元素只出现一次, 自动去重,使用”set([])”
10. pandas使用get_dummies进行one-hot编码
离散特征的编码分为两种情况:
1]、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码
2]、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}
https://blog.csdn.net/lujiandong1/article/details/52836051
11. KFold Stratified k-fold:实现了分层交叉切分
https://blog.csdn.net/FontThrone/article/details/79220127
K折交叉验证:sklearn.model_selection.KFold(n_splits=3, shuffle=False, random_state=None)
思路:将训练/测试数据集划分n_splits个互斥子集,每次用其中一个子集当作验证集,剩下的n_splits-1个作为训练集,进行n_splits次训练和测试,得到n_splits个结果 https://blog.csdn.net/kancy110/article/details/74910185
使用:
FOLDs = KFold(n_splits=5, shuffle=True, random_state=1989)
for fold_, (trn_idx, val_idx) in enumerate(FOLDs.split(train)):
其中: fold_为第几个n_splits的索引,从0开始
随机推荐
- ThreadPoolExecutor源码分析(一)
一.前言 闲来无事,博主有重新翻看了一下jdk1.8版的ThreadPoolExecutor源码,看后写此笔记,画个圈圈,做个记录,这段源码,我看过,到处一游,嘻嘻~~ 二.ThreadPoolExe ...
- HDU 1599
裸的FLOYD 求最小环. #include <iostream> #include <cstdio> using namespace std; ; ; int n,m,min ...
- uva 10479(找规律+递归)
题意:有一个初始序列第一个数字是0. 规律是把前一次推出来的每个数字x.先接x个0,然后接x+1. 0 –> 1 –> 02 –> 1003 –> 02110004 那么这个序 ...
- 使用enca进行字符集转码
在linux进行开发与运维的时候,我们常常遇到字符编码的问题,系统字符设置.vimrc fileencoding设置.终端设置往往搞的晕头转向,当一个文件出现乱码的时候,我们通常不能识别它是什么编码的 ...
- linux下怎样将sheduler绑定到制定的cpu核上
作者:张昌昌 1.顺序绑定 erl +sbt db 是按从前到后的顺序来绑定调度器的,如: erl +sbt db +S 3含义是启动erlang虚拟机,开启3个调度器,按顺序绑定在0,1.2号核 ...
- iOS10 推送通知详解(UserNotifications)
iOS10新增加了一个UserNotificationKit(用户通知框架)来整合通知相关的API,UserNotificationKit框架增加了很多令人惊喜的特性: 更加丰富的推送内容:现在可以设 ...
- RBF网络——核心思想:把向量从低维m映射到高维P,低维线性不可分的情况到高维就线性可分了
RBF网络能够逼近任意的非线性函数,可以处理系统内的难以解析的规律性,具有良好的泛化能力,并有很快的学习收敛速度,已成功应用于非线性函数逼近.时间序列分析.数据分类.模式识别.信息处理.图像处理. ...
- Chrome 行情抓取插件
Chrome 行情抓取插件 上班想偷偷摸摸看行情?自己动手写插件啊,尝试写了一个,新建文件夹,命名为StockMonitor,放入文件如下: 3个.png图标文件,19X19.48X48.128X12 ...
- Codeforces Round #446
Greed #include<stdio.h> #include<string.h> #include<stdlib.h> #include<vector&g ...
- Java基础6一面向对象
面向对象的编程思想:是以事物的整体的为基本单位,从事物的属性和行为两个方面进行描述. 特点: Java来源于生活服务于生活 用面向对象的思想能够接近正常的思维方式. 面向对象语言中有设计模式一说. 在 ...