一、几个工具包

【1】pandas(数据分析工具)

https://zhuanlan.zhihu.com/p/33230331

https://zhuanlan.zhihu.com/p/25013519

【2】lightbgm(梯度boosting框架,使用基于学习算法的决策树)

XGBOOST与LightGBM的区别: https://zhuanlan.zhihu.com/p/25308051    https://www.msra.cn/zh-cn/news/features/lightgbm-20170105

XGBOOST/LightGBM/CatBoost: https://www.jiqizhixin.com/articles/2018-03-18-4

二、遇到的问题

1. ['nunique'] 表示有多少个种类

对a来说只有一个种类one,对b来说有两个种类one/two,对c来说有一个种类one。

2. ('_'.join(col))

在两个字符串之间添加连接符 _

3. agg_new_trans.columns.values与agg_new_trans.columns

两者在for迭代取值的时候一样

4. groupby+agg(np.ptp)  群体中最大值和最小值之间的差异

结合 pd.DatetimeIndex

5. 日期相关的类型区别

df['first_active_month'] = pd.to_datetime(df['first_active_month'])  #经过函数 pd.to_datetime,dtype: datetime64[ns]

df['year'] = df['first_active_month'].dt.year (或者.dt.month/.dt.days)int64类型

df['first_active_month'].dt.date #dtype: object  date可以做减法,获取两个日期之间有多少days

6. pandas中.value_counts()的用法

value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。(返回两个结果)
value_counts()是Series拥有的方法,一般在DataFrame中使用时,需要指定对哪一列或行使用

7. LabelEncoder  将Label标准化,用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。

https://blog.csdn.net/u010412858/article/details/78386407

https://blog.csdn.net/quintind/article/details/79850455

8. pd.concat: 使用pd.concat[train,test]时,当train与test有相同的列名称的时候,如feature,会自动区分两个feature,并命名为feature_1与feature_2。

9. set(df['class label']) python中set表示集合,元素只出现一次

list:链表,有序的项目, 通过索引进行查找,使用方括号”[]”;
tuple:元组,元组将多样的对象集合到一起,不能修改,通过索引进行查找, 使用括号”()”;
dict:字典,字典是一组键(key)和值(value)的组合,通过键(key)进行查找,没有顺序, 使用大括号”{}”;
set:集合,无序,元素只出现一次, 自动去重,使用”set([])”

10. pandas使用get_dummies进行one-hot编码

离散特征的编码分为两种情况:

1]、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码

2]、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}

https://blog.csdn.net/lujiandong1/article/details/52836051

11. KFold Stratified k-fold:实现了分层交叉切分

https://blog.csdn.net/FontThrone/article/details/79220127

K折交叉验证:sklearn.model_selection.KFold(n_splits=3, shuffle=False, random_state=None)

思路:将训练/测试数据集划分n_splits个互斥子集,每次用其中一个子集当作验证集,剩下的n_splits-1个作为训练集,进行n_splits次训练和测试,得到n_splits个结果 https://blog.csdn.net/kancy110/article/details/74910185

使用:

FOLDs = KFold(n_splits=5, shuffle=True, random_state=1989)

for fold_, (trn_idx, val_idx) in enumerate(FOLDs.split(train)):

其中: fold_为第几个n_splits的索引,从0开始

随机推荐

  1. Spring MVC自定义消息转换器(可解决Long类型数据传入前端精度丢失的问题)

    1.前言 对于Long 类型的数据,如果我们在Controller层通过@ResponseBody将返回数据自动转换成json时,不做任何处理,而直接传给前端的话,在Long长度大于17位时会出现精度 ...

  2. vs--bookmark用法

    快捷键 Ctrl+K,K 增加/取消书签 Ctrl+K,P 导航到上一个书签 Ctrl+K,N 导航到下一个标签 Ctrl+K,L 取消所有书签

  3. git分支合并概念

    git merge命令用于合并指定分支到当前分支. git merge命令用于合并指定分支到当前分支. git merge命令用于合并指定分支到当前分支. 创建与合并分支 阅读: 931277 在版本 ...

  4. 链接提交-js代码推送进化版

    百度站长平台提供链接索引的自动提交JS脚本已经有一段时日了.用百度自己的话讲:JS链接推送代码以网页为最小对象,服务于全平台多终端,PC站和移动站均可使用.安装代码的页面在任意平台(浏览器.微信.微博 ...

  5. DeepLearning to digit recognizer in kaggle

    DeepLearning to digit recongnizer in kaggle 近期在看deeplearning,于是就找了kaggle上字符识别进行练习.这里我主要用两种工具箱进行求解.并比 ...

  6. WebP 文件及其编码解码工具(WebPconv)

    1. webp 文件 与JPEG相同,WebP 是一种有损压缩利用预测编码技术. WebP 是 Google 新推出的影像技术,它可让网页图档有效进行压缩,同时在质量相同的情况下,WebP 格式图像的 ...

  7. 网络:万维网(WWW)

    ylbtech-网络:万维网(WWW) www (万维网缩写)同义词 万维网一般指www(万维网缩写)WWW是环球信息网的缩写,(亦作“Web”.“WWW”.“'W3'”,英文全称为“World Wi ...

  8. Gym-101158J Cover the Polygon with Your Disk 计算几何 求动圆与多边形最大面积交

    题面 题意:给出小于10个点形成的凸多边形 和一个半径为r 可以移动的圆 求圆心在何处的面积交最大,面积为多少 题解:三分套三分求出圆心位置,再用圆与多边形面积求交 #include<bits/ ...

  9. Codeforces 680D Bear and Tower of Cubes 贪心 DFS

    链接 Codeforces 680D Bear and Tower of Cubes 题意 求一个不超过 \(m\) 的最大体积 \(X\), 每次选一个最大的 \(x\) 使得 \(x^3\) 不超 ...

  10. Tomcat 日志切割

    一.installing 日志轮训工具 yum  install cronolog -y 二.安装.修改tomcat文件 wget  http://mirrors.shuosc.org/apache/ ...