机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)

【机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)】的更多相关文章

机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)

函数说明: 1. .hist 对于Dataframe格式的数据,我们可以使用.hist直接画出直方图对于一些像年龄和工资一样的连续数据,我们可以对其进行分段标记处理,使得这些连续的数据变成离散化就好比:我们可以将0-9岁用0表示 10-19用1表示 20-29用2表示 ... 下面我们对一个年龄数据进行了分段标记处理代码: 第一步:导入数据第二步:对年龄特征使用.hist画出直方图,直方图本身也是一个分段的过程第三步:使用np.floor(/10)取整,将比如5岁的年龄计算后为0 第四…

机器学习入门-数值特征-对数据进行log变化

对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布进行log变化,就是对数据使用np.log(data+1) 加上1的目的是为了防止数据等于0,而不能进行log变化代码: 第一步:导入数据第二步:对收入特征做直方图,同时标出中位数所在的位置,即均值第三步:对收入特征做log变化,使用np.log(data+1) 第四步:对log收入特征做直方图,标出中位数线的位置,即均值…

机器学习入门-数值特征-数据四分位特征 1.quantile(用于求给定分数位的数值) 2.plt.axvline(用于画出竖线) 3.pd.pcut(对特征进行分位数切分，生成新的特征)

函数说明: 1. .quantile(cut_list) 对DataFrame类型直接使用,用于求出给定列表中分数的数值,这里用来求出4分位出的数值 2. plt.axvline() # 用于画出图形中的竖线 3. pd.qcut(feature, cut_list, labels) 用于对特征进行切分,cut_list切分的分数位置,labels切分后新的标签值我们可以根据某个特征的四分位数值,给定这个特征一个新的四分位数值的特征四分位表示的是数值的中位数,1/4位和3/4位比…

机器学习入门-数值特征-数字映射和one-hot编码 1.LabelEncoder(进行数据自编码) 2.map(进行字典的数字编码映射) 3.OnehotEncoder(进行one-hot编码) 4.pd.get_dummies(直接对特征进行one-hot编码)

1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码,输入的参数必须是二维的,因此需要做reshape,同时使用toarray() 转换为列表形式 3 pd.get_dummies(feature,drop_first=False) 如果填单个特征的话,只对一个特征做one-hot编码映射, drop_first表示去除one-hot编码后的第一列…

机器学习入门-数值特征-进行二值化变化 1.Binarizer(进行数据的二值化操作)

函数说明: 1. Binarizer(threshold=0.9) 将数据进行二值化,threshold表示大于0.9的数据为1,小于0.9的数据为0 对于一些数值型的特征:存在0还有其他的一些数二值化指的是:将大于0的特征使用1表示,将等于0的特征还是用0表示对于二值化操作:使用两种方法第一种方法: 求出大于等于1的索引值,令这些索引值对应的数值等于1,然后重新构建列第二种方法: 使用Binarizer(threshold=0.9) 表示大于0.9的数据使用1表示这里传入的参数需要是…

机器学习入门-数值特征-进行多项式变化(将特征投影到高维度上) 1.PolynomialFeatures(将数据变化为多项式特征)

函数说明: 1. PolynomialFeatures(degree=2, interaction_only=False, include_bias=False) 参数说明:degree=2,表示多项式的变化维度为2,即^2, interaction_only表示是否只使用a*b, include_bias是否添加一列全部等于1的偏置项对数据进行多项式变化,将两个特征a, b如果是进行^2多项式变化操作,那么就相当于多出来了3个特征即a^2, a*b, b^2 一般我们在使用支持向量机的时候,…

机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)

函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题参数说明:n_topics 表示分为多少个主题, max_iters表示最大的迭代次数, random_state 表示随机种子 2. LDA.components_ 打印输入特征的权重参数, LDA主题模型:可以用于做分类,好比如果是两个主题的话,那就相当于是分成了两类,同时我们也可以找出根据主题词的权重值,来找出一些主题的关键词使用sklearn导入库…

机器学习入门09 - 特征组合 (Feature Crosses)

原文链接:https://developers.google.com/machine-learning/crash-course/feature-crosses/ 特征组合是指两个或多个特征相乘形成的合成特征.特征的相乘组合可以提供超出这些特征单独能够提供的预测能力. 1- 对非线性规律进行编码特征组合是指通过将两个或多个输入特征相乘来对特征空间中的非线性规律进行编码的合成特征.通过创建一个特征组合可以解决非线性问题. 特征组合的种类可以创建很多不同种类的特征组合.例如: [A X B]:将…

机器学习入门-文本特征-word2vec词向量模型 1.word2vec（进行word2vec映射编码）2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)

函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample) 参数说明:corpus_token已经进行切分的列表数据,数据格式是list of list , size表示的是特征向量的维度,即映射的维度, min_count表示最小的计数词,如果小于这个数的词,将不进行统计,…

机器学习入门 - Google机器学习速成课程 - 笔记汇总

机器学习入门 - Google机器学习速成课程 https://www.cnblogs.com/anliven/p/6107783.html MLCC简介前提条件和准备工作完成课程的下一步机器学习入门01 - 框架处理(Framing) https://www.cnblogs.com/anliven/p/10252938.html 机器学习基本术语. 了解机器学习的各种用途. 机器学习入门02 - 深入了解机器学习 (Descending into ML) https://www.cnbl…