gain 基尼系数】的更多相关文章

转至:http://blog.csdn.net/bitcarmanlee/article/details/51488204 在信息论与概率统计学中,熵(entropy)是一个很重要的概念.在机器学习与特征工程中,熵的概念也用得灰常多.今天就把跟熵有关的东东稍微整理一下,权当笔记. 1.信息熵 熵是神马东东?信息论的开山祖师爷Shannon(中文翻译过来一般叫香农,总觉得很多文字经过翻译就不对劲,就跟人家老外翻译贱人就是矫情一样,感觉怪怪的.所以咱们还是用英文了,偷偷装个小逼)明确告诉我们,信息的…
1.bootstrap   在原始数据的范围内作有放回的再抽样M个, 样本容量仍为n,原始数据中每个观察单位每次被抽到的概率相等, 为1/n , 所得样本称为Bootstrap样本.于是可得到参数θ的一个估计值θ^(b),这样重复若干次,记为B .为了可以避免一些误差点对少量树的决策影响. 2.决策树 : 信息熵: Ent(D) = - ΣPk*logPk, Ent(D)的值越小,则D的纯度越高           信息增益: ID3中使用, 存在过拟合的情况, 避免过拟合的方法,1. 通过si…
Knowledge Discovery in Databases (KDD) is an active and important research area with the promise for a high payoff in many business and scientific applications. One of the main tasks in KDD is classification. A particular efficient method for classif…
High Performance My SQL, Third Edition Date and Time Types My SQL has many types for various kinds of date and time values, such as YEAR andDATE. The finest granularity of time My SQL can store is one second. (Maria DB hasmicrosecond-granularity temp…
(一)一个基本概念 分贝(dB):按照对数定义的一个幅度单位.对于电压值,dB以20log(VA/VB)给出:对于功率值,以10log(PA/PB)给出.dBc是相对于一个载波信号的dB值:dBm是相对于1mW的dB值.对于dBm而言,规格中的负载电阻必须是已知的(如:1mW提供给50Ω),以确定等效的电压或电流值. (二)静态指标定义 1.量化误差(Quantization Error) 量化误差是基本误差,用简单3bit ADC来说明.输入电压被数字化,以8个离散电平来划分,分别由代码000…
信息熵与信息增益(IE, Information Entropy; IG, Information Gain) 信息增益是机器学习中特征选择的关键指标,而学习信息增益前,需要先了解信息熵和条件熵这两个重要概念. 信息熵(信息量) 信息熵的意思就是一个变量i(就是这里的类别)可能的变化越多(只和值的种类多少以及发生概率有关,反而跟变量具体的取值没有任何关系),它携带的信息量就越大(因为是相加累计),这里就是类别变量i的信息熵越大. 系统越是有序,信息熵就越低:反之,一个系统越乱,信息熵就越高.所以…
https://zh.wikipedia.org/wiki/%E5%88%86%E8%B2%9D 分贝(decibel)是量度两个相同单位之数量比例的单位,主要用于度量声音强度,常用dB表示. “分”(deci-)指十分之一,个位是“贝”或“贝尔”(bel),但一般只采用分贝. 分贝(dB)是十分之一贝尔(B): 1B = 10dB. 功率量 考虑功率或者强度(intensity)时, 其比值可以表示为分贝,这是通过把测量值与参考量值之比计算基于10的对数,再乘以10. 因此功率值P1与另一个功…
20世纪初意大利经济学家基尼,于1922年提出的定量测定收入分配差异程度的指标.它是根据洛伦茨曲线找出了判断分配平等程度的指标(如下图). 设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B.并以A除以A+B的商表示不平等程度.这个数值被称为基尼系数或称洛伦茨系数.如果A为零,基尼系数为零,表示收入分配完全平等:如果B为零则系数为1,收入分配绝对不平等.该系数可在零和1之间取任何值.收入分配越是趋向平等,洛伦茨曲线的弧度越小,基尼系数也越小,反之,收入分配越…
当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设.在这种情况下,概率分布最均匀,预测的风险最小.因为这时概率分布的信息熵最大,所以称之为“最大熵法”.最大熵法在数学形式上很漂亮,但是实现起来比较复杂,但把它运用于金融领域的诱惑也比较大,比如说决定股票涨落的因素可能有几十甚至上百种,而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型. 这里我们先不讨论算法(这里用的是ID3/C4.5),把一棵决策树建立起来再说.我们要建立的决…
assuming that you're using xgboost to fit boosted trees for binary classification. The importance matrix is actually a data.table object with the first column listing the names of all the features actually used in the boosted trees. The meaning of th…