我们在很多Gradient Boost相关的论文及分析文章中都可以看到下面的公式: 但是,对这个公式的理解,我一直也是一知半解,最近,终于下决心对其进行了深入理解. 步骤1:可以看作优化目标的损失函数: 步骤2:代表需要学习1~M个模型: 步骤3:将前m-1个模型的组合F(X)代入损失函数L(y_i, F(X)),并对F(X)求导,求得梯度向量表达式:举例说明,如果损失函数是,则对F(X)求导,得到,当i从1取到N时,得到梯度方向的向量: 步骤4:得到梯度向量之后,我们需要的是梯度向量方向上的新…