预训练的用处:规则化,防止过拟合:压缩数据,去除冗余:强化特征,减小误差:加快收敛速度. 标准的sigmoid输出不具备稀疏性,需要用一些惩罚因子来训练出一大堆接近0的冗余数据来,从而产生稀疏数据,例如L1.L1/L2或Student-t作惩罚因子.因此需要进行无监督的预训练.而ReLU是线性修正,公式为:g(x) = max(0, x),是purelin的折线版.它的作用是如果计算出的值小于0,就让它等于0,否则保持原来的值不变.这是一种简单粗暴地强制某些数据为0的方法,然而经实践证明,训练后