前向网络:无反馈 feedback 连接 [输出单元] 线性 -- 高斯分布 . sigmoid单元 -- bernoulli输出. softmax单元 -- multinoulli [隐藏单元] 整流线型单元: relu,不可微,但是在梯度下降中的表现依然很好.原因是只要接近局部最小值即可,不需要达到. 优势:二阶导数几乎处处为0,也就是梯度更加有用! 缺陷:如果为0,那么就不能基于梯度的方法学习,因此需要拓展. 拓展:在小于0时使用一个非零的斜率: 绝对值整流:固定为1 渗透整流: Leak