BP算法很难调试,一般情况下会隐隐存在一些小问题,比如(off-by-one error),即只有部分层的权重得到训练,或者忘记计算bais unit,这虽然会得到一个正确的结果,但效果差于准确BP得到的结果. 有了cost function,目标是求出一组参数W,b,这里以表示,cost function 暂且记做.假设 ,则 ,即一维情况下的Gradient Descent: 根据6.2中对单个参数单个样本的求导公式: 可以得到每个参数的偏导数,对所有样本累计求和,可以得到所有训练数据对参数…