当函数空间覆盖到目标函数时,如何通过优化调整神经网络的参数找到这个目标函数呢? 深度学习中的损失函数是非凸的,非凸优化是个NP-hard问题,如何通过梯度下降来解决这个问题呢? 注意,不同于learning,这里只讨论基于训练集的optimization问题,不考虑在测试集上的表现. 0 为什么说深度学习中的损失函数是非凸的? 对一个神经网络来说至少存在指数级个数的全局最小值,因为你将某一层的神经元重新排列后并不改变损失函数值. 如图0-1所示,线性加权这2组参数所得的loss值不见得变小,说明…