大家好~我开设了“深度学习基础班”的线上课程，带领同学从0开始学习全连接和卷积神经网络，进行数学推导，并且实现可以运行的Demo程序

线上课程资料：

本节课录像回放1

本节课录像回放2

加QQ群，获得ppt等资料，与群主交流讨论：106047770

本系列文章为线上课程的复盘，每上完一节课就会同步发布对应的文章

本文为第二节课：“判断性别”Demo需求分析和初步设计（下2）的复盘文章

本课程系列文章可进入索引查看：

深度学习基础课系列文章索引

回顾相关课程内容
主问题：如何求梯度
任务：根据梯度下降算法实现训练
任务：改进训练，使其收敛
总结
参考资料

回顾相关课程内容

第二节课：“判断性别”Demo需求分析和初步设计（下1）
- 为什么引入损失函数？
- 损失函数的表达式是什么？
- 有了损失函数，如何具体判断得到一组权重、偏移是合适的呢？
- 什么是随机梯度下降？
- 更新权重、偏移的梯度下降公式是什么？

主问题：如何求梯度

对于“判断性别”的Demo，可以是什么函数？

答：
如何求\(\frac{dE}{dw_{53}}\)？

答：

参考上面的公式，可知：
如何求\(\frac{dE}{db_{5}}\)？

答：与上面类似
如何求\(\frac{dE}{dw_{31}}\)？

答：

任务：根据梯度下降算法实现训练

标签、特征是什么？

标签是我们要预测的事物，即男/女；

特征是输入变量，即身高和体重；
已知4个有标签样本（同时包含特征和标签）用于训练，2个无标签样本用于推理
请根据梯度下降算法，实现NeuralNetwork_train的train函数？
- 如何判断是否达到了希望的结果（即收敛）？
  
  答：打印损失函数返回的误差loss，如果小于0.1，则收敛
- 如何实现？
  
  答：答案：NeuralNetwork_train_answer
请运行程序
- 有什么问题？
  
  第一轮开始的loss就无限大

任务：改进训练，使其收敛

请找出loss无限大的原因？

答：输出(y5)太大
应该如何改进？

答：改进激活函数，使用sigmoid替代线性函数：

它的导数为：
修改代码，运行结果？

答：修改后的相关代码为：

let _activateFunc = x => {

  1. /. (1. +. Js.Math.exp(-.x))

}

let _deriv_Sigmoid = x => {

  let fx = _activateFunc(x)

  fx *. (1. -. fx)

}

修改后的完整代码为：NeuralNetwork_train_fix_activate_answer

运行结果：loss一直不变

（补充：完整代码有bug：Neural_forward_answer->_activateFunc应该使用sigmoid函数。修改后的完整代码为：NeuralNetwork_train_fix_activate_answer_fix。修改后的运行结果是loss会先下降到0.25然后就不变了，而不是一直不变）

为什么loss一直不变？

答：输入太大->隐藏层的激活函数的导数为0->梯度为0->loss不变
应该如何改进？

答：将样本零均值化
修改代码，运行结果？

答：修改后的相关代码为：

let _mean = values => {

  values->ArraySt.reduceOneParam((. sum, value) => {

    sum +. value

  }, 0.) /. ArraySt.length(values)->Obj.magic

}

let _zeroMean = features => {

  let weightMean = features->ArraySt.map(feature => feature.weight)->_mean->Js.Math.floor->Obj.magic

  let heightMean = features->ArraySt.map(feature => feature.height)->_mean->Js.Math.floor->Obj.magic

  features->ArraySt.map(feature => {

    weight: feature.weight -. weightMean,

    height: feature.height -. heightMean,

  })

}

let features = features->_zeroMean

let state = state->train(features, labels)

let featuresForInference = [

  {

    weight: 89.,

    height: 190.,

  },

  {

    weight: 60.,

    height: 155.,

  },

]

featuresForInference->_zeroMean->Js.Array.forEach(feature => {

  inference(state, feature)->Js.log

}, _)

这里的内容是错误的，可忽略

运行结果：loss可能会逐渐增大

为什么会出现loss逐渐增大的情况？

答：学习率太大

如下图所示：

因为步长过大，可能会跨过谷底
如何解决？

答：有两个方法：

减小学习率，增加轮数；

使用优化算法动态调整学习率。

这里使用前者
修改代码，运行结果？

答：修改后的相关代码为：

let train = (state: state, features: array<feature>, labels: array<label>): state => {

  //let learnRate = 0.1

  //let epochs = 1000

  let learnRate = 0.001

  let epochs = 100000

...

修改后的完整代码为：NeuralNetwork_train_fix_zeroMean_answer

运行结果：大部分情况下loss会收敛

（补充：完整代码仍然有同样的bug：Neural_forward_answer->_activateFunc应该使用sigmoid函数。修改后的完整代码为：NeuralNetwork_train_fix_zeroMean_answer_fix。修改后的运行结果是loss基本上都会收敛，所以基本上不会出现“loss可能会逐渐增大”的情况，所以就不需要“减小学习率，增加轮数；”）

总结

请回答所有主问题？
如何根据梯度下降算法实现训练代码？
会出现什么问题？如何解决？

参考资料

深度学习基础课：“判断性别”Demo需求分析和初步设计（下2）的更多相关文章

“判断性别”Demo需求分析和初步设计（中）
大家好~我开设了"深度学习基础班"的线上课程,带领同学从0开始学习全连接和卷积神经网络,进行数学推导,并且实现可以运行的Demo程序线上课程资料: 本节课录像回放加QQ群,获得 ...
基于深度学习的人脸性别识别系统（含UI界面，Python代码）
摘要:人脸性别识别是人脸识别领域的一个热门方向,本文详细介绍基于深度学习的人脸性别识别系统,在介绍算法原理的同时,给出Python的实现代码以及PyQt的UI界面.在界面中可以选择人脸图片.视频进行检 ...
【神经网络与深度学习】【CUDA开发】caffe-windows win32下的编译尝试
[神经网络与深度学习][CUDA开发]caffe-windows win32下的编译尝试标签:[神经网络与深度学习] [CUDA开发] 主要是在开发Qt的应用程序时,需要的是有一个使用的库文件也只是 ...
[OpenCV实战]1 基于深度学习识别人脸性别和年龄
目录 1基于CNN的性别分类建模原理 1.1 人脸识别 1.2 性别预测 1.3 年龄预测 1.4 结果 2 代码参考本教程中,我们将讨论应用于面部的深层学习的有趣应用.我们将估计年龄,并从单个图 ...
【课程学习】课程2：十行代码高效完成深度学习POC
本文用户记录黄埔学院学习的心得,并补充一些内容. 课程2:十行代码高效完成深度学习POC,主讲人为百度深度学习技术平台部:陈泽裕老师. 因为我是CV方向的,所以内容会往CV方向调整一下,有所筛检. 课 ...
深度学习与CV教程(2) | 图像分类与机器学习基础
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
深度学习与CV教程(8) | 常见深度学习框架介绍
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
深度学习与CV教程(12) | 目标检测 (两阶段,R-CNN系列)
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
paper 53 ：深度学习（转载）
转载来源:http://blog.csdn.net/fengbingchun/article/details/50087005 这篇文章主要是为了对深度学习(DeepLearning)有个初步了解,算 ...
深度学习与CV教程(4) | 神经网络与反向传播
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...

随机推荐

JSX 代码是如何“摇身一变”成为 DOM 的？
JSX 是一种语法,并不是 React 中的内容,时下接入 JSX 语法的框架越来越多,但与之缘分最深的仍然是 React.本节来讲一下 React 是如何摇身一变成为 DOM 的. 我们平时在写Re ...
[NOI online2022普及B] 数学游戏
题目描述 Kri 喜欢玩数字游戏. 一天,他在草稿纸上写下了 \(t\) 对正整数 \((x,y)\),并对于每一对正整数计算出了 \(z=x\times y\times\gcd(x,y)\). 可是 ...
Microsoft Edge 分屏推荐
前言: 很早之前就在 Edge Dev 频道的更新公告中看到过 Edge 的新分屏功能,当时没怎么注意,昨天看文档的时候发现 Edge 的侧边栏可以拖动当作一个"虚假的"分屏页面来 ...
leetcode:354 俄罗斯套娃信封问题(LIS)
解题思路: 根据题意,不难发现组合的元素,他们的长宽都是单调递增的,因此可以转化为最长上升子序列问题. 首先按照长度从小到大对信封进行排序,长度相同,按照宽度从大到小进行排序.因为当长度相同,因为可能 ...
36. 干货系列从零用Rust编写负载均衡及代理，内网穿透中内网代理的实现
wmproxy wmproxy已用Rust实现http/https代理, socks5代理, 反向代理, 静态文件服务器,四层TCP/UDP转发,七层负载均衡,内网穿透,后续将实现websocket代 ...
【scikit-learn基础】--『监督学习』之逻辑回归分类
逻辑回归这个算法的名称有一定的误导性.虽然它的名称中有"回归",当它在机器学习中不是回归算法,而是分类算法.因为采用了与回归类似的思想来解决分类问题,所以它的名称才会是逻辑回归. ...
Windows下编译64位CGAL
目录 1. 准备 2. CMake构建 1. 准备 CGAL的官网准备了压缩包和安装程序两种类型的的源代码,推荐使用安装程序包,因为其中自带了编译好的gmp和mpfr库.gmp和mpfr是CGAL的依 ...
Proxy下的Prepare透传，让GaussDB(for MySQL)更稳固，性能更卓越
本文分享自华为云社区<Proxy下的Prepare透传,让GaussDB(for MySQL)更稳固,性能更卓越>,作者: GaussDB 数据库 . 1.引言在很多业务场景下,数据库应 ...
MindSpore！这款刚刚开源的深度学习框架我爱了！
[摘要] 本文主要通过两个实际应用案例:一是基于本地 Jupyter Notebook 的 MNIST 手写数据识别:二是基于华为云服务器的 CIFAR-10 图像分类,对开源框架 MindSpore ...
华为云Classroom聚焦人才数字化转型，引领智慧教育改革新模式
随着教育行业数字化转型进程加快,利用现代化云端技术手段,线上线下相结合方式建立的全新OMO产教融合一体化已成为行业趋势.华为云Classroom平台沉淀了华为多年研发实践经验和多种前沿技术,以赋能伙伴 ...

深度学习基础课： “判断性别”Demo需求分析和初步设计（下2）