【CS231N】5、神经网络静态部分：数据预处理等

一、疑问

二、知识点

1. 白化

白化操作的输入是特征基准上的数据，然后对每个维度除以其特征值来对数值范围进行归一化。该变换的几何解释是：如果数据服从多变量的高斯分布，那么经过白化后，数据的分布将会是一个均值为零，且协方差相等的矩阵。该操作的代码如下：

# 对数据进行白化操作:

# 除以特征值

Xwhite = Xrot / np.sqrt(S + 1e-5)

警告：夸大的噪声。注意分母中添加了1e-5（或一个更小的常量）来防止分母为0。该变换的一个缺陷是在变换的过程中可能会夸大数据中的噪声，这是因为它将所有维度都拉伸到相同的数值范围，这些维度中也包含了那些只有极少差异性(方差小)而大多是噪声的维度。在实际操作中，这个问题可以用更强的平滑来解决（例如：采用比1e-5更大的值）。

2. 预处理注意

任何预处理策略（比如数据均值）都只能在训练集数据上进行计算，算法训练完毕后再应用到验证集或者测试集上。（避免过拟合等）

3.权重初始化

错误：全零初始化。 权重全零，会导致每个神经元都计算出同样的输出，在BP时也会计算出同样的梯度，从而进行同样的参数更新。****
小随机数初始化： W = 0.01 * np.random.randn(D,H)。并不是数值越小结果越好，要控制在一定的量级内才不会导致BP时梯度信号过小。
使用$1/sqrt(n)$校准方差。随着输入数据量的增长，随机初始化的神经元的输出数据的分布中的方差也在增大。公式如下: w = np.random.randn(n) / sqrt(n). 此外，基于BP时梯度的分析，神经网络算法使用ReLU神经元时的当前最佳推荐形式为： w = np.random.randn(n) / sqrt(2.0/n)。
批量归一化。让激活数据在训练开始前通过一个网络，网络处理数据使其服从标准高斯分布。使用了批量归一化的网络对于不好的初始值有更强的鲁棒性。

4. 正则化

L2正则化。 L2正则化可以直观理解为它对于大数值的权重向量进行严厉惩罚，使网络更倾向于使用所有输入特征，而不是严重依赖输入特征中某些小部分特征。
L1正则化。 让权重向量在最优化的过程中变得稀疏（即非常接近0）。即使用L1正则化的神经元最后使用的是它们最重要的输入数据的稀疏子集，同时对于噪音输入则几乎是不变的了。
随机失活。 在训练的时候，随机失活的实现方法是让神经元以超参数$p$的概率被激活或者被设置为0。随机失活可以被认为是对完整的神经网络抽样出一些子集，每次基于输入数据只更新子网络的参数。注意：在predict函数中不进行随机失活，但是对于两个隐层的输出都要乘以 $p$ ，调整其数值范围。

  """ 普通版随机失活: 不推荐实现 (看下面笔记) """

  p = 0.5 # 激活神经元的概率. p值更高 = 随机失活更弱

  def train_step(X):

    """ X中是输入数据 """

    # 3层neural network的前向传播

    H1 = np.maximum(0, np.dot(W1, X) + b1)

    U1 = np.random.rand(*H1.shape) < p # 第一个随机失活遮罩

    H1 *= U1 # drop!

    H2 = np.maximum(0, np.dot(W2, H1) + b2)

    U2 = np.random.rand(*H2.shape) < p # 第二个随机失活遮罩

    H2 *= U2 # drop!

    out = np.dot(W3, H2) + b3

    # 反向传播:计算梯度... (略)

    # 进行参数更新... (略)

  def predict(X):

    # 前向传播时模型集成

    H1 = np.maximum(0, np.dot(W1, X) + b1) * p # 注意：激活数据要乘以p

    H2 = np.maximum(0, np.dot(W2, H1) + b2) * p # 注意：激活数据要乘以p

    out = np.dot(W3, H2) + b3

反向随机失活。在训练时就进行数值范围调整，从而让前向传播在测试时保持不变。这样做还有一个好处，无论你决定是否使用随机失活，预测方法的代码可以保持不变。

  """

  反向随机失活: 推荐实现方式.

  在训练的时候drop和调整数值范围，测试时不做任何事.

  """

  p = 0.5 # 激活神经元的概率. p值更高 = 随机失活更弱

  def train_step(X):

    # 3层neural network的前向传播

    H1 = np.maximum(0, np.dot(W1, X) + b1)

    U1 = (np.random.rand(*H1.shape) < p) / p # 第一个随机失活遮罩. 注意/p!

    H1 *= U1 # drop!

    H2 = np.maximum(0, np.dot(W2, H1) + b2)

    U2 = (np.random.rand(*H2.shape) < p) / p # 第二个随机失活遮罩. 注意/p!

    H2 *= U2 # drop!

    out = np.dot(W3, H2) + b3

    # 反向传播:计算梯度... (略)

    # 进行参数更新... (略)

  def predict(X):

    # 前向传播时模型集成

    H1 = np.maximum(0, np.dot(W1, X) + b1) # 不用数值范围调整了

    H2 = np.maximum(0, np.dot(W2, H1) + b2)

    out = np.dot(W3, H2) + b3

随机失活的解释。

1、使用许多小的模型集成的一个大模型。假设某些神经元被随机失活了，那么在BP中，与这些神经元相连的上一层的权重也不会更新，那么就相当于只对整个大模型的子网络进行了训练。

2、假设我们使用神经网络对猫这个类别进行检测，在神经网络中我们用到的特征可能有：耳朵、尾巴、眼睛等等，在标准的神经网络中，我们需要考虑每一个特征因素才能对猫进行得分计算。但是在测试集中，猫的图片是多种多样的，可能有时看不到尾巴或则耳朵，这就会影响了模型的泛化能力。而利用了随机失活，即在训练时我们随机得不考虑一些特征（例如耳朵）来训练模型，这样模型在测试集上一般能得到更好的泛化能力。

5. 分类问题

当面对一个回归任务，首先考虑是不是必须使用回归模型。一般而言，尽量把你的输出变成二分类，然后对它们进行分类，从而变成一个分类问题。

【CS231N】5、神经网络静态部分：数据预处理等的更多相关文章

神经网络中的数据预处理方法 Data Preprocessing
0.Principal component analysis (PCA) Principal component analysis (PCA) is a statistical procedure t ...
TensorFlow从1到2（三）数据预处理和卷积神经网络
数据集及预处理从这个例子开始,相当比例的代码都来自于官方新版文档的示例.开始的几个还好,但随后的程序都将需要大量的算力支持.Google Colab是一个非常棒的云端实验室,提供含有TPU/GPU支 ...
【cs231n】神经网络笔记笔记2
) # 对数据进行零中心化(重要) cov = np.dot(X.T, X) / X.shape[0] # 得到数据的协方差矩阵数据协方差矩阵的第(i, j)个元素是数据第i个和第j个维度的协方差. ...
【深度学习系列】PaddlePaddle之数据预处理
上篇文章讲了卷积神经网络的基本知识,本来这篇文章准备继续深入讲CNN的相关知识和手写CNN,但是有很多同学跟我发邮件或私信问我关于PaddlePaddle如何读取数据.做数据预处理相关的内容.网上看的 ...
sklearn中的数据预处理和特征工程
小伙伴们大家好~o(￣▽￣)ブ,沉寂了这么久我又出来啦,这次先不翻译优质的文章了,这次我们回到Python中的机器学习,看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下我的开发环境是 ...
scikit-learn与数据预处理
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...
Python做数据预处理
在拿到一份数据准备做挖掘建模之前,首先需要进行初步的数据探索性分析(你愿意花十分钟系统了解数据分析方法吗?),对数据探索性分析之后要先进行一系列的数据预处理步骤.因为拿到的原始数据存在不完整.不一致. ...
机器学习实战基础（十三）：sklearn中的数据预处理和特征工程（六）特征选择 feature_selection 简介
当数据预处理完成后,我们就要开始进行特征工程了. 在做特征选择之前,有三件非常重要的事:跟数据提供者开会!跟数据提供者开会!跟数据提供者开会!一定要抓住给你提供数据的人,尤其是理解业务和数据含义的人, ...
机器学习实战基础（九）：sklearn中的数据预处理和特征工程（二）数据预处理 Preprocessing & Impute 之数据无量纲化
1 数据无量纲化在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”.譬如梯度和矩阵为核心的算法中,譬如逻辑回 ...
借助 SIMD 数据布局模板和数据预处理提高 SIMD 在动画中的使用效率
原文链接简介为发挥 SIMD1 的最大作用,除了对其进行矢量化处理2外,我们还需作出其他努力.可以尝试为循环添加 #pragma omp simd3,查看编译器是否成功进行矢量化,如果性能有所提升 ...

随机推荐

PHP DES加解密
test.php测试文件 <?php require_once('Des.php'); $des = new Des(); $data['a'] = 'a'; $data['b'] = 'b'; ...
[控件] Firemonkey 跨平台 Toast
控件说明:一个简单的讯息提示功能,使用 FMX 基本控件,因此支持 Win, macOS, iOS, Android 平台. 已知问题:如果使用了 WebBrowser, MapView... 等原生 ...
Hexo+Github博客搭建
一.准备 1.安装git 点击下载:链接:https://pan.baidu.com/s/1eToStns 密码:r93r 安装参考之前随笔:http://www.cnblogs.com/jiangb ...
JavaWeb基础—Tomcat
JavaWeb服务器:可以运行以及发布JavaWeb应用的JavaWeb容器,开发项目必须放在该容器中才可以被浏览器访问.(只能等待请求,然后做出响应) 静态资源(HTML):数据始终不变动态资源( ...
Linux下多线程编程中信号量介绍及简单使用
在Linux中有两种方法用于处理线程同步:信号量和互斥量. 线程的信号量是一种特殊的变量,它可以被增加或减少,但对其的关键访问被保证是原子操作.如果一个程序中有多个线程试图改变一个信号量的值,系统将保 ...
19-[模块]-xml
1.xml协议 xml是实现不同语言或程序之间进行数据交换的协议,跟json差不多,但json使用起来更简单,不过,古时候,在json还没诞生的黑暗年代,大家只能选择用xml呀,至今很多传统公司如金融 ...
Object C学习笔记3-对象的使用和定义
1. 如何定义一个对象在面向对象的语言中,定义一个对象是使用Class关键字,而在Object-C中则是使用@interface,@interface用于定义对象的属性和方法,@implementa ...
JUC——并发集合类
如果要进行多个数据的保存,无疑首选类集(List.Set.Queue.Map),在类集的学习的时候也知道一个概念:许多集合的子类都具有同步与异步的差别,但是如果真的要在多线程之中去使用这些类,是否真的 ...
腾讯云linux+kodexplorer可道云搭建私有云盘
kodexplorer可道云介绍KodExplorer可道云,原名芒果云,是基于Web技术的私有云和在线文件管理系统.致力于为用户提供安全可控.可靠易用.高扩展性的私有云解决方案.用户只需通过简单环境 ...
easyui的tab标签链接aspx页面引发全局刷新的问题解决方案
通过tree组件和tabs组件结合加载子页面窗体aspx,点击按钮页面全部重新加载,或整个跳到子窗体页面,解决方案:换一种结合iframe的方式做系统界面:在tree组件出替换掉设置href属性处为下 ...