线性回归,逻辑回归,神经网络,SVM的总结

线性回归,逻辑回归,神经网络,SVM的总结

线性回归,逻辑回归,神经网络,SVM的总结

详细的学习笔记.
markdown的公式编辑手册.
回归的含义: 回归就是指根据之前的数据预测一个准确的输出值.
分类的含义: 分类就是预测离散的输出值, 比如男生为1, 女生为0(0/1离散输出问题).
机器学习中往往会有一个假设(hypothesis), 本质上来讲$h$代表学习算法的解决方案或函数.
- $h$可以理解为是我们预先选定的规则或者函数的形式,我们需要不停地得到对应的参数.
- $h$是一个从$x$到$y$的函数映射.

单变量的线性回归(Linear Regression with One Variable)

单变量的表达方式(hypothesis function):
\[h_{\theta(x)}\;=\;\theta_{0}+\theta_{1}x
\]
- 因为只含有一个特征(即输入变量), 因此这类问题叫作单变量线性回归问题.
模型所预测的值与训练集中实际值之间的差距就是建模误差(modeling error).
目标函数(代价函数Cost Function): 目标是选择出可以使得建模误差的平方和能够最小的模型参数.
- 代价函数的数学公式的表达为:
\[J(\theta_{0},\theta_{1})=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)}-y^{(i)}))^{2}
\]
- 这个公式的$\frac{1}{2m}$是为了求偏导好计算; 大致的意思就是求每个样本的均方误差.
- Goal: $\min \limits_{\theta_{0},\theta_{1}}J(\theta_{0},\theta_{1})$, 让代价函数最小.
- 需要一个有效的算法, 能够自动地找出使代价函数$J$取最小值的参数$\theta_{0}$和$\theta_{1}$, 这个算法就是梯度下降.

梯度下降(Gredient Descent)

梯度下降是一个用来求函数最小的优化算法, 在线性回归的算法中, 用它来求代价函数$J(\theta_{0},\theta_{1})$的最小值.
梯度下降背后的思想: 开始随机选择一个参数组合$(\theta_{0},\theta_{1},\ldots,\theta_{n})$, 计算出代价函数对应的函数值, 然后寻找一个能让代价函数下降最多的参数组合; 持续这么做直到找到一个局部最小值(local minimum),因为没有尝试所有的参数组合, 所以不能确定得到的局部最小值是否为全局最小值(global minimum), 选择不同的初始参数组合可能会找到不同的局部最小值.
批量梯度下降(batch gradient descent)算法的公式:

\[\theta_{j}:=\theta_{j} - \alpha\frac{\partial}{\partial\theta_{j}}J(\theta_{0},\theta_{1})\qquad(for\,j = 0\,\,and\,\;j = 1)
\]

- 其中$\alpha$是学习率（**learning rate**），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大，在批量梯度下降中，我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。
- 梯度下降的过程为:
    + 根据代价函数求出其偏导函数, 因为所谓的梯度就是一阶偏导, 也就是沿参数该方向的变化率.
    + 算出梯度的大小值(把上一次的$\theta_{0}$和$\theta_{1}$代入偏导函数求解).
    + 迭代算出可能更好的参数值(就是用原来的$\theta$值减去偏导值乘以学习率的积).
    + 不断更新$\theta_{0}$和$\theta_{1}$
- $\alpha$太大或太小会出现什么情况:
    + 如果$\alpha$太小, 即学习速率太小, 需要迭代很多次才能达到局部最优.
    + 如果$\alpha$太大, 梯度下降可能会越过最低点, 甚至无法收敛, 出现震荡或发散现象.
    + 即使学习率$\alpha$保持不变时, 梯度下降也可以收敛到局部最优, 因为到最优点时偏导为零呀.
- 批量梯度下降是指在梯度下降的每一步中, 都用到了所有的训练样本, 在梯度下降中, 在计算微分求导时, 需要对所有$m$个训练样本求和.
- 有的梯度下降法不考虑整个训练集, 而是每次关注训练集中的一些小的子集.

梯度下降算法, 可以用来最小化任何代价函数$J$, 不只是线性回归中的代价函数, 只要是凸函数应该都可以使用梯度下降算法来求解局部最优.
在数据量较大的情况下, 梯度下降法比正规方程(normal equations)要更适用一些.

多变量的线性回归(Linear Regression with Multiple Variables)

第$i$个训练实例, 就是特征矩阵中的第$i$行, 是一个向量(vector).
多变量的hypothesis function(假设函数)的数学表达为:$$h_{\theta}(x) = \theta_{0}x_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\ldots+\theta_{n}x_{n}$$
- 此时模型有$n+1$维的特征向量, 特征矩阵的维度$m*(n+1)$.
- hypothesis function的向量的表达式为: $h_{\theta}(x) = \theta^{T}X$.
多变量的代价函数(cost function)为所有建模误差的平方和, 数学表达为:
\[J(\theta_{0},\theta_{1},\ldots,\theta_{n})=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}-y^{(i)}))^{2}
\]
- 其中$h_{\theta}(x) = \theta_{0}x_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\ldots+\theta_{n}x_{n}$.
目标函数还是要找出使得代价函数最小的一系列参数.
多变量线性回归的批量梯度下降算法为:
\[Repeat\{ \theta_{j}:=\theta_{j}-\alpha\frac{\partial}{\partial\theta_{j}}J(\theta_{0},\theta_{1},\ldots,\theta_{n})
\}\]
- 求导计算为:
\[Repeat\{ \theta_{j}:=\theta_{j}-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})*x_{j}^{(i)}
\}\]
- python的代码实现为:
```
def computeCost(X, Y, theta):
    inner = np.power(((X * theta.T) - y), 2) # 內积
    return np.sum(inner) / (2 * len(X)) # len(X)为行数
```
特征缩放(即归一化处理): 在多维特征的情况下, 让这些特征具有相似的尺度, 将帮助梯度下降算法更快地收敛.
正规方程(Normal Equation): 是相对于梯度下降算法的另一种方法.
- 正规方程是为了求解偏导为0的点: $\frac{\partial}{\partial\theta_{j}}J(\theta_{j})=0$.
- 利
  
  用正规方程解出向量: $\theta=(X^{T}X)^{-1}X^{T}y$.
- 梯度下降与正规方程的比较:
  - 梯度下降需要选择学习率$\alpha$, 梯度下降需要多次迭代, 当特征数量$n$特别大时也比较适用, 并适用于各种类型的模型.
  - 正规方程不需要迭代, 一次计算即可得出结果, 但需要计算$(X^{T}X)^{-1}$, 计算矩阵的逆的时间复杂度为$O(n^{3})$, 如果特征少还比较快, 特征特别多的话就不太能接受了.
  - 正规方程只适用于线性模型, 不适合逻辑回归等其他模型.
- 只要特征数量小于一万, 通常适用标准方程(normal equation), 而不适用梯度下降法.
- 梯度下降可以适用在有大量特征变量的线性回归问题上.
- 正规方程的Python实现:
```
import numpy as np
def normalEqn(X, y):
    theta = np.linalg.inv(X.T@X)@X.T@y #X.T@X等价于X.T.dot(X)
    return theta
```
正规方程及不可逆性:
- 不可逆的矩阵称为奇异或退化矩阵.
- 代价函数的向量形式为: $J(\theta)=\frac{1}{2}(X\theta-y)^{2}$.
- 具体公式推导为:$$J(\theta)=\frac{1}{2}(X\theta-y)^{T}(X\theta-y)$$
\[=\frac{1}{2}(X^{T}\theta^{T}-y^{T})(X\theta-y)
\]

\[=\frac{1}{2}(X^{T}\theta^{T}X\theta-X^{T}\theta^{T}y-y^{T}X\theta-y^{T}y)
\]
- 对代价函数进行求偏导:$\frac{dAB}{dB}=A^{T}$, $\frac{dX^{T}AX}{dX} = (X^{T}A)^{T}$.
\[\frac{\partial(J\theta)}{\partial\theta}=\frac{1}{2}(2X^{T}X\theta-X^{T}y-(y^{T}X)^{T}-0)
\]

\[\frac{\partial(J\theta)}{\partial\theta}=\frac{1}{2}(2X^{T}X\theta-X^{T}y-X^{T}y)
\]

\[\frac{\partial(J\theta)}{\partial\theta}=X^{T}X\theta-X^{T}y
\]
- 令偏导为0, 即$\frac{\partial J(\theta)}{\partial\theta}=0$, 则有$\theta=(X^{T}X)^{-1}X^{T}y$.

逻辑回归(Logistic Regression)

需要预测的变量$y$是离散的值, 将因变量(dependent variable)可能属于的两个类分别称为负向量(negative class)和正向类(positive class), $y\in 0,1$.
逻辑回归是一个分类算法, 它的输出值永远在0和1之间.
Hypothesis Representation: $h_{\theta}(x)=g(\theta^{T}X)$.
- $g$代表逻辑函数(logistic function)是一个常用的逻辑函数, S型函数(Sigmoid function), 具体的数学表达为: $g(z)=\frac{1}{1+e^{-z}}$.
- Python的代码实现为:
```
import numpy as np
def sigmoid(z):
    return 1 / (1 + np.exp(-z))
```
- 在逻辑回归中, 当$h_{theta}>=0.5$时, 预测$y=1$; 当$h_{theta}<0.5$时, 预测$y=0$.
代价函数(cost function):
- 在线性回归模型中, 我们定义的代价函数是所有模型误差的平方和; 在逻辑回归中, 重新定义了代价函数, 是对假设函数取了对数. 数学表达式为:
\[ Cost(h_{\theta}(x),y)=
\left\{
\begin{array}{**lr**}
-log(h_{\theta}(x))\;\;\;\;\;if\;\;\;y=1 & \\
-log(1-h_{\theta}(x))\;\;\;\;\;if\;\;\;y=0
\end{array}
\right.
\]
- 简化为:$Cost(h_{\theta}(x),y)=-y*log(h_{\theta}(x))-(1-y)*log(1-h_{\theta}(x))$.
- 求每个样本的平均值, 所以代价函数的数学表达为:
\[J(\theta)=\frac{1}{m}\sum^{m}_{i=1}[-y^{(i)}*log(h_{\theta}(x^{(i)}))-(1-y^{(i)})*log(1-h_{\theta}(x^{(i)}))]
\]
- 把负号提出来, 即: $$J(\theta)=-\frac{1}{m}\sum^{m}_{i=1}[y{(i)}log(h_{\theta}(x^{(i)}))+(1-y{(i)})log(1-h_{\theta}(x^{(i)}))]$$

python的代码实现为:

import numpy as np
def cost(theta, X, y):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    first = np.multiply(-y, np.log(sigmoid(X * theta.T)))
    second = np.multiply((1-y), np.log(1 - sigmoid(X * theta.T)))
    return np.sum(first - second) / (len(X))

得到这个代价函数后, 就需要用梯度下降算法来求得能使代价函数最小的参数, 对代价函数求导后为:
\[\theta_{j}:=\theta{j}-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})*x_{j}^{(i)}
\]
- 然后不断的更新$\theta_{j}$值, simultaneously update all $\theta_{j}$.
- 虽然得到的梯度下降算法表面上和线性回归的梯度下降算法一样, 但是这里的$h_{\theta}=g(\theta^{T}X)$与线性回归本质上是不一样的.
使用梯度下降法(gradient descent)最小化代价函数.
线性回归的假设函数为:$h_{\theta}(x)=\theta^{T}X=\theta_{0}x_{0}+\theta_{1}x_{1}+\dots+\theta_{n}x_{n}$; 而现在逻辑回归的假设函数为: $h_{\theta}(x)=\frac{1}{1+e^{-\theta^{T}X}}$, 更新规则虽然一样,但是假设的定义发生了变化.
- 特征缩放(特征数据的归一化)同样适用于逻辑回归.

高级优化

在梯度下降的过程中, 需要计算两样东西: $J(\theta)$和$J$等于$0, 1, \dots, n$时的偏导数项.
另一种角度看待这个问题的思路是: 写出代码来计算$J(\theta)$和这些偏导数, 然后把这些插入到梯度下降中.
比梯度下降算法更好的优化算法:
- 共轭梯度(Conjugate Gradient).
- 局部优化算法(Broyden fletcher glodfarb shann, BFGS).
- 有限内存局部优化算法(LBFGS).
- 这三种算法有很多优点:
  - 不需要手动选择学习率$\alpha$, 因为内部有个内部循环(称为线性搜索line search), 尝试不同的学习速率$\alpha$, 并自动选择一个好的学习速率$\alpha$.
  - 往往最终收敛得远远快于梯度下降.

正则化(Reguarization)

正则化主要是用来解决过拟合问题(overfitting): 减少或改善过度拟合问题.
- 正则化保留所有的特征, 但是减少参数的大小(magnitude).
- 在代价函数中增加一个惩罚项.
增加惩罚项后的数学表达为:
\[J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}(h_{\theta}(x^{(i))}-y^{(i)})^{2}+\lambda\sum_{j=1}^{n}\theta_{j}^{2}]
\]
- $\lambda$称为正则化参数(Regularization Parameter).
- 如果选择的正则化参数$\lambda$过大, 则会把所有的参数都最小化了, 造成欠拟合.
正则化线性回归的梯度下降算法的变化在于, 每次都在原有的算法更新规则基础上令$\theta$值减少了一个额外的值.
\[\theta_{j}:=\theta_{j}(1-\alpha)
\]
正则化的逻辑回归模型: 代价函数$J(\theta)$增加一个惩罚项.
\[J(\theta)=-\frac{1}{m}\sum^{m}_{i=1}[y^{(i)}*log(h_{\theta}(x^{(i)}))+(1-y^{(i)})*log(1-h_{\theta}(x^{(i)}))]+\frac{\lambda}{2m}\sum_{j=1}^{n}\theta_{j}^{2}
\]

神经网路(Neural Networks)

神经网络是一个非线性假设的算法(non-linear hypotheses).
无论是线性回归还是逻辑回归,都会有一个缺点: 当特征太多时, 计算负荷会非常大.
神经网路模型建立在很多神经元之上, 每一个神经元又是一个小小学习模型, 这些神经元(也叫激活单元, activation unit), 有多个输入和一个输出; 神经网路中, 参数也被称作权重(weight).
Sigmoid(logistic) activation function(S激活函数).
第一层为输入层(input layer), 最后一层为输出层(output layer), 中间的层为隐藏层(Hidden Layers), 我们为每一层增加一个偏差单位(bias unit).
- 从左到右的算法称为前向传播算法(forward propagation)
- 数学表达为: $z^{(2)}=\theta^{(1)}*X^{T}$, 激活为$a^{(2)}=g(z^{(2)})$.
其实神经网络就像是logistic regression, 只不过输入向量变成了中间层a.
可以把a看成更高级的特征值, 也就是x的进化体, 因为他们是由x决定的, 因为是梯度下降的, 所以a是变化的, 并且越来越变化厉害, 所以这些更高级的特征值远比仅仅将x次方厉害,也能更好的预测新数据.
从本质上讲, 神经网络能够通过学习得出其自身的一系列特征.逻辑回归中被限制使用原始特征. 可以认为隐藏层能输出新的特征.
单层神经元(无中间层)的计算可用来表示逻辑运算, 逻辑与(AND), 逻辑或(OR).
神经网络的代价函数: $$J(\Theta)=-\frac{1}{m}[\sum_{i=1}^{{m}\sum_{k=1}}{k}y_{k}^{{(i)}log(h_{\Theta}(x}{(i)})){k}+(1-y{k}^{{(i)})log(1-(h_{\Theta}(x}{(i)})){k})]+\frac{\lambda}{2m}\sum{l=1}^{{L-1}\sum_{i=1}}{s_{l}}\sum_{j=1}^{{s_{l}+1}(\Theta_{ji}}{(l)})^{2}$$
- 希望通过代价函数来观察算法预测的结果与真实情况的误差有多大, 神经网络对于每一行特征会给出K个预测.
- 正则化的哪一项是排除了每一层$\theta_{0}$后, 每一层的$\theta$矩阵的和.
神经网络中比较重要的方向传播算法(Backpropagation algorithm):
- 为了计算代价函数的偏导数$\frac{\partial}{\partial\theta_{ij}^{(l)}}$, 需要采用一种反向传播算法.
- 先计算最后一层误差, 然后再一层一层方向求出各层的误差, 直到倒数第二层.
- $\Delta_{ij}^{(l)}$来表示误差矩阵.
\[D_{ij}^{(l)}:=\frac{1}{m}\Delta_{ij}^{(l)}+\lambda\Theta_{ij}^{(l)}
\]
梯度的数值检验(Numerical Gradient Checking).
训练神经网络的步骤:
- 参数的随机初始化.
- 利用正向传播方法计算所有的$h_{\theta}(x)$.
- 编写计算代价函数$J$的代码.
- 利用方向传播方法计算所有偏导数.
- 利用数值检验方法检验这些偏导数.
- 使用优化算法来最小化代价函数.

应用机器学习的建议

获得更多的训练实例--通常是有效的, 但是代价较大, 可以先考虑一下的方法:
- 尝试减少特征的数量.
- 尝试获得更多的特征.
- 尝试增加多项式特征.
- 尝试减少正则化程度$\lambda$.
- 尝试增加正则化程度$\lambda$.
交叉验证: 70%的数据作为训练集, 30%的数据作为测试集.
- 测试集和训练集都要含有各种类型的数据(数据洗牌).
一个算法表现不理想, 多半是两种情况: 偏差比较大, 方差比较大.(要么是欠拟合, 要么是过拟合)
学习曲线: 经常用学习曲线来判断某一个学习算法是否处于偏差/方差问题.
- 学习曲线是学习算法的一个很好的合理检验(sanity check).
- 获得更多的训练实例——解决高方差.
- 尝试减少特征的数量——解决高方差.
- 尝试获得更多的特征——解决高偏差.
- 尝试增加多项式特征——解决高偏差.
- 尝试减少正则化程度 λ——解决高偏差.
- 尝试增加正则化程度 λ——解决高方差.
使用较小的神经网络,类似于参数较少的情况,容易导致高偏差和欠拟合,但计算代

价较小使用较大的神经网络,类似于参数较多的情况,容易导致高方差和过拟合,虽然计算

代价比较大,但是可以通过正则化手段来调整而更加适应数据.
- 正则化对大型神经网络有很大的作用.
学习算法的推荐方法:
1. 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法.
2. 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择.
3. 进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势.
查准率(Precision)和查全率(Recall),算法预测的结果分成四种情况:
1. 正确肯定(True Positive,TP):预测为真,实际为真
2. 正确否定(True Negative,TN):预测为假,实际为假
3. 错误肯定(False Positive,FP):预测为真,实际为假
4. 错误否定(False Negative,FN):预测为假,实际为真
查准率(P)=TP/(TP+FP)--越高越好(预测有恶性肿瘤的病人中,实际上有恶性肿

瘤的病人的百分比), 查全率(R)=TP/(TP+FN)--越高越好(在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的

病人的百分比).
F1值(F1 score): $F1 = 2\frac{PR}{P+R}$

支持向量机(Support Vector Machines)

SVM,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。
SVM hypothesis的数学表达:
\[\min\limits_{\theta}C\sum_{i=1}^{m}[y^{(i)}cost_{1}(\theta^{T}x^{(i)})+(1-y^{(i)}cost_{0}(\theta^{T}x^{(i)}))]+\frac{1}{2}\sum^{n}_{i=1}\theta_{j}^{2}
\]
将支持向量机看作是大间距分类器.
C的作用类似与$\frac{1}{\lambda}$, C不是非常非常大的时候, 它可以忽略掉一些异常点的影响, 得到更好的决策界.
高斯核函数(Gaussian Kernel), $f_{1}=e(-\frac{||x-l^{(1)}||^{2}}{2\sigma^{2}})$, 这个函数与正态分布没有实际上的关系,只是看上去有点像而已.
不使用核函数又称为线性核函数(linear kernel).
多项式核函数(Polynomial Kernel).
字符串核函数(String kernel).
卡方核函数(chi-square kernel).
直方图交集核函数(histogram intersection kernel).
- 这些核函数的目标也都是根据训练集和地标之间的距离来构建新特征,这些核函数需要
  
  满足Mercer's定理.
- 选择支持向量机的原因主要在于它的代价函数是凸函数,不存在局部最小值.
- 逻辑回归和不带核函数的支持向量机它们都是非常相似的算法.
对于许多这样的问题,神经网络训练起来可能会特别慢,但是如果你有一个非常好的 SVM 实现包,它可能会运行得比较快比神经网络快很多.
SVM 具有的优化问题,是一种凸优化问题.
你有多少数据,你有多熟练是否擅长做误差分析和排除学习算法,指出如何设定新的特征变量和找出其他能决定你学习算法的变量等方面, 通常这些方面会比你使用逻辑回归还是SVM这方面更加重要。

线性回归,逻辑回归,神经网络,SVM的总结的更多相关文章

Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS
Spark MLlib回归算法------线性回归.逻辑回归.SVM和ALS 1.线性回归: (1)模型的建立: 回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多 ...
机器学习之感知器和线性回归、逻辑回归以及SVM的相互对比
线性回归是回归模型感知器.逻辑回归以及SVM是分类模型线性回归:f(x)=wx+b 感知器:f(x)=sign(wx+b)其中sign是个符号函数,若wx+b>=0取+1,若wx+b< ...
感知器、逻辑回归和SVM的求解
这篇文章将介绍感知器.逻辑回归的求解和SVM的部分求解,包含部分的证明.本文章涉及的一些基础知识,已经在<梯度下降.牛顿法和拉格朗日对偶性>中指出,而这里要解决的问题,来自<从感知器 ...
[吴恩达机器学习笔记]12支持向量机1从逻辑回归到SVM/SVM的损失函数
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.1 SVM损失函数从逻辑回归到支持向量机为了描述 ...
机器学习（九）—逻辑回归与SVM区别
逻辑回归详细推导:http://lib.csdn.net/article/machinelearning/35119 面试常见问题:https://www.cnblogs.com/ModifyRong ...
机器学习（1）- 概述&线性回归&逻辑回归&正则化
根据Andrew Ng在斯坦福的<机器学习>视频做笔记,已经通过李航<统计学习方法>获得的知识不赘述,仅列出提纲. 1 初识机器学习 1.1 监督学习(x,y) 分类(输出y是 ...
机器学习-逻辑回归与SVM的联系与区别
(搬运工) 逻辑回归(LR)与SVM的联系与区别 LR 和 SVM 都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题,如LR的Softmax回归用在深度学习的多分类 ...
KNN与SVM对比&SVM与逻辑回归的对比
首先说一下两种学习方式: lazy learning 和 eager learning. 先说 eager learning, 这种学习方式是指在进行某种判断(例如,确定一个点的分类或者回归中确定 ...
100天搞定机器学习|Day17-18 神奇的逻辑回归
前情回顾机器学习100天|Day1数据预处理 100天搞定机器学习|Day2简单线性回归分析 100天搞定机器学习|Day3多元线性回归 100天搞定机器学习|Day4-6 逻辑回归 100天搞定机 ...

随机推荐

Hbase记录-Hbase配置项
hbase.tmp.dir:本地文件系统的临时目录,默认是java.io.tmpdir/hbase−java.io.tmpdir/hbase−{user.name}: hbase.rootdir:hb ...
JQ和Js获取span标签的内容
JQ和Js获取span标签的内容 html: 1 <span id="content">‘我是span标签的内容’</span> javascript获取: ...
Timus 1132 Square Root(二次剩余）
http://acm.timus.ru/problem.aspx?space=1&num=1132 题意: 求 x^2 ≡ n mod p p是质数的解本题中n>=1 特判p=2 ...
Css单位px，rem，em，vw，vh的区别
px px就是pixel像素的缩写,相对长度单位,网页设计常用的基本单位.像素px是相对于显示器屏幕分辨率而言的 em em是相对长度单位.相对于当前对象内文本的字体尺寸(参考物是父元素的font-s ...
oldboy s21day02
1.猜数字,设定一个理想数字比如:66,让用户输入数字,如果比66大,则显示猜测的结果大了:如果比66小,则显示猜测的结果小了;只有等于66,显示猜测结果正确,然后退出循环.while 1: num ...
Java8新特性_日期时间新类 LocalDate、LocalTime、LocalDateTime
import java.text.SimpleDateFormat; import java.time.LocalDate; import java.time.format.DateTimeForma ...
数据库范式：1NF，2NF，3NF，BCNF浅析
在设计与操作维护数据库时,最关键的问题就是要确保数据能够正确地分布到数据库的表中.使用正确的数据结构,不仅有助于对数据库进行相应的存取操作,还可以极大地简化应用程序中的其他内容(查询.窗体.报表.代码 ...
redis的常用命令及实例讲解
使用命令行操作redis 数据类型字符串String 列表list 使用双向循序链表实现(LinkedList) 散列 Hash 一般应用于将redis作为分布式缓存,存储数据库中的数据对象集合s ...
Spring 快速开始启动Spring
[启动Spring必须配置] [web.xml部署描述符方式] 1.配置Servlet级别上下文 <servlet> <servlet-name>springDispatche ...
java-solr solrj的使用
新建一个maven项目,引入依赖: <dependencies> <dependency> <groupId>org.apache.solr</groupId ...

线性回归,逻辑回归,神经网络,SVM的总结

线性回归,逻辑回归,神经网络,SVM的总结

单变量的线性回归(Linear Regression with One Variable)

梯度下降(Gredient Descent)

多变量的线性回归(Linear Regression with Multiple Variables)

逻辑回归(Logistic Regression)

高级优化

正则化(Reguarization)

神经网路(Neural Networks)

应用机器学习的建议

支持向量机(Support Vector Machines)

线性回归,逻辑回归,神经网络,SVM的总结的更多相关文章

随机推荐

热门专题