机器学习算法中如何选取超参数:学习速率.正则项系数.minibatch size 本文是<Neural networks and deep learning>概览 中第三章的一部分,讲机器学习算法中,如何选取初始的超参数的值.(本文会不断补充) 学习速率(learning rate,η) 运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率η.下面讨论在训练时选取η的策略. 固定的学习速率.如果学习速率太小,则会使收敛过慢,如果学习速率太大,则会导致代价…
本文是<Neural networks and deep learning>概览 中第三章的一部分,讲机器学习算法中,怎样选取初始的超參数的值.(本文会不断补充) 学习速率(learning rate,η) 运用梯度下降算法进行优化时.权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率η. 以下讨论在训练时选取η的策略. 固定的学习速率. 假设学习速率太小,则会使收敛过慢.假设学习速率太大.则会导致代价函数振荡,例如以下图所看到的.就下图来说.一个比較好的策略是先将学习速率设置为…
cost function 加一个正则项的原因是防止产生过拟合现象.正则项有L1,L2 等范数,我看过讲的最好的是这个博客上的:机器学习中的范数规则化之(一)L0.L1与L2范数.看完应该就答题明白了. 这里我们说一下线性回归中L2范数的应用.假设我们的与各维度变量(这里每一个样本只有一维x)关系的模型是:,表示是模型根据各维度变量预测的.    注意这个模型表明我们这里假设与各维度变量的关系不是线性的,如果是线性的那么就是h(X)=ax1+bx2+-,样本每一维都是一次平方,然后叠加,这里只有…
原文地址 ? 传送门 线性回归 线性回归是一种较为简单,但十分重要的机器学习方法.掌握线性的原理及求解方法,是深入了解线性回归的基本要求.除此之外,线性回归也是监督学习回归部分的基石. 线性回归介绍 在了解线性回归之前,我们得先了解分类和回归问题的区别. 首先,回归问题和分类问题一样,训练数据都包含标签,这也是监督学习的特点.而不同之处在于,分类问题预测的是类别,回归问题预测的是连续值. 例如,回归问题往往解决: 股票价格预测 房价预测 洪水水位线 上面列举的问题,我们需要预测的目标都不是类别,…
CSAPP,即<深入理解计算机系统:程序员视角>第三版,是一本好书,但读起来确需要具备相当的基本功.而且,有的表述(中译文)还不太直白. 比如,第463页提到,(对于32位系统)为什么汇编器会将call指令中的引用的初始值设置为-4.其后解释语焉不详.结合文中对代码计算公式的展开: *refptr = (unsigned) (ADDR(r.symbol) + *refptr - refaddr) = (unsigned) (0x80483c8        + (-4)     - 0x804…
摘要: 数据挖掘.机器学习和推荐系统中的评测指标—准确率(Precision).召回率(Recall).F值(F-Measure)简介. 引言: 在机器学习.数据挖掘.推荐系统完成建模之后,需要对模型的效果做评价. 业内目前常常采用的评价指标有准确率(Precision).召回率(Recall).F值(F-Measure)等,下图是不同机器学习算法的评价指标.下文讲对其中某些指标做简要介绍. 本文针对二元分类器! 本文针对二元分类器!! 本文针对二元分类器!!! 对分类的分类器的评价指标将在以后…
Linux中soft nproc .soft nofile和hard nproc以及hard nofile配置 "soft" 和 "hard" 的区别 soft xxx : 代表警告的设定,可以超过这个设定值,但是超过后会有警告. hard xxx : 代表严格的设定,不允许超过这个设定的值. 如:soft 设为1024,hard设为2048 ,则当你使用数在1~1024之间时可以随便使用,1024~2048时会出现警告信息,大于2048时,就会报错. "…
一.前述 Soft-Max是做多分类的,本身是哪个类别的概率大,结果就为对应的类别.为什么称之为Soft判别,原因是归一化之后的概率选择最大的作为结果,而不是只根据分子. 二.原理 sigmod函数: SoftMax函数模型理解: 每一个分类的预测值的概率: soft-max的损失函数: 当k=2时其实损失函数就是:(实际上就是逻辑回归) 三.代码 # softmax多分类 from sklearn import datasets from sklearn.linear_model import…
一.前述 L1正则,L2正则的出现原因是为了推广模型的泛化能力.相当于一个惩罚系数. 二.原理 L1正则:Lasso Regression L2正则:Ridge Regression 总结: 经验值 MSE前系数为1 ,L1 , L2正则前面系数一般为0.4~0.5 更看重的是准确性. L2正则会整体的把w变小. L1正则会倾向于使得w要么取1,要么取0 ,稀疏矩阵 ,可以达到降维的角度. ElasticNet函数(把L1正则和L2正则联合一起): 总结: 1.默认情况下选用L2正则. 2.如若…
散点图和KNN预测 一丶案例引入 # 城市气候与海洋的关系研究 # 导包 import numpy as np import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt %matplotlib inline # 使用画图模块时,jupyter工具需要声明 from pylab import mpl # mpl 提供画图的包 mpl.rcParams['font.sans-seri…