总结一下就是在提升偏差的方面(即贝叶斯最优误差和训练误差的差距) 1.尝试更大更深的网络 2.加入优化算法比如前面提过的momentum.RMSprop.Adam等 3.使用别的神经网络架构比如RNN/CNN等等 在提升方差的方面(即训练误差和测试误差的差距) 1.加大训练集的样本数量 2.正则化操作,如L2.dropout.Data Augmentatio数据扩增.early stop等 3.使用别的神经网络架构比如RNN/CNN等等…
从某种角度来说,已知的人类最佳表现其实可以被当做贝叶斯最优错误,对于医学图像分类可以参见下图中的例子. 那么如何理解超过人类表现,在哪些领域机器已经做到了超越人类呢?…
Error | 误差 Bias | 偏差 – 衡量准确性 Variance | 方差 – 衡量稳定性 首先我们通常在实际操作中会直接用错误率或者与之对应的准确率来衡量一个模型的好坏,但是更加准确的做法是误差衡量时综合考虑偏差和方差的共同作用. 所谓偏差Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度.Variance反映的是模型每一次输出结果与模型输出期望值之间的误差,即模型的稳定性. 举个例子,对于一个二分类问题,比如测试图片是不是猫,是猫的话就是1,不是猫就是2. 现…
 train/dev/test的划分 我们在前面的博文中已经提到了train/dev/test的相关做法.比如不能将dev和test混为一谈.同时要保证数据集的同分布等. 现在在train/dev/test的划分中,我们依然要旧事重提关于same distribution即同分布的概念. 假设我们现在有一种商品来自8个国家,如果我们将四个国家作为train和dev,将另外四个国家作为test,这种做法显然是错的. 因为我们建立的模型的靶点是为了逼近前四个国家的结果,但是在真正测试的时候我们移动了…
单一数字评估指标: 我们在平时常用到的模型评估指标是精度(accuracy)和错误率(error rate),错误率是:分类错误的样本数站样本总数的比例,即E=n/m(如果在m个样本中有n个样本分类错误),那么1-a/m就是精度.除此之外,还会有查准率和查全率,下面举例解释. 按照周志华<机器学习>中的例子,以西瓜问题为例. 错误率:有多少比例的西瓜被判断错误: 查准率(precision):算法挑出来的西瓜中有多少比例是好西瓜: 查全率(recall):所有的好西瓜中有多少比例被算法跳了出来…
可避免偏差: 总结一下就是当贝叶斯最优误差接近于训练误差的时候,比如下面的例子B,我们不会说我们的训练误差是8%,我们会说我可避免偏差是0.5%.…
结合吴恩达老师前面的讲解,可以得出一个结论: 在机器学习的早期阶段,传统的机器学习算法在没有赶超人类能力的时候,很难比较这些经典算法的好坏.也许在不同的数据场景下,不同的ML算法有着不同的表现. 但是在接近人类表现,甚至超越人类表现逼近bayes optimal error的时候,深度学习就展现了其优越的性能和巨大的潜力,同样如果把横轴time换做数据量,其实可以得出一样的结论,因为时间的发展也是数据规模的发展.…
orthogonalization 正交化的概念就是指,将你可以调整的参数设置在不同的正交的维度上,调整其中一个参数,不会或几乎不会影响其他维度上的参数变化,这样在机器学习项目中,可以让你更容易更快速地将参数调整到一个比较好的数值. 打个比方,当你开车的时候假设有一个按钮1:0.3angle-0.8speed 还有一个按钮2:2angle+0.9speed 那么理论上来说通过调整这两个按钮,可以得到你想要的角度和速度,但是在实际操作中我们肯定希望角度和速度的控制方式是单独且互不影响的,这就是正交…
前言 在第四篇中,加入了用户模型,以及相关的认证和权限的功能.但是我们在使用的时候,会发现在访问http://127.0.0.1:8000/users/时看到的用户列表,不能够直接点击某个链接然后查看其详情,也就是不能跳转到http://127.0.0.1:8000/users/2这样的链接,查看Snippet列表的时候也是如此.而且User和Snippet也没相关的链接进行相互之间的跳转.这些就很影响用户体验了,每次都需要重新输入URL才可以访问别的内容.这就是这篇文章主要解决的问题. 另外,…
目录 1.调整模型参数来提高性能 1.1 创建简单的调整模型 2.2 定制调整参数 2.使用元学习来提高性能 2.1 集成学习(元学习)概述 2.2 bagging 2.3 boosting 2.4 随机森林 1)训练随机森林 2)评估随机森林性能 1.调整模型参数来提高性能 参数调整:调节模型合适的选项的过程,如股票C5.0决策树模型中的trials参数,神经网络中的调节节点.隐层数目,SVM中的核函数等等. caret包自动调整参数:train函数,为分类和回归的150种不同机器学习模型自动…