犀利的开头 在机器学习中,我们用训练数据集去训练(学习)一个model(模型),通常的做法是定义一个Loss function(误差函数),通过将这个Loss(或者叫error)的最小化过程,来提高模型的性能(performance).然而我们学习一个模型的目的是为了解决实际的问题(或者说是训练数据集这个领域(field)中的一般化问题),单纯地将训练数据集的loss最小化,并不能保证在解决更一般的问题时模型仍然是最优,甚至不能保证模型是可用的.这个训练数据集的loss与一般化的数据集的loss…
准: bias描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,简单讲,就是在样本上拟合的好不好.要想在bias上表现好,low bias,就得复杂化模型,增加模型的参数,但这样容易过拟合 (overfitting),过拟合对应上图是high variance,点很分散.low bias对应就是点都打在靶心附近,所以瞄的是准的,但手不一定稳. 确: varience描述的是样本上训练出来的模型在测试集上的表现,要想在variance上表现好,low varience,就要简化…
前几天搜狗的一道笔试题,大意是在随机森林上增加一棵树,variance和bias如何变化呢? 参考知乎上的讨论:https://www.zhihu.com/question/27068705 另外可参考林轩田老师在机器学习技法的<Blending and Bagging>中的讲解: 综上,bias反应的是模型在样本上的值与真实值之间的误差,反应的是模型的准确度.对于blending,它反应的是模型越复杂,它的bias就越小: 对于cross-validation,当训练越充分,bias就越小.…
8 什么是只考虑主效应的方差分析? 就是不考虑交互效应的方差分析,即认为因素之间是不相互影响的,就是无重复的方差分析.   什么是处理误差 (treatment error).组间误差(between-group error).处理效应(treatment effect)? 这三者都是同一个东西.处理误差 (treatment error) — 组间误差(between-group error) 由于不同处理造成的误差,它反映了处理(超市位置)对观测数据(销售额)的影响,因此称为处理效应(tre…
val df4=spark.sql("SELECT mean(age),variance(age),stddev(age),corr(age,yearsmarried),skewness(age),kurtosis(age) FROM Affairs") df4.show +--------+------------------+------------------+-----------------------+-----------------+------------------…
debug:需要在调试过程中输出的信息,但发布后是不需要的(当然发布后,也是看不到的) info:需要持续输出的信息(无论调试还是发布状态) warn:警告级别的信息(不严重) error:错误信息(较严重) fatal:严重错误(特别严重,比如引起崩溃式的错误)…
Throwable类是Java语言中所有错误和异常的超类.只有作为此类(或其子类之一)的实例的对象才被Java虚拟机抛出,或者可以被Java throw语句抛出.类似地,只有这个类或其子类之一可以是catch子句中的参数类型.出于编译时检查异常的目的,Throwable和Throwable的任何子类(也不是RuntimeException或Error的子类)都被视为已检查的异常. Error是Throwable的子类,表示合理的应用程序不应该尝试捕获的严重问题.大多数此类错误都是异常情况.Thr…
在Java中,根据错误性质将运行错误分为两类:错误和异常. 在Java程序的执行过程中,如果出现了异常事件,就会生成一个异常对象.生成的异常对象将传递Java运行时系统,这一异常的产生和提交过程称为抛弃(throw)异常. 当Java运行时系统得到一个异常对象时,它将会沿着方法的调用栈逐层回溯,寻找处理这一异常的代码.找到能够处理这类异常的方法后,运行时系统把当前异常对象交给这个方法进行处理,这一过程称为捕获(catch)异常. 1.Throwable类是 Java 语言中所有错误或异常的超类.…
关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 错误来自哪里? error due to "bias" and error due to "variance" 当我们要求无穷多个数的平均值或者方差时,我们选取了N个样本出现计算.很显然我们得到的结果是存在一定误差的.当我们选区的样本的值越多的时候,我们得到的结果也就越准确.类比于训练模型,我们所选择的训练数据是有限的,很多时候我们希望他们…
Understanding the Bias-Variance Tradeoff When we discuss prediction models, prediction errors can be decomposed into two main subcomponents we care about: error due to "bias" and error due to "variance". There is a tradeoff between a m…