校招在即,准备准备一些面试可能会用到的东西吧.希望这次面试不会被挂. 基本概念 说到机器学习模型的误差,主要就是bias和variance. Bias:如果一个模型的训练错误大,然后验证错误和训练错误都很大,那么这个模型就是高bias.可能是因为欠拟合,也可能是因为模型是弱分类器. Variance:模型的训练错误小,但是验证错误远大于训练错误,那么这个模型就是高Variance,或者说它是过拟合. 这个图中,左上角是低偏差低方差的,可以看到所有的预测值,都会落在靶心,完美模型: 右上角是高偏差…
假设我们已经训练得到 一个模型,那么我们怎么直观判断这个 模型的 bias 和 variance? 直观方法: 如果模型的 训练错误 比较大,并且 验证错误 和 训练错误 差不多一样,都比较大,我们就认为这个模型 是 高bias 的,或者说 它是 underfit . 如果模型的 训练错误 比较小,但是 验证错误比较大 远大于 训练错误,我们就认为这个 模型 是 高variance,或者说它是 overfit. 直观解释: 如果一个模型是高 bias 的(underfitting),那么可以认为…
本文为senlie原创,转载请保留此地址:http://www.cnblogs.com/senlie/ 决策树---------------------------------------------------------------------1.描述:以树为基础的方法可以用于回归和分类.树的节点将要预测的空间划分为一系列简单域划分预测空间的规则可以被建模为一棵树,所以这种方法也叫决策树方法bagging,随机森林,boosting 是多棵决策树组合起来采用投票方式产生一个预测结果的方法机制…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:有一篇<有监督学习选择深度学习还是随机森林或支持向量机?>(作者Bio:SebastianRaschka)中提到,在日常机器学习工作或学习中,当我们遇到有监督学习相关问题时,不妨考虑下先用简单的假设空间(简单模型集合),例如线性模型逻辑回归.若效果不好,也即并没达到你的预期或评判效果基准时,再进行下换其他更复杂模型来实验. ----…
随机森林算法 由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点,这便是随机森林算法的基本原理.图 3 给出了随机森林算法分类原理,从图中可以看到,随机森林是一个组合模型,内部仍然是基于决策树,同单一的决策树分类不同的是,随机森林通过多个决策树投票结果进行分类,算法不容易出现过度拟合问题. 图 3…
最近有好多小伙伴要面经(还有个要买简历的是什么鬼),然鹅真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面试来说,作者发现根本不是面经中说的样子...来源|知乎作者 其实今年参加NLP算法岗秋招的小伙伴可能有感慨, "照着别人的面经去准备了辣么多,轮到自己面试时内容怎么这么不一样?!" "说好的要做到熟练推导SVM呢?怎么从来没人让我推导SVM?" "整场面试都在聊前沿论文啊什么鬼?从来没见这样的面经…
https://blog.csdn.net/weixin_42137700/article/details/81628028 首先,本文不是为了增加大家的焦虑感,而是站在一名学生的角度聊聊找AI算法岗位的那些事儿(不喜请喷). 熟悉Amusi的同学应该知道,Amusi 是一名十八线过气211院校的研二学生.因此有幸成为秋招大军的一员.原本想着秋招完,拿到不错的Offer,再来写篇文章来总结的,但随着指针在转,越发觉得写一篇相关文章很重要. 这里先申明一下,AI算法工程师范围很大,细分一下:深度学…
闲来无事,突然看到博客园首页上有人写了篇了华为2018软件岗笔试题解题思路和源代码分享.看了下题目,感觉第一题能做出来,就想着用刚刚学的python试着写一下,花费的时间有点长~~,看来又好长时间没练习算法了. 题目描述 输入两个字母串,将两个字母串都包含的字母用'_'替换后,输出两个字母串的剩余部分. 输入描述: 输入两个字符串,字符串最大长度为100.字符串只包含字母,不可能为空串,区分大小写. 输出描述: 按字符串顺序输出处理后的字符串 示例1 输入 abcd bdef 输出 a_c_ _…
2019大厂Java岗面试题全曝光,刷完这1020道,金三银四大厂等你 前言: 本文收集整理了各大厂常见面试题N道,你想要的这里都有 内容涵盖:Java.MyBatis.ZooKeeper.Dubbo.Elasticsearch.Memcached.Redis.MySQL.Spring.Spring Boot.Spring Cloud.RabbitMQ.Kafka.Linux 等技术栈,希望大家都能找到适合自己的公司,开开心心的撸代码. 看面试题可以是为了面试,也可以是对自己学到的东西的一种查漏…
笔者寄语:本文中大多内容来自<数据挖掘之道>,本文为读书笔记.在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率.需要完整的评价模型的方式. 常见的应用在监督学习算法中的是计算平均绝对误差(MAE).平均平方差(MSE).标准平均方差(NMSE)和均值等,这些指标计算简单.容易理解:而稍微复杂的情况下,更多地考虑的是一些高大上的指标,信息熵.复杂度和基尼值等等. 本篇可以用于情感挖掘中的监督式算法的模型评估,可以与博客对着看:R语言…