R语言中的回归诊断-- car包】的更多相关文章

如何判断我们的线性回归模型是正确的? 1.回归诊断的基本方法opar<-par(no.readOnly=TRUE) fit <- lm(weight ~ height, data = women)par(mfrow = c(2, 2))plot(fit)par(opar) 为理解这些图形,我们来回顾一下OLS回归的统计假设.(1)正态性(主要使用QQ图) 当预测变量值固定时,因变量成正态分布,则残差值也应该是一个均值为0的正态分布.正态Q-Q图(Normal Q-Q,右上)是在正态分布对应的值…
R语言中的数据处理包dplyr.tidyr笔记   dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用. 本文将介绍dplyr包的下述五个函数用法: 筛选: filter() 排列: arrange() 选择: select() 变形: mutate() 汇总: summ…
R语言中的机器学习包   Machine Learning & Statistical Learning (机器学习 & 统计学习)  网址:http://cran.r-project.org/web/views/MachineLearning.html维护人员:Torsten Hothorn  版本:2008-02-18 18:19:21  翻译:R-fox, 2008-03-18 机器学习是计算机科学和统计学的边缘交叉领域,R关于机器学习的包主要包括以下几个方面:   1)神经网络(N…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言·文本挖掘︱Rwordseg/rJava两包的安装 笔者:文本挖掘中这两个包可谓是"老顽固",做文本挖掘必须要过的关卡,今天倒腾了一天,桌面下了一堆东西,终于弄出来了.故此,赶紧记录下来,以后可用: 关于这两个包的安装问题,有很多很多教程,很多方法,我就不一一介绍,如果我介绍的方法你安装不了,那你就得去下面的参考链接找找其他的方…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- openNLP是NLP中比较好的开源工具,R语言中有openNLP packages,但是呢,貌似对中文的支持并不好,笔者试了试,发现结果并不如意.但是也算认识了一番,就来介绍一下. 一些内容转载于白宁超老师:OpenNLP:驾驭文本,分词那些事 ---------------------------------------- 一.openNL…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者看到微信公众号探数寻理中提到郎大为Chiffon老师的wordcloud2,于是尝鲜准备用一下.但是在下载的时候,遇见很多问题,安装问题困扰着... 包中函数本身很好用,很简单,而且图形众多. -------------------------------------------- 一.wordcloud2包的安装 官方郎大为老师githu…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词.大致分析步骤如下: 数据导入--选择分词字典--分词 但是下载步骤比较繁琐,可参考之前的博客: R语言·文本挖掘︱Rwordseg/rJava两包的安装(安到吐血) ------------------…
R语言中的字符处理 (2011-07-10 22:29:48) 转载▼ 标签: r语言 字符处理 字符串 连接 分割 分类: R R的字符串处理能力还是很强大的,具体有base包的几个函数和stringr包. 1.计算字符串的字符数 nchar()  2. 字符串连接 paste(..., sep = " ", collapse = NULL),其中collpase参数可将多个字符串连接成一个. ===================================== > pa…
R语言中样本平衡的几种方法 在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性.在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测.因此,机器学习算法常常被要求应用在平衡数据集上.不平衡分类是一种有监督学习,但它处理的对象中有一个类所占的比例远远大于其余类.比起多分类,这一问题在二分类中更为常见.不平衡一词指代数据中响应变量(被解释变量)的分布不均衡,如果一个数据集的响应变量在不同类上的分布差别较大我们…
R语言中动态安装库 在一个R脚本中,我们使用了某些library,但是发现运行环境中没有这个library,如果能检测一下有没有这个包,没有就自动安装该多好.而R中非常方便地支持这些,只要联网. 代码如下: site<-"http://cran.r-project.org" if (!require("ggplot2")) { install.package("ggplot2", repos=site) }…