1.sink()在代码开始前加一行:sink(“output.txt”),就会自动把结果全部输出到工作文件夹下的output.txt文本文档.这时在R控制台的输出窗口中是看不到输出结果的.代码结束时用sink()切换回来. 示例: sink("a.txt") x<-rnorm(100,0,1) mean(x) sink() 注:此处输出为mean(x). 2.stargazer() library(stargazer) #导入数据 mydata <- read.csv(&q…
通过R语言统计考研英语(二)单词出现频率 大家对英语考试并不陌生,首先是背单词,就是所谓的高频词汇.厚厚的一本单词,真的看的头大.最近结合自己刚学的R语言,为年底的考研做准备,想统计一下最近考研英语(二)真正单词出现的频率次数. 整体思路: 收集数据-->整理数据-->统计分析-->输出结果 使用工具: `Rstudio,文本编辑器,CSV` 涉及到的包: "jiebaR"(中文分词引擎),“plyr", 第一步收集数据: 从网络搜索2013-2018考研英…
网上很多配置log4net的方法,但是排行靠前的 根本就没有说明清除,导致浪费了两个小时来搞清楚如何配置,真是无语,特写此文,给那些刚接触log4net的朋友 1.参考链接:http://blog.sina.com.cn/s/blog_642e41c201014pml.html 此方法是直接将配置文件配置在app.config <configSections> <!--在配置选项中加入log4net的引用--> <section name="log4net"…
R语言—如何安装Github包的解决方法,亲测有效 准备安装材料: R包-REmap GitHub下载地址:https://github.com/lchiffon/REmap R包-baidumap GitHub下载地址:https://github.com/badbye/baidumap 准备环境条件: #方法一:在线安装 install.packages("devtools") install.packages("rJava") library(rJava) l…
R语言中样本平衡的几种方法 在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性.在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测.因此,机器学习算法常常被要求应用在平衡数据集上.不平衡分类是一种有监督学习,但它处理的对象中有一个类所占的比例远远大于其余类.比起多分类,这一问题在二分类中更为常见.不平衡一词指代数据中响应变量(被解释变量)的分布不均衡,如果一个数据集的响应变量在不同类上的分布差别较大我们…
一. 统计学习概述 统计学习是指一组用于理解数据和建模的工具集.这些工具可分为有监督或无监督.1.监督学习:用于根据一个或多个输入预测或估计输出.常用于商业.医学.天体物理学和公共政策等领域.2.无监督学习:有输入变量,但没有输出变量,可以从这些数据中学习潜在关系和数据结构.以下简单的用3个数据集来说明. 1.工资数据 我们希望了解雇员的年龄.教育和年份对他的工资之间的联系.下图是对这三个因素的一个分析和统计. 左图:工资随着年龄的增长而增加,但在大约60岁之后又下降了.蓝线提供了对该年龄段平均…
记事本打开startup.bat文件,修改如下内容 “call “%EXECUTABLE%” start %CMD_LINE_ARGS%” 改为 call "%EXECUTABLE%" run %CMD_LINE_ARGS% 这里改成run后,控制台中将不会输出日志信息,可以设置日志信息输出到本地的日志文件中,改为如下样式即可 call "%EXECUTABLE%" run %CMD_LINE_ARGS%>> %CATALINA_HOME%/logs/s…
博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html 前言 延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理.分词的事情.其实就是继续讲一下用R语言读书的事情啦,讲讲怎么用它里面简单的文本处理方法,来优化我们的读书体验,如果读邮件和读代码也算阅读的话..用的代码超级简单,不涉及其他包 这里讲两个示例,结尾再来吐槽和总结. 1)R-Blogger订阅邮件拆分 2) R代码库快速阅读方法 不在博客园上阅读时才会看到的,这篇博文…
多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确.   1.可以计算X矩阵的秩qr(X)$rank,如果不是满秩的,说明其中有Xi可以用其他的X的线性组合表示: 2.也可以计算条件数kappa(X),k<100,说明共线性程度小:如果100<k<1000,则存在较多的多重共线性;若k>1000,存在严重的多重共线性. 例如: collinear<-data.frame( Y=c(1…
原始数据: 程序: #统计词频 library(wordcloud) # F:/master2017/ch4/weibo170.cut.txt text <- readLines("F:/master2017/ch4/weibo170.cut.txt") txtList <- lapply(txt, strsplit," ") txtChar <- unlist(txtList) txtChar <- gsub(pattern = "…