r语言计算某一列的频率

2024-10-22

R语言实现数据集某一列的频数统计——with和table

with(priority.train, table(From.EMail)) 统计priority.train中From.EMail的频数

R语言计算moran‘I

R语言计算moran‘I install.packages("maptools")#画地图的包 install.packages("spdep")#空间统计,moran'I install.packages("tripack") install.packages("RANN") library("maptools") library("spdep") library("trip

R语言计算出一个N个属性的相关矩阵(),然后再将相关矩阵输出到CSV文件. 读入的数据文件格式如下图所示: R程序采用如下语句: data<-read.csv("I:\\SB\landuse1986\\copy-number-sb2074.landuse.1986.class.csv")//括号内为读入的csv数据文件的绝对地址,其中的斜杠采用向左的双斜杠 write.csv(cor(data,method="spearman"),file="I:\

R语言计算IV值

更多大数据分析.建模等内容请关注公众号<bigdatamodeling> 在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,R语言计算IV值的代码如下: CalcIV <- function(df_bin, key_var, y_var){ N_0<-table(df_bin[, y_var])[1] N_1<-table(df_bin[, y_var])[2] iv_c<-NULL var_c<-NULL for (col in c

使用R语言-计算均值，方差等

R语言对于数值计算很方便,最近用到了计算方差,标准差的功能,特记录. 数据准备 height <- c(6.00, 5.92, 5.58, 5.92) 1 计算均值 mean(height) [1] 5.855 2 计算中位数 median(height) [1] 5.92 3 计算标准差 sd(height) [1] 0.1871719 4 计算方差 var(height) [1] 0.03503333 5 计算两个变量之间的相关系数 cor(height,log(height)) [1] 0

[R语言]R语言计算unix timestamp的坑

R+mongo的组合真是各种坑等着踩由于mongo中的时间戳普遍使用的是unix timestamp的格式,因此需要对每天的数据进行计算的时候,很容易就想到对timestamp + gap对方式来实现每天的时间范围. 但这时候就埋下了一个坑,这个坑就是计算精度的问题. ms级的时间戳长度是12位,R中会识别成1.421112+e12的格式.gap的则是 1000 * 60 * 60 *24 * i,数量级是10^8.两者相加,在取某个i的时候,会出现加出来的数据与下一天的timestamp对不

Windows中使用OpenBLAS加速R语言计算速度

在使用R的时候会发现R对CPU的利用率并不是很高,反正当我在使用R的时候,无论R做何种运算R的CPU利用率都只有百分子几,这就导致一旦计算量大的时候计算时间非常长,会给人一种错觉(R真的在计算吗?会不会我的程序死掉了?).今天,我看到了一篇博客介绍的方法,迫不及待的尝试了一下,只能说:太牛逼了!下面是我的测试截图: 前:

R语言分析(一)-----基本语法

一, R语言所处理的工作层: 解释一下: 最下面的一层为数据源,往上是数据仓库层,往上是数据探索层,包括统计分析,统计查询,还有就是报告再往上的三层,分别是数据挖掘,数据展现和数据决策. 由上图可知,R语言是可以用于数据挖掘,数据展现,而后领导根据展现的数据来决策,R语言在数据展现的方面,拥有很强大的功能. 二,R语言的数据结构: 包括如下的几项:包括向量,矩阵,数组,数据框,列表和因子 1,向量: 创建向量的方法一共有三种,分别如下: 第一种,使用c()的这个方法: 由于博客中木有R语言

R语言环境变量的设置环境设置函数为options()

环境设置函数为options(),用options()命令可以设置一些环境变量,使用help(options)可以查看详细的参数信息. 1. 数字位数的设置,options(digits=n),n一般默认情况下是7位,但实际上的范围是1~22,可以随意设置位数. #这个命令,可以把R的整数表示能力设为10位. options(digits=10) 2. 扩展包的安装,使用下面的命令,可以联网安装扩展包. options(CRAN="http://cran.r-project.org")

谈谈R语言的缺点和优点

编码不友好,对中文不友好,逼着你用RStudio.Jupyter Notebook/Jupyter Lab.图标丑,每次点击感觉辣眼睛. 为节省内存,R语言计算默认有效数字为7位,比Excel的15位还坑,幸好可以用options(digit=20)调整.为节省内存,很多函数默认会把strings转为factor,部门.性别等转化尚能接受,姓名等转化不能接受. 严格区分等于.赋值.参数设置. 向量化,代码简洁,写起来爽.为统计而生,函数化,写起来快. 序号从1开始,方便排版报表.write.cs

R语言：数据的分割-计算-整合（split-apply-aggregate）

当获取到原始数据时,我们通常的做法是对该数据进行分割成小片段,然后对各小片段进行计算统计,最后整合成最终的数据.这是统计学里数据处理的一般规律. R语言为我们提供了相应的函数来分别处理这三个阶段任务. 分割:split()和subset()函数. 计算:apply(),lapply(),tapply(),sapply() 整合:aggregate() 注意几点: 1.向量,矩阵,数组的长度就是它元素的个数,用length获取:而数据集,列表的长度则是它变量的个数,注意二者的不同. 实际上,向量和

统计计算与R语言的资料汇总（截止2016年12月）

本文在Creative Commons许可证下发布. 在fedora Linux上断断续续使用R语言过了9年后,发现R语言在国内用的人逐渐多了起来.由于工作原因,直到今年暑假一个赴京工作的机会与一位统计专业的人士聊天,才知道R语言的强大威力!(当然这里没有贬低SPSS, SAS,Stata的意思). R语言是用于统计分析.绘图的语言和操作环境.R是属于GNU系统的一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具.它是统计领域广泛使用的诞生于 1980年左右的 S 语言的

皮尔逊相似度计算的例子(R语言)

编译最近的协同过滤算法皮尔逊相似度计算.下顺便研究R简单使用的语言.概率统计知识. 一.概率论和统计学概念复习 1)期望值(Expected Value) 由于这里每一个数都是等概率的.所以就当做是数组或向量中全部元素的平均数吧.能够使用R语言中函数mean(). 2)方差(Variance) 方差分为population variance整体方差和sample variance样本方差,差别是整体方差除以N,样本方差除以N-1. 数理统计中经常使用样本方差,R语言的var()函数计算的也是样本

R语言的导数计算（转）

转自:http://blog.fens.me/r-math-derivative/ 前言高等数学是每个大学生都要学习的一门数学基础课,同时也可能是考完试后最容易忘记的一门知识.我在学习高数的时候绞尽脑汁,但始终都不知道为何而学.生活和工作基本用不到,就算是在计算机行业和金融行业,能直接用到高数的地方也少之又少,学术和实际应用真是相差太远了. 不过,R语言为我打开了一道高数应用的大门,R语言不仅能方便地实现高等数学的计算,还可以很容易地把一篇论文中的高数公式应用于产品的实践中.因为R语言我重新学

皮尔森相似度计算举例(R语言)

整理了一下最近对协同过滤推荐算法中的皮尔森相似度计算,顺带学习了下R语言的简单使用,也复习了概率统计知识. 一.概率论和统计学概念复习 1)期望值(Expected Value) 因为这里每个数都是等概率的,所以就当做是数组或向量中所有元素的平均数吧.可以使用R语言中函数mean(). 2)方差(Variance) 方差分为population variance总体方差和sample variance样本方差,区别是总体方差除以N,样本方差除以N-1. 数理统计中常用样本方差,R语言的var()

.net 调用R语言的函数（计算统计值pvalue 对应excel :ttest）

Pvalue 计算项目设计pvalue计算,但是由于.net 没有类似的公式或者函数,最终决定使用.net 调用R语言采用.net 调用r语言的公用函数需要安装 r语言环境 https://mirrors.tuna.tsinghua.edu.cn/CRAN/ 前端调用api 发现需要ajax 同步调用 public string GetPValue(double[] data1, double[] data2) { REngine.SetEnvironmentVariables(); RE

merge函数：R语言，根据相同的列或ID合并不同的文件

一般Excel就能实现根据相同的列或ID合并不同的文件,但对于大文件来说,比如几十个G的数据量,用Excel处理,不仅耗时,而且还会使电脑崩溃.R语言的优势就体现在这里了,处理大文件相当快. first<-read.table('/pheno/first.txt',header=T) first<-data.frame(first) rs123456761<-read.table("/SNP/rs123456761.ped",header=T) rs123456761

通过R语言统计考研英语（二）单词出现频率

通过R语言统计考研英语(二)单词出现频率大家对英语考试并不陌生,首先是背单词,就是所谓的高频词汇.厚厚的一本单词,真的看的头大.最近结合自己刚学的R语言,为年底的考研做准备,想统计一下最近考研英语(二)真正单词出现的频率次数. 整体思路: 收集数据-->整理数据-->统计分析-->输出结果使用工具: `Rstudio,文本编辑器,CSV` 涉及到的包: "jiebaR"(中文分词引擎),“plyr", 第一步收集数据: 从网络搜索2013-2018考研英

用蒙特卡洛方法计算派－python和R语言

用蒙特卡洛方法算pi-基于python和R语言最近follow了MOOC上一门python课,开始学Python.同时,买来了概率论与数理统计,准备自学一下统计.(因为被鄙视过不是统计专业却想搞数据分析) 有趣的是书里面有一块讲蒲丰投针计算Pi,这是一种随机模拟法,也就是蒙特卡洛法.蒲丰投针之于我太难,暂时没想到怎么用计算机模拟这一过程. python课中,老师也提到用随机模拟法,也就是蒙特卡洛法(MonteCarlo),用计算机模拟几千次实验,计算pi的近似值.好巧. 就拿python课中的

R语言：计算现金工资的币数

新入职的员工,有的没有相应银行卡,需要计算现金工资的币数.实发工资,一般取整数. 简化计算,纸币面值只有100.10.1.4278除以100等于42余78,78除以10等于7余8,8除以1等于8. 复杂计算,纸币面值有100.50.20.10.5.1.4278除以100等于42余78,78除以50等于1余28,28除以20等于1余8,8除以10等于0余8,8除以5等于1余3,3除以1等于3. R语言中,向下取整为%/%,取余为%%. 思路一取整配合取余. 思路二取整配合减法.4278%/%100

R语言中两个数组(或向量)的外积怎样计算

所谓数组(或向量)a和b的外积,指的是a的每个元素和b的每个元素搭配在一起相乘得到的新元素.当然运算规则也可自己定义.外积运算符为 %o%(注意:百分号中间的字母是小写的字母o).比如: > a <- 1:2 > b <- 3:5 > d <- a %o% b > d [,1] [,2] [,3] [1,] 3 4 5 [2,] 6 8 10 注意维数公式为: dim(d) = c( dim(a) , dim(b) ) 实际上R语言提供了一个更为一般化得外积函数o