测试数据 [19550, 7.1 ],[22498, 8.44 ],[25675, 9.56 ],[27701, 10.77],[29747, 11.5 ],[32800, 12.27],[34822, 12.87],[40369, 13.32],[47029, 14.9 ],[54236, 16 ],[60801, 16.77],[68441, 17.32],[76273, 18.01],[83431, 18.47],[85060, 17.96],[96184, 18.98],[110520,…
1. 皮尔逊相关系数(Pearson Correlation Coefficient) 1.1 衡量两个值线性相关强度的量 1.2 取值范围[-1, 1] 正相关:>0, 负相关:<0, 无相关:=0 1.3 要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下: 方差: Pearson相关系数公式如下: 注意:有了协方差,为什么还使用…
身份证算年龄 假设A1是身份证号所在单元格 =IF(MONTH(NOW())<INT(MID(A1,11,2)),INT(YEAR(NOW())-INT(MID(A1,7,4)))-1,IF(MONTH(NOW())>INT(MID(A1,11,2)),YEAR(NOW())-INT(MID(A1,7,4)),IF(DAY(NOW())>=INT(MID(A1,13,2)),YEAR(NOW())-INT(MID(A1,7,4)),YEAR(NOW())-INT(MID(A1,7,4))…
R语言计算moran‘I install.packages("maptools")#画地图的包 install.packages("spdep")#空间统计,moran'I install.packages("tripack") install.packages("RANN") library("maptools") library("spdep") library("trip…
R语言计算出一个N个属性的相关矩阵(),然后再将相关矩阵输出到CSV文件. 读入的数据文件格式如下图所示: R程序采用如下语句: data<-read.csv("I:\\SB\landuse1986\\copy-number-sb2074.landuse.1986.class.csv")//括号内为读入的csv数据文件的绝对地址,其中的斜杠采用向左的双斜杠 write.csv(cor(data,method="spearman"),file="I:\…
更多大数据分析.建模等内容请关注公众号<bigdatamodeling> 在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,R语言计算IV值的代码如下: CalcIV <- function(df_bin, key_var, y_var){ N_0<-table(df_bin[, y_var])[1] N_1<-table(df_bin[, y_var])[2] iv_c<-NULL var_c<-NULL for (col in c…
问题描述 输入正整数a, m,输出a2%m,其中表示乘方,即a^2表示a的平方,%表示取余. 输入格式 输入包含两个整数a, m,a不超过10000. 输出格式 输出一个整数,即a^2%m的值. 样例输入 5 6 样例输出 1 import java.util.Scanner; public class 平方计算 { public static void main(String[] args) { Scanner in = new Scanner(System.in); int a = in.n…
上一次分享了Linux时间时区详解与常用时间函数,相信大家对Linux常见时间函数的使用也有了一定的了解,在工作中遇到类似获取时间等需求的时候也一定能很好的处理.本文基于Linux整形时间给出一些简化的的常用计算思路,试图从另外的角度去加强读者对时间处理的理解,希望对您有所帮助. 概述 在后台server 的开发中,经常需要基于日期.时间的比较.计算.类似的功能需求可能有:判断今天是星期几,判断两个时间是否在同一天,是否在同一周,判断当前时间是否在每日的特定时段内等等.虽然有系统函数localt…
入职.离职,总公司调往分公司,分公司调往总公司,每月社保.公积金和上月比较有增减.税局导出的为Excel文件,需要和记录对照一番. 用Excel处理,那就是姓名粘贴为两列,条件格式-重复值,没变色的为增减.筛选两次颜色,就能得到结果.一般情况下,没有重名者,就简化处理.如果有,就要上工号等手段. Excel选中区域,复制,R语言中用read.delim()等函数读取剪切板并赋值.一次读取为上月姓名,一次读取为本月姓名.没有标题,就header=FALSE,一般情况下加个标题.用length()计…
R+mongo的组合真是各种坑等着踩 由于mongo中的时间戳普遍使用的是unix timestamp的格式,因此需要对每天的数据进行计算的时候,很容易就想到对timestamp + gap对方式来实现每天的时间范围. 但这时候就埋下了一个坑,这个坑就是计算精度的问题. ms级的时间戳长度是12位,R中会识别成1.421112+e12的格式.gap的则是 1000 * 60 * 60 *24 * i,数量级是10^8.两者相加,在取某个i的时候,会出现加出来的数据与下一天的timestamp对不…