R 代码积累

R 代码积累不定期更新

1.阶乘、递归、reduce、sprintf

#NO.1

# 阶乘函数

fact <- function(n){

  if(n==0) return(1) #基例在这

  else return(n*fact(n-1))

}

#1+2!+3!+...+20!的和

#测试 Reduce('+', lapply(1:3,fact)) 结果是9

Reduce('+', lapply(1:20,fact))

#NO.2

#判断101-200之间有多少个素数，并输出所有素数

is.prime <- function(num) {

  if (num == 2) {

    TRUE

  } else if (any(num %% 2:(num-1) == 0)) {

    FALSE

  } else {

    TRUE

  }

}

#101共有多少个素数

Reduce('+', lapply(101:200,is.prime))

#打印出每一个素数

for(i in 101:200){

  if(!is.prime(i)) next

  print(sprintf('%d 是素数 %s',i,is.prime(i)))

}

2.MD5加密卡号

library(magrittr)

library(digest)

library(data.table)

library(readxl)

library(lubridate)

dat=read_excel('data_union.xlsx',sheet=4)

dim(dat)

get_len <- function(a){

  return(paste0(nchar(a),a))

}

dat$card_len=lapply(dat$bank_card, get_len)%>%unlist()

dat$card_md5 <- lapply(dat$card_len, digest, algo="md5",serialize=F)%>%unlist()

dat$card_md5_upper <- toupper(dat$card_md5)

write.table(

  dat[,c('card_md5_upper')]

  ,'yqb_card_md5.txt',row.names = F

  ,col.names=F

  ,quote = F)

#ym_apply

dat$ym_apply=dat$time %m-% months(1)%>%

  format("%Y%m")%>%as.numeric()

#write out card_md5 and ym_apply

write.table(

  dat[c('card_md5_upper','ym_apply')]

  ,sep=','

  ,'yqb_card_ym_md5.txt',row.names = F

  ,col.names=F

  ,quote = F)

unique(dat$ym_apply)

3.时间函数

https://cran.r-project.org/web/packages/lubridate/vignettes/lubridate.html

4.随机森林可视化

library(randomForest)

library(kernlab) # spam数据集 来源于这个 包

library(magrittr)

library(caret)

#setwd('...')

#data <- read.csv('...')

data(spam) #加载数据集

# spam 是一个数据集，一条记录代表一封邮件包含哪些特殊词

# ，这封邮件是否是垃圾邮件（y变量）等等一些变量

View(spam)

table(spam$type) #看一下Y变量的分布，是否存在不均衡（imbalanced data）

#type 是y变量 也可以是0,1，但注意，如果你的数据集是 df,  要预先 将y变量转换为factor ,df$y <- as.factor(df$y)

set.seed(2016) #为使模型可再现，这里预先设定随机种子，因为随机森林的 每棵树对行是进行随机有放回的抽样的

rf <- randomForest(type~.

                   ,data=spam

                   ,importance=TRUE #保留变量的重要性 TURE的时候,可通过rf$importance 查看

                   ,proximity=FALSE #在n棵树种，一个矩阵任意两条记录 落在同一个叶子节点的概率，可以表示两条记录的相似程度

                   ,ntree=500 #种多少棵树

                   ,do.trace=20 #每20条显示 误分率

                   ,na.action=na.omit#一行中只要存在一个NA,这条记录就删掉

                   ,strata=spam$type #按照Y变量中（0,1的比例，进行上下采样，对占比少的用oversampling，对占比多的用downsampling）

                   ,sampsize=c(1500,1500) #对0,1采样的个数分别是多少，都是有放回的

                   ,mtry=7 #每一棵决策树，选取几个feature?，对于classification 一般是feature总数的开平方（这个是default）

                   ,keep.forest=FALSE) #保留每一棵数

rf$confusion #混淆矩阵

##变量重要性,如果你的数据是有上千个变量，可以根据变量的重要性对数据进行降维

par(mfrow = c(2,2))

for(i in 1:4){

  plot(sort(rf$importance[,i],decreasing =TRUE)%>%head(20)

       ,type='h'

       ,main=paste0(colnames(rf$importance)[i])

       ,xlab='variable'

       ,ylab='importance')

  text(sort(rf$importance[,i],decreasing =TRUE)

       ,labels=names(sort(rf$importance[,i]))%>%head(20)

       ,pos=1

       ,cex=0.9)

}

## 下面画ROC 曲线，计算AUC

library(ROCR)

predictions=as.vector(rf$votes[,2])

pred=prediction(predictions,spam$type)

perf_AUC=performance(pred,"auc") #Calculate the AUC value

AUC=perf_AUC@y.values[[1]]

perf_ROC=performance(pred,"tpr","fpr") #plot the actual ROC curve

plot(perf_ROC, main="ROC plot")

text(0.5,0.5,paste("AUC = ",format(AUC, digits=5, scientific=FALSE)))

#cutoff accuracy

perf <- performance(pred, measure="acc", x.measure="cutoff")

# Get the cutoff for the best accuracy

bestAccInd <- which.max(perf@"y.values"[[1]])

bestMsg <- paste("best accuracy=", perf@"y.values"[[1]][bestAccInd],

                 " at cutoff=", round(perf@"x.values"[[1]][bestAccInd], 4))

plot(perf, sub=bestMsg)

abline(v=round(perf@"x.values"[[1]][bestAccInd], 4))

# calculate the confusion matrix and plot

cm <- confusionMatrix(rf$predicted, reference = spam$type)

draw_confusion_matrix(cm)

#confusion matrix visualization

draw_confusion_matrix <- function(cm) {

  layout(matrix(c(1,1,2)))

  par(mar=c(2,2,2,2))

  plot(c(100, 345), c(300, 450), type = "n", xlab="", ylab="", xaxt='n', yaxt='n')

  title('CONFUSION MATRIX', cex.main=2)

  # create the matrix

  rect(150, 430, 240, 370, col='#3F97D0')

  text(195, 435,  rf$classes[1], cex=1.2)

  rect(250, 430, 340, 370, col='#F7AD50')

  text(295, 435, rf$classes[2], cex=1.2)

  text(125, 370, 'Predicted', cex=1.3, srt=90, font=2)

  text(245, 450, 'Actual', cex=1.3, font=2)

  rect(150, 305, 240, 365, col='#F7AD50')

  rect(250, 305, 340, 365, col='#3F97D0')

  text(140, 400,  rf$classes[1], cex=1.2, srt=90)

  text(140, 335, rf$classes[2], cex=1.2, srt=90)

  # add in the cm results

  res <- as.numeric(cm$table)

  text(195, 400, res[1], cex=1.6, font=2, col='white')

  text(195, 335, res[2], cex=1.6, font=2, col='white')

  text(295, 400, res[3], cex=1.6, font=2, col='white')

  text(295, 335, res[4], cex=1.6, font=2, col='white')

  # add in the specifics

  plot(c(100, 0), c(100, 0), type = "n", xlab="", ylab="", main = "DETAILS", xaxt='n', yaxt='n')

  text(10, 85, names(cm$byClass[1]), cex=1.2, font=2)

  text(10, 70, round(as.numeric(cm$byClass[1]), 3), cex=1.2)

  text(30, 85, names(cm$byClass[2]), cex=1.2, font=2)

  text(30, 70, round(as.numeric(cm$byClass[2]), 3), cex=1.2)

  text(50, 85, names(cm$byClass[5]), cex=1.2, font=2)

  text(50, 70, round(as.numeric(cm$byClass[5]), 3), cex=1.2)

  text(70, 85, names(cm$byClass[6]), cex=1.2, font=2)

  text(70, 70, round(as.numeric(cm$byClass[6]), 3), cex=1.2)

  text(90, 85, names(cm$byClass[7]), cex=1.2, font=2)

  text(90, 70, round(as.numeric(cm$byClass[7]), 3), cex=1.2)

  # add in the accuracy information

  text(30, 35, names(cm$overall[1]), cex=1.5, font=2)

  text(30, 20, round(as.numeric(cm$overall[1]), 3), cex=1.4)

  text(70, 35, names(cm$overall[2]), cex=1.5, font=2)

  text(70, 20, round(as.numeric(cm$overall[2]), 3), cex=1.4)

}

　5.一个多线程爬虫

##  99健康网 医院抓取  ##

#step1:by city

url_0='http://yyk.99.com.cn/city.html'

content_0=url_0%>%read_html()

city_nm=c(

  content_0%>%html_nodes('.cityarea li a')%>%html_text(trim=T)

  ,content_0%>%html_nodes('.cityarea .background li a')%>%html_text(trim=T)

)

city_url=c(

  content_0%>%html_nodes('.cityarea li a')%>%html_attr('href')%>%paste0('http://yyk.99.com.cn',.)

  ,content_0%>%html_nodes('.cityarea .background li a')%>%html_attr('href')%>%paste0('http://yyk.99.com.cn',.)

)

length(city_nm)

length(city_url)

#step2:get hospital by city

get_hospital_1 <- function(i){

  # i=1

  content_1=city_url[i]%>%read_html(encoding='gbk')

  hospital_nm=content_1%>%html_nodes('.tablist li span')%>%html_text(trim=T)

  hospital_url=content_1%>%html_nodes('.tablist li a')%>%html_attr('href')%>%paste0(.,'jianjie.html')

  return(data.frame(

    stringsAsFactors = F

    ,city_nm=rep(city_nm[i],length(hospital_nm))

    ,hospital_nm=hospital_nm

    ,hospital_url=hospital_url

  ))

}

system.time({

  x <- 301:length(city_url)

  res_99jk_3 <- do.call('rbind',lapply(x,get_hospital_1))

})

write.table(res_99jk_1,'res_99jk_1.csv',row.names = F,sep='\t')

write.table(res_99jk_2,'res_99jk_2.csv',row.names = F,sep='\t')

write.table(res_99jk_3,'res_99jk_3.csv',row.names = F,sep='\t')

res_99jk <- rbind(res_99jk_1

                  ,res_99jk_2

                  ,res_99jk_3)

#step3 get all fileds level beds_cnt...

res_99jk <- read.table('res_99jk.csv',header = T)

hospital_url_pool=res_99jk$hospital_url%>%unique()

get_detail <- function(hospital_url){

  tryCatch({

    res=hospital_url%>%read_html(encoding='gbk')%>%html_nodes('.tdr')%>%html_text(trim=T)

    df=data.frame(stringsAsFactors = F

                  ,hospital_url=hospital_url

                  ,nm=res[1]

                  ,addr=res[2]

                  ,hp_admin=res[3]

                  ,start_dt=res[4]

                  ,type=res[5]

                  ,level=res[6]

                  ,section_cnt=res[7]

                  ,doc_cnt=res[8]

                  ,bed_cnt=res[9]

                  ,traffic=res[10]

                  ,insurance=res[11]

                  ,web_site=res[12]

                  ,phone=res[13]

                  ,addr=res[14]

                  ,postcode=res[15])

  },error = function(e) {

    rm(df)

    df=data.frame(stringsAsFactors = F

                  ,hospital_url=hospital_url

                  ,nm=NA

                  ,addr=NA

                  ,hp_admin=NA

                  ,start_dt=NA

                  ,type=NA

                  ,level=NA

                  ,section_cnt=NA

                  ,doc_cnt=NA

                  ,bed_cnt=NA

                  ,traffic=NA

                  ,insurance=NA

                  ,web_site=NA

                  ,phone=NA

                  ,addr=NA

                  ,postcode=NA)

  })

  return(df)

}

op <- pboptions(type = "timer")

x <- hospital_url_pool[1:5000]

system.time(rdf_99jk_1 <- do.call(rbind.data.frame,pblapply(x,get_detail)))

pboptions(op)

write.table(rdf_99jk_1,'rdf_99jk_1_5000.csv',row.names = F,sep='\t')

##多线程爬虫

pkg <- c('RMySQL','DBI','xml2','rvest','magrittr','xml2','stringr','httpuv','R2HTML','pbapply','curl')

for(i in pkg){

  if(!i %in% installed.packages()[,1]) (install.packages(i))

}

library(magrittr)

library(bitops)

library(rvest)

library(stringr)

library(DBI)

library(RCurl)

library(curl)

library(sqldf)

library(gdata)

library(xml2)

library(pbapply)

library(parallel)

res_99jk <- read.table('res_99jk.csv',header = T,stringsAsFactors = F)

hospital_url_pool=res_99jk$hospital_url%>%unique()

get_detail <- function(hospital_url){

  tryCatch({

    res=hospital_url%>%read_html(encoding='gbk')%>%html_nodes('.tdr')%>%html_text(trim=T)

    df=data.frame(stringsAsFactors = F

                  ,hospital_url=hospital_url

                  ,nm=res[1]

                  ,addr=res[2]

                  ,hp_admin=res[3]

                  ,start_dt=res[4]

                  ,type=res[5]

                  ,level=res[6]

                  ,section_cnt=res[7]

                  ,doc_cnt=res[8]

                  ,bed_cnt=res[9]

                  ,traffic=res[10]

                  ,insurance=res[11]

                  ,web_site=res[12]

                  ,phone=res[13]

                  ,addr=res[14]

                  ,postcode=res[15])

  },error = function(e) {

    rm(df)

    df=data.frame(stringsAsFactors = F

                  ,hospital_url=hospital_url

                  ,nm=NA

                  ,addr=NA

                  ,hp_admin=NA

                  ,start_dt=NA

                  ,type=NA

                  ,level=NA

                  ,section_cnt=NA

                  ,doc_cnt=NA

                  ,bed_cnt=NA

                  ,traffic=NA

                  ,insurance=NA

                  ,web_site=NA

                  ,phone=NA

                  ,addr=NA

                  ,postcode=NA)

  })

  return(df)

}

# 用system.time来返回计算所需时间

system.time({

  x <- hospital_url_pool[5001:length(hospital_url_pool)]

  cl <- makeCluster(4) # 初始化四核心集群

  clusterEvalQ(cl, library(magrittr))

  clusterEvalQ(cl, library(rvest))

  clusterEvalQ(cl, library(RCurl))

  clusterEvalQ(cl, library(curl))

  clusterEvalQ(cl, library(xml2))

  results <- parLapply(cl,x,get_detail) # lapply的并行版本

  res.df <- do.call('rbind',results) # 整合结果

  stopCluster(cl) # 关闭集群

})

# res2=do.call(rbind.data.frame,results)

res2=data.frame(stringsAsFactors = F)

for(i in 1:length(results)){

  print(paste0('this is ',i))

  if (!identical(dim(results[[i]]),dim(results[[1]]))) next

  res2=rbind(res2,results[[i]])

}

R 代码积累的更多相关文章

神经网络模型及R代码实现
神经网络基本原理一.神经元模型图中x1~xn是从其他神经元传来的输入信号,wij表示表示从神经元j到神经元i的连接权值,θ表示一个阈值 ( threshold ),或称为偏置( bias ).则神 ...
建模分析之机器学习算法（附python&R代码）
0序随着移动互联和大数据的拓展越发觉得算法以及模型在设计和开发中的重要性.不管是现在接触比较多的安全产品还是大互联网公司经常提到的人工智能产品(甚至人类2045的的智能拐点时代).都基于算法及建模来 ...
可以编辑R代码的eclipse插件
说到强大的IDE,eclipse肯定是首先会被想到的几个之一,幸运地是,R也能使用它.在http://www.walware.de/goto/statet上有个StatET的插件,专门为R而做,从此R ...
如何让R代码按计划执行
应用场景:你编写了R代码,每天对提交的数据进行分析,你希望它你吃饭的时候执行完毕,生成图表. 那么你需要安装taskscheduleR的包. 怎么操作,看帮助呗.
R代码展示各种统计学分布 | 生物信息学举例
二项分布 | Binomial distribution 泊松分布 | Poisson Distribution 正态分布 | Normal Distribution | Gaussian distr ...
regression | p-value | Simple (bivariate) linear model | 线性回归 | 多重检验 | FDR | BH | R代码
P122, 这是IQR method课的第一次作业,需要统计检验,x和y是否显著的有线性关系. Assignment 1 1) Find a small bivariate dataset (pref ...
10 种机器学习算法的要点（附 Python 和 R 代码）
本文由伯乐在线 - Agatha 翻译,唐尤华校稿.未经许可,禁止转载!英文出处:SUNIL RAY.欢迎加入翻译组. 前言谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关 ...
<转>机器学习系列(9)_机器学习算法一览（附Python和R代码）
转自http://blog.csdn.net/han_xiaoyang/article/details/51191386 – 谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电脑变得更 ...
使用记忆化优化你的 R 代码
目录使用记忆化优化你的 R 代码 R 中的性能优化 R 何时变慢 R 何时变(更)快 R 中的记忆化何时使用记忆化使用记忆化优化你的 R 代码本文翻译自<Optimize your R ...

随机推荐

unity项目架构
Unity 游戏框架搭建 (一) 概述Unity 游戏框架搭建 (二) 单例的模板Unity 游戏框架搭建 (三) MonoBehaviour单例的模板Unity 游戏框架搭建 (四) 简易有限状态机 ...
面试题-Java设计模式举例
面试题-Java设计模式举例 1.适配器模式涉及三个角色:Target目标接口.Adaptee源角色.Adapter适配器:Adapter将源接口适配到目标接口,继承源接口,实现目标接口. Java ...
Python 集合(set)类型的操作——并交差
介绍 python的set是一个无序不重复元素集,基本功能包括关系测试和消除重复元素. 集合对象还支持并.交.差.对称差等. sets 支持 x in set. len(set).和 for x in ...
js 添加HTML属性的方法
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8" ...
SpringBoot | 第三十章：Spring-data-jpa的集成和使用
前言在前面的第九章:Mybatis-plus的集成和使用章节中,介绍了使用ORM框架mybatis-plus进行数据库的访问.今天,我们来简单学习下如何使用spring-data-jpa进行数据库的 ...
JS常用的设计模式(2)——简单工厂模式
简单工厂模式是由一个方法来决定到底要创建哪个类的实例, 而这些实例经常都拥有相同的接口. 这种模式主要用在所实例化的类型在编译期并不能确定, 而是在执行期决定的情况. 说的通俗点,就像公司茶水间的饮料 ...
python学习（四）--POST请求
from urllib import requestimport urllibimport re #网页版有道翻译是ajax的post请求. #浏览器请求地址http://fanyi.youdao.c ...
Redis的Lists数据类型
Lists 就是链表,相信略有数据结构知识的人都应该能理解其结构.使用Lists结构,我们可以轻松地实现最新消息排行等功能.Lists的另一个应用就是消息队列,可以利用Lists的PUSH操作,将任务 ...
js之正则表达式基础
字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在.比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦, ...
同源策略和Jsonp、CORS
一.同源策略同源策略(Same origin policy)是一种约定,它是浏览器最核心也最基本的安全功能,如果缺少了同源策略,则浏览器的正常功能可能都会受到影响.可以说Web是构建在同源策略基础之 ...

R 代码积累

R 代码积累的更多相关文章

随机推荐

热门专题