下面列出了可用于数据挖掘的R包和函数的集合。其中一些不是专门为了数据挖掘而开发,但数据挖掘过程中这些包能帮我们不少忙,所以也包含进来。

1、聚类

  • 常用的包: fpc,cluster,pvclust,mclust

  • 基于划分的方法: kmeans, pam, pamk, clara

  • 基于层次的方法: hclust, pvclust, agnes, diana

  • 基于模型的方法: mclust

  • 基于密度的方法: dbscan

  • 基于画图的方法: plotcluster, plot.hclust

  • 基于验证的方法: cluster.stats

2、分类

  • 常用的包:

    rpart,party,randomForest,rpartOrdinal,tree,marginTree,

    maptree,survival

  • 决策树: rpart, ctree

  • 随机森林: cforest, randomForest

  • 回归, Logistic回归, Poisson回归: glm, predict, residuals

  • 生存分析: survfit, survdiff, coxph

3、关联规则与频繁项集

  • 常用的包:

    arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则

    DRM:回归和分类数据的重复关联模型

  • APRIORI算法,广度RST算法:apriori, drm

  • ECLAT算法: 采用等价类,RST深度搜索和集合的交集: eclat

4、序列模式

  • 常用的包: arulesSequences

  • SPADE算法: cSPADE

5、时间序列

  • 常用的包: timsac

  • 时间序列构建函数: ts

  • 成分分解: decomp, decompose, stl, tsr

6、统计

  • 常用的包: Base R, nlme

  • 方差分析: aov, anova

  • 密度分析: density

  • 假设检验: t.test, prop.test, anova, aov

  • 线性混合模型:lme

  • 主成分分析和因子分析:princomp

7、图表

  • 条形图: barplot

  • 饼图: pie

  • 散点图: dotchart

  • 直方图: hist

  • 密度图: densityplot

  • 蜡烛图, 箱形图 boxplot

  • QQ (quantile-quantile) 图: qqnorm, qqplot, qqline

  • Bi-variate plot: coplot

  • 树: rpart

  • Parallel coordinates: parallel, paracoor, parcoord

  • 热图, contour: contour, filled.contour

  • 其他图: stripplot, sunflowerplot, interaction.plot, matplot, fourfoldplot, assocplot, mosaicplot

  • 保存的图表格式: pdf, postscript, win.metafile, jpeg, bmp, png

8、数据操作

  • 缺失值:na.omit

  • 变量标准化:scale

  • 变量转置:t

  • 抽样:sample

  • 堆栈:stack, unstack

  • 其他:aggregate, merge, reshape

9、与数据挖掘软件Weka做接口

  • RWeka: 通过这个接口,可以在R中使用Weka的所有算法。

文章转自:http://blog.sina.com.cn/s/blog_551d7bff01015uiw.html

【转载】R中有关数据挖掘的包的更多相关文章

  1. R中常用数据挖掘算法包

    数据挖掘主要分为4类,即预测.分类.聚类和关联,根据不同的挖掘目的选择相应的算法.下面对R语言中常用的数据挖掘包做一个汇总: 连续因变量的预测: stats包 lm函数,实现多元线性回归 stats包 ...

  2. 如何在R中加载”xlsx”包

    1.下载安装对应系统位数的JDK包(Java SE Development Kit) 2.完成后,安装rJava包-low-level r to Java Interface install.pack ...

  3. R 中的哪些命令或者包让你相见恨晚?--转载知乎

    https://www.zhihu.com/question/24501195 节选: 看了这么多答案,觉得 Hadley Wickhamhad.co.nz 在R使用者的地位好高啊.其实我也觉得Had ...

  4. R语言数据挖掘相关包总结-转帖

    与数据挖掘有关或者有帮助的R包和函数的集合. 1.聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的 ...

  5. R 中同步进行的多组比较的包:npmc

    方差检验可以评估组间的差异.依据检验的结果,虽然你可以拒绝不存在差异的原假设,但方差检验并没有告诉你哪些组显著地与其他组有不同.Robert 在 <R in Action>一书中推荐了一个 ...

  6. 在 R 中估计 GARCH 参数存在的问题(基于 rugarch 包)

    目录 在 R 中估计 GARCH 参数存在的问题(基于 rugarch 包) 导论 rugarch 简介 指定一个 \(\text{GARCH}(1, 1)\) 模型 模拟一个 GARCH 过程 拟合 ...

  7. R中基本函数学习[转载]

    转自:https://www.douban.com/note/511740050/ 1.数据管理 numeric:数值型向量 logical:逻辑型向量 character:字符型向量list:列表 ...

  8. 【转载】eclipse中批量修改Java类文件中引入的package包路径

    原博客地址:http://my.oschina.net/leeoo/blog/37852 当复制其他工程中的包到新工程的目录中时,由于包路径不同,出现红叉,下面的类要一个一个修改包路径,类文件太多的话 ...

  9. Linux 中的网络数据包捕获

    Linux 中的网络数据包捕获 Ashish Chaurasia, 工程师 简介: 本教程介绍了捕获和操纵数据包的不同机制.安全应用程序,如 VPN.防火墙和嗅探器,以及网络应用程序,如路由程序,都依 ...

随机推荐

  1. 「6月雅礼集训 2017 Day4」寻找天哥

    [题目大意] 给出$n$个三维向量,设当前向量长度为$L$,每次沿着向量等概率走$[0,L]$个长度.一个球每秒半径增加1个长度,直到覆盖位置,每秒耗能为球体积,求总耗能的期望. 设最后半径为R,那么 ...

  2. MSSQL 错误:在将 varchar 值 '1,2,3,5,6' 转换成数据类型 int 时失败。

    MSSQL  错误:在将 varchar 值 '1,2,3,5,6' 转换成数据类型 int 时失败.

  3. 关于 zfs 命令相关介绍

    三种设备:filesystem  volume  snapshot 1.zfs listroot@UA4300D-spa:~/hanhuakai/pro_07/git_0708# zfs listNA ...

  4. 深入分析_linux_spinlock_实现机制【转】

    转自:http://blog.csdn.net/electrombile/article/details/51289813 在 x86 平台上,spinlock 主要通过处理器的 lock 指令前缀实 ...

  5. monkey测试===什么是monkey测试(系列一)转

    本文转自:http://www.cnblogs.com/liu-ke/p/4353926.html Monkey工具使用 一. 什么是Monkey Monkey是Android中的一个命令行工具,可以 ...

  6. 【Android开发日记】之基础篇(二)——Android的动画效果

          什么是动画,动画的本质是通过连续不断地显示若干图像来产生“动”起来的效果.比如说一个移动的动画,就是在一定的时间段内,以恰当的速率(起码要12帧/秒以上,才会让人产生动起来的错觉)每隔若干 ...

  7. C#.Net实体代码生成工具(EntitysCodeGenerate)的使用及.NET中的ORM实现

    1 引言 目前大多数项目或产品都使用关系型数据库实现业务数据的存储,这样在开发过程中,常常有一些业务逻辑需要直接用写SQL语句实现,但这样开发的结果是:遍地布满SQL语句.这些藕合较高的SQL语句给系 ...

  8. linux命令(2):grep命令

    实例一: a.log文件内容如下: 从 a.log 文件中提取包含“WARNING”或”FATAL”,同时不包含“IGNOR”的行 grep -E 'WARNING|FATAL' a.log | gr ...

  9. MySQL建立高性能索引策略

    索引永远是最好的查询解决方案嘛? 索引并不总是最好的工具.总的来说,只有当索引帮助存储引擎快速查找到记录带来的好处大于其带来的额外工作(比如插入操作后索引的维护)时,索引才是高效的. 对于非常小的表: ...

  10. Zookeeper之Curator(1)客户端对节点的一些监控事件的api使用

    <一>节点改变事件的监听 public class CauratorClientTest { //链接地址 private static String zkhost="172.1 ...