本文转载自cador<使用R语言进行异常检测> 本文结合R语言,展示了异常检测的案例,主要内容如下: (1)单变量的异常检测 (2)使用LOF(local outlier factor,局部异常因子)进行异常检测 (3)通过聚类进行异常检测 (4)对时间序列进行异常检测 一.单变量异常检测 本部分展示了一个单变量异常检测的例子,并且演示了如何将这种方法应用在多元数据上.在该例中,单变量异常检测通过boxplot.stats()函数实现,并且返回产生箱线图的统计量.在返回的结果中,有一个部分是o…
R语言与数据挖掘:公式:数据:方法 R语言特征 对大小写敏感 通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母).不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字. 基本命令要么是表达式(expressions)要么就是 赋值(assignments). 命令可以被 (;)隔开,或者另起一行. 基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(compound expression). 一行中,从井号(#)开始到句子收尾之间的语句就…
Lecture 15 Anomaly Detection 异常检测 15.1 异常检测问题的动机 Problem Motivation 异常检测(Anomaly detection)问题是机器学习算法的一个常见应用.这种算法虽然主要用于无监督学习问题,但从某些角度看,它又类似于一些监督学习问题.举例: 当飞机引擎从生产线上流出时需要进行QA(质量控制测试),数据集包含引擎的一些特征变量,比如运转时产生的热量,或者振动等.当有一个新的飞机引擎从生产线上流出,它具有特征变量 xtest .异常检测问…
内容概览 尽管R是一门以数值向量和矩阵为核心的统计语言,但字符串同样极为重要.从医疗研究数据里的出生日期到文本挖掘的应用,字符串数据在R程序中使用的频率非常高.R语言提供了很多字符串操作函数,本文仅简要以下几种常用的字符串函数. 字符串分割函数:strsplit( ) 字符串连接函数:paste( ) 计算字符串长度:nchar( ) 字符串截取函数:substr( )及substring( ) 字符串替换函数:chartr( ) 大小写转换函数:toupper( ).tolower( )及ca…
R语言进阶之4:数据整形(reshape) 2013-05-31 10:15 xxx 网易博客 字号:T | T 从不同途径得到的数据的组织方式是多种多样的,很多数据都要经过整理才能进行有效的分析,数据整形不仅仅是为了改善数据的外观,也是进行一些统计分析和作图前必要的步骤.数据整形和数据凝练/汇总往往密不可分,这是门学问,是R语言数据处理的内容之一. AD:51CTO技术沙龙 | 赋予APP不同凡响的交互和体验>> 来源: http://developer.51cto.com/art/2013…
ddply()函数位于plyr包,用于对data.frame进行分组统计,与tapply有些类似 准备数据 # 使用stringsAsFactors=F来防止data.frame把向量转为factor apache = data.frame(httpCode=c(200,200,200,404,404,500), time=c(100,111,210,10,10,500), api=c('index','index','logout','show','show','index'), string…
笔记: 1.R输入命令时速度不要太快,终究是个统计软件,不是编程! 2.memory.limit()查看当前操作系统分配内存给R的最大限度(单位是M?) 3.要经常 rm(object) 或者 rm(list=ls()) 和 gc()释放内存空间 4.尽量提前设置矩阵大小固定不变,矩阵每增长一次,即使赋给同名的变量,都需要新开辟一块更大的空间 5.尽量避免循环语句 6.用矩阵,而不是数据框 7.在大数据集运行前现在子数据集上测试程序 8.将数据保存到R的住内存之外的包:     biglm和sp…
Twritters的异常检测算法(Anomaly Detection)做的比较好,Seasonal Hybrid ESD算法是先用STL把序列分解,考察残差项.假定这一项符合正态分布,然后就可以用Generalized ESD提取离群点. 目标是检测出时间序列数据集的异常点,如图所示,蓝色线是时间序列数据集,红色是圈是异常点. R语言实现如下,一些依赖包需要install.packages("")或者手动在cran社区下载(注意依赖包的下载).本人github下载源码. 1 主函数是,…
R语言,一种自由软件编程语言与操作环境,主要用于统计分析.绘图.数据挖掘.R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心团队”负责开发.R是基于S语言的一个GNU计划项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行.R的语法是来自Scheme. R的源代码可自由下载使用,亦有已编译的可执行文件版本可以下载,可在多种平台下运行,包括UNIX(也包括FreeBSD和Linux).…
一.R软件 1.安装R:自行百度☺ 2.R控制台(R Console)和R程序脚本: 打开R软件,就会直接打开控制台,控制台可以显示程序运行的结果.错误提示等信息,也可以直接输入想要执行的操作并立即返回运行结果,箭头“>”表示等待输入. 程序脚本通过点击右上角“文件” - “新建程序脚本”来建立.如果想要长久的保存已经提交的程序代码,那么可以在程序脚本中编写,点击保存的时候会另存为一个后缀为“.R”的数据文件,如果直接在控制台编写代码,关闭软件后,已编写的代码会消失. 3.如何运行R程序脚本:…