一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 1.分析题目--有一个用户点击数据样本(husercollect)--按用户访问的时间(时)统计--要求:分析时间和点击次数的聚类情况 2.数据准备 --创建临时表 DROP TABLE if exists tmp.t2_collect; CREATE TABLE tmp.t2_collect( h int, cnt int ) COMMENT '用户点击数据临时表'; --插入
针对课件中的例子自己实现k-means算法 调用R语言自带kmeans()对给定数据集表示的文档进行聚类. 给定数据集: a) 数据代表的是文本信息. b) 第一行代表词语,由于保密原因,词语已经被转意.第一列代表了文本的编号. c) 红框中的数字为对应词的词频. 共113个样本,用K-Means算法将样本分为8类. 1.针对课件中的例子自己实现k-means算法 rm(list=ls()) #导入数据 id<-c(1:8) x<-c(1,2,1,
R 语言实战(第二版) part 4 高级方法 -------------第13章 广义线性模型------------------ #前面分析了线性模型中的回归和方差分析,前提都是假设因变量服从正态分布 #广义线性模型对非正态因变量的分析进行扩展:如类别型变量.计数型变量(非负有限值) #glm函数,对于类别型因变量用logistic回归,计数型因变量用泊松回归 #模型参数估计的推导依据的是最大似然估计(最大可能性估计),而非最小二乘法 #1.logistic回归 library(AER) d