Machine Learning for hackers读书笔记(九)MDS：可视化地研究参议员相似性

library('foreign')

library('ggplot2')

data.dir <- file.path('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\09-MDS\\data\\roll_call')

data.files <- list.files(data.dir)

rollcall.data <- lapply(data.files,function(f) { read.dta(file.path(data.dir, f), convert.factors = FALSE) })

#看一下数据情况,103行,647列

#每一行对应一个议员,包括个人信息及投票结果

dim(rollcall.data[[1]])

rollcall.simplified <- function(df)

{

#99的很少投票,干脆删掉

no.pres <- subset(df, state < 99)

#10列后才是投票数据

for(i in 10:ncol(no.pres))

{

#有10种投票类型,分为三组,赞成全放一起,反对全放一起,无效全放一起,>6的是无效,1~3是赞成,4~6是反对票

no.pres[,i] <- ifelse(no.pres[,i] > 6, 0, no.pres[,i])

no.pres[,i] <- ifelse(no.pres[,i] > 0 & no.pres[,i] < 4, 1, no.pres[,i])

no.pres[,i] <- ifelse(no.pres[,i] > 1, -1, no.pres[,i])

}

return(as.matrix(no.pres[,10:ncol(no.pres)]))

}

rollcall.simple <- lapply(rollcall.data, rollcall.simplified)

#来一个矩离矩阵

rollcall.dist <- lapply(rollcall.simple, function(m) dist(m %*% t(m)))

rollcall.mds <- lapply(rollcall.dist,function(d) as.data.frame((cmdscale(d, k = 2)) * -1))

congresses <- 101:111

for(i in 1:length(rollcall.mds))

{

names(rollcall.mds[[i]]) <- c("x", "y")

congress <- subset(rollcall.data[[i]], state < 99)

congress.names <- sapply(as.character(congress$name),function(n) strsplit(n, "[, ]")[[1]][1])

rollcall.mds[[i]] <- transform(rollcall.mds[[i]], name = congress.names,party = as.factor(congress$party),congress = congresses[i])

}

cong.110 <- rollcall.mds[[9]]

base.110 <- ggplot(cong.110, aes(x = x, y = y)) + scale_size(range = c(2,2), guide = 'none') + scale_alpha(guide = 'none') + theme_bw() +

theme(axis.ticks = element_blank(), axis.text.x = element_blank(), axis.text.y = element_blank(), panel.grid.major = element_blank()) +

ggtitle("Roll Call Vote MDS Clustering for 110th U.S. Senate") + xlab("") + ylab("") + scale_shape(name = "Party", breaks = c("100", "200", "328"),

labels = c("Dem.", "Rep.", "Ind."), solid = FALSE) + scale_color_manual(name = "Party", values = c("100" = "black","200" = "dimgray","328"="grey"),

breaks = c("100", "200", "328"), labels = c("Dem.", "Rep.", "Ind."))

print(base.110 + geom_point(aes(shape = party, alpha = 0.75, size = 2)))

print(base.110 + geom_text(aes(color = party, alpha = 0.75, label = cong.110$name, size = 2)))

all.mds <- do.call(rbind, rollcall.mds)

all.plot <- ggplot(all.mds, aes(x = x, y = y)) +

geom_point(aes(shape = party, alpha = 0.75, size = 2)) +

scale_size(range = c(2, 2), guide = 'none') +

scale_alpha(guide = 'none') +

theme_bw() +

theme(axis.ticks = element_blank(),

axis.text.x = element_blank(),

axis.text.y = element_blank(),

panel.grid.major = element_blank()) +

ggtitle("Roll Call Vote MDS Clustering for U.S. Senate (101st - 111th Congress)") +

xlab("") +

ylab("") +

scale_shape(name = "Party",

breaks = c("100", "200", "328"),

labels = c("Dem.", "Rep.", "Ind."),

solid = FALSE) +

facet_wrap(~ congress)

print(all.plot)

Machine Learning for hackers读书笔记(九)MDS：可视化地研究参议员相似性的更多相关文章

Machine Learning for hackers读书笔记(七)优化：密码破译
#凯撒密码:将每一个字母替换为字母表中下一位字母,比如a变成b. english.letters <- c('a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i' ...
Machine Learning for hackers读书笔记(六)正则化：文本回归
data<-'F:\\learning\\ML_for_Hackers\\ML_for_Hackers-master\\06-Regularization\\data\\' ranks < ...
Machine Learning for hackers读书笔记(三)分类：垃圾邮件过滤
#定义函数,打开每一个文件,找到空行,将空行后的文本返回为一个字符串向量,该向量只有一个元素,就是空行之后的所有文本拼接之后的字符串 #很多邮件都包含了非ASCII字符,因此设为latin1就可以读取 ...
Machine Learning for hackers读书笔记_一句很重要的话
为了培养一个机器学习领域专家那样的直觉,最好的办法就是,对你遇到的每一个机器学习问题,把所有的算法试个遍,直到有一天,你凭直觉就知道某些算法行不通.
Machine Learning for hackers读书笔记(十二)模型比较
library('ggplot2')df <- read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\12-Model_C ...
Machine Learning for hackers读书笔记(十)KNN：推荐系统
#一,自己写KNN df<-read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\10-Recommendations\\ ...
Machine Learning for hackers读书笔记(八)PCA：构建股票市场指数
library('ggplot2') prices <- read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\08-PC ...
Machine Learning for hackers读书笔记(五)回归模型：预测网页访问量
线性回归函数 model<-lm(Weight~Height,data=?) coef(model):得到回归直线的截距 predict(model):预测 residuals(model):残 ...
Machine Learning for hackers读书笔记(四)排序：智能收件箱
#数据集来源http://spamassassin.apache.org/publiccorpus/ #加载数据 library(tm)library(ggplot2)data.path<-'F ...

随机推荐

sourcemap的使用
minify.bat @echo off if ""%1""=="""" goto end :loop if not e ...
javascript实现数据结构：串--堆分配存储表示
堆分配存储表示这种存储表示的特点是,仍以一组地址连续的存储单元存放串值字符序列,但它们的存储空间是在程序执行过程中动态分配而得. 结构图: 实现: function HString(){ this. ...
mysql存储过程和函数使用实例
1.需求:根据输入的年份,月份,和当前系统的年份比较,不满1年按1年计算,多出1年11个月也按1年计算. 2.计算得出来的使用年份,计算车辆残值. 3.存储过程 DELIMITER $$ USE `d ...
datagridview 点击列标题排序
开发winform中,平时经常用到数据列表,我们大多选用datagridview,但是此控件本身没有排序的功能.参阅网上资料.留下标记,以后备用. datagridview的数据显示一般是通过数据绑定 ...
MySQL Date 函数
MySQL Date 函数下面的表格列出了 MySQL 中最重要的内建日期函数: 函数描述 NOW() 返回当前的日期和时间 CURDATE() 返回当前的日期 CURTIME() 返回当前的时间 ...
***iOS开发中@selector的理解与应用
@selector 是什么? 1一种类型 SEL2代表你要发送的消息(方法), 跟字符串有点像, 也可以互转.: NSSelectorFromString() / NSSelectorFromStri ...
lintcode：将二叉查找树转换成双链表
题目将一个二叉查找树按照中序遍历转换成双向链表给定一个二叉查找树: 4 / \ 2 5 / \ 1 3 返回 1<->2<->3<->4<->5. ...
关于SIGPIPE导致的程序退出
http://www.cppblog.com/elva/archive/2008/09/10/61544.html 收集一些网上的资料,以便参考: http://blog.chinaunix.net/ ...
iOS开发--应用程序上线
iOS应用上线 http://www.jianshu.com/p/ffddc5e5f0b9 iOS真机测试 http://www.jianshu.com/p/986e02d38f1b iOS应用程序打 ...
JavaPersistenceWithHibernate第二版笔记Getting started with ORM-002Domain层详解及M etaModel
一.结构二.配置文件约定 The JPA provider automatically picks up this descriptor if you place it in a META-INF ...

Machine Learning for hackers读书笔记(九)MDS：可视化地研究参议员相似性

Machine Learning for hackers读书笔记(九)MDS：可视化地研究参议员相似性的更多相关文章

随机推荐

热门专题