社交网络分析的 R 基础:(三)向量、矩阵与列表
在第二章介绍了 R 语言中的基本数据类型,本章会将其组装起来,构成特殊的数据结构,即向量、矩阵与列表。这些数据结构在社交网络分析中极其重要,本质上对图的分析,就是对邻接矩阵的分析,而矩阵又是由若干个向量构成,因此需要熟练掌握这些特殊的数据结构。
向量
向量的创建
向量(vector)作为 R 语言中最简单的数据结构,由一串有序的基本数据类型变量构成。
x <- c(1, 2, 3, 4, 5)
上面一行代码就是创建一个包含 5 个元素的向量 x
,而 c()
就是创建向量的函数。多个向量也可以使用 c()
进行拼接:
x <- c(1, 2, 3, 4, 5)
y <- c(6, 7, 8, 9, 10)
z <- c(x, y)
代码中的向量 z
包含 10 个元素,即向量 x
和向量 y
的拼接。
向量的创建也可以通过面向对象的方式实现:
x <- vector(mode = "integer", length = 5)
参数 mode
为向量中存储的数据类型,对应 R 语言中基本的数据类型,如整型 integer
,浮点型 numeric
, 字符串型 character
,逻辑型 logical
等等;length
为初始向量的长度。向量作为一种无限长度的数据结构,此处的 length
是指向量初始化时的长度,后续仍然可以使用 c()
添加元素。
x <- c(x, 0) # 向 x 中添加元素 0
向量元素的访问
向量中的元素通过“[索引]
”的形式访问。需要注意的是 R 语言中的索引不代表偏移量,而代表第几个,即索引从 1 开始。
> x <- c(10, 9, 8, 7, 6)
> x[2]
[1] 9
在了解向量元素的访问后,也可以通过元素访问的形式向其中添加元素:
> x[6] <- 5 # x 原长度为5
> x
[1] 10 9 8 7 6 5
提示
在 R 语言中任何使用索引的数据结构都可以使用元素访问的形式扩充。
想要从向量中取出多个元素需要在方括号内传递索引的向量,即“[c(索引)]
”。
> x[2: 4] # 取出第 2 到 4 项
[1] 9 8 7
> x[c(1, 3, 5)] # 取出第 1,3,5 项
[1] 10 8 6
> x[c(-1, -5)] # 去掉第 1,5 项
[1] 9 8 7
R 语言中还存在一种特殊的索引——名称索引。
> x <- c(1, 2, 3, 4, 5)
> names(x) <- c("one", "two", "three", "four", "five") # 对名称索引进行赋值
> x["three"] # 使用名称索引访问元素
three
3
> names(x) # 查看名称索引
[1] "one" "two" "three" "four" "five"
名称索引相比数值索引的好处就是容易记忆,在对图中节点属性进行分析时,通常使用节点的名称去访问图中的节点,而不是使用节点的索引。
向量的运算
向量可以直接进行算数运算,运算时是向量的对应元素进行同样的算术运算。比如:
> x <- c(1, 2, 3, 4, 5)
> y <- c(5, 4, 3, 2, 1)
> x + y
[1] 6 6 6 6 6
基本的算术运算包括:+
、-
、*
、/
、乘方 ^
。还包括常用的数学函数:log()
、sin()
、sqrt()
等等。还有一些特殊的统计函数:最大值 max()
、最小值 min()
、求和 sum()
、平均值 mean()
等等。
> x <- c(1, 2, 3, 4, 5)
> max(x)
[1] 5
> mean(x)
[1] 3
向量的逻辑运算包括两种情况,一种是对向量中的每一个元素,一种是对向量整体:
运算符 | 描述 |
---|---|
& | 元素逻辑与运算符,将第一个向量的每个元素与第二个向量的相对应元素进行与运算 |
| | 元素逻辑或运算符,将第一个向量的每个元素与第二个向量的相对应元素进行或运算 |
&& | 逻辑与运算符,只对两个向量的第一个元素进行与运算 |
|| | 逻辑或运算符,只对两个向量的第一个元素进行或运算 |
> x <- c(T, T, F, F, F)
> y <- c(T, T, F, T, T)
> x & y
[1] TRUE TRUE FALSE FALSE FALSE
> x | y
[1] TRUE TRUE FALSE TRUE TRUE
> x && y
[1] TRUE
> x || y
[1] TRUE
向量的其他常用操作
获取向量的长度 length()
:
> length(c(1, 2, 3, 4, 5))
[1] 5
查找特定元素在向量中的索引 which()
:
> x <- c(1, 2, 3, 4, 5)
> which(x == 2)
[1] 2
使用 %in%
判断元素是否在向量中存在:
> 2 %in% c(1, 2, 3, 4, 5)
[1] TRUE
对向量中的元素进行排序 order()
,需要注意的是 order()
返回的排序结果是向量值的索引:
> x <- c(10, 20, 30, 40, 50)
> order(x, decreasing = TRUE)
[1] 5 4 3 2 1
统计特定元素在向量中出现的次数 table()
:
> x <- c(T, T, F, F, F)
> table(x)
x
FALSE TRUE
3 2
矩阵
矩阵的创建
矩阵(matrix)作为社交网络分析中的一个重要工具,其并不算是一个基本的数据结构。你可以将矩阵看成一个二维数组(array),或是由多个向量(vector)构成。在 R 语言中使用 matrix()
函数来创建矩阵。
matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL)
其中 data
为矩阵的填充元素,nrow
为矩阵的行数,ncol
为矩阵的列数,byrow
表示 data
的值是否按行填充,dimnames
给矩阵行列的名称赋值。
> matrix(c(1:6), nrow = 2, ncol = 3, byrow = TRUE, dimnames = list(c("r1", "r2"), c("c1", "c2", "c3")))
c1 c2 c3
r1 1 2 3
r2 4 5 6
上面即创建了一个 2 行 3 列的矩阵,通过按行填充元素的方式,并且给行和列赋予了名称。获取矩阵的行数和列数可以使用函数 nrow()
和 ncol()
。
矩阵还可以通过组合向量的方式创建,使用 rbind()
函数按行组合向量,使用 cbind()
函数按列组合向量:
> v1 <- c(1:3)
> v2 <- c(4:6)
> v3 <- c(7:9)
> rbind(v1, v2, v3) # 按行组合
[,1] [,2] [,3]
v1 1 2 3
v2 4 5 6
v3 7 8 9
> cbind(v1, v2, v3) # 按列组合
v1 v2 v3
[1,] 1 4 7
[2,] 2 5 8
[3,] 3 6 9
矩阵元素的访问
矩阵中的元素通过“[行索引, 列索引]
”的形式访问。
> m <- matrix(c(1:6), nrow = 3)
> m[3, 2]
[1] 6
想要从矩阵中取出行向量或者列向量,使用“[行索引,]
”或者“[,列索引]
”。
> m[1, ] # 取第一行
[1] 1 4
> m[, 2] # 取第二列
[1] 4 5 6
在给矩阵的行列赋值名称后,可以使用名称索引访问。
> rownames(m) <- c("r1", "r2", "r3") # 定义行的名称
> colnames(m) <- c("c1", "c2") # 定义列的名称
> m["r2", "c2"]
[1] 5
矩阵的运算
矩阵直接进行算术运算时,是两个矩阵对应位置的元素做运算。数学函数和统计函数在矩阵中的用法与在向量中的用法相同。
> m1 <- matrix(c(1:4), nrow = 2)
> m2 <- matrix(c(5:8), nrow = 2)
> m1 * m2
[,1] [,2]
[1,] 5 21
[2,] 12 32
矩阵还包括一些特有的运算,比如内积 %*%
,外积 %o%
。
> m1 <- matrix(c(1:6), nrow = 2)
> m2 <- matrix(c(1:6), nrow = 3)
> m1 %*% m2 # 矩阵的内积
[,1] [,2]
[1,] 22 49
[2,] 28 64
> m1 <- c(1, 2, 3)
> m2 <- c(4, 5, 6)
> m1 %o% m2 # 矩阵的外积
[,1] [,2] [,3]
[1,] 4 5 6
[2,] 8 10 12
[3,] 12 15 18
矩阵的转置使用函数 t()
。
> m <- matrix(c(1:4), nrow = 2)
> t(m)
[,1] [,2]
[1,] 1 2
[2,] 3 4
矩阵的特征值与特征向量
特征值与特征向量作为矩阵的重要属性,不仅在传统的图分析中有重要的意义,在图卷积中也有重要的应用。R 语言提供了计算函数 eigen()
:
> v1 <- c(1, 0, 0)
> v2 <- c(2, 3, 0)
> v3 <- c(4, 5, 6)
> m <- cbind(v1, v2, v3)
> eigen(m)
eigen() decomposition
$values # 特征值
[1] 6 3 1
$vectors # 特征向量
[,1] [,2] [,3]
[1,] 0.6023442 0.7071068 1
[2,] 0.6844821 0.7071068 0
[3,] 0.4106893 0.0000000 0
随着网络规模的变大,eigen()
函数的计算速度会变得很慢,此时通常会使用 RSpectra
包来加快计算速度。在 RSpectra
包中使用 eigs()
函数计算特征值与特征向量:
> library(RSpectra)
> eigs(m, 3) # 这里的 3 是指要计算特征值与特征向量的个数
$values
[1] 6 3 1
$vectors
[,1] [,2] [,3]
[1,] 0.6023442 0.7071068 1
[2,] 0.6844821 0.7071068 0
[3,] 0.4106893 0.0000000 0
当网络规模继续变大,邻接矩阵中的节点数量到达数十万以上的规模时,RSpectra
包仍然有些捉襟见肘。这时使用 Rcpp
包调用 C++ 的代码,采用并行计算的方式加快计算速度。对于矩阵的计算操作,安装 Rcpp
包的同时还需要安装 RcppEigen
包。依赖的包安装完成后,新建一个 matrix.cpp
文件,将下面的代码复制到该文件中保存。
// [[Rcpp::depends(RcppEigen)]]
#include <RcppEigen.h>
// [[Rcpp::export]]
SEXP eigenValues(const Eigen::Map<Eigen::MatrixXd> A){
Eigen::SelfAdjointEigenSolver<Eigen::MatrixXd> es(A);
return Rcpp::wrap(es.eigenvalues());
}
// [[Rcpp::export]]
SEXP eigenVectors(const Eigen::Map<Eigen::MatrixXd> A){
Eigen::SelfAdjointEigenSolver<Eigen::MatrixXd> es(A);
return Rcpp::wrap(es.eigenvectors());
}
紧接着在工作区中引入 Rcpp
包与 matrix.cpp
文件,此时就可以调用特征值计算函数 eigenValues()
和特征向量计算函数 eigenVectors()
。
> library(Rcpp)
> sourceCpp("matrix.cpp")
> eigenValues(m)
[1] 1 3 6
> eigenVectors(m)
[,1] [,2] [,3]
[1,] 1 0.7071068 0.6023442
[2,] 0 0.7071068 0.6844821
[3,] 0 0.0000000 0.4106893
提示
要实现其他的矩阵计算操作可以查看 RcppEigen 的教程:https://cran.r-project.org/web/packages/RcppEigen/vignettes/RcppEigen-Introduction.pdf
列表
列表的创建
列表(list)在 R 语言中是由一个个对象所构成的集合,这些对象可以是不同的数据类型,比如数值、字符串、向量、矩阵等等。如果为列表元素定义名称的话,列表更像是 Python 中的字典,但 R 语言中的列表中的元素是有序的。在 R 语言中使用 list()
函数来创建列表。
list(name = "ruby", age = 18, scores = c(100, 88.5, 82))
上面一行代码创建了一个包含数值、字符串与向量的列表,同时为每一个元素定义了名称。将其输入到 R 终端中,细心的你会发现这与矩阵计算特征值和特征向量的函数 eigen()
返回的类型一致。这种定义了名称的列表对于包含多个返回值的函数非常方便。
> list(name = "ruby", age = 18, scores = c(100, 88.5, 82))
$name
[1] "ruby"
$age
[1] 18
$scores
[1] 100.0 88.5 82.0
列表还可以通过多个列表合并的方式创建,合并使用函数 c()
。下面的代码展示了两个列表的合并,同时使用了未定义元素名称的列表创建方式。注意观测列表的输出结果,输出的索引表明了列表是有序的。
> l1 <- list(matrix(c(1:4), nrow = 2))
> l2 <- list(c("a", "b", "c"), 12345)
> c(l1, l2)
[[1]]
[,1] [,2]
[1,] 1 3
[2,] 2 4
[[2]]
[1] "a" "b" "c"
[[3]]
[1] 12345
提示
c()
本质上并不是创建向量的函数,c 是 combine 的缩写,是一个合并函数。
列表元素的访问
列表中的元素通过“[[索引]]
”的形式访问,当列表元素定义了名称后可以使用“$名称
”或者“[["名称"]]
”的形式访问。
> student <- list(name = "ruby", age = 18, scores = c(100, 88.5, 82))
> student[[1]]
[1] "ruby"
> student$age
[1] 18
> student[["scores"]]
[1] 100.0 88.5 82.0
对于在创建时没有定义名称的列表,仍然可以使用 names()
定义名称。
> l <- list(c("a", "b", "c"), 12345)
> names(l) <- c("name1", "name2")
️ 练习
1. 试着创建一个向量,看看向量能否包含不同类型的元素,比如 c(1, "a")
会创建一个什么向量;
2. 试着对矩阵进行运算,能否求出一个矩阵的最大元素;
3. 列表通过“[索引]
”与“[[索引]]
”有什么不同,输出看看;
4. list(c("a", "b", "c"))
该列表的长度是多少。
5. 试着对任意一个非空列表使用 unlist()
函数,看看会发生什么。
参考
社交网络分析的 R 基础:(三)向量、矩阵与列表的更多相关文章
- 社交网络分析的 R 基础:(一)初探 R 语言
写在前面 3 年的硕士生涯一转眼就过去了,和社交网络也打了很长时间交道.最近突然想给自己挖个坑,想给这 3 年写个总结,画上一个句号.回想当时学习 R 语言时也是非常戏剧性的,开始科研生活时到处发邮件 ...
- 社交网络分析的 R 基础:(四)循环与并行
前三章中列出的大多数示例代码都很短,并没有涉及到复杂的操作.从本章开始将会把前面介绍的数据结构组合起来,构成真正的程序.大部分程序是由条件语句和循环语句控制,R 语言中的条件语句(if-else)和 ...
- 社交网络分析的 R 基础:(五)图的导入与简单分析
如何将存储在磁盘上的邻接矩阵输入到 R 程序中,是进行社交网络分析的起点.在前面的章节中已经介绍了基本的数据结构以及代码结构,本章将会面对一个实质性问题,学习如何导入一个图以及计算图的一些属性. 图的 ...
- 社交网络分析的 R 基础:(二)变量与字符串
本章会从 R 语言中最基本的数据类型开始介绍,在此之后就可以开始 R 语言实践了.对社交网络分析而言,我们在处理字符串上所花费的时间要远远大于处理数字的时间,因此本章还会介绍常用的字符串处理操作. 变 ...
- 社交网络分析的 R 基础:(六)绘图操作
R 语言强大的可视化功能在科学研究中非常受欢迎,丰富的类库使得 R 语言可以绘制各种各样的图表.当然这些与本章内容毫无关系,因为笔者对绘制图表了解有限,仅限于能用的程度.接下来的内容无需额外安装任何包 ...
- [转] X-RIME: 基于Hadoop的开源大规模社交网络分析工具
转自http://www.dataguru.cn/forum.php?mod=viewthread&tid=286174 随着互联网的快速发展,涌现出了一大批以Facebook,Twitter ...
- R基础
R的对象类型包括数值型(numeric),复数型(complex),逻辑型(logical),字符型(character)和原味型(raw),列表(list)递归结构:函数(function)和表达式 ...
- R基础学习
R基础学习 The Art of R Programming 1.seq 产生等差数列:seq(from,to,by) seq(from,to,length) for(i in 1:length(x) ...
- Social Network 社交网络分析
Social Network 社交网络分析 一:什么是SNA-社交网络分析 社交网络分析的威力何在?我想几个案例来说明. 案例1:对一个毫无了解的组织(这个组织可以是一个公司,亦或是一个组织),如果能 ...
随机推荐
- C++单元测试框架gtest使用
作用 作为代码编码人员,写完代码,不仅要保证编译通过和运行,还要保证逻辑尽量正确.单元测试是对软件可测试最小单元的检查和校验.单元测试与其他测试不同,单元测试可看作是编码工作的一部分,应该由程序员完成 ...
- Google Chrome调整控制台的位置
众所周知,控制台是开发必备的工具,学会流畅的使用控制台会给我们的开发带来不一样的体验,但是控制台的位置有时却是困扰我们的一件事,控制台默认是在浏览器内,有时十分妨碍我们,那么有没有什么办法修改控制台的 ...
- 替代瑞昱RTD2166|pin对pin替代RTD2166|CS5202芯片
替代瑞昱RTD2166,pin对pin替代RTD2166,外围器件少,设计版框尺寸小,整套方案成本BOM更低. 一. CS5202功能概述 CS5202是一款DP端口到VGA转换器,它结合了DP输入 ...
- 使用JavaScript 中的Math对象和勾股定理公式,计算鼠标的位置与页面图片中心点的距离,根据距离对页面上的图片进行放大或缩小处理。距离远时图片放大,距离近时图片缩小
查看本章节 查看作业目录 需求说明: 使用JavaScript 中的Math对象和勾股定理公式,计算鼠标的位置与页面图片中心点的距离,根据距离对页面上的图片进行放大或缩小处理.距离远时图片放大,距离近 ...
- 在CentOS7系统安装与配置RabbitMQ
在CentOS7系统安装与配置RabbitMQ 远程访问需要开放端口 https://www.cnblogs.com/heqiuyong/p/10460150.html
- windows环境下elasticsearch安装教程(超详细)
一.安装jdk ElasticSearch是基于lucence开发的,也就是运行需要java jdk支持.所以要先安装JAVA环境. 由于ElasticSearch 5.x 往后依赖于JDK 1.8的 ...
- Lombok的利弊
1.介绍 Lombok是一个可以大量减少代码的工具, 通过Pluggable Annotation Processing API的方式解析注解, 在编译期为class文件注入getter,setter ...
- Storm集群安装Version1.0.1开启Kerberos
Storm集群安装,基于版本1.0.1, 同时开启Kerberos安全认证, 使用apache-storm-1.0.1.tar.gz安装包. 1.安装规划 角色规划 IP/机器名 安装软件 运行进程 ...
- Fuchsia OS入门官方文档
Fuchsia Pink + Purple == Fuchsia (a new Operating System) Welcome to Fuchsia! This document has ever ...
- python 之 pip、pypdf2 安装与卸载
pip是个啥? pip 是一个现代的,通用的 Python 包管理工具.提供了对 Python 包的查找.下载.安装.卸载的功能. 第一步:pip 下载:https://pypi.org/projec ...