第一章 简介 背景: GFS:集群存储海量数据,数据在节点间冗余复制,即使一台存储服务器发生故障,也不会影响可用性. GFS的缺点:适合存储少许非常大的文件,而不适合存储大量小文件,因为文件的元数据信息存储在主节点的内存中,文件越多主节点压力越大. BigTable:RDBMS在大规模处理中有缺点,可以摒弃关系型的特点,采用简单API进行CRUD,再加一个扫描函数. 表,列,单元格: 基本单位是column 多column组成row 若干列组成列族(column family) 一个row有唯…