海量数据处理 分而治之 核心思想: 把数据分发到多个节点 移动计算到数据附近 计算节点进行本地数据处理 优选顺序,次之随机读 一.HDFS概述 修改,先删除,再重新生成 1.架构 namenode维护着HDFS中存储的文件的元数据,以及每个文件块的列表,以及块所在datanode的信息.namenode会把元数据信息加载到内存中,管理副本数,默认副本是三个副本,每个block复制到多个datanode上存储. 通常启动两个namenode,active和standby. Datanode真正数据…