大数据(3) - 高可用 HDFS HA

HDFS HA高可用 1 HA概述 1)所谓HA(high available),即高可用(7*24小时不中断服务). 2)实现高可用最关键的策略是消除单点故障.HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA. 3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF). 4)NameNode主要在以下两个方面影响HDFS集群 NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启 NameNode机器需要升级,包括软件.硬件升级,…

[大数据] hadoop高可用(HA)部署（未完）

一.HA部署架构如上图所示,我们可以将其分为三个部分: 1.NN和DN组成Hadoop业务组件.浅绿色部分. 2.中间深蓝色部分,为Journal Node,其为一个集群,用于提供高可用的共享文件存储(元数据存储). 3.蓝色部分为Zookeeper,提供自动NN切换. 在 hadoop全分布式安装中,我们已经部署了一套全分布式的Hadoop集群,包含1个NN和3个DN. 我们在全分布式的基础上将其中一个DN(安装SNN的节点)变为SBNN(备用NN). 在全分布式中,存在一个SNN(sec…

理解 OpenStack 高可用（HA）（2）：Neutron L3 Agent HA 之虚拟路由冗余协议（VRRP）

本系列会分析OpenStack 的高可用性(HA)概念和解决方案: (1)OpenStack 高可用方案概述 (2)Neutron L3 Agent HA - VRRP (虚拟路由冗余协议) (3)Neutron L3 Agent HA - DVR (分布式虚机路由器) (4)Pacemaker 和 OpenStack Resource Agent (RA) (5)RabbitMQ HA (6)MySQL HA 1. 基础知识 1.1 虚拟路由冗余协议 - VRRP 1.1.1 概念路由器是整…

理解 OpenStack 高可用（HA）（1）：OpenStack 高可用和灾备方案 [OpenStack HA and DR]

我眼中的大数据（二）——HDFS

Hadoop的第一个产品是HDFS,可以说分布式文件存储是分布式计算的基础,也可见分布式文件存储的重要性.如果我们将大数据计算比作烹饪,那么数据就是食材,而Hadoop分布式文件系统HDFS就是烧菜的那口大锅.这些年来,各种计算框架.各种算法.各种应用场景不断推陈出新,让人眼花缭乱,但是大数据存储的王者依然是HDFS. 为什么HDFS的地位如此稳固呢?在整个大数据体系里面,最宝贵.最难以代替的资产就是数据,大数据所有的一切都要围绕数据展开.HDFS作为最早的大数据存储系统,存储着宝贵的数据资产,…

高可用（HA）架构

http://aokunsang.iteye.com/blog/2053719 浅谈web应用的负载均衡.集群.高可用(HA)解决方案 http://zhuanlan.51cto.com/art/201612/524201.htm 互联网架构“高可用”http://www.blogjava.net/ivanwan/archive/2013/12/25/408014.html LVS/Nginx/HAProxy负载均衡器的对比分析 http://freeloda.blog.51cto.…

MySQL在大数据、高并发场景下的SQL语句优化和"最佳实践"

本文主要针对中小型应用或网站,重点探讨日常程序开发中SQL语句的优化问题,所谓“大数据”.“高并发”仅针对中小型应用而言,专业的数据库运维大神请无视.以下实践为个人在实际开发工作中,针对相对“大数据”和相对“高并发”场景的一些应对策略,部分措施并没有经过严格的对比测试和原理分析,如有错漏欢迎各种批评指教.减少查询的影响结果集,避免出现全表扫描.影响结果集是SQL优化的核心.影响结果集不是查询返回的本文主要针对中小型应用或网站,重点探讨日常程序开发中SQL语句的优化问题,所谓“大数据”.“高并发…

Nfs+Drdb+Heartbeat 数据存储高可用服务架构方案

一.方案的应用场景适用于2千万-3千万PV架构的网站,Nfs数据存储高可用服务方案备注:互联网排名前30左右公司常用的架构二.生产环境方案部署原理图三.生产环境服务器硬件配置: 生产环境中采用的是DELL R710服务器2台或4台. 硬件配置为: 四.主机名服务规则: 网卡及IP资源分配表五.项目需求描述 nfs-1-1 的nfs存储系统文件目录为md1,对前端提供的访问VIP为:10.0.0.16 配置目标:1.主nfs存储系统服务器nfs-1-1宕机,该服务器上的nfs存储系统服务…

Memcached 集群的高可用（HA）架构

Memcache自身并没有实现集群功能,如果想用Memcahce实现集群需要借助第三方软件或者自己设计编程实现,这里将采用memagent代理实现,memagent又名magent,大家注意下,不要将这二者当成两种工具.至于memcache.magent的安装请参考文章在Linux上安装Memcached服务和 magent编译安装及常见错误整体架构直接上图: 从图中可以看到有两个magent节点,两个memcached节点,每个magent节点又分别代理两个memcached节点,应…

Keepalived+Nginx实现高可用（HA）

Keepalived+Nginx实现高可用(HA) service iptables stopchkconfig iptables offsetenforce 0/etc/selinux/configSELINUX=enforcing改为SELINUX=disabled 阿里云源…

大数据量高并发的数据库优化详解(MSSQL)

转载自:http://www.jb51.net/article/71041.htm 如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能.所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的. 一.数据库结构的设计在一个系统分析.设计阶段,因为数据量较小,负荷较低.我们往往只注意到功能的实现,而很难注意到性能的薄弱之处,等到系统投入实际运行一段时间后,才发现系统的性能在降低,这时再来考虑提高系统性能则要花费更多的人力物力,而…

HDFS namenode 高可用（HA）搭建指南 QJM方式 ——本质是多个namenode选举master，用paxos实现一致性

一.HDFS的高可用性 1.概述本指南提供了一个HDFS的高可用性(HA)功能的概述,以及如何配置和管理HDFS高可用性(HA)集群.本文档假定读者具有对HDFS集群的组件和节点类型具有一定理解.有关详情,请参阅Apache的HDFS的架构指南. http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/HDFSHighAvailabilityWithQJM.html 2.背景 CDH4之前,在HDFS集群中NameN…

HDFS 高可用（HA）环境搭建

步骤一:修改公共属性配置 core-site.xml 文件 [root@node-01 ~]# cd /root/apps/hadoop-3.2.1/etc/hadoop [root@node-01 hadoop]# vim core-site.xml <configuration>  <property> <name>fs.defaultFs</name> <value>hdfs://node-0…

大数据技术 - 分布式文件系统 HDFS 的设计

本章内容介绍下 Hadoop 自带的分布式文件系统,HDFS 即 Hadoop Distributed Filesystem.HDFS 能够存储超大文件,可以部署在廉价的服务器上,适合一次写入多次读取的场景.但 HDFS 不适合低延迟,存储大量小文件以及修改文件内容的场景.HDFS 应用比较广泛,如:MR任务.Spark任务.Hive 数据仓库以及 Hbase 数据库,它们的底层存储都可以基于 HDFS .本章将介绍 HDFS 集群的架构设计以及相关的重要概念. HDFS的设计以及概念 HDFS…

基于zookeeper的高可用Hadoop HA集群安装

(1)hadoop2.7.1源码编译 http://aperise.iteye.com/blog/2246856 (2)hadoop2.7.1安装准备 http://aperise.iteye.com/blog/2253544 (3)1.x和2.x都支持的集群安装 http://aperise.iteye.com/blog/2245547 (4)hbase安装准备 http://aperise.iteye.com/blog/2254451 (5)hbase安装 http://aperise.it…

大数据系列2：Hdfs的读写操作

在前文大数据系列1:一文初识Hdfs中,我们对Hdfs有了简单的认识. 在本文中,我们将会简单的介绍一下Hdfs文件的读写流程,为后续追踪读写流程的源码做准备. Hdfs 架构首先来个Hdfs的架构图,图中中包含了Hdfs 的组成与一些操作. 对于一个客户端而言,对于Hdfs的操作不外乎也就读写两个操作,接下来就去看看整个流程是怎么走的. 下面我们由浅及深,氛围简单流程,详细流程分别介绍读写过程简单流程读请求流程客户端需要读取数据的时候,流程大致如下: Client向NameNode发起…

理解 OpenStack 高可用（HA）（5）：RabbitMQ HA

本系列会分析OpenStack 的高可用性(HA)概念和解决方案: (1)OpenStack 高可用方案概述 (2)Neutron L3 Agent HA - VRRP (虚拟路由冗余协议) (3)Neutron L3 Agent HA - DVR (分布式虚机路由器) (4)Pacemaker 和 OpenStack Resource Agent (RA) (5)RabbitMQ HA (6)MySQL HA 1. RabbitMQ 集群你可以使用若干个RabbitMQ 节点组成一个 Rab…

大数据【二】HDFS部署及文件读写（包含eclipse hadoop配置）

一原理阐述 1' DFS 分布式文件系统(即DFS,Distributed File System),指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连.该系统架构于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂. 2' HDFS 借此,关于GFS和HDFS的区别与联系查看我于博客园找到的前辈的博客>>http://www.cnblogs.com/liango/p/7136448.html HDFS(Hadoop Dis…

大数据开发实战：HDFS和MapReduce优缺点分析

一. HDFS和MapReduce优缺点 1.HDFS的优势 HDFS的英文全称是 Hadoop Distributed File System,即Hadoop分布式文件系统,它是Hadoop的核心子项目.实际上,Hadoop中有一个综合性的文件系统抽象,它提供了文件系统实现的各类接口, 而HDFS只是这个抽象文件系统的一种实现,但HDFS是各种抽象接口中应用最为广泛和最广为人知的一个. HDFS被设计成适合运行在通用和廉价硬件上的分布式文件系统.它和现有的分布式文件系统有很多共同点,但他和其…

Mysql系列：高可用（HA)-keeplived

转自:晓叹星沉 https://my.oschina.net/blueSky4Java/blog/1572905 摘要: 随着项目的发展,为了提高程序的性能,数据库层面或多或少的会用到HA.读写分离.集群等功能,在选型时可以考虑使用现成的云服务,或者一些高可用软件,亦或是利用一些开源软件实现上述功能.此次将针对上述功能分篇幅进行整理,内容涉及HA.读写分离.集群,以期使用时达到快速部署之效果. 一.keepalived简介 Keepalived的作用是检测服务器的状态,如果有一台web服务器宕机…

Hadoop搭建高可用的HA集群

一.工具准备 1.7台虚拟机(至少需要3台),本次搭建以7台为例,配好ip,关闭防火墙,修改主机名和IP的映射关系(/etc/hosts),关闭防火墙 2.安装JDK,配置环境变量二.集群规划: 集群规划(7台): 主机名 IP 安装的软件运行的进程 hadoop01 192.168.*.121 jdk.hadoop NameNode.DFSZKFailoverController(zkfc) hadoop02 192.168.*.122 jdk.hadoop NameNode.DFSZKF…

理解 OpenStack 高可用（HA）（3）：Neutron 分布式虚拟路由（Neutron Distributed Virtual Routing）

本系列会分析OpenStack 的高可用性(HA)概念和解决方案: (1)OpenStack 高可用方案概述 (2)Neutron L3 Agent HA - VRRP (虚拟路由冗余协议) (3)Neutron L3 Agent HA - DVR (分布式虚机路由器) (4)Pacemaker 和 OpenStack Resource Agent (RA) (5)RabbitMQ HA (6)MySQL HA Neutron 作为 OpenStack 一个基础性关键服务,高可用性(HA)和扩展…

openstack cinder-volume 的高可用（HA）

http://blog.csdn.net/LL_JCB/article/details/51879378 为了保证云平台的稳定性,需要做很多部分的高可用.比如控制节点高可用.计算节点高可用.网络节点高可用.存储的高可用等: 控制节点的高可用与网络节点的高可用都有官方的文档,有详细的安装步骤,实现起来相对来说比较简单.存储的高可用在openstack这一块也不用考虑很多,比如ceph.glusterfs自带高可靠性. 当做了这些高可用后,我发现cinder-volume是一个瓶颈,如果它挂了的话,…