cdh集群数据恢复】的更多相关文章

CDH 数据库 磁盘坏了  所有集群配置 都没了    而且 还没备份  ....    元数据 还在  cdh  软件配置 和  安装软件 不能用了 下载 apache hadoop   重新配置  namenode datenode   journode  加载以前的数据  读出来了  .. 强制了  namenode 主   把数据迁移到 其他节点   因为 重新 安装数据可  CDH 自动把之前的目录  配置文件 和 软件 全部清空了 还是手动安装靠谱…
前言 由于项目数据安全的需要,这段时间看了下hadoop的distcp的命令使用,不断的纠结的问度娘,度娘告诉我的结果也让我很纠结,都是抄来抄去, 还好在牺牲大量的时间的基础上还终于搞出来了,顺便写这个随笔,记录下. 环境 目前我们是两套同版本的CDH集群,集群内的节点通信使用的私网,提供浮动ip对外通信,也就是说,两个集群间的私网是不互通的,只能通过浮动ip 进行通信. 操作 使用hadoop提供的distcp命令进行数据迁移 (数据源集群source和目标集群target版本相同) 迁移hd…
body { border: 1px solid #ddd; outline: 1300px solid #fff; margin: 16px auto; } body .markdown-body { padding: 30px; } @font-face { font-family: fontawesome-mini; src: url(data:font/woff;charset=utf-8;base64,d09GRgABAAAAAAzUABAAAAAAFNgAAQAAAAAAAAAAAA…
最近CDH集群频繁告警,原因是某些host频繁swapping,极大影响了集群的性能. 后来发现有个设置(/proc/sys/vm/swappiness)需要修改,默认值60 Setting the vm.swappiness Linux Kernel Parameter vm.swappiness is a Linux Kernel Parameter that controls how aggressively memory pages are swapped to disk. It can…
2017年2月22日, 星期三 Cloudera Manager安装_搭建CDH集群 cpu   内存16G 内存12G 内存8G 默认单核单线 CDH1_node9 Server  || Agent 10G 6G 5G CDH2_node10 Agent 2G 1-1.5G 1G CDH3_node11 Agent 2G 1-1.5G 1G 1. • 系统环境准备 1.网络配置  vi /etc/sysconfig/network vi /etc/hosts 2.SSH免密钥登录 虚拟机的环境…
1. 硬件准备     使用了五台机器,其中两台8c16g,三台4c8g.一台4c8g用于搭建cmServer和NFS服务端,另外4台作为cloudera-manager agent部署CDH集群. ip 主要服务/角色 hostname(hosts配置与此一致) 机器规格 10.2.223.237 cmServer NFS server v-xstest-849-171208-cdh-1.hx 4c8g200g 10.2.223.239 Namenode,resouceManager,Hbas…
0.绪论 之前完全没有接触过大数据相关的东西,都是书上啊,媒体上各种吹嘘啊,我对大数据,集群啊,分布式计算等等概念真是高山仰止,充满了仰望之情,觉得这些东西是这样的: 当我搭建的过程中,发现这些东西是这样的: 对于初学者来说,我认为缺点如下: 1.需要控制,配置的东西太多,并且配置对应并不是很清晰(以后优化集群是否会有很高含金量?) 2.整个集群,我觉的从硬件到软件整体来说还是稳定性有待提高,尤其CDH 集群这块一会这个主机失去联系,一会NameNode挂,一会monitor挂,整个使用过程就是…
#---1.修改每个用户的hosts vi /etc/hosts #127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 172.6.10.20 dip001172.6.10.21 dip002172.6.10.22 dip003172.6.10.23 dip…
关闭集群 - 关闭集群所有组件 关闭Cloudera Management Service 关闭cdh所有客户端节点 sudo /opt/cloudera-manager/cm-5.11.1/etc/init.d/cloudera-scm-agent hard_stop_confirmed 使用stop不会停止pid相关的进程,会造成在客户端机器重启后再次启动cloudera-scm-agent出现异常,使用hard_stop_confirmed则不会造成异常. 关闭chd中服务端节点 sudo…
CDH集群中YARN的参数配置 前言:Hadoop 2.0之后,原先的MapReduce不在是简单的离线批处理MR任务的框架,升级为MapReduceV2(Yarn)版本,也就是把资源调度和任务分发两块分离开来.而在最新的CDH版本中,同时集成了MapReduceV1和MapReduceV2(Yarn)两个版本,如果集群中需要使用Yarn做统一的资源调度,建议使用Yarn. CDH对Yarn的部分参数做了少了修改,并且添加了相关的中文说明,本文着重介绍了CDH中相比 MapReduceV1一些参…
 CDH集群搭建视频教程 百度云网盘下载 链接: http://pan.baidu.com/s/1i5DVBlb   密码:2mny…
相关文章链接 CentOS7安装CDH 第一章:CentOS7系统安装 CentOS7安装CDH 第二章:CentOS7各个软件安装和启动 CentOS7安装CDH 第三章:CDH中的问题和解决方法 CentOS7安装CDH 第四章:CDH的版本选择和安装方式 CentOS7安装CDH 第五章:CDH的安装和部署-CDH5.7.0 CentOS7安装CDH 第六章:CDH的管理-CDH5.12 CentOS7安装CDH 第七章:CDH集群Hadoop的HA配置 CentOS7安装CDH 第八章:…
背景:部署CDH集群的 hive 服务,选用 mysql 作为 hive 元数据的存储数据库,通过 hive cli 建表时发现中文注释均乱码. 现象:hive端建表中文注释乱码. 定位: 已经确认过 mysql 库的默认编码是 utf-8,并且 mysql 中建库建表不存在中文乱码的情况. 于是查看hive库表的编码,分别通过如下方式查看hive库和随机某个表的编码,发现hive表的编码是 lantin1,问题也就出在这里. 查看hive库编码: 查看hive表编码: 解决方法: 将hive表…
一.系统centOS7以上,至少三台主机 添加ip 主机名映射关系:(每台主机都要做) vim /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 10.0.8.107 master 10.0.8.108 node1 10.0.8.1…
一.环境准备 准备至少3台设备:CentOS7系统: 如果是在实验环境下,给虚拟机的内存至少4G,根建议1T,数据盘1T,由于是虚拟机,所以根分区和数据盘放心大胆的给:如果是在生产环境则多多益善:我这次的实验环境是三台2G内存,50G硬盘的腾讯云主机(CentOS7.5),不知是否能搭建成功,试试吧: 二.数据库安装 注意:以下数据库的配置方式是错误的,一定不要yum安装数据库,yum安装在CentOS7上是mariadb5.5版本的:在最后初始化的时候会遇到各种古怪问题,我的CDH版本明明是5…
1       情况概述 公司的开发集群在周末莫名其妙的主节点Hadoop-1的启动固态盘挂了,由于CM.HDFS的NameNode.HBase的Master都安装在Hadoop-1,导致了整个集群都无法使用,好在数据不在启动盘. Hadoop-1的系统必须重装,但是不能重装集群,因为要将之前的数据全部保留恢复,所以只能通过集群恢复的手段将集群重新跑起来. 主要服务角色安装情况: Hadoop-1: CM,HDFS( NN,DN ),HBase(HMaster, RegionServer),YA…
最近尝试这用用eclipse连接CDH的集群,由于之前尝试过很多次都没连上,有一次发现Cloudera Manager是将连接的端口修改了,所以才导致连接不上CDH的集群,之前Apache hadoop采用的端口是9000和9001,而Cloudera Manager采用的端口是8020端口,于是通过eclipse中的MapReduce选项卡,edit一个选项连接,发现连上了.这给我带来了一些意外. 在这里有一个问题需要说明一下,这个eclipse的插件我还是用的Apache hadoop的ha…
Cloudera Manager 4.6 安装详解 1. Cloudera Manager介绍 1.1. 功能介绍 Cloudera Manager是一个针对hadoop集群的管理工具,功能包括:cdh的安装,集群的活动监控.各个性能指标的监控,以及各个组件的管理等. 1.2. 架构介绍 Cloudera Manager分为客户端(Cloudera Manager Agent)和服务端(Cloudera Manager Server),客户端会把采集到的数据发送到服务端,服务端把这些数据存放在数…
转自:http://blog.51cto.com/teacheryan/1912116 本文介绍如何搭建cloudera manager去接入已有hadoop组件(cdh). 一.下载必备文件: 1.cloudera manager:http://archive-primary.cloudera.com/cm5/cm/5/ 大部分公司内大数据集群环境都无公网访问权限,针对当前集群系统环境和想要接入的cm版本找到对应版本离线包,对于redhat.centos系统来说el6就是redhat6.cen…
搭建要求: 1.CDH环境已经搭建成功,在CDH上搭建kafka.要求用CDH上zookeeper管理kafka而不用kafka自带的zookeeper 2.kafka_2.11-0.8.2.1.tgz已经上传到kafka集群环境中 搭建步骤 1. 主机操作 改动hosts 10.10.0.11 s1-1 10.10.0.12 s1-2 10.10.0.13 s1-3 10.10.0.14 s1-4 10.10.0.15 s2-1 10.10.0.16 s2-2 10.10.0.17 s2-3…
1 软硬件准备 1.1 准备三个节点 序号 主机名 内存 CPU IP地址 角色 1 cdh1 8G 8核心 192.168.5.78 cloudera-scm-server,mysql 2 cdh2     4G 8核心 192.168.5.79 cloudera-scm-agent 3 cdh2 4G 8核心 192.168.5.80 cloudera-scm-agent 1.2 软件版本信息 OS:RedHat EL 6.5 CDH: 5.6.0 Java:1.7 MySQL:5.6  …
背景 集群运行一段时间(大概一月多)后,cloudera manager管理界面出现爆红,爆红的组件有hdfs.zookeeper. 发现问题 点击详细内容查看,报日志空间不够的错误.初步判断是各个组件的日志数据把空间占满了. 查看各个目录下磁盘占用情况 df -h cdh的各组件的日志一般在/var/log目录下,因此主要关注“/” 查看/var/log下使用空间较大的文件夹,并由大到小排列 cd /var/log/ du -s ./* | sort -nr 还有一个是 Cloudera Ma…
1.下载hive-1.2.1安装包 http://archive.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz 2.将安装包传到集群所有节点上 3.所有节点root用户下 cd /opt/cloudera/parcels/CDH/lib/hive mkdir lib121 4.所有节点解压 apache-hive-1.2.1-bin.tar.gz 5.所有节点将解压出来hive/lib下所有文件拷贝到lib121 6.C…
首先,如果是从http://lucene.apache.org/solr/下载的solr,基本都是自带集成的jetty服务,不需要单独搭建tomcat环境,但是要注意jdk版本,直接解压通过cmd命令调用bin目录下的solr.cmd -start 来启动 就可以直接通过浏览器访问,默认端口是8983,地址:http://localhost:8983/solr 如果需要集成中文分词器 直接在实例目录下新建lib文件夹,将中文分词器jar复制进去,再修改scahm.xml文件的filetype节点…
目的 刚入门spark,安装的是CDH的版本,版本号spark-core_2.11-2.4.0-cdh6.2.1,部署了cdh客户端(非集群节点),本文主要以spark-shell为例子,对在cdh客户端上提交spark作业原理进行简单分析,加深理解 spark-shell执行 启动spark-shell后,可以发下yarn集群上启动了一个作业,实际上,cdh-spark默认提交作业模式为yarn-client模式,即在本地运行Driver,作业在yarn集群上执行 spark-shell启动过…
1.集群认证命令 kinit -kt csliyb.keytab csliyb 2.查看认证有效期命令 klist命令 3.延长认证有效期命令 kinit -R 4.手动认证失效命令 kdestroy…
1. Clouder Manger页面的配置 访问主节点IP:(cdh1)192.168.80.81:7180 默认用户名和密码:admin,admin 选择一个版本 选择集群的服务器(agent),一般全部包含进去 进入parcel的选择页面,选择和server相对应的版本. 下面页面进行资源配置,之前我下载过了,但是我进到这一步的时候理论上应该是已下载的页面,但是始终没有到达这个效果,每次都从clouder网站中下载.(如果有高手遇到过类似的问题,还请指教.)假如真的识别不到自己下载的par…
集群时间同步(主节点) 1. 查看是否安装ntp服务,如果没有安装 rpm -qa |grep ntpd查看命令 yum install ntp安装命令 2. 修改配置 vi /etc/ntp.conf 去掉这个注释,将地址改成网段地址 restrict 10.228.86.252 mask 255.255.255.0 nomodify notrap 注释掉这几个 #server .centos.pool.ntp.org iburst #server .centos.pool.ntp.org i…
场景 产品中需要通过前端界面选择执行某种任务(spark任务),然后通过livy 的restful api 提交集群的spark任务 简单介绍下livy,翻译自官网: Livy是基于Apache许可的一个服务,它可以让远程应用通过REST API比较方便的与Spark集群交互.通过简单的REST接口或RPC客户端库,它可以让你轻松的提交Spark作业或者Spark代码片段,同步或者异步的结果检索,以及SparkContext管理.Livy还简化了Spark和应用程序服务器之间的交互,从而为web…
一.spark的命令行模式 1.第一种进入方式:执行 pyspark进入,执行exit()退出 注意报错信息:java.lang.IllegalArgumentException: Required executor memory (1024+384 MB) is above the (最大阈值)max threshold (1024 MB) of this cluster! 表示 执行器的内存(1024+384 MB) 大于最大阈值(1024 MB) Please check the valu…