原有环境 http://www.cnblogs.com/ilifeilong/p/7406944.html  IP       host JDK linux hadop role 172.16.101.55 sht-sgmhadoopnn-01 1.8.0_111 CentOS release 6.5 hadoop-2.7.3 NameNode,SecondaryNameNode,ResourceManager 172.16.101.58 sht-sgmhadoopdn-01 1.8.0_111…
1. 测试MapReduce Job 1.1 上传文件到hdfs文件系统 $ jps Jps SecondaryNameNode JobHistoryServer NameNode ResourceManager $ jps > infile $ hadoop fs -mkdir /inputdir $ hadoop fs -put infile /inputdir $ hadoop fs -ls /inputdir Found items -rw-r--r-- hduser supergrou…
测试环境如下  IP       host JDK linux hadop role 172.16.101.55 sht-sgmhadoopnn-01 1.8.0_111 CentOS release 6.5 hadoop-2.7.3 NameNode,SecondaryNameNode,ResourceManager 172.16.101.58 sht-sgmhadoopdn-01 1.8.0_111 CentOS release 6.5 hadoop-2.7.3 DataNode,NodeM…
假设集群操作系统均为:CentOS 6.7 x64 Hadoop版本为:2.6.3 一.动态增加DataNode 1.准备新的DataNode节点机器,配置SSH互信,可以直接复制已有DataNode中.ssh目录中的authorized_keys和id_rsa 2.复制Hadoop运行目录.hdfs目录及tmp目录至新的DataNode 3.在新DataNode上启动hadoop ..sbin/hadoop-daemon.sh start datanode ..sbin/yarn-daemon…
本节内容: Hadoop版本 安装部署Hadoop 一.Hadoop版本 1. Hadoop版本种类 目前Hadoop发行版非常多,有华为发行版.Intel发行版.Cloudera发行版(CDH)等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,完全是由Apache Hadoop的开源协议(http://www.apache.org/licenses/LICENSE-2.0)决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售. 国内绝大多数公司发行…
参考: Hadoop安装教程_伪分布式配置_CentOS6.4/Hadoop2.6.0   Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS ZooKeeper-3.3.4集群安装配置 HBase的安装与运行 HBase-0.90.4集群安装配置 hbase单机及集群安装配置,整合到hadoop…
第一部分:Hadoop 在windows 上伪分布式的安装过程 安装JDK 1.下载JDK        http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-6u29-downloads-523388.html 2.解压    或者直接运行.exe安装 后面根据项目的实际需要来进行调整. 安装 Cygwin 1.下载Cygwin     网址: http://www.cygwin.com/setu…
创建用户并加入授权 1,创建hadoop用户 sudo useradd -m hadoop -s /bin/bash 2,修改sudo的配置文件,位于/etc/sudoers,需要root权限才可以读写 找到root ALL=(ALL) ALL这一行,在后面再加上一行就可以了(不用引号): "username ALL=(ALL) ALL",将hadoop用户添加到sudo中 安装vim编辑器: sudo yum install vim 安装SSH.配置SSH无密码登陆 集群.单节点模式…
Apache Hadoop 2.9.2 完全分布式部署(HDFS) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.环境准备 1>.操作平台 [root@node101.yinzhengjie.org.cn ~]# cat /etc/redhat-release CentOS Linux release (Core) [root@node101.yinzhengjie.org.cn ~]# [root@node101.yinzhengjie.org.cn ~]# uname…
安装 Hadoop 2.7.3 配置ssh免密码登陆 cd ~/.ssh                       # 若没有该目录,请先执行一次ssh localhost ssh-keygen -t rsa               # 会有提示,都按回车就可以 cat id_rsa.pub >> authorized_keys # 加入授权 chmod 600 ./authorized_keys # 修改文件权限 1.此处我们选择二进制安装包 http://www.apache.org…
不多说,直接上干货! hadoop-2.6.0动态添加新节点 https://blog.csdn.net/baidu_25820069/article/details/52225216 Hadoop集群动态增加新节点 一.在新增节点配置运行环境 1.安装和其他节点相同的java环境,jdk版本要相同. 2.修改/etc/hosts配置文件,添加ip与hostname的对应关系并分发到集群各个节点. 3.关闭防火墙.相关软件工具的安装等. 4.配置ssh免密码登录,使新增节点和集群其他节点能实现免…
Hadoop生态圈-Kafka的完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客主要内容就是搭建Kafka完全分布式,它是在kafka本地模式(https://www.cnblogs.com/yinzhengjie/p/9209058.html)的基础之上进一步实现完全分布式搭建过程. 一.试验环境 试验环境共计4台服务器 1>.管理服务器(s101) 2>.Kafka节点二(s102,已经部署好了zookeeper服务) 3>.Kafka节点三…
最近公司业务数据量越来越大,以前的基于消息队列的日志系统越来越难以满足目前的业务量,表现为消息积压,日志延迟,日志存储日期过短,所以,我们开始着手要重新设计这块,业界已经有了比较成熟的流程,即基于流式处理,采用 flume 收集日志,发送到 kafka 队列做缓冲,storm 分布式实时框架进行消费处理,短期数据落地到 hbase.mongo中,长期数据进入 hadoop 中存储. 接下来打算将这其间所遇到的问题.学习到的知识记录整理下,作为备忘,作为分享,带给需要的人. hadoop 简介,也…
Purpose(目标) This document describes how to set up and configure a single-node Hadoop installation so that you can quickly perform simple operations using Hadoop MapReduce and the Hadoop Distributed File System (HDFS). 这个文档描述了如何安装和配置一个单节点的Hadoop安装,这样很…
Hadoop生态圈-hbase介绍-完全分布式搭建 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.…
Hadoop生态圈-hbase介绍-伪分布式安装 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最优的写性能(能使I/O利用率达到饱和)进而出色的读性能,它充分利用了磁盘空间,支持特定列族切换可选压缩算法. HBase继承自谷歌公司的 BigTable模型,只考虑单一的索引,类似于RDBMS的主键,提供了服务器端钩子,可以实施灵活的辅助索引解决方案.此外,它还提供了过滤器功能,减少了网络传输的数…
hadoop 2.7.3伪分布式安装 hadoop集群的伪分布式部署由于只需要一台服务器,在测试,开发过程中还是很方便实用的,有必要将搭建伪分布式的过程记录下来,好记性不如烂笔头. hadoop 2.7.3 JDK 1.8.91 到Apache的官网下载hadoop的二进制安装包. cd /home/fuxin.zhao/soft tar -czvf hadoop 2.7.3.tar.gz cd hadoop-2.7.3 cd etc/hadoop/ pwd 1. 建立本机到本机的免密登录 ss…
1. 安装JAVA环境 2. Hadoop下载地址: http://archive.apache.org/dist/hadoop/core/ tar -zxvf hadoop-2.6.0.tar.gz -C /usr/local mv hadoop-2.6.0/ hadoop/   #更改文件夹名称 chown -R hadoop:hadoop ./hadoop   #修改权限 验证单机模式是否安装成功,进入/usr/local/hadoop/bin目录下,执行./hadoop -version…
    Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解 在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下: 输入:参数0--存储样本数据的文本文件inputfile: 参数1--存储样本数据的SequenceFile文件inputPath: 参数2--存储质心数据的SequenceFile文件centerPath: 参数3--存储聚类结果文件(SequenceFile文件)所处的路径clusterPath: 参数4--类的数量k: 输出:k个类 Be…
centos 7 下Hadoop 2.7.2 伪分布式安装,安装jdk,免密匙登录,配置mapreduce,配置YARN.详细步骤如下: 1.0 安装JDK 1.1 查看是否安装了openjdk [lei@bogon ~]$ java -version openjdk version "1.8.0_65" OpenJDK Runtime Environment (build 1.8.0_65-b17) OpenJDK 64-Bit Server VM (build 25.65-b01,…
hadoop 2.7.3伪分布式模式运行wordcount 基本环境: 系统:win7 虚机环境:virtualBox 虚机:centos 7 hadoop版本:2.7.3 本次以伪分布式模式来运行wordcount. 参考: hadoop docs ​ 1 hadoop环境 伪分布式就是将多个hadoop组件部署在一台机器上.因此涉及到各组件的配置,以及机器信任关系. ### 准备一个全新的环境 # cd /home/jungle/hadoop # tar -zxvf hadoop-2.7.3…
1.为什么使用代理池 许多⽹网站有专⻔门的反爬⾍虫措施,可能遇到封IP等问题. 互联⽹网上公开了了⼤大量量免费代理理,利利⽤用好资源. 通过定时的检测维护同样可以得到多个可⽤用代理理. 2.代理池的要求 多站抓取, 异步检测 定时筛选, 持续更新 提供接口, 易于提取 3.代理池架构 4.github上下载代理池维护的代码 https://github.com/Germey/ProxyPool 安装Python 至少Python3.5以上 安装Redis 安装好之后将Redis服务开启 配置代理…
文章更新于:2020-04-09 注1:hadoop 的安装及单机配置参见:Hadoop安装教程_单机(含Java.ssh安装配置) 注2:hadoop 的完全分布式配置参见:Hadoop安装教程_分布式 注3:hadoop 及其他软件的下载安装配置参见:让我来告诉你,学习大数据都是要安装哪些软件 Hadoop 的伪分布式安装 一.下载安装 Hadoop 1.1.下载 Hadoop 1.2.安装 Hadoop 二.配置 Hadoop 2.1.修改 core-site.xml 配置文件 2.2.修…
问题导读 1. Centos7如何安装配置? 2. linux网络配置如何进行? 3. linux环境下java 如何安装? 4. linux环境下SSH免密码登录如何配置? 5. linux环境下Hadoop2.7 如何安装? 6. linux环境下Mysql 如何安装? 7. linux环境下Hive 如何安装? 8. linux环境下Zookeeper 如何安装? 9. linux环境下Kafka 如何安装? 10. linux环境下Hbase如何安装? 11. linux环境下KYLIN…
[本文结构] [1]安装Hadoop前的准备工作 [1.1] 创建新用户 [1.2] 更新APT [1.3] 安装SSH [1.4] 安装Java环境 [2]安装和配置hadoop [2.1] Hadoop下载 [2.2] Hadoop伪分布式配置 [踩过的坑] [1] 需要在Java8上安装Hadoop,开始用Java11一直失败: [2] 一定要再熟悉大致流程后再安装,专注于一篇笔记的同时参考其他笔记. [3] 本文参考笔记 [1.1] Ubuntu16.04 下 Hadoop的安装与配置(…
一:系统安装与配置 虚拟机软件:Virtualbox 4.3.10(已安装对应扩展包) 虚拟机:Ubuntu 13.04 LTS 32位(至于为什么选择13.04,是由于最新的版本号装上后开机会出现错误,每一个人的平台不一样,我的是Mac OS X 10.9.2.应该选择自己合适的版本号) 虚拟机配置: 须要特别说明的是:在设置网络时,一定要选择"桥接网卡",至于界面名称,我的电脑是不能选择有线网卡的,由于选择有线网卡连不上网,仅仅能选择Wi-Fi网卡了.至于为什么不能选择NAT模式,…
分布式协调服务Zookeeper扫盲篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 身为运维工程师对kubernetes(k8s)可能比较熟,那么etcd(go语言实现)分布式协调服务应该也有一定的了解吧.在大数据领域中,也有一个分布式协调工具基本上可以和zookeeper分庭抗礼,他就是我们今天要说的zookeeper. 在分布式系统中,服务(或组件)之间的协调是非常重要的,它构成了分布式系统的基础.分布式系统中的leader选举,分布式锁,分布式队列等,均需要通过协调服…
[源码解析] PyTorch 分布式(8) -------- DistributedDataParallel之论文篇 目录 [源码解析] PyTorch 分布式(8) -------- DistributedDataParallel之论文篇 0x00 摘要 0x01 原文摘要 0x02 引论 2.1 挑战 2.2 实现和评估 0x03 背景 3.1 PyTorch 3.2 数据并行 3.3 AllReduce 0x04 系统设计 4.1 API 4.2 梯度规约 4.2.1 A Naive So…
在我们一些和文件处理打交道的系统中,我们往往需要记录下最近使用的文件,这样方便用户快速打开之前浏览或者编辑过的文件,这种在很多软件上很常见,本文主要介绍在Winform界面菜单中实现[最近使用的文件]动态菜单的处理,实现一个较为常用的功能. 在我上篇随笔<文字处理控件TX Text Control的使用>介绍的内容中,我针对性的对这个控件的使用做了一个全面的了解,发现其中案例代码总这部分的功能实现[最近使用的文件]挺好,于是把它进行了整理,把整个思路作为一篇随笔进行记录,希望对大家有所帮助.…
一个知乎上的问题:Hbase的Region server和hadoop的datanode是否可以部署在一台服务器上?如果是的话,二者是否是一对一的关系?部署在同一台服务器上,可以减少数据跨网络传输的流量. 但不是一对一对的关系,首先,数据还hdfs中保存N份,默认是三分,也就是说数据会分布在三个datanode上,即使regionserver上只保存一个region,它也可以与三个datanode交互,更何况,一台regionserver可以保存多个region. 参考:https://www.…