hadoop组件及其作用

1.hadoop有三个主要的核心组件：HDFS（分布式文件存储）、MAPREDUCE（分布式的计算）、YARN（资源调度），现在云计算包括大数据和虚拟化进行支撑。

　　在HADOOP（hdfs、MAPREDUCE、yarn）大数据处理技术框架，擅长离线数据分析.

　　Zookeeper 分布式协调服务基础组件，Hbase 分布式海量数据库，离线分析和在线业务处理。

　　Hive sql 数据仓库工具，使用方便，功能丰富，基于MR延迟大，可以方便对数据的分析，并且数据的处理可以自定义方法进行操作，简单方便。　　

　　Sqoop数据导入导出工具，将数据从数据导入Hive，将Hive导入数据库等操作。

　　Flume数据采集框架，可以从多种源读取数据。

　　Azkaban对操作进行管理，比如定时脚本执行，有图形化界面，上传job简单，只需要将脚本打成bao，可直接上传。

2.hadoop的可以做离散日志分析，一般流程是:

　　将web中的数据取过来【通过flume】，然后通过预处理【mapreduce,一般只是使用map就可以了】，就是将数据中没有用处的数据去除掉，将数据转换【比如说时间的格式，Agent的组合】，并将数据进行处理之后以固定格式输出，由Hive处理，Hive是作用是将数据转换出一个表，RTL就是写SQL的一个过程，将数据进行分析，然后将数据报表统计，这个时候使用的是pig数据分析【hive一般作为库，pig做分析，我没有使用pig，因为感觉还没有hive的HQL处理方便】，最后将含金量最大的数据放入到mysql中，然后将mysql中的数据变为可视图化的工具。

　　推荐的使用：当我们浏览一各网页的时候，将数据的值值传递给后台保存到log中，后台将数据收集起来，hadoop中的fiume可以将数据拿到放入到HDFS中，原始的数据进行预处理，然后使用HIVE将数据变为表，进行数据的分析，将有价值的数据放入到mysql，作为推荐使用，这个一般是商城，数据的来源也是可以通过多种方式的，比如说隐形图片、js、日志等都可以作为采集数据的来源。

3.hadoop中的HDFS有两个重要的角色：NameNode、datanode，Yarn有两个主要的主角：ResourceManager和nodeManager.

4.分布式：使用多个节点协同完成一项或者多项业务功能的系统叫做分布式系统，分布式一般使用多个节点组成，包括主节点和从节点，进行分析

5.mapreduce：是使用较少的代码，完成对海量数据的处理，比如wordCount，统计单词的个数。

　　实现思想：将单词一个一个的遍历，然后将单词加1处理，但是这是集群，那么就每个节点计算自己节点的数据，然后最后交给一个统计的程序完成就可以了，最后将单词和结果输出。

　　代码实现：

　　map阶段:

　　　　从HDFS的数据文件中逐行读取数据

　　　　将每一行数据切分出单词

　　　　为每一个单词构造出键值对（单词，1）[这里的1不是java类型的]

　　　　将键值对发送给reduce

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

    //map方法的生命周期：  框架每传一行数据就被调用一次

    //key :  偏移量

    //value: 这一行的内容

    @Override

    protected void map(LongWritable key, Text value, Context context) throws Exception {

        //拿到一行数据转换为string

        String line = value.toString();

        //将这一行切分出各个单词

        String[] words = line.split(" ");

        //遍历数组，输出<单词，1>

        for(String word:words){

            context.write(new Text(word), new IntWritable());

        }

    }

}

　　reduce阶段：

　　　　接收到map阶段的单词的key-value键值对。

　　　　将相同的单词汇聚为一组。

　　　　对每一组，遍历组中的所有的值，累加求和，并得到最后的结果

　　　　将值保存到HDFS中。

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        //定义一个计数器

        int count = ;

        for(IntWritable value:values){

            count += value.get();

        }

        context.write(key, new IntWritable(count));

    }

}

map和reduce就实现完成了。

6.配置ssh免登陆

　　#生成ssh免登陆密钥
　　#进入到我的home目录
　　cd ~/.ssh

　　ssh-keygen -t rsa
　　执行完这个命令后，会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）
　　将公钥拷贝到要免密登陆的目标机器上
　　ssh-copy-id hostname

7. 上传 hadoop fs -put 本地目录 /远程目录
　　查看 hadoop fs -cat 本地目录 /远程目录
　　大于128M的数据，会进行切片处理，我们可以将片写入一个文件之后，数据就会比比变为上传之前的文件。
　　创建多级目录使用的是-p

hadoop组件及其作用的更多相关文章

Hadoop组件之-HDFS(HA实现细节)
NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode ...
Hadoop组件
---------Hive--------------------------zooKeeper-------------------------------kafka---------------- ...
[hadoop in Action] 第3章 Hadoop组件
管理HDFS中的文件分析MapReduce框架中的组件读写输入输出数据 1.HDFS文件操作［命令行方式］ Hadoop的文件命令采取的形式为: hadoop fs -cmd < ...
Hadoop组件构成
Hadoop平台重要组件: 1.ZooKeeper 一个分布式应用程序协调服务. 包含简单的原语集.实现统一命名服务.配置管理.分布式锁服务.集群管理等功能. 2.Cascading 架构在 Hado ...
hadoop组件概念理解
一.HADOOP 二.HIVE 三.SQOOP 1.来由和作用 sqoop由一些封装好的MR程序的jar包构成,后演变成框架,但sqoop只有map任务没有reduce任务. 用于 hdfs.hive ...
hadoop组件启动和关闭命令
一.启动相关组件之前一般安装完hadoop之后需要格式化一遍hdfs: hdfs namenode -format 然后再进行其他组件的启动,hadoop相关组件都是用位于...hadoop/sbi ...
搭建maven开发环境测试Hadoop组件HDFS文件系统的一些命令
1.PC已经安装Eclipse Software,测试平台windows10及Centos6.8虚拟机 2.新建maven project 3.打开pom.xml,maven工程项目的pom文件加载以 ...
hadoop配置文件的作用
core-site.xml <property> //指定hdfs的主端口 namenode要放在哪台机器上 <name>fs.defaultFS</name> & ...
[转帖]通俗解释 AWS 云服务每个组件的作用
你有听说过 ContainerCache,ElastiCast 和 QR72 这些 AWS 的新服务吗? 没有就对了,这些都是我编的:) 不过,AWS 有 50 多个服务,从名称也不能看出这些服务是做 ...

随机推荐

51nod 更难的矩阵取数问题 + 滚动数组优化
这里要求要走到终点再走回来,可以转化为两个人走. 那么我们可以先粗暴的设f[x1][y1][x2][y2]为第一个人走到(x1, y1), 第二个人走到(x2, y2)的最大价值. 那么这样空间会很大 ...
关于结构体内存对齐方式的总结（#pragma pack()和alignas()）
最近闲来无事,翻阅msdn,在预编译指令中,翻阅到#pragma pack这个预处理指令,这个预处理指令为结构体内存对齐指令,偶然发现还有另外的内存对齐指令aligns(C++11),__declsp ...
ZOJ Problem Set - 3822Domination(DP)
ZOJ Problem Set - 3822Domination(DP) problemCode=3822">题目链接题目大意: 给你一个n * m的棋盘,每天都在棋盘上面放一颗棋子 ...
文件/文件夹权限设置命令chmod的具体使用方法
chmod是文件/文件夹权限设置的命令,在Linux中常常遇到.本博文下面总结chmod的具体使用方法. Linux/Unix的档案调用权限分为三级,即档案拥有者user.群组group.其它othe ...
dreamweaver 8的替换功能
dreamweaver 8的替换功能下面教你用dreamweaver 8的替换功能来删除这些冗余代码. 查找范围:文件夹(然后选取你需要替换的文件夹) 搜索:源代码查找:\btppabs=" ...
H.264视频编解码SoC满足高清DVR设计需求
硬盘录像机(DVR)作为监控系统的核心部件之一,在10年里高速发展,从模拟磁带机的替代品演变成具有自己独特价值的专业监控数字平台,并被市场广泛接受.监控系统伴随DVR这些年的发展向着IP化.智能化发展 ...
2.CURL命令
转自:https://blog.csdn.net/ligang2585116/article/details/46548617 curl是一种命令行工具,作用是发出网络请求,然后得到和提取数据,显示在 ...
6.Maven之（六）setting.xml配置文件详解
转自:https://blog.csdn.net/u012152619/article/details/51485152
java接口理解（转载）
今天和同事好好的讨论了java接口的原理和作用,发现原来自己的对接口的理解仅仅是局限在概念的高度抽象上,觉得好像理解了但是不会变化应用其实和没有理解差不多.以前看一个帖子说学习一个东西不管什么时候都要 ...
background 背景认知
background 背景背景颜色 /*背景颜色为红色*/ p { background-color:ren; } 网页背景不仅可以设置颜色还可以插入图片 /*为背景插入图片*/ body { ba ...

hadoop组件及其作用

hadoop组件及其作用的更多相关文章

随机推荐

热门专题