Hadoop读书笔记（一）Hadoop介绍

Hadoop读书笔记（二）HDFS的shell操作

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 1.shell操作 1.1全部的HDFS shell操作命名能够通过hadoop fs获取: [root@hadoop ~]# hadoop fs Usage: java FsShell [-ls <path>] [-lsr <path>] [-du <…

Hadoop读书笔记（四）HDFS体系结构

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927 Hadoop读书笔记(三)Java API操作HDFS:http://blog.csdn.net/caicongyang/article/details/41290955…

【hadoop代码笔记】hadoop作业提交之汇总

一.概述在本篇博文中,试图通过代码了解hadoop job执行的整个流程.即用户提交的mapreduce的jar文件.输入提交到hadoop的集群,并在集群中运行.重点在代码的角度描述整个流程,有些细节描述的并不那么详细. 汇总的代码流程图附件: hadoop_mapreduce_jobsubmit 二.主要流程 Jobclient通过RPC方式调用到jobtracker的submitJob方法提交作业,包括作业的jar.分片和作业描述. JobTracker的submitJob方法吧job加…

[转帖]hadoop学习笔记：hadoop文件系统浅析

hadoop学习笔记:hadoop文件系统浅析 https://www.cnblogs.com/sharpxiajun/archive/2013/06/15/3137765.html 1.什么是分布式文件系统? 管理网络中跨多台计算机存储的文件系统称为分布式文件系统. 2.为什么需要分布式文件系统了? 原因很简单,当数据集的大小超过一台独立物理计算机的存储能力时候,就有必要对它进行分区(partition)并存储到若干台单独计算机上. 3.分布式系统比传统的文件的系统更加复杂因为分布式文件系统…

《The Linux Command Line》读书笔记01 基本命令介绍

<The Linux Command Line> 读书笔记01 基本命令介绍 1. What is the Shell? The Shell is a program that takes keyboard commands and passes them to the operating system to carry out. 提示符 $被称作shell prompt,它表明shell准备好接收输入. 通常是包含了你的用户名和机器名(username@machinename),之后是当前的…

啃掉Hadoop系列笔记(03)-Hadoop运行模式之本地模式

Hadoop的本地模式为Hadoop的默认模式,不需要启用单独进程,直接可以运行,测试和开发时使用. 在<啃掉Hadoop系列笔记(02)-Hadoop运行环境搭建>中若环境搭建成功,则直接可以使用本地模式. 在这里我们运行官方的两个案例 1.官方grep案例 1)在hadoop-2.7.2文件夹下面创建一个input文件夹…

Hadoop学习笔记—1.基本介绍与环境配置

一.Hadoop的发展历史说到Hadoop的起源,不得不说到一个传奇的IT公司—全球IT技术的引领者Google.Google(自称)为云计算概念的提出者,在自身多年的搜索引擎业务中构建了突破性的GFS(Google File System),从此文件系统进入分布式时代.除此之外,Google在GFS上如何快速分析和处理数据方面开创了MapReduce并行计算框架,让以往的高端服务器计算变为廉价的x86集群计算,也让许多互联网公司能够从IOE(IBM小型机.Oracle数据库以及EMC存储)中…

[hadoop读书笔记] 第九章构建Hadoop集群

P322 运行datanode和tasktracker的典型机器配置(2010年) 处理器:两个四核2-2.5GHz CPU 内存:16-46GN ECC RAM 磁盘存储器:4*1TB SATA 磁盘网络:千兆以太网 Hadoop一般使用多核CPu和多磁盘提升硬件功能 P323 小集群VS大集群对于几十个节点的小集群,在master上同时运行namenode和jobtracker通常没问题但是随着集群节点增加,namenode的内存压力将逐步扩大,此时namenode和jobtracke…

[hadoop读书笔记] 第三章 HDFS

P49 当数据集的大小超过一台计算机存储能力时,就有必要对数据集分区(partition)并将分区存储到若干台独立的计算机上. 管理网络中跨多台计算机存储的系统就叫分布式文件系统 Distributed FileSystem 而基于Hadoop构建的DFS就称之为HDFS. P49-50 HDFS的设计思路:以流数据访问模式来存储超大文件,运行在商用硬件集群上. P51 HDFS 数据块:默认为64MB,是HDFS进行数据读写的最小单位,作为独立的存储单元存在. 一个打文件可以切分为多个块存储…

[Hadoop] Hadoop学习笔记之Hadoop基础

1 Hadoop是什么? Google公司发表了两篇论文:一篇论文是“The Google File System”,介绍如何实现分布式地存储海量数据:另一篇论文是“Mapreduce:Simplified Data Processing on Large Clusters”,介绍如何对分布式大规模数据进行处理.Doug Cutting在这两篇论文的启发下,基于OSS(Open Source software)的思想实现了这两篇论文中的原理,从而Hadoop诞生了. Hadoop是一种开源的适合…

吴裕雄--天生自然HADOOP学习笔记：hadoop集群实现PageRank算法实验报告

实验课程名称:大数据处理技术实验项目名称:hadoop集群实现PageRank算法实验类型:综合性实验日期:2018年 6 月4日-6月14日学生姓名吴裕雄学号 15210120331 班级软工三班专业名称软件工程实验组其他成员无实验地点 F110 实验成绩 (教师签名) 实验目的与要求了解PageRank算法学会用mapreduce解决实际的复杂计算问题搭建hadoop分布式集群编写mapreduce代码根据输入的网页链接数据,能够得到最终的pagera…

吴裕雄--天生自然Hadoop学习笔记：Hadoop简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.HDF…

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

开篇:Hadoop是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率.但是,它也有一些缺点,如编码.调试Hadoop程序的难度较大,这样的缺点直接导致开发人员入门门槛高,开发难度大.因此,Hadop的开发者为了降低Hadoop的难度,开发出了Hadoop Eclipse插件,它可以直接嵌入到Hadoop开发环境中,从而实现了开发环境的图形界面化,降低了编程的难度. 一.天降神器插件-Hadoop Eclipse Hadoop Eclipse是Hadoop开发环境的…

Hadoop学习笔记—3.Hadoop RPC机制的使用

一.RPC基础概念 1.1 RPC的基础概念 RPC,即Remote Procdure Call,中文名:远程过程调用: (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的.因此,它经常用于分布式网络通信中. RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据.在OSI网络通信模型中,RPC跨越了传输层和应用层.RPC使得开发包括网络分布式多程序在内的应用程序更加容易. (2)Hadoop的进程间交互都是通过R…

Hadoop学习笔记【Hadoop家族成员概述】

Hadoop家族成员概述一.Hadoop简介 1.1 什么是Hadoop? Hadoop是一个分布式系统基础架构,由Apache基金会所开发,目前Yahoo!是其最重要的贡献者. Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS,用户可以在不了解分布式底层细节的情况下,开发分布式应用程序,充分利用集群的威力高速运算和存储. 1.2 Hadoop的特点高扩容能力:能可靠地存储和处理千兆字节(PB)的数据. 成本低:可以通过普通机…

Hadoop学习笔记(3) Hadoop I/O

1. HDFS的数据完整性 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和.datanode负责在验证收到的数据后存储数据及其校验和.正在写数据的客户端将数据及其校验和发送到由一系列datanode组成的管线,管线中的最后一个datanode负责验证校验和.如果datanode检测到错误,客户端便会收到一个ChecksumException异常. 客户端从datanode读取数据时,也会验证校验和,将它们与datanode中存储的校验和进行比较.每个datanode均持久保存有一…

Hadoop学习笔记(3) Hadoop文件系统二

1 查询文件系统 (1) 文件元数据:FileStatus,该类封装了文件系统中文件和目录的元数据,包括文件长度.块大小.备份.修改时间.所有者以及版权信息.FileSystem的getFileStatus()方法用于获取文件或目录的FileStatus对象. 例:展示文件状态信息 public class ShowFileStatusTest{ private MiniDFSCluster cluster; private FileSystem fs; @Before public void…

Hadoop学习笔记(3) Hadoop文件系统一

1. 分布式文件系统,即为管理网络中跨多台计算机存储的文件系统.HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上.HDFS的构建思路为:一次写入.多次读取是最高效的访问模式.数据集通常由数据源生成或从数据源赋值而来,接着长时间在此数据集上进行各类分析.每次分析都涉及该数据集的大部分数据甚至全部,因此读取整个数据集的时间延迟比第一条记录的时间延迟更重要. 2. HDFS是为高数据吞吐量应用优化的,这可能会以高时间延迟为代价.目前,对于低延迟的访问需求,HBase是更好的选择. 3.…

啃掉Hadoop系列笔记(01)-Hadoop框架的大数据生态

一.Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2)主要解决,海量数据的存储和海量数据的分析计算问题. 3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈二.Hadoop发展历史 1)Lucene--Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎 2)2001年年底成为apache基金会的一个子项目 3)对于大数量的场…

Hadoop读书笔记（一）Hadoop介绍

1.Hadoop是什么? 适合大数据的分布式与计算平台. HDFS:Hadoop Distributed File System 分布式文件系统 MapReduce:并行计算框架 2.HDFS的架构主从结构主节点,仅仅有一个:namenode 从节点,有非常多个:datanodes namenode负责: 接收用户操作请求维护文件系统的文件夹结构管理文件与block之间关系,block与datanode之间关系 datanode负责: 存储文件文件…

[hadoop读书笔记] Hadoop下各技术应用场景

1.数据采集对于数据采集主要分为三类,即结构化数据库采集,日志和文件采集,网页采集. 对于结构化数据库,采用Sqoop是合适的,可以实现结构化数据库中数据并行批量入库到hdfs存储.对于网页采集,前端可以采用Nutch,全文检索采用lucense,而实际数据存储最好是入库到Hbase数据库.对于日志文件的采集,现在最常用的仍然是flume或chukwa,但是我们要看到如果对于日志文件数据需要进行各种计算处理再入库的时候,往往flume并不容易处理,这也是为何可以采用Pig来做进一步复杂的dat…

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入hive

安装hive 1.下载hive-2.1.1(搭配hadoop版本为2.7.3) 2.解压到文件夹下 /wdcloud/app/hive-2.1.1 3.配置环境变量 4.在mysql上创建元数据库hive_metastore编码选latin,并授权 grant all on hive_metastore.* to 'root'@'%' IDENTIFIED BY 'weidong' with grant option; flush privileges; 5.新建hive-site.xml,内容…

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入HBASE

导入命令 sqoop import --connect jdbc:mysql://192.168.200.250:3306/sqoop --table widgets --hbase-create-table --hbase-table WIDGETS_IN_HBASE --column-family product --hbase-row-key id --username 'root' -P 说明:--connect jdbc:mysql://192.168.200.250:3306/sqo…

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 数据在mysq和hdfs之间的相互转换

P573 从mysql导入数据到hdfs 第一步:在mysql中创建待导入的数据 1.创建数据库并允许所有用户访问该数据库 mysql -h 192.168.200.250 -u root -p CREATE DATABASE sqoop; GRANT ALL PRIVILEGES ON *.* TO 'root'@'%'; 或 GRANT SELECT, INSERT, DELETE,UPDATE ON *.* TO 'root'@'%'; FLUSH PRIVILEGES; 查看权限:sel…

[hadoop读书笔记] 第十章管理Hadoop集群

P375 Hadoop管理工具 dfsadmin - 查询HDFS状态信息,管理HDFS. bin/hadoop dfsadmin -help 查询HDFS基本信息 fsck - 检查HDFS中文件的健康状况,查找在所有datanode中都确实的块以及过多或过少副本的块 [root@hadoop-allinone-200-123 bin]# ./hadoop fsck / Connecting to namenode via http://hadoop-allinone-200-123.wdcl…

【Hadoop读书笔记（一）Hadoop介绍】的更多相关文章

Hadoop读书笔记（二）HDFS的shell操作

Hadoop读书笔记（四）HDFS体系结构

【hadoop代码笔记】hadoop作业提交之汇总

[转帖]hadoop学习笔记：hadoop文件系统浅析

《The Linux Command Line》读书笔记01 基本命令介绍

啃掉Hadoop系列笔记(03)-Hadoop运行模式之本地模式

Hadoop学习笔记—1.基本介绍与环境配置

[hadoop读书笔记] 第九章构建Hadoop集群

[hadoop读书笔记] 第三章 HDFS

[Hadoop] Hadoop学习笔记之Hadoop基础

吴裕雄--天生自然HADOOP学习笔记：hadoop集群实现PageRank算法实验报告

吴裕雄--天生自然Hadoop学习笔记：Hadoop简介

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

Hadoop学习笔记—3.Hadoop RPC机制的使用

Hadoop学习笔记【Hadoop家族成员概述】

Hadoop学习笔记(3) Hadoop I/O

Hadoop学习笔记(3) Hadoop文件系统二

Hadoop学习笔记(3) Hadoop文件系统一

啃掉Hadoop系列笔记(01)-Hadoop框架的大数据生态

Hadoop读书笔记（一）Hadoop介绍

[hadoop读书笔记] Hadoop下各技术应用场景

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入hive

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入HBASE

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 数据在mysq和hdfs之间的相互转换

[hadoop读书笔记] 第十章管理Hadoop集群

[hadoop读书笔记] 第五章 MapReduce工作机制

[hadoop读书笔记] 第四章 Hadoop I/O操作

[hadoop读书笔记] 第一章初识 Hadoop

[hadoop读书笔记]前言

[hadoop读书笔记]译者序