初学hadoop的个人历程】的更多相关文章

   在学习hadoop之前,我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标,有了大目标之后要分几步走,然后每一步不断细分,采用大事化小的方法去学习hadoop.下面开始叙述我是如何初学hadoop的. Hadoop学习两步走:linux学习.hadoop学习. 在接触hadoop之前我有java基础,为此我的计划是首先学习Linux,然后学习hadoop生态系统,为此学习hadoop第一步计划就是学习linux了,然后linux又可以分为四个步骤走. linux任务第一个目标就…
本文仅作为学习笔记,供大家初学Hadoop时学习参考.初学Hadoop,欢迎有经验的朋友进行指导与交流! 1.安装CentOS7 准备 CentOS系统镜像CentOS-7.0-1406-x86_64-Everything.iso vmware workstation 11 安装 1.点击创建一个新的虚拟机,选择"典型"配置,下一步. 2.选择"安装程序光盘镜像文件",选择已经准备的系统镜像文件,下一步. 3.设置账户信息,下一步. 4.设置虚拟机名称和保存路径,下…
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS)的开源实现. MapReduce是Google MapReduce的开源实现. HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算. 本文主要参考了以下三篇博客学习整理而成. 1. Hadoop示例程序WordCount详解及实例 2. hadoop 学习笔…
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS)的开源实现,MapReduce是Google MapReduce的开源实现. HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算. 本文主要参考了以下三篇博客学习整理而成. 1.Hadoop示例程序WordCount详解及实例 2.hadoop 学习笔记:m…
先bb一下,woc开始使用Cygwin来模拟linux配置hadoop,然后各种错误,找着找着发现原来2.0+的hadoop可以直接在windows下配置.当时真是1w头神兽飞过. 下载hadoop 下载地址 http://hadoop.apache.org 下载步骤  选择清华开源镜像站  选择你喜欢的版本. stable是稳定版 解压 放在你喜欢的文件夹下 关于winutils的下载 还需要下载winutils.exe,需要对应的版本.地址https://github.com/stevelo…
 一.前言 开始学习数据处理相关的知识了,第一步是搭建一个Hadoop集群.搭建一个分布式集群需要多台电脑,在此我选择采用VMWare+CentOS7搭建一个三台虚拟机组成的Hadoop集群. 注:1.本次搭建环境中操作系统的用户名为hadoop,请自行替换/home/hadoop为本机对应路径. 2.本次用到的软件版本为: VMware Workstation 14 Pro 14.1.3 build-9474260 CentOS 7.5.1804 Java 1.8.0_181 Apache H…
1.词频 TF(term frequency)词频,就是该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大. 例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是: tf =20/500=0.04 考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化. 或者 2.逆文档频率 IDF(inversedocument frequency)逆向文件频率,一个文档库…
1.安装eclipse 准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz 安装 1.解压文件. 2.创建图标. ln -s /opt/eclipse/eclipse /usr/bin/eclipse #使符号链接目录 vim /usr/share/applications/eclipse.desktop #创建一个  Gnome 启动 添加如下代码: [Desktop Entry] Encoding=UTF-8 Name=Eclipse 4.4.2…
1.WordCount源码 将源码文件WordCount.java放到Hadoop2.6.0文件夹中. import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apach…
(我不是Hadoop专家,也只是一个初学者,这里我也只是就自己的学习体会,站在初学者的角度谈一下如何入门.) 首先我觉得应该思考这样一个问题:Hadoop对于我们来讲,是一种工具,那么Hadoop帮助我们解决了什么问题?或者换个角度想,没有Hadoop,我们做同样一项工作会增加什么任务?(想清楚了这问题,心里就会形成Hadoop到底是什么,能做什么的概念.初学者在最初时候很容易框架当成负担,但实际上他应该是工具.明白了Hadoop这个神器的美妙后,你就可以开始心怀期待的去慢慢驾驭它了.) 初学H…
对于我们新手入门学习hadoop大数据存储的朋友来说,首先了解一下云计算和云计算技术是有必要的.下面先是介绍云计算和云计算技术的:              云计算,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加.使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源.云是网络.互联网的一种比喻说法.过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象.狭义云计算指IT基础设施…
成都大数据Hadoop与Spark技术培训班   中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开发设计人员的工作水平,旨在培养专业的大数据Hadoop与Spark技术架构专家,更好地服务于各个行业的大数据项目开发和落地实施. 2015年近期公开课安排:(全国巡回开班) 08月21日——08月23日大连 09月23日——09月25日北京 10月16日——10月18日成都 11月27日——11…
初学Hadoop之环境搭建   阅读目录 1.安装CentOS7 2.安装JDK1.7.0 3.安装Hadoop2.6.0 4.SSH无密码登陆 本文仅作为学习笔记,供大家初学Hadoop时学习参考.初学Hadoop,欢迎有经验的朋友进行指导与交流! 1.安装CentOS7 准备 CentOS系统镜像CentOS-7.0-1406-x86_64-Everything.iso vmware workstation 11 安装 1.点击创建一个新的虚拟机,选择"典型"配置,下一步. 2.选…
1:初学hadoop遇到各种错误,这里贴一下,方便以后脑补吧,报错如下: 主要是在window环境下面搞hadoop,而hadoop部署在linux操作系统上面:出现这个错误是权限的问题,操作hadoop是虚拟机的主机用户不是window的主机用户Administrator,所以出现下面的错误,解决办法如下所示(或者修改文件的权限,即所有者都可以进行可读,可写,可执行): log4j:WARN No appenders could be found for logger (org.apache.…
初学hadoop之linux系统操作的hdfs的常用命令 Hadoop之HDFS文件操作 Hadoop fs命令详解 官网doc sudo su - hdfs:免密,以hdfs账户登陆.可操作hdfs文件 logout sudo su - root hadoop fs -ls / rm -rf  目录名 sh dvm_auto_hive_ci_test.sh 2017-11-22 2017-11-22 criteo hadoop fs -get  /report/dvm_test/script/…
0.自己编译安装步骤在这里,有英文版本连接:<英文传送门>. 自己编译尝试后不成功,换为下面使用别人编译好的版本的方法.参考博客:<初学hadoop,windows下安装> 1.下载JDK,并设置JAVA_HOME.(使用不带空格的路径,比如Program Files,将在后面的配置中报错!) 假设JAVA_HOME路径为C:\Java\jdk1.8.0_73 2.下载hadoop.下载地址:http://hadoop.apache.org/releases.html 这里下载使用…
对于我们新手入门学习hadoop大数据存储的朋友来说,首先了解一下云计算和云计算技术是有必要的.下面先是介绍云计算和云计算技术的:              云计算,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加.使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源.云是网络.互联网的一种比喻说法.过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象.狭义云计算指IT基础设施…
@ 目录 前言:浅谈Hadoop Hadoop的发展历程 1.1 Hadoop产生背景 1.引入HDFS设计 1.1 HDFS主要特性 2.HDFS体系结构 HDFS工作流程机制 1.各个节点是如何互通有无的? RPC原理 客户端操作文件与目录 结论 前言:浅谈Hadoop Hadoop作为大数据入门的基石内容,其中HDFS更是所有生态的地基,so,我们有必要更深入去理解HDFS,以及HDFS在高可用的演变过程.如果有小可爱说hadoop和HDFS有啥区别的.の...,那容我之后在做背书来说明,…
openSSH的安装是学习hadoop必不可少的一步,如果ssh装不好,hadoop的安装会进行不下去.本人初学hadoop时发现以前安装ssh走了一些弯路,现在又有了一些认识,所以重写了这篇日志,供其他需要的朋友参考. 本文安装的版本是OpenSSH_6.7p1, OpenSSL 1.0.1j 15 Oct 2014,已经试验成功. 1. 通过cygwin安装openSSH cygwin怎么装就不说了,不懂的可以见另一篇博客cygwin安装 如下图添加openssh,openssl组件即可安装…
使用hadoop版本为2.2.0 倒排索引简单的可以理解为全文检索某个词 例如:在a.txt 和b.txt两篇文章分别中查找统计hello这个单词出现的次数,出现次数越多,和关键词的吻合度就越高 现有a.txt内容如下: hello tom hello jerry hello kitty hello world hello tom b.txt内容如下: hello jerry hello tom hello world 在hadoop平台上编写mr代码分析统计各个单词在两个文本中出现的次数 其实…
引言: 虽然MapReduce计算框架简化了分布式程序设计,将所有的并行程序均需要关注的设计细节抽象成公共模块并交由系统实现,用户只需关注自己的应用程序的逻辑实现,提高了开发效率,但是开发如果对Mapreduce计算框架如何实现这样的魔术没有一个基本的了解,那么在面临多任务.大数据而出现大量数据倾斜,计算速度慢等问题时,将无法给出解决方案.也无法在设计MapReduce程序时根据框架的特性优化逻辑算法,所以了解MapReduce工作流程和Shuffle原理是学习MapReduce程序设计的必修课…
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成,而这就是Hadoop FS Shell.它主要是用于对Hadoop平台进行文件系统的管理. 有关HDFS的介绍博客请移步:Hadoop学习笔记之Hadoop基础. 有关Hadoop FS Shell的学习文档:Hadoop FS Shell学习文档. 2. Hadoop Streaming 我们知…
之前都是单节点进行的操作与测试,现在进行真正的多节点系统搭建 1. 准备系统与配置 共准备4台机器搭建Hadoop集群.基于CentOS6.2,jdk1.6.0_31,Hadoop2.2.0版本 192.168.1.132 NameNode Master132.Hadoop (Master) 192.168.1.110 DateNode  Slave110.Hadoop   (Slave) 192.168.1.141 DateNode    Slave141.Hadoop   (Slave) 1…
上次的程序只是操作文件系统,本次运行一个真正的MapReduce程序. 运行的是官方提供的例子程序wordcount,这个例子类似其他程序的hello world. 1. 首先确认启动的正常:运行 start-all.sh 2. 执行jps命令检查:NameNode,DateNode,SecondaryNameNode,ResourceManager,NodeManager是否已经启动正常.这里我遇到了一个问题,NodeManager没有正常启动.错误信息如下: 2014-01-07 13:46…
根据之前的操作,我们已经可以正常的启动Hadoop了,关于真正的集群我会在之后进行说明.现在我们来看一下第一个程序吧 1. 在eclipse上建立一个java项目 2. 将 /usr/hadoop/share/hadoop/common/hadoop-common-2.2.0.jar 文件导入到项目中 3. 将 /usr/hadoop/share/hadoop/common/lib/commons-logging-1.1.1.jar 文件导入到项目中 4. 编写代码如下 import java.…
以下是进行单节点Hadoop配置的内容,多节点也类似 1. 进行Hadoop的安装 1.1 上文进行了Hadoop的编译,将编译结果目录 hadoop-2.2.0 拷贝为 /usr/hadoop 目录 1.2 编辑/etc/profile 文件,增加如下的内容 export HADOOP_PREFIX=/usr/hadoop export PATH=$PATH:$HADOOP_PREFIX/bin export PATH=$PATH:$HADOOP_PREFIX/sbin export HADO…
近期对Hadoop很感兴趣,下面是在CentOS系统上进行编译的分享 系统情况如下: 1. CentOS 6.2 64位    2. hadoop-2.2.0    3. jdk 1.6.0_31    4. maven 3.1.0    5. protobuf-2.5.0    6. cmake 2.8.12.1 系统中已经安装好了JDK,并正确进行了设置,这里不说明JDK的安装与设置,请自行查阅 第一步:安装maven 1.1 下载文件 apache-maven-3.1.0-alpha-1-…
Hadoop: 官网(hadoop.apache.org)的定义: 一:Hadoop Common: 为Hadoop其它模块提供通用的支持 二:HDFS: 是Hadoop的分布式文件系统,其特点是高度的容错性.提供了副本(3个)的概念. 提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序. 实现流的形式访问(streaming access)文件系统中的数据,重点是在数据吞吐量,而不是数据访问的反应时间 三:YAR…
首先,作为一名第一次安装Hadoop的小白,费时六七个小时终于安装好了. 如果你是一名小白也是第一次安装,请参考以下教程: 链接:https://pan.baidu.com/s/1pwu6_znWKzpa0zTJzshoDw 提取码:jb12 作为小白的也是遇到很多问题,比如在Linux系统中一些错误提示都需要去百度,在这里提醒一下啊,不管是CentOS还是Ubuntu都是可以的. 主要说两个我的卡住的地方: 1.SecureCRT连接不上Linux系统,我出现问题是连接不上,报错:连接超时(C…
学习Java一个月左右,本来很早就想好好静下心来写一点东西了.但由于不想手写,文档写了不知道放在哪好,所以一直拖着.最近注册了博客园,还是挺方便的. 即将大学毕业了,则面临了所以大学生所面临的问题,就是就业.说实话,在大学期间,很少去规划自己的职业道路,甚至大三在学校的时候,也都没怎么去想过,基本 上对就业算是迷茫的.其实人就是这样,只有真正面临了才会去想或者去付诸行动. 学习Java也是我考虑很久的问题,很清楚大学毕业以后更多的就业岗位是销售跟工厂.在假期,这两个职业都经历过.工厂的日子只能用…