hadoop 随笔

【hadoop 随笔】的更多相关文章

Hadoop随笔（二）：Hadoop V1到Hadoop V2的主要变化

一.消失的概念与新鲜的名词 Hadoop V2相对于Hadoop V1的变化主要在于资源管理和任务调度,计算模型仍然保持map/reduce的模型.资源管理和任务调度的变化导致了工作流程的变化,一些概念消失而一些概念又出现. 1.JobTrack与TaskTrack JobTrack和TaskTrack在Hadoop旧版本(Hadoop0.x及Hadoop1.x)中是非常重要的概念.JobTrack对系统中的所有Job进行统一的管理,同时为Job分配相应的TaskTrack,还需要与所有的Tas…

Hadoop随笔（一）：工作流程的源码

一.几个可能会用到的属性值 1.mapred.map.tasks.speculative.execution和mapred.reduce.tasks.speculative.execution 这两个属性可以决定Map任务和Reduce任务是否开启推测式执行策略.推测式执行策略在Hadoop中用来应对执行缓慢的任务所造成的瓶颈,但是对代码缺陷所导致的任务执行过慢,推测执行是一种反向的作用,应当避免,而Hadoop默认是开启推测式执行的. 2.mapred.job.reuse.jvm.num.ta…

http://p-x1984.iteye.com/blog/859843 面试hadoop可能被问到的问题,你能回答出几个 ? 1.hadoop运行的原理? 2.mapreduce的原理? 3.HDFS存储的机制? 4.举一个简单的例子说明mapreduce是怎么来运行的 ? 5.面试的人给你出一些问题,让你用mapreduce来实现? 比如:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url. 6.hadoop中Combiner的作用? http:…

【合集】Hadoop 合集

0. 说明 Hadoop 随笔的目录 1. HDFS 主要内容: [HDFS_1] HDFS 的概念和特性 [HDFS_2] HDFS 的 Shell 操作 [HDFS_3] HDFS 工作机制 [HDFS_4] HDFS 的 Java 应用开发 [SequenceFile_1] Hadoop 序列文件 [SequenceFile_2] SequenceFile 的基本操作 [SequenceFile_3] MapFile [SequenceFile_4] SequenceFile 配置压缩 […

Hadoop安装-单机-伪分布式简单部署配置

最近在搞大数据项目支持所以有时间写下hadoop随笔吧. 环境介绍: Linux: centos7 jdk:java version "1.8.0_181 hadoop:hadoop-3.2.0 ssh:配置ssh免密码登录安装步骤: 1.下载hadoop 地址:http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz 下载完成后解压包 tar xzvf hadoop-3.2.0.tar.gz…

Hadoop入门学习随笔

推荐视频:慕课网http://www.imooc.com/video/8107 ===Hadoop是什么? 开源的.分布式存储+分布式计算平台. http://hadoop.apache.org ===Hadoop的组成包括两个核心组成: HDFS:分布式文件系统,存储海量的数据 MapReduce:并行处理框架,实现任务分解和调度 ===Hadoop可以用来做什么? 搭建大型数据仓库,PB级数据的存储.处理.分析.统计等业务. ===Hadoop的优势: 高扩展:理论上是可以做到无限的,因为…

Hadoop 系列 - （1） - 学习随笔 - 起源、构成

起源:Hadoop是google 的集群系统的开源实现 --Google集群系统,:GFS(Google file system),MapReduce,BigTable(严格意义上讲,这个不是hadoop的东西) --Hadoop 主要由 HDFS(Hadoop Distributed file system ---hadoop文件分布式系统)MapReduce和HBase组成两大核心: MapReduce : 组成 M…

初识Hadoop、Hive

2016.10.13 20:28 很久没有写随笔了,自打小宝出生后就没有写过新的文章.数次来到博客园,想开始新的学习历程,总是被各种琐事中断.一方面确实是最近的项目工作比较忙,各个集群频繁地上线加多版本的提测,每次到了晚上就感觉很疲惫,另一方面确实是自己对自己最近有些放松,没有持续地学习.很庆幸今天能在一个忙碌的工作日后,开始着手这篇文章. 来到大数据前,我对大数据可以说是一无所知.诸如Hadoop.Hive等名词仅仅处于"听过"的阶段,完全不知道其作用.大数据的概念真的很多,想真正理…

Hadoop集群搭建安装过程（二）（图文详解---尽情点击！！！）

Hadoop集群搭建安装过程(二)(配置SSH免密登录)(图文详解---尽情点击!!!) 一.配置ssh无密码访问 ®生成公钥密钥对 1.在每个节点上分别执行: ssh-keygen -t rsa(一直按回车直到生成结束) 执行结束之后每个节点上的/root/.ssh/目录下生成了两个文件 id_rsa 和 id_rsa.pub 其中前者为私钥,后者为公钥 2.在主节点上执行: cp id_rsa.pub authorized_keys ®将子节点的公钥拷贝到主节点并添加进authorized_…

hadoop拾遗（五）---- mapreduce 输出到多个文件 / 文件夹

今天要把HBase中的部分数据转移到HDFS上,想根据时间戳来自动输出到以时间戳来命名的每个文件夹下.虽然以前也做过相似工作,但有些细节还是忘记了,所以这次写个随笔记录一下. package com.chuntent.hadoop; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.…