【转载】Hadoop面试（1）

hadoop面试100道收集（带答案）

1.列出安装Hadoop流程步骤 a) 创建hadoop账号 b) 更改ip c) 安装Java 更改/etc/profile 配置环境变量 d) 修改host文件域名 e) 安装ssh 配置无密码登录 f) 解压hadoop g) 配置hadoop conf下面的配置文件 h) Hadoop namenode -format 格式化 i) Start 启动 2.列出hadoop集群启动中的所有进程和进程的作用 a) Namenode 管理集群记录namenode文件信息 b) Seco…

【转载】Hadoop面试（1）

转自:http://www.cnblogs.com/xiaolong1032/p/4504992.html 列举出hadoop常用的一些InputFormat InputFormat是用来对我们的输入数据进行格式化的.TextInputFormat是默认的. InputFormat有哪些类型? DBInputFormat,DelegatingInputFormat,FileInputFormat,常用的就是DBInputFormat,FileInputFormat . DBInputFormat…

hadoop面试时可能遇到的问题

面试hadoop可能被问到的问题,你能回答出几个 ? 1.hadoop运行的原理? 2.mapreduce的原理? 3.HDFS存储的机制? 4.举一个简单的例子说明mapreduce是怎么来运行的 ? 5.面试的人给你出一些问题,让你用mapreduce来实现? 比如:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url. 6.hadoop中Combiner的作用? Src: http://p-x1984.javaeye.com/blog/85984…

[转载]hadoop SecondNamenode详解

SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA.真正的了解了SecondNamenode以后,才发现事实并不是这样的.下面这段是Hadoop对SecondNamenode的准确定义: * The Secondary Namenode is a helper to the primary Namenode.* The Secondary is responsible for supporting p…

[转载] Hadoop和Hive单机环境搭建

转载自http://blog.csdn.net/yfkiss/article/details/7715476和http://blog.csdn.net/yfkiss/article/details/7721329 下载hadoophadoop下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/core/这里下载的版本是1.0.3$ mkdir hadoop$ wget http://www.fayea.com/apache-mirror/hadoop…

[转载] Hadoop MapReduce

转载自http://blog.csdn.net/yfkiss/article/details/6387613和http://blog.csdn.net/yfkiss/article/details/6387461 Hadoop MapReduce是一个用于处理海量数据的分布式计算框架.这个框架解决了诸如数据分布式存储.作业调度.容错.机器间通信等复杂问题,可以使没有并行处理或者分布式计算经验的工程师,也能很轻松地写出结构简单的.应用于成百上千台机器处理大规模数据的并行分布式程序. Hadoop…

网上找的hadoop面试题目及答案

1.Hadoop集群可以运行的3个模式? 单机(本地)模式伪分布式模式全分布式模式2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上.这里同样没有DFS,使用的是本地文件系统.单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式.3. 伪分布模式中的注意点?伪分布式(Pseudo)适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上运行.4. VM是否可以称为Pseudo?不是,两个事物,同…

(转载)Autodesk面试技术题解答

Autodesk面试技术题解答 By SmartPtr(http://www.cppblog.com/SmartPtr/) 近一年以来,AUTODESK的面试题在网上是闹的沸沸扬扬,作为一个名企,这是可以理解的,况且其面试题质量也是不错的.抽一些闲暇时间,把网上传的比较多的70道题简单的解答了一遍,不为别的,只为再熟悉一下在大学学过的一些基础知识.希望对大家有用.当然,这只是我的个人解答,有什么不对的或者需要补充的,大家尽管提上来,好的话我加上去的... 1. 在类的普通成员函…

hadoop面试时的一些问题解答

一. linux部分请阐述swap分区作用,您认为hadoop集群中的linux是否必须有swap分区? 答:在Linux中,如果一个进程的内存空间不足,那么,它会将内存中的部分数据暂时写到磁盘上,当需要时,再将磁盘上的数据动态置换到内存中,通常而言,这种行为会大大降低进程的执行效率.在MapReduce分布式计算环境中,用户完全可以通过控制每个作业处理的数据量和每个任务运行过程中用到的各种缓冲区大小,避免使用swap分区. 具体方法是调整/etc/sysctl.conf文件中…

(转载)Hadoop map reduce 过程获取环境变量

来源:http://www.linuxidc.com/Linux/2012-07/66337.htm 作者: lmc_wy Hadoop任务执行过程中,在每一个map节点或者reduce节点能获取一下环境变量,利用这些变量可以为特殊的需求服务,例如:获取当前map节点处理的数据文件的路径. hadoop是java实现的,利用java可以很方便的获取相关环境变量,其内部包含在Context和MRJobConfig中(hadoop版本不一样,可能会有区别,我的hadoop是0.21). 举例:…

Hadoop面试题目

1.Hadoop集群可以运行的3个模式? 单机(本地)模式伪分布式模式全分布式模式 2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上.这里同样没有DFS,使用的是本地文件系统.单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式. 3. 伪分布模式中的注意点? 伪分布式(Pseudo)适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上运行. 4. VM是否可以称为Pseudo?…

【转载 Hadoop&Spark 动手实践 2】Hadoop2.7.3 HDFS理论与动手实践

简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.是根据google发表的论文翻版的.论文为GFS(Google File System)Google 文件系统(中文,英文). HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复.默认存3份. ② 运行在廉价的机器上. ③ 适合大数据的处理.多大?多小?HDFS默认会将文件分割成block,64M为1个block.然后将block按键值对存储在HDFS上,并将键…

[转载]java面试中经常会被问到的一些算法的问题

Java面试中经常会被问到的一些算法的问题,而大部分算法的理论及思想,我们曾经都能倒背如流,并且也能用开发语言来实现过, 可是很多由于可能在项目开发中应用的比较少,久而久之就很容易被忘记了,在此我分享一下在面试中经常被问到的一些基本的算法,也当做一次知识的巩固. 排序算法的一些特点: * 排序算法的分类如下:* 1.插入排序(直接插入排序.折半插入排序.希尔排序):* 2.交换排序(冒泡泡排序.快速排序):* 3.选择排序(直接选择排序.堆排序):* 4.归并排序:* 5.基数排序.* * 关于…

Hadoop面试链接

http://blog.csdn.net/haohaixingyun/article/details/52819457 http://blog.csdn.net/kingmax54212008/article/details/51257067 http://blog.csdn.net/lxhandlbb/article/details/54599512 http://blog.csdn.net/SCGH_Fx/article/details/71124477 http://blog.csdn.n…

Hadoop 面试总结

1.简要描述如何安装配置一个开源的hadoop,只描述即可,列出完整步骤. a.创建一个用户和用户组,用来管理hadoop项目 b.修改确定ip地址:vim /etc/sysconfig/network-scripts/ifcfg-eth0 c.修改主机名:vim /etc/sysconfig/network d.修改host主机名和ip地址映射:vim /etc/hosts e.查看防火墙状态并关闭防火墙: #查看防火墙状态 service iptables status #关闭防火墙 ser…

(转载)Hadoop示例程序WordCount详解

最近在学习云计算,研究Haddop框架,费了一整天时间将Hadoop在Linux下完全运行起来,看到官方的map-reduce的demo程序WordCount,仔细研究了一下,算做入门了. 其实WordCount并不难,只是一下子接触到了很多的API,有一些陌生,还有就是很传统的开发相比,map-reduce确实是一种新的编程理念,为了让各位新手少走弯路,我将WordCount中的很多API都做了注释,其实这些方法搞明白了以后程序就很简单了,无非就是将一句话分词,先用map处理再用reduce处…

转载 hadoop 伪分布安装

一. 概要经过几天的调试,终于在Linux Cent OS 5.5下成功搭建Hadoop测试环境.本次测试在一台服务器上进行伪分布式搭建.Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式.Hadoop 本身是无法区分伪分布式和分布式的,两种配置也很相似,唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器.虽然Hadoop的安装步骤并不复杂,但是我在安装期间还是遇到了很多琐碎的问题,现…

hadoop面试复习笔记(1)

0.Mappereduce采用的是Master/Slaves模型 1.Hadoop是一个开源软件框架,支持支持大数据集的存储和处理.Apache Hadoop是存储和处理大数据的解决方案你是因为: (1)可扩展性.添加任意数量的节点来提高性能 (2)可靠.尽管机器出现故障,但是仍能可靠的存储数据 (3)高可用.尽管机器出现故障,但是Hadoop仍然能够存储数据.如果机器硬件崩溃,可以从另一个路径进行访问. (4)经济. 2.Hadoop的核心组件是什么? Hadoop是一个开源软件框架,用于分布…

hadoop面试

hadoop.apache.orgspark.apache.orgflink.apache.orghadoop :HDFS/YARN/MAPREDUCE HDFS读写流程 NameNode DataNode SecondaryNameNode 写流程 1. 客户端请求NameNode (几副本,block大小和个数) 2 NameNode返回可以存的datanode,存储元数据信息 3. 数据按最近原则存储,DN->DN-->DN 读流程 client 请求NameNode, 将元数据信息返…

Hadoop入门系列一

作者:Aitian Ma链接:https://www.zhihu.com/question/24965053/answer/102858134来源:知乎著作权归作者所有,转载请联系作者获得授权. Hadoop的HDFS和Hadoop的面试问题1)列出Hadoop集群的Hadoop守护进程和相关的角色.Namenode:它运行上Master节点上,负责存储的文件和目录所有元数据.它管理文件的块信息,以及块在集群中分布的信息. Datanode:它是一个存储实际数据的Slave节点.它定时向Name…

hadoop 多表join：Map side join及Reduce side join范例

最近在准备抽取数据的工作.有一个id集合200多M,要从另一个500GB的数据集合中抽取出所有id集合中包含的数据集.id数据集合中每一个行就是一个id的字符串(Reduce side join要在每行的行尾加“,”号,而Map side join不必,如果加了也可以处理掉),类似,500GB的数据集合中每一行是某一id对应的全记录,用“,”号分隔. 为什么不在hive或者pig下面搞这个操作呢?主要是因为Hive配置了Kerberos认证之后,还有一个问题没有解决,包含metastore的主机…

iOS 面试基础题目

转载: iOS 面试基础题目题目来自博客:面试百度的记录,有些问题我能回答一下,不能回答的或有更好的回答我放个相关链接供参考. 1面 Objective C runtime library:Objective C的对象模型,block的底层实现结构,消息发送,消息转发,这些都需要背后C一层的描述,内存管理. Core Data:中多线程中处理大量数据同步时的操作. Multithreading:什么时候处理多线程,几种方式,优缺点. Delegate, Notification,KVO, ot…

HDFS（Hadoop Distributed File System ）

HDFS(Hadoop Distributed File System ) HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.是根据google发表的论文翻版的.论文为GFS(Google File System)Google 文件系统(中文,英文). 1. 架构分析基础名词解释: Block: 在HDFS中,每个文件都是采用的分块的方式存储,每个block放在不同的datanode上,每个block的标识是一个三元组(block id, n…

Hadoop就业面试题

----------------------------------------------------------------------------- [申明:资料来源于互联网] 本文链接:http://blog.csdn.net/sdksdk0/article/details/51695341 编辑:朱培 ID:sdksdk0 ----------------------------------------------------------------- 以下资料来源于互联网,很多都…

Hadoop中map数的计算

转载▼ Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小.计算分片大小的公式是: goalSize = totalSize / mapred.map.tasks minSize = max {mapred.min.split.size, minSplitSize} splitSize = max (minSize, min(goalSize, dfs.block.size)) totalSize是一个JOB的所有map总的输入大小,即Map input bytes.参数map…