前言: 目前,学习hadoop的目的是想配合其它两个开源软件Hbase(一种NoSQL数据库)和Nutch(开源版的搜索引擎)来搭建一个知识问答系统,Nutch从指定网站爬取数据存储在Hbase数据库的表中,而Hbase运行在Hadoop之上. 学习Hadoop已有数月,想把自己的积累晒出来,一者温故知新,二者与大家分享.写文章挺费时间的,所以文风尽量简洁.若欲了解细节可发帖讨论,交个朋友. 水平有限,还望指正! 一.使用环境 操作系统:Ubuntu12.04 Hadoop版本:1.0.4 二.…