Hadoop是什么? Hadoop是一个处理海量数据的开源框架.2002年Nutch项目面世,这是一个爬取网页工具和搜索引擎系统,和其他众多的工具一样,都遇到了在处理海量数据时效率低下,无法存储爬取网页和搜索网页时产生的海量数据的问题.2003年谷歌发布了一篇论文,专门介绍他们的分布式文件存储系统GFS.鉴于GFS在存储超大文件方面的优势,Nutch按照GFS的思想在2004年实现了Nutch的开源分布式文件系统,即NDFS.2004年谷歌发布了另一篇论文,专门介绍他们处理大数据的计算框架Map…