Meet Hadoop

1.1 Data!(数据)

Most of the data is locked up in the largest web properties (like search engines), or scientific or financial institutions, isn’t it?

Does the advent of “Big Data,” as it is being

called, affect smaller organizations or individuals?

作为普通民众并未在浩瀚的数据中受益。数据都在网络中存储或者被广大的研究机构存储。因此大数据的挖掘也就应用而生。

从个人角度来看,由于数据量的不断扩大。对数据的读取和筛选都会消耗大量的时间。

1.2 Data Storage and Analysis (数据存储和分析)

尽管硬盘等存储介质的读取速度不断的提高,可是相对数据量的增长速率相比,数据的检索和筛选还是会消耗大量的时间。

This is a long time to read all data on a single drive—and writing is even slower. The obvious way to reduce the time is to read from multiple disks at once. Imagine if we

had 100 drives, each holding one hundredth of the data. Working in parallel, we could read the data in under two minutes.

从单一的驱动器上读取数据就更慢了,最显而易见的方式就是降低从多个介质中一次读取。可是同一时候在太高读取速率的同一时候也降低了硬件的利用率。

并行从多个驱动器上读取数据也同一时候存在风险:

1.硬件故障造成的数据读取失败。redundant copies of the data are kept by the system so that in the event of failure, there is another copy available.数据备份

2.从不同的驱动器中整合数据也是一个非常大的挑战。

由此也就引出了MapReduce.

1.3 Comparison with Other Systems(与其它系统比較)

MapReduce is a batch query processor, and the ability to run an ad hoc query against your whole dataset and get the results in a reasonable time is transformative.

RDBMS 关系型数据库管理系统

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbWljaGFlbDEwMDAx/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

Grid Computing 网格计算

网格计算分布式计算是近年提出的一种新的计算方式。所谓分布式计算就是在两个或多个软件互相共享信息,这些软件既能够在同一台计算机上执行。也能够在通过网络连接起来的多台计算机上执行。

volunteer computing 志愿计算

志愿计算是通过互联网让全球的普通大众志愿提供空暇的PC时间。參与科学计算或数据分析的一种计算方式。这样的方式为解决基础科学运算规模较大、计算资源需求较多的难题提供了一种行之有效的解决途径。

对于科学家而言,志愿计算意味着近乎免费且无限的计算资源;而就志愿者而言,他们能够得到一个了解科学、參与科学的机会。以促进公众对科学的理解。

1.4 A Brief History of Hadoop(Hadoop历史简单介绍)

Apache Lucene

1.5 Apache Hadoop and Hadoop ecosystem(关于组织和Hadoop生态系统)

Common :A set of components and interfaces for distributed filesystems and general I/O (serialization, Java RPC, persistent data structures).

Avro:A serialization system for efficient, cross-language RPC, and persistent data storage.

MapReduce:A distributed data processing model and execution environment that runs on large clusters of commodity machines.

HDFS:A distributed filesystem that runs on large clusters of commodity machines.

Pig:A data flow language and execution environment for exploring very large datasets. Pig runs on HDFS and MapReduce clusters.

Hive:A distributed data warehouse. Hive manages data stored in HDFS and provides a query language based on SQL (and which is translated by the runtime engine to

MapReduce jobs) for querying the data.

HBase:A distributed, column-oriented database. HBase uses HDFS for its underlying storage, and supports both batch-style computations using MapReduce and point

queries (random reads).

ZooKeeper:A distributed, highly available coordination service. ZooKeeper provides primitives such as distributed locks that can be used for building distributed applications.

Sqoop:A tool for efficiently moving data between relational databases and HDFS.

1.6 Hadoop Releases(Hadoop的版本号介绍)

hadoop权威指南 chapter1 Meet Hadoop的更多相关文章

  1. Hadoop权威指南:压缩

    Hadoop权威指南:压缩 [TOC] 文件压缩的两个好处: 减少储存文件所需要的磁盘空间 加速数据在网络和磁盘上的传输 压缩格式总结: 压缩格式 工具 算法 文件扩展名 是否可切分 DEFLATE ...

  2. Hadoop权威指南:数据完整性

    Hadoop权威指南:数据完整性 [TOC] 常用的错误检测码是CRC-32(循环冗余校验) HDFS的数据完整性 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和 datanode负责 ...

  3. Hadoop权威指南(中文版,第2版)【分享】

    下载地址 Hadoop权威指南(中文版,第2版) http://download.csdn.net/download/u011000529/5726789 (友情提示:请点击右下的 “联通下载” 或者 ...

  4. Hadoop权威指南学习笔记二

    MapReduce简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.n ...

  5. 基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其可视化

    文档内容: 1:下载<hadoop权威指南>中的气象数据 2:对下载的气象数据归档整理并读取数据 3:对气象数据进行map reduce进行处理 关键词:<Hadoop权威指南> ...

  6. Hadoop权威指南:MapReduce应用开发

    Hadoop权威指南:MapReduce应用开发 [TOC] 一般流程 编写map函数和reduce函数 编写驱动程序运行作业 用于配置的API Hadoop中的组件是通过Hadoop自己的配置API ...

  7. Hadoop权威指南:通过FileSystem API读取数据

    Hadoop权威指南:通过FileSystem API读取数据 [TOC] 在Hadoop中,FileSystem是一个通用的文件系统API 获取FileSystem实例的几个静态方法 public ...

  8. Hadoop权威指南:从Hadoop URL读取数据

    [TOC] Hadoop权威指南:从Hadoop URL读取数据 使用java.net.URL对象从Hadoop文件系统读取文件 实现类似linux中cat命令的程序 文件名 HDFSCat.java ...

  9. Hadoop权威指南:HDFS-Hadoop存档

    Hadoop权威指南:HDFS-Hadoop存档 [TOC] 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件 ...

随机推荐

  1. Java 动态代理(转)

    一.代理模式 代理模式是常用的java设计模式,他的特征是代理类与委托类有同样的接口,代理类主要负责为委托类预处理消息.过滤消息.把消息转发给委托类,以及事后 处理消息等.代理类与委托类之间通常会存在 ...

  2. OSCache缓存框架介绍

          OSCache是一种开放性的JSP定制标记应用,由OpenSymphony设计,提供了在现有JSP页面之内实现快速内存缓冲的功能. OSCache是个一个广泛采用的高性能的J2EE缓存框架 ...

  3. COB(Chip On Board) 工艺技术

    COX(Chip On X) •X 基板:  PCB (Printed circuit board)  FPC (Flexible Printed Circuit)  Glass •导线焊接 球形焊接 ...

  4. 当cpu飙升时,找出php中可能有问题的代码行

    参考大牛: http://www.searchtb.com/2014/04/%E5%BD%93cpu%E9%A3%99%E5%8D%87%E6%97%B6%EF%BC%8C%E6%89%BE%E5%8 ...

  5. VM 映像

     让我们一起欢呼吧!随着最近Microsoft Azure运行时的发布,我们非常高兴地宣布发布 OS映像的继承性产品:新 VM映像.等一下-有些人可能会觉得这听起来有点耳熟.没错,一个月前在旧金山 ...

  6. 深入浅出Win32多线程程序设计之基本概念

    一.深入浅出Win32多线程程序设计之基本概念[转] 引言 从单进程单线程到多进程多线程是操作系统发展的一种必然趋势,当年的DOS系统属于单任务操作系统,最优秀的程序员也只能通过驻留内存的方式实现所谓 ...

  7. ZOJ 3822 Domination

    题意: 一个棋盘假设每行每列都有棋子那么这个棋盘达到目标状态  如今随机放棋子  问达到目标状态的期望步数 思路: 用概率来做  计算第k步达到目标状态的概率  进而求期望  概率计算方法就是dp  ...

  8. C# 动态载入Dll

    1.新建測试dll及方法,用vs2010新建winform程序,详细代码例如以下: using System; using System.Collections.Generic; using Syst ...

  9. 2015腾讯暑期实习生 Web前端开发 面试经历 --作者imwtr

    1.现在有100亿个数字大小为1到10亿的数字,在这100亿个数字里边只有一个数字出现的次数是奇数次的,你用什么方法,找出这个数字呢? 答:显然至少要全部过一遍,可以用位运算,遍历数组,最后剩下的数字 ...

  10. OC中使用 static 、 extern、 const使用

    static static用于定义静态变量,静态变量只会被初始化一次,并且直到程序销毁时才会释放 static NSString *str = @"asdfa"; const co ...