大数据介绍 大数据本质也是数据,但是又有了新的特征,包括数据来源广.数据格式多样化(结构化数据.非结构化数据.Excel文件.文本文件等).数据量大(最少也是TB级别的.甚至可能是PB级别).数据增长速度快等. 针对以上主要的4个特征我们需要考虑以下问题: 数据来源广,该如何采集汇总?,对应出现了Sqoop,Cammel,Datax等工具. 数据采集之后,该如何存储?,对应出现了GFS,HDFS,TFS等分布式文件存储系统. 由于数据增长速度快,数据存储就必须可以水平扩展. 数据存储之后,该如何…