需要精通java开发,有一定linux基础. 1.简介 大数据就是对海量数据进行数据挖掘. 已经有了很多框架方便使用,常用的有hadoop,storm,spark,flink等,辅助框架hive,kafka,es,sqoop,flume等. 常见应用推荐系统,用户画像等. 2.hadoop hadoop有三个核心组件: hdfs:分布式文件系统 mapreduce:分布式运算编程框架 yarn:分布式资源调度平台 3.hdfs原理 hdfs存放的就是文件,顶层目录是/,可以对文件进行增删改查移的…