1.数据准备 2.把CSV添加到/bigdatacase/dataset中 3.检查前5行并删除第一行 4.将csv文件导入hadoop并检查前10行数据情况 5.数据文件导入hive 6.在Hive中查看并分析数据 统计出用户所找小区数量最多的10个小区 可见未来世界花园小区深受人们居住的首选 7.:出现的问题解决:在HIVE中进行查询时,会出现“无法分配内存”,后来内存调了解决问题 8.使用jieba根据字典分词,字典中存放了东莞所有镇区名字, wordcloud生成词云图. 9.XGeoc…