作业——12 hadoop大作业】的更多相关文章

作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 Hadoop综合大作业 1.以下是爬虫大作业产生的csv文件 把csv上传到HDFS 2.对CSV文件进行预处理生成无标题文本文件 3.把hdfs中的文本文件最终导入到数据仓库Hive中,在Hive中查看并分析数据. 4.用Hive对爬虫大作业产生的进行数据分析 查询公司的类型,对公司的整体情况进行一个对比,了解哪些公司更具发展性: 根据岗位的类型查询.此处…
1.数据准备 2.把CSV添加到/bigdatacase/dataset中 3.检查前5行并删除第一行 4.将csv文件导入hadoop并检查前10行数据情况 5.数据文件导入hive 6.在Hive中查看并分析数据 统计出用户所找小区数量最多的10个小区 可见未来世界花园小区深受人们居住的首选 7.:出现的问题解决:在HIVE中进行查询时,会出现“无法分配内存”,后来内存调了解决问题 8.使用jieba根据字典分词,字典中存放了东莞所有镇区名字, wordcloud生成词云图. 9.XGeoc…
本次作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 一.课程评分标准: 分数组成: 考勤 10 平时作业 30 爬虫大作业 25 Hadoop生态安装与配置 10 分布式文件系统HDFS 分布式并行计算MapReduce Hadoop综合大作业 25 评分标准: 难易程度 数据量 文章质量:描述.分析与总结 1.将爬虫大作业产生的csv文件上传到HDFS…
Hadoop综合大作业 要求: 用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计. 用Hive对爬虫大作业产生的csv文件进行数据分析 1. 用Hive对爬虫大作业产生的文本文件 这里的具体操作步骤如下: 将网页上的歌词段落爬取下来 通过jieba分词后将结果用txt文件保存, 将txt文件放入Hadoop分布式文件系统 使用hive将文件作为表数据导入 使用hive查询统计歌词中单词的出现次数 首先,Python爬虫程序代码如下: import jieba i…
作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 Hadoop综合大作业 要求: 1.将爬虫大作业产生的csv文件上传到HDFS 此处选取的是爬虫大作业——对猫眼电影上<小偷家族>电影的影评. 此处选取的是comment.csv文件,共计20865条数据. 将comment.csv上传到HDFS 2.对CSV文件进行预处理生成无标题文本文件 编辑pre_deal.sh文件对csv文件进行数据预处理. 使得pr…
作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 一.Hadoop综合大作业 要求: 1.将爬虫大作业产生的csv文件上传到HDFS 爬取的数据总共有10个表格(分别是不同类别) 2.对CSV文件进行预处理生成无标题文本文件 对字段进行预处理: 查看生成的table.txt: 3.把hdfs中的文本文件最终导入到数据仓库Hive中 启动hdfs: 4.在Hive中查看并分析数据 5.用Hive对爬虫大作业产生的…
作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 我主要的爬取内容是关于热门微博文章“996”与日剧<我要准时下班>的联系,其中包括两个csv文件— —996与<我要准时下班>.csv与996与<我要准时下班>uid.csv.其中996与<我要准时下班>.csv的内容是用户的id.发表微博的内容.微博的点赞数,996与<我要准时下班>.csv的内容是基于996…
本次作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 前言 本次作业是在<爬虫大作业>的基础上进行的,在<爬虫大作业>中,我主要对拉勾网python岗位的招聘信息进行的数据爬取,最终得到了2641条数据存在一个名为lagoupy.xls中.本次作业的任务主要有以下三点: 1.对CSV文件进行预处理生成无标题文本文件,将爬虫大作业产生的csv文件上传到HDFS 2.把hdfs中的文本文件最终导入到…
Hadoop综合大作业 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 1.将爬虫大作业产生的csv文件上传到HDFS 爬取豆瓣网战狼2电影的影评数据 把爬取到的csv文件存放到ubuntn系统中,并创建存放的文件夹bigdatacase.dataset: 把下载好的影评test.csv文件文本拷贝到dataset目录下并查看文件 查看文件的前五条数据 删除表头 2.对CSV文件进行预处理生成无标题文本文件 每个…
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 本次作业是在期中大作业的基础上利用hadoop和hive技术进行大数据分析 1. 准备数据(下图为SCV截图): 把CSV添加到/bigdatacase/dataset中 查看前十条数据看是否添加成功 可以看到已经添加成功了 表格预处理: 删除第一行表头并查看是否删除成功: 编辑pre_deal.sh以进行文件预处理: #!/bin/bashinfile=$1o…