Hadoop综合大作业总评

【Hadoop综合大作业总评】的更多相关文章

Hadoop综合大作业总评

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 1.把python爬取的数据传到linux 2.把数据的逗号代替为 \t转义字符 3.启动hadoop集群 4.启动hive 5.创建数据库 6.创建表并把hdfs的数据导入表中 7.统计数据一共有1124条 8.列出前20名观众分数和时间 9.列出前20名观众的评论 10.统计评论分数大于4分(总5分)的评论条数,大部分是大于4分,说明 <千与千寻>的好评率很…

大数据应用期末总评——Hadoop综合大作业

作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 Hadoop综合大作业要求: 1.将爬虫大作业产生的csv文件上传到HDFS 此处选取的是爬虫大作业——对猫眼电影上<小偷家族>电影的影评. 此处选取的是comment.csv文件,共计20865条数据. 将comment.csv上传到HDFS 2.对CSV文件进行预处理生成无标题文本文件编辑pre_deal.sh文件对csv文件进行数据预处理. 使得pr…

【大数据应用期末总评】Hadoop综合大作业

作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 一.Hadoop综合大作业要求: 1.将爬虫大作业产生的csv文件上传到HDFS 爬取的数据总共有10个表格(分别是不同类别) 2.对CSV文件进行预处理生成无标题文本文件对字段进行预处理: 查看生成的table.txt: 3.把hdfs中的文本文件最终导入到数据仓库Hive中启动hdfs: 4.在Hive中查看并分析数据 5.用Hive对爬虫大作业产生的…

大数据应用期末总评Hadoop综合大作业

作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 1.将爬虫大作业产生的csv文件上传到HDFS 此次作业选取的是爬虫<人性的弱点全集>短评数据生成的cm.csv文件:爬取的数据总数为10991条. cm.csv文件数据如下图所示: 将cm.csv文件上存到HDFS 2.对CSV文件进行预处理生成无标题文本文件 csv文件数据预处理,删除第一行字段名称编辑pre_deal.sh文件进行数据的取舍处理让p…

Hadoop综合大作业

Hadoop综合大作业要求: 用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计. 用Hive对爬虫大作业产生的csv文件进行数据分析 1. 用Hive对爬虫大作业产生的文本文件这里的具体操作步骤如下: 将网页上的歌词段落爬取下来通过jieba分词后将结果用txt文件保存, 将txt文件放入Hadoop分布式文件系统使用hive将文件作为表数据导入使用hive查询统计歌词中单词的出现次数首先,Python爬虫程序代码如下: import jieba i…

《Hadoop综合大作业》

作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 我主要的爬取内容是关于热门微博文章“996”与日剧<我要准时下班>的联系,其中包括两个csv文件— —996与<我要准时下班>.csv与996与<我要准时下班>uid.csv.其中996与<我要准时下班>.csv的内容是用户的id.发表微博的内容.微博的点赞数,996与<我要准时下班>.csv的内容是基于996…

菜鸟学IT之Hadoop综合大作业

Hadoop综合大作业作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 1.将爬虫大作业产生的csv文件上传到HDFS 爬取豆瓣网战狼2电影的影评数据把爬取到的csv文件存放到ubuntn系统中,并创建存放的文件夹bigdatacase.dataset: 把下载好的影评test.csv文件文本拷贝到dataset目录下并查看文件查看文件的前五条数据删除表头 2.对CSV文件进行预处理生成无标题文本文件每个…

Hadoop综合大作业1

本次作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 一.课程评分标准: 分数组成: 考勤 10 平时作业 30 爬虫大作业 25 Hadoop生态安装与配置 10 分布式文件系统HDFS 分布式并行计算MapReduce Hadoop综合大作业 25 评分标准: 难易程度数据量文章质量:描述.分析与总结 1.将爬虫大作业产生的csv文件上传到HDFS…

大数据应用期末总评（hadoop综合大作业）

作业要求源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 一.将爬虫大作业产生的csv文件上传到HDFS (1)在/usr/local路径下创建bigdatacase目录,bigdatacase下创建dataset目录,再在 windows 通过共享文件夹将爬取的census_all_data.csv文件传进 Ubuntu ,使用cp命令讲census_all_data.csv文件复制到/usr/local/bigda…

【大数据应用技术】作业十二｜Hadoop综合大作业

本次作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 前言本次作业是在<爬虫大作业>的基础上进行的,在<爬虫大作业>中,我主要对拉勾网python岗位的招聘信息进行的数据爬取,最终得到了2641条数据存在一个名为lagoupy.xls中.本次作业的任务主要有以下三点: 1.对CSV文件进行预处理生成无标题文本文件,将爬虫大作业产生的csv文件上传到HDFS 2.把hdfs中的文本文件最终导入到…