Hadoop综合大作业 要求: 用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计. 用Hive对爬虫大作业产生的csv文件进行数据分析 1. 用Hive对爬虫大作业产生的文本文件 这里的具体操作步骤如下: 将网页上的歌词段落爬取下来 通过jieba分词后将结果用txt文件保存, 将txt文件放入Hadoop分布式文件系统 使用hive将文件作为表数据导入 使用hive查询统计歌词中单词的出现次数 首先,Python爬虫程序代码如下: import jieba i…