Hive 操作与应用 词频统计】的更多相关文章

一.字符串操作: 解析身份证号:生日.性别.出生地等. 凯撒密码编码与解码 网址观察与批量生成 2.凯撒密码编码与解码 凯撒加密法的替换方法是通过排列明文和密文字母表,密文字母表示通过将明文字母表向左或向右移动一个固定数目的位置.例如,当偏移量是左移3的时候(解密时的密钥就是3),所有的字母A将被替换成D,B变成E,以此类推X将变成A,Y变成B,Z变成C.由此可见,位数就是凯撒密码加密和解密的密钥. def change(c,i): c = c.lower() num = ord(c) if n…
一.使用MapReduce的方式进行词频统计 (1)在HDFS用户目录下创建input文件夹 hdfs dfs -mkdir input 注意:林子雨老师的博客(http://dblab.xmu.edu.cn/blog/1080-2/)中是在hadoop目录下创建input文件,而MapReduce读取的是HDFS目录中的文件,因此笔者认为该博客存在错误. (2)在hadopp根目录中创建两个测试文件file1.txt和file2.txt,并将他们拷贝到HDFS中的input目录下 echo "…
1.字符串操作: 解析身份证号:生日.性别.出生地等. 凯撒密码编码与解码 网址观察与批量生成 解析身份证号:生日.性别.出生地等 def function3(): print('请输入身份证号') ID = input() if len(ID) != 18: print('请输入有效的身份证号码') else: print('身份证号码格式正确') birth = ID[6:14] print('您的生日是:', format(birth)) check = ID[14:17] if int(…
利用python来操作spark的词频统计,现将过程分享如下: 1.新建项目:(这里是在已有的项目中创建的,可单独创建wordcount项目) ①新建txt文件: wordcount.txt (文件内容: 跟词频统计(一)中文件一致) ②创建py文件: word.py from pyspark import SparkContext from pyspark import SparkConf conf = SparkConf().setAppName('word').setMaster('loc…
1.字符串操作: 解析身份证号:生日.性别.出生地等. ID = input('请输入十八位身份证号码: ') if len(ID) == 18: print("你的身份证号码是 " + ID) else: print("错误的身份证号码") ID_add = ID[0:6] ID_birth = ID[6:14] ID_sex = ID[14:17] ID_check = ID[17] # ID_add是身份证中的区域代码,如果有一个行政区划代码字典,就可以用获取…
统计文件信息: $ /opt/cdh-5.3.6/hadoop-2.5.0/bin/hdfs dfs -text /user/hadoop/wordcount/input/wc.input hadoop spark spark hadoop oracle mysql postgresql postgresql oracle mysql mysql mongodb hdfs yarn mapreduce yarn hdfs zookeeper 针对于以上文件使用hive做词频统计: create…
使用sqoop进行将Hive 词频统计的结果数据传输到Mysql中. mysql准备接受数据的数据库与表 hive准备待传输的数据 sqoop进行数据传输  mysql查看传输结果     二:电子书 mysql准备接受数据的数据库与表 2 hive准备待传输的数据 3:sqoop进行数据传输 4:mysql查看传输结果…
词频统计 #创建表,只有一列,列名line create table word_count ( line string) row format delimited fields terminated by '\t' lines terminated by '\n'; #导入一篇文章到表里 load data local inpath '/home/dip/test/word_count.txt' #词频统计 select word ,count(*) as cnt from (select ex…
一.预计工程设计时间 明确要求: 15min: 查阅资料: 1h: 学习C++基础知识与特性: 4-5h: 主函数编写及输入输出部分: 0.5h: 文件的遍历: 1h: 编写两种模式的词频统计函数: 1.5h: 单词排序部分: 0.5h: 程序调试与测试: 1-2h: 程序优化:2h: 预计总共时间:12-13h: 二.实际工程完成时间 明确要求: 15min: 查阅资料: 1.5h: 学习C++基础知识与特性: 7h: 主函数编写及输入输出部分: 0.5h: 文件的遍历: 0.5h: 编写两种…
#瓦登尔湖词频统计: import string path = 'D:/python3/Walden.txt' with open(path,'r',encoding= 'utf-8') as text: words = [raw_word.strip(string.punctuation).lower() for raw_word in text.read().split()] words_index = set(words) counts_dict = {index:words.count(…