【python】一篇文章里的词频统计】的更多相关文章

一.环境 1.python3.6 2.windows系统 3.安装第三方模块 pip install wordcloud #词云展示库 pip install jieba #结巴分词 pip install matplotlib #图像展示库 二.需求 统计article.txt里的文章的词频 三.代码 import collections #词库统计库,自带模块 import re #正则表达式 自带模块 import wordcloud #词云展示库,pip install wordclou…
这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753. 1.列表,元组,字典,集合分别如何增删改查及遍历. 列表操作如下所示: #列表 string = 'list' #字符串->列表 list1 = list(string) # ['l', 'i', 's', 't'] #列表->字符串 string1 = ''.join(list1) #list #列表的增删改查 list1 = list('this…
#瓦登尔湖词频统计: import string path = 'D:/python3/Walden.txt' with open(path,'r',encoding= 'utf-8') as text: words = [raw_word.strip(string.punctuation).lower() for raw_word in text.read().split()] words_index = set(words) counts_dict = {index:words.count(…
1.统计英文单词, # 1.准备utf-8编码的文本文件file(已在文件夹中定义了 一个名叫“head.txt.rtf”文本文件,详情请见截图) def getTxt(): #3对文本预处理(包括) txt = open('head.txt.rtf').read() #2.通过文件读取字符串 str txt = txt.lower()#将所有的单词全部转化成小写 for ch in ",.!.!@#$%^'": #将所有除了单词以外的符号换成空格 txt.replace(ch, '…
1.项目背景: 原本计划着爬某房产网站的数据做点分析, 结果数据太烂了,链家网的数据干净点, 但都是新开楼盘,没有时间维度,分析意义不大. 学习的步伐不能ting,自然语言处理还的go on 2.分析步骤: (1)停用词,1028个,哪都搜得到 (2)from collections import Counter (3)from wordcloud import WordCloud (4)找一个txt文档玩一下呗,红楼梦不大不小,秒杀! 3.分析结果: 4.源码: 上面已经Import了, 注意…
1.知识点 """ 1)cut() a) codecs.open() 解决编码问题 b) f.readline() 读取一行,也可以使用f.readlines()读取多行 c) words =" ".join(jieba.cut(line))分词,每个词用空格分隔 2)lcut() 返回一个list列表 """ 2.标点符号处理,并分词,存储到文件中 def fenCi(): """ 标点符号处理…
Linux 下有很多实用工具可以让你在终端界面查看文本文件.其中一个就是 more. more 跟我之前另一篇文章里写到的工具 —— less 很相似.它们之间的主要不同点在于 more 只允许你向前查看文件. 尽管它能提供的功能看起来很有限,不过它依旧有很多有用的特性值得你去了解.下面让我们来快速浏览一下 more 可以做什么,以及如何使用它吧. 基础使用 假设你现在想在终端查看一个文本文件.只需打开一个终端,进入对应的目录,然后输入以下命令: $ more <filename> 例如, $…
利用python来操作spark的词频统计,现将过程分享如下: 1.新建项目:(这里是在已有的项目中创建的,可单独创建wordcount项目) ①新建txt文件: wordcount.txt (文件内容: 跟词频统计(一)中文件一致) ②创建py文件: word.py from pyspark import SparkContext from pyspark import SparkConf conf = SparkConf().setAppName('word').setMaster('loc…
JavaScript 设计模式(一) 本文需要读者至少拥有基础的 ES6 知识,包括 Proxy, Reflect 以及 Generator 函数等. 至于这次为什么分了两篇文章,有损传统以及标题的正确性,是这样的. 其实放在一篇文章里也可以,但是希望读者能够更加轻松点,文章太长也会导致陷入阅读疲倦中. 因此希望读者理解. 1. 工厂模式 JavaScript 寄生模式就是一种 工厂模式,具体可以参考我的关于 JavaScript 继承这篇文章,这里不再细谈寄生模式. 工厂模式是用工厂方法代替…
一.环境以及注意事项 1.windows10家庭版 python 3.7.1 2.需要使用到的库 wordcloud(词云),jieba(中文分词库),安装过程不展示 3.注意事项:由于wordcloud默认是英文不支持中文,所以需要一个特殊字体 simsum.tff.下载地址: https://s3-us-west-2.amazonaws.com/notion-static/b869cb0c7f4e4c909a069eaebbd2b7ad/simsun.ttf 请安装到C:\Windows\F…