jieba文本分词，去除停用词，添加用户词

import jieba

from collections import Counter

from wordcloud import WordCloud

import matplotlib.pyplot as plt

from PIL import Image

import numpy as np

import jieba.analyse

from pyquery import PyQuery

santi_text = open('./santi.txt', 'r', encoding='utf-8').read() #读取本地文档

jieba.enable_parallel(4) # 开启并行分词模式，参数为并行进程数 

jieba.load_userdict('./userdict.txt')#加载外部 用户词典

# 创建停用词list

def stopwordslist(filepath):

    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]

    return stopwords

# 对句子去除停用词

def movestopwords(sentence):

    stopwords = stopwordslist('./stop_words.txt')  # 这里加载停用词的路径

    santi_words =[x for x in sentence if len(x) >1 and x not in stopwords]

    return santi_words

def main():

    words = jieba.cut(PyQuery(santi_text).text()) #去除HTML标签

    word_list = movestopwords(words) # 去除停用词

    words_split = " ".join(word_list) #列表解析为字符串

    print('以下是tf-tdf算法-------------------------------------------------')

    keywords_tf = jieba.analyse.extract_tags(words_split, topK=100, withWeight=True，allowPOS=('ns', 'n', 'vn', 'v')) # tf-tdf算法

    for item in keywords_tf:

         print(item[0],item[1])

    print('以下是textrank算法-------------------------------------------------')

    keywords_rank = jieba.analyse.textrank(words_split, topK=100, withWeight=True,allowPOS=('ns', 'n', 'vn', 'v')) #textrank算法

    for item in keywords_rank:

         print(item[0],item[1])

    print('以下是纯词频统计-------------------------------------------------')

    mycount = Counter(word_list) # 统计词频

    for key, val in mycount.most_common(100):  # 有序（返回前10个）

        print(key, val)

    #alice_mask = np.array(Image.open("./zhihu.png")) #遮罩

    wc = WordCloud(

        # width=800,

        # height=600,

        background_color="#000000",  # 设置背景颜色

        max_words=50,  # 词的最大数（默认为200）

        max_font_size=400,  # 最大字体尺寸

        min_font_size=10,  # 最小字体尺寸（默认为4）

        #colormap='bone',  # string or matplotlib colormap, default="viridis"

        random_state=42,  # 设置有多少种随机生成状态，即有多少种配色方案

        #mask=plt.imread("./zhihu.png"),  # 读取遮罩图片！！

        #mask=alice_mask, #设置遮罩

        font_path='./SimHei.ttf'

    )

    my_wordcloud = wc.generate(words_split) #按词频生成词云

    plt.imshow(my_wordcloud) #展示词云

    plt.axis("off") #去除横纵轴

    plt.show()

    wc.to_file('zzz.png') # 保存图片文件

if __name__ == '__main__':

    main()

jieba文本分词，去除停用词，添加用户词的更多相关文章

[Python]jieba切词添加字典去除停用词、单字 python 2020.2.10
源码如下: import jieba import io import re #jieba.load_userdict("E:/xinxi2.txt") patton=re.com ...
python jieba分词（添加停用词，用户字典取词频
中文分词一般使用jieba分词 1.安装 pip install jieba 2.大致了解jieba分词包括jieba分词的3种模式全模式 import jieba seg_list = jieb ...
（3.1）用ictclas4j进行中文分词，并去除停用词
酒店评论情感分析系统——用ictclas4j进行中文分词,并去除停用词 ictclas4j是中科院计算所开发的中文分词工具ICTCLAS的Java版本,因其分词准确率较高,而备受青睐. 注:ictcl ...
python去除停用词（结巴分词下）
python 去除停用词结巴分词 import jieba #stopwords = {}.fromkeys([ line.rstrip() for line in open('stopword. ...
R系列：分词、去停用词、画词云（词云形状可自定义）
附注:不要问我为什么写这么快,是16年写的. R的优点:免费.界面友好(个人认为没有matlab友好,matlab在我心中就是统计软件中极简主义的代表).小(压缩包就几十M,MATLAB.R2009b ...
NLP实现文本分词+在线词云实现工具
实现文本分词+在线词云实现工具词云是NLP中比较简单而且效果较好的一种表达方式,说到可视化,R语言当仍不让,可见R语言︱文本挖掘——词云wordcloud2包当然用代码写词云还是比较费劲的,网上也 ...
seo与python大数据结合给文本分词并提取高频词
最近研究seo和python如何结合,参考网上的一些资料,写的这个程序. 目的:分析某个行业(例如:圆柱模板)用户最关心的一些词,根据需求去自动调整TDK,以及栏目,内容页的规划使用方法: 1.下载 ...
更新几篇之前写在公众号上的文章：线性可分时SVM理论推导；关联分析做捆绑销售和推荐；分词、去停用词和画词云
适合阅读人群:有一定的数学基础. 这几篇文章是16年写的,之前发布在个人公众号上,公众号现已弃用.回过头来再看这几篇文章,发现写的过于稚嫩,思考也不全面,这说明我又进步了,但还是作为学习笔记记在这里了 ...
jieba中文分词（python）
问题小结 1.安装需要用到python,根据python2.7选择适当的安装包.先下载http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py ...

随机推荐

路由器DMZ功能
环境描述 172.17* 校园网实验室路由器接入校园网,通过nat分化出网段 192.168.. 实验过程主机A(windows)接入路由器(192.168.1.110),主机B(Ubuntu)接 ...
第十一次作业 - Alpha 事后诸葛亮（团队）
软工 · 第十一次作业 - Alpha 事后诸葛亮(团队) 组长本次作业链接现代软件工程项目Postmortem 设想和目标 1.我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场 ...
Java实现简单的RPC框架(美团面试)
一.RPC简介 RPC,全称为Remote Procedure Call,即远程过程调用,它是一个计算机通信协议.它允许像调用本地服务一样调用远程服务.它可以有不同的实现方式.如RMI(远程方法调用) ...
第131天：移动web页面的排版与布局
一.总之一句话, 尽量用mm 毫米作为标准单位. 采用新的相对单位 rem 首先设置html的 font-size 为根大小. html{ font-size:1mm; } .titleheight{ ...
P1939 【模板】矩阵加速（数列）
题目描述 a[1]=a[2]=a[3]=1 a[x]=a[x-3]+a[x-1] (x>3) 求a数列的第n项对1000000007(10^9+7)取余的值. 输入输出格式输入格式: 第一行一 ...
2个 List<T>进行数据合并
var userF = new List<User>(); User m1 = new User() { Id = "0" }; userF.Add(m1); var ...
Android Native jni 编程 Android.mk 文件编写
LOCAL_PATH 必须位于Android.mk文件的最开始.它是用来定位源文件的位置,$(call my-dir)的作用就是返回当前目录的路径. LOCAL_PATH := $(call my-d ...
【BZOJ1042】硬币购物（动态规划，容斥原理）
[BZOJ1042]硬币购物(动态规划,容斥原理) 题面 BZOJ Description 硬币购物一共有4种硬币.面值分别为c1,c2,c3,c4.某人去商店买东西,去了tot次.每次带di枚ci硬 ...
代码收藏系列--javascript--日期函数
/** * 获取当前时间的简短函数 * @returns {String} * @@example getTimeStamp() 结果是:2017-07-12 09:21:30 */ function ...
poj 1945 Power Hungry Cows A*
Description: 就是给你一个数,你可以把它自乘,也可以把他乘或除以任意一个造出过的数,问你最多经过多少次操作能变换成目标数思路:这题真的不怎么会啊.n = 20000,每一层都有很 ...

jieba文本分词，去除停用词，添加用户词

jieba文本分词，去除停用词，添加用户词的更多相关文章

随机推荐

热门专题