1. # -*- coding: utf-8 -*-
  2. # Spyder (python 3.7)
  1. import pandas as pd
  2. import jieba
  3. import jieba.analyse as anls
  4.  
  5. if __name__ == '__main__':
  6. data = pd.read_excel(r'空气指数评论.xlsx')
  7. # content为excel的列名
  8. opinion_content = data['content'].dropna().values
  9. all_word = ''
  10. for i in opinion_content: #形成整个字符串
  11. all_word = all_word +','+ str(i)
  12. all_word = all_word.strip() #去掉字符串的空格
  13. all_word_upper = all_word.upper() #大写
  14.  
  15.   #加载词典 #jieba.load_userdict(r"D:\Python_workspace\aaaa.txt")
  16.  
  17.   #如果有不想被切分开的词,例如王者荣耀,和平精英等,可以进行参数设置:tune=True
  18.   # jieba.analyse 是基于tf-idf算法的关键词抽取
  19. segment=['王者荣耀','和平精英']
  20. for ii in segment:
  21. jieba.suggest_freq(ii, tune=True)
  22.  
  23. anls.set_stop_words("111.txt") #加载停用词文档,网上可以下载或者自己创建
  24. tags = anls.extract_tags(all_word_upper, topK=None, withWeight=True)
  25. for x, w in tags:
  26. print('%s %s' % (x, w))
  27.  
  28. for v, n in tags:
  29. #权重n是小数,乘了十万成为整数,可以按需求设置不同值
  30. out_words= v + '\t' + str(int(n * 100000))
  31. #注意'a+'为追加写入,因此如果重新运行程序,则需要先删除上次生成的文件,结果保存在当前目录下,可以更改目录
  32. with open('.\cut_words_content.txt','a+',encoding='utf-8')as f:
  33. f.write(out_words+'\n')

附加:另一种jieba分词写法:

  1. sentence_seged = [seg for seg in jieba.cut(all_word) if len(seg) >= char_len]
  2. # all_word为整个要分词的字符串,该方式没有利用到权重,是单纯的分词
  3. # 返回的是分词后的列表
  4. # 分词长度最少大于char_len

参考jieba中文分词:https://github.com/fxsjy/jieba

##欢迎讨论

Python使用jieba分词的更多相关文章

  1. python结巴(jieba)分词

    python结巴(jieba)分词 一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解 ...

  2. python环境jieba分词的安装

    我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明======= 代码对 Python 2/3 均兼容 * 全自动安装:`ea ...

  3. python bottle + jieba分词服务

    2019-12-16 19:46:34 星期一 最近接触到结巴分词项目, 就试试 用python的bottle库来当服务器监听localhost:8080 把请求的数据转给jieba来分词, 并返回分 ...

  4. Python之jieba分词

    jieba,很有意思的一个模块,专门用来分词. import jieba # sentence:分割的中文字符串 # cut_all:是否采用全模式,默认为False表示精确模式 # HMM:表示是否 ...

  5. python的jieba分词

    # 官方例程 # encoding=utf-8 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print ...

  6. python安装Jieba中文分词组件并测试

    python安装Jieba中文分词组件 1.下载http://pypi.python.org/pypi/jieba/ 2.解压到解压到python目录下: 3.“win+R”进入cmd:依次输入如下代 ...

  7. [python] 使用Jieba工具中文分词及文本聚类概念

    声明:由于担心CSDN博客丢失,在博客园简单对其进行备份,以后两个地方都会写文章的~感谢CSDN和博客园提供的平台.        前面讲述了很多关于Python爬取本体Ontology.消息盒Inf ...

  8. Python自然语言处理学习——jieba分词

    jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目. 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的 ...

  9. $好玩的分词——python jieba分词模块的基本用法

    jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认).全模式和 ...

随机推荐

  1. LeetCode_350. Intersection of Two Arrays II

    350. Intersection of Two Arrays II Easy Given two arrays, write a function to compute their intersec ...

  2. 网络编程之Reactor 模式

    基本的架构是 epoll+线程池. 这篇博文主要从以下几个方面进行阐述: (1)reactor模式的一个介绍:(只要是我的理解) (2)关于线程池的说明. (3)如何将epoll + 池结合起来实现一 ...

  3. iphone那些事儿

    1.微信文件如何发送到钉钉? 打开微信的某文件,点击右上角三个点,选择其他应用打开,选择钉钉.即可复制文件到钉钉. 2.无限网地址 设置-通用-关于本机-无线局域网地址 锂离子电池,受气温影响,气温低 ...

  4. WPF TextBlock 文本换行的两种方式

    第一种: <TextBlock> This is line 1.<LineBreak/> This is line 2. </TextBlock> 第二种 < ...

  5. MySQL(四)InnoDB中一棵B+树能存多少行数据

    一.InnoDB一棵B+树可以存放多少行数据?(约2千万) 我们都知道计算机在存储数据的时候,有最小存储单元,这就好比我们今天进行现金的流通最小单位是一毛.在计算机中磁盘存储数据最小单元是扇区,一个扇 ...

  6. javascript bom操作

    BOM BOM介绍 全称 Browser Object Mode 浏览器对象模式 操作浏览器的API接口.比如浏览器自动滚动 Windows对象的顶层部分是BOM的顶层(核心)对象,所有的对象都是通过 ...

  7. const的用法及它在C语言和C++中的不同

    (1)可以定义const常量. (2)Const可以修饰函数的参数和返回值,甚至定义体.被const修饰的东西都受到强制保护. (3)Const修饰成员函数时,用于成员函数前面,则返回值不能作为左值. ...

  8. eclipse设置格式化tab为4个空格和idea一样

  9. 根据SNP的位置从基因组提取上下游序列

      代码如下: #!/usr/bin/perl -w use strict; die "perl $0 <vcf> <genome>" if(@ARGV = ...

  10. 035 Android Volley框架进行网络请求

    1.volley入门介绍 开发Android应用的时候不可避免地都需要用到网络技术,而多数情况下应用程序都会使用HTTP协议来发送和接收网络数据.Android系统中主要提供了两种方式来进行HTTP通 ...