分词工具的选择：

　　现在对于中文分词，分词工具有很多种，比如说：jieba分词、thulac、SnowNLP等。在这篇文档中，笔者使用的jieba分词，并且基于python3环境，选择jieba分词的理由是其比较简单易学，容易上手，并且分词效果还很不错。

分词前的准备：

待分词的中文文档
存放分词之后的结果文档
中文停用词文档（用于去停用词，在网上可以找到很多）

分词之后的结果呈现：

去停用词和分词前的中文文档

去停用词和分词之后的结果文档

分词和去停用词代码实现：

 import jieba

 # 创建停用词列表

 def stopwordslist():

     stopwords = [line.strip() for line in open('chinsesstoptxt.txt',encoding='UTF-8').readlines()]

     return stopwords

 # 对句子进行中文分词

 def seg_depart(sentence):

     # 对文档中的每一行进行中文分词

     print("正在分词")

     sentence_depart = jieba.cut(sentence.strip())

     # 创建一个停用词列表

     stopwords = stopwordslist()

     # 输出结果为outstr

     outstr = ''

     # 去停用词

     for word in sentence_depart:

         if word not in stopwords:

             if word != '\t':

                 outstr += word

                 outstr += " "

     return outstr

 # 给出文档路径

 filename = "Init.txt"

 outfilename = "out.txt"

 inputs = open(filename, 'r', encoding='UTF-8')

 outputs = open(outfilename, 'w', encoding='UTF-8')

 # 将输出结果写入ou.txt中

 for line in inputs:

     line_seg = seg_depart(line)

     outputs.write(line_seg + '\n')

     print("-------------------正在分词和去停用词-----------")

 outputs.close()

 inputs.close()

 print("删除停用词和分词成功！！！")

python使用jieba实现中文文档分词和去停用词的更多相关文章

python 语料处理（从文件夹中读取文件夹中文件，分词，去停用词，去单个字）
# -*- coding:utf8 -*- import os import jieba def splitSentence(inputFile): fin = open(inputFile, 'r' ...
更新几篇之前写在公众号上的文章：线性可分时SVM理论推导；关联分析做捆绑销售和推荐；分词、去停用词和画词云
适合阅读人群:有一定的数学基础. 这几篇文章是16年写的,之前发布在个人公众号上,公众号现已弃用.回过头来再看这几篇文章,发现写的过于稚嫩,思考也不全面,这说明我又进步了,但还是作为学习笔记记在这里了 ...
IKAnalyzer进行中文分词和去停用词
最近学习主题模型pLSA.LDA,就想拿来试试中文.首先就是找文本进行切词.去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IK ...
R系列：分词、去停用词、画词云（词云形状可自定义）
附注:不要问我为什么写这么快,是16年写的. R的优点:免费.界面友好(个人认为没有matlab友好,matlab在我心中就是统计软件中极简主义的代表).小(压缩包就几十M,MATLAB.R2009b ...
[python][django 1.10中文文档]
https://docs.djangoproject.com/en/1.10/ 官方文档,点我下载推荐一个翻译django 1.8.2的网址: 推荐一个翻译django 1.10的博客:(着重推荐 ...
学习Python 新去处：Python 官方中文文档
Python 作为世界上最好用的语言,官方支持的文档一直没有中文.小伙伴们已经习惯了原汁原味的英文文档,但如果有官方中文文档,那么查阅或理解速度都会大大提升.本文将介绍隐藏在 Python 官网的中文 ...
python 搜索引擎Whoosh中文文档和代码以及jieba的使用
注意, 数据库的表最好别有下划线中文文档链接: https://mr-zhao.gitbooks.io/whoosh/content/%E5%A6%82%E4%BD%95%E7%B4%A2%E5%B ...
jQuery 3.1 API中文文档
jQuery 3.1 API中文文档一.核心 1.1 核心函数 jQuery([selector,[context]]) 接收一个包含 CSS 选择器的字符串,然后用这个字符串去匹配一组元素. jQ ...
Django 1.10中文文档—第一个Django应用Part1
在本教程中,我们将引导您完成一个投票应用程序的创建,它包含下面两部分: 一个可以进行投票和查看结果的公开站点: 一个可以进行增删改查的后台admin管理界面: 我们假设你已经安装了Django.您可以 ...

随机推荐

ML学习笔记之LATEX数学公式基本语法
作者:@houkai本文为作者原创,转载请注明出处:https://www.cnblogs.com/houkai/p/3399646.html 0x00 概述 TEX 是Donald E. Knuth ...
fail fast和fail safe策略
优先考虑出现异常的场景,当程序出现异常的时候,直接抛出异常,随后程序终止 import java.util.ArrayList; import java.util.Collections; impor ...
mybatis映射mapper文件做like模糊查询
方法:使用concat函数连接通配符
tensorflow中使用变量作用域及tf.variable(),tf,getvariable()与tf.variable_scope()的用法
一 .tf.variable() 在模型中每次调用都会重建变量,使其存储相同变量而消耗内存,如: def repeat_value(): weight=tf.variable(tf.random_no ...
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题一丶爬虫概述通过编写程序'模拟浏览器'上网,然后通 ...
CentOS7下载配置PostgreSQL的pgAgent运行代理作业
1.安装PostgreSQL 参考官方文档https://www.postgresql.org/download/linux/redhat/,运行如下命令 yum install https://do ...
Vue搭建脚手架1
Vue2.0搭建Vue脚手架(vue-cli) 此文章参考了网上一些前人的技术分享,自己拿过来总结一下.此文章是基于webpack构建的vue项目,并实现简单的单页面应用.其中利用到的相关技术会简单加 ...
含有动态未知字段的 JSON 反序列化
一般来说,正常的 json 长这个模样: { 'Name': 'Bad Boys', 'ReleaseDate': '1995-4-7T00:00:00', 'Genres': [ 'Action', ...
JavaScript 获取页面元素
一.根据 id 获取元素语法格式: document.getElementById(id); Demo: var main = document.getElementById('main'); co ...
自制微擎AI面相识别算术阈值
有时在朋友圈或其他地方会看到一些AI面相的分享链接或小程序,不是面相算命的有多吸引人,而是前面有"AI"两个字母.于是我就上网找了一下相关代码,发现了一个微擎系统的面相模块.下载下 ...

python使用jieba实现中文文档分词和去停用词

分词工具的选择：

分词前的准备：

分词之后的结果呈现：

分词和去停用词代码实现：

python使用jieba实现中文文档分词和去停用词的更多相关文章

随机推荐

热门专题