一.介绍：

jieba:

“结巴”中文分词：做最好的 Python 中文分词组件

“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.

完整文档见 :

GitHub: https://github.com/fxsjy/jieba

特点

支持三种分词模式：
- 精确模式，试图将句子最精确地切开，适合文本分析；
- 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
- 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
支持繁体分词
支持自定义词典
MIT 授权协议

在线演示： http://jiebademo.ap01.aws.af.cm/

安装说明

代码对 Python 2/3 均兼容

全自动安装： easy_install jieba 或者 pip install jieba / pip3 install jieba
半自动安装：先下载 https://pypi.python.org/pypi/jieba/ ，解压后运行 python setup.py install
手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录
通过 import jieba 来引用

二.功能介绍及例子

　　1.分词主要功能：

　先介绍主要的使用功能，再展示代码输出。jieba分词的主要功能有如下几种：

　　　　　　1. jieba.cut：该方法接受三个输入参数：需要分词的字符串; cut_all 参数用来控制是否采用全模式；HMM参数用来控制是否适用HMM模型

　　　　　　2. jieba.cut_for_search：该方法接受两个参数：需要分词的字符串；是否使用HMM模型，该方法适用于搜索引擎构建倒排索引的分词，粒度比较细。

　　　　　　3. 待分词的字符串可以是unicode或者UTF－8字符串，GBK字符串。注意不建议直接输入GBK字符串，可能无法预料的误解码成UTF－8，

　　　　　　4. jieba.cut 以及jieba.cut_for_search返回的结构都是可以得到的generator(生成器), 可以使用for循环来获取分词后得到的每一个词语或者使用

　　　　　　5. jieb.lcut 以及 jieba.lcut_for_search 直接返回list

　　　　　　6. jieba.Tokenizer(dictionary=DEFUALT_DICT) 新建自定义分词器，可用于同时使用不同字典，jieba.dt为默认分词器，所有全局分词相关函数都是该分词器的映射。

　　2.简单模式：

　　　　2.1.精确模式（返回结果是一个生成器，对大量数据分词很重要，占内存小）：

import jieba

s = '我想大口吃肉大碗喝酒！！！'

cut=jieba.cut(s)

print(cut)

#精确模式

print('精确模式输出：')

print('，'.join(cut))

输出为：

　　　　2.2.全模式（返回结果也是生成器，特点是把文本分成尽可能多的词）：

import jieba

s = '我想大口吃肉大碗喝酒！！！'

print('全模式：')

result=jieba.cut(s, cut_all=True)

print(result)

print(' '.join(result))

　　　　输出为：

　　　　2.3.搜索引擎模式：

import jieba

s = '我想大口吃肉大碗喝酒！！！'

print('搜索引擎模式：')

result=jieba.cut_for_search(s)

print(result)

print('，'.join(result))

　　　　　　输出为：

　　3.获取词性：每个词都有其词性，比如名词、动词、代词等，结巴分词的结果也可以带上每个词的词性，要用到jieba.posseg

　　　　分词及输出词性：

import jieba.posseg as psg

s = '我想大口吃肉大碗喝酒！！！'

print('分词及词性：')

result=psg.cut(s)

print(result)

print([(x.word,x.flag) for x in result])

　　　　过滤词性，如获取名词：

import jieba.posseg as psg

s = '我想大口吃肉大碗喝酒！！！'

print('分词及词性：')

result=psg.cut(s)

print(result)

#筛选为名词的

print([(x.word,x.flag) for x in result if x.flag=='n'])

　　4.并行分词：在文本数据量非常大的时候，为了提高分词效率，开启并行分词就很有必要了。jieba支持并行分词，基于python自带的multiprocessing模块，但要注意的是在Windows环境下不支持。

# 开启并行分词模式，参数为并发执行的进程数

jieba.enable_parallel(5)

# 关闭并行分词模式

jieba.disable_parallel()

　　5.获取出现频率Top n的词（有些词无实际意义，可筛选）：

from collections import Counter

words_total=open('',encoding='utf-8').read()

c = Counter(words_total).most_common(20)

print (c)

　　6.使用用户字典提高分词准确性：

jieba分词器还有一个方便的地方是开发者可以指定自己的自定义词典，以便包含词库中没有的词，虽然jieba分词有新词识别能力，但是自行添加新词可以保证更高的正确率。

使用命令：

jieba.load_userdict(filename) # filename为自定义词典的路径。在使用的时候，词典的格式和jieba分词器本身的分词器中的词典格式必须保持一致，一个词占一行，每一行分成三部分，一部分为词语，一部分为词频，最后为词性（可以省略），用空格隔开。

　　7.关键词抽取：

附：结巴分词词性对照表（按词性英文首字母排序）

形容词(1个一类，4个二类)

a 形容词

ad 副形词

an 名形词

ag 形容词性语素

al 形容词性惯用语

区别词(1个一类，2个二类)

b 区别词

bl 区别词性惯用语

连词(1个一类，1个二类)

c 连词

cc 并列连词

副词(1个一类)

d 副词

叹词(1个一类)

e 叹词

方位词(1个一类)

f 方位词

前缀(1个一类)

h 前缀

后缀(1个一类)

k 后缀

数词(1个一类，1个二类)

m 数词

mq 数量词

名词 (1个一类，7个二类，5个三类)

名词分为以下子类：

n 名词

nr 人名

nr1 汉语姓氏

nr2 汉语名字

nrj 日语人名

nrf 音译人名

ns 地名

nsf 音译地名

nt 机构团体名

nz 其它专名

nl 名词性惯用语

ng 名词性语素

拟声词(1个一类)

o 拟声词

介词(1个一类，2个二类)

p 介词

pba 介词“把”

pbei 介词“被”

量词(1个一类，2个二类)

q 量词

qv 动量词

qt 时量词

代词(1个一类，4个二类，6个三类)

r 代词

rr 人称代词

rz 指示代词

rzt 时间指示代词

rzs 处所指示代词

rzv 谓词性指示代词

ry 疑问代词

ryt 时间疑问代词

rys 处所疑问代词

ryv 谓词性疑问代词

rg 代词性语素

处所词(1个一类)

s 处所词

时间词(1个一类，1个二类)

t 时间词

tg 时间词性语素

助词(1个一类，15个二类)

u 助词

uzhe 着

ule 了喽

uguo 过

ude1 的底

ude2 地

ude3 得

usuo 所

udeng 等等等云云

uyy 一样一般似的般

udh 的话

uls 来讲来说而言说来

uzhi 之

ulian 连（“连小学生都会”）

动词(1个一类，9个二类)

v 动词

vd 副动词

vn 名动词

vshi 动词“是”

vyou 动词“有”

vf 趋向动词

vx 形式动词

vi 不及物动词（内动词）

vl 动词性惯用语

vg 动词性语素

标点符号(1个一类，16个二类)

w 标点符号

wkz 左括号，全角：（〔［｛《【〖〈半角：( [ { <

wky 右括号，全角：）〕］｝》】〗〉半角： ) ] { >

wyz 左引号，全角：“ ‘ 『

wyy 右引号，全角：” ’ 』

wj 句号，全角：。

ww 问号，全角：？半角：?

wt 叹号，全角：！半角：!

wd 逗号，全角：，半角：,

wf 分号，全角：；半角： ;

wn 顿号，全角：、

wm 冒号，全角：：半角： :

ws 省略号，全角：…… …

wp 破折号，全角：—— －－ ——－半角：--- ----

wb 百分号千分号，全角：％ ‰ 半角：%

wh 单位符号，全角：￥＄￡ ° ℃ 半角：$

字符串(1个一类，2个二类)

x 字符串

xx 非语素字

xu 网址URL

语气词(1个一类)

y 语气词(delete yg)

状态词(1个一类)

z 状态词

参考：https://pypi.org/project/jieba/#history

　　 https://www.cnblogs.com/jiayongji/p/7119065.html

https://blog.csdn.net/gzmfxy/article/details/78994396

结巴（jieba）分词的更多相关文章

python结巴(jieba)分词
python结巴(jieba)分词一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解 ...
自然语言处理之中文分词器－jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
python jieba分词(结巴分词)、提取词，加载词，修改词频，定义词库 -转载
转载请注明出处 “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...
【原】关于使用jieba分词+PyInstaller进行打包时出现的一些问题的解决方法
错误现象: 最近在做一个小项目,在Python中使用了jieba分词,感觉非常简洁方便.在Python端进行调试的时候没有任何问题,使用PyInstaller打包成exe文件后,就会报错: 错误原因分 ...
Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
jieba分词(2)
结巴分词系统中实现了两种关键词抽取法,一种是TF-IDF关键词抽取算法另一种是TextRank关键词抽取算法,它们都是无监督的算法. 以下是两种算法的使用: #-*- coding:utf-8 -*- ...
jieba分词(1)
近几天在做自然语言处理,看了一篇论文:面向知识库的中文自然语言问句的语义理解,里面提到了中文的分词,大家都知道对于英文的分词,NLTK有很好的支持,但是NLTK对于中文的分词并不是很好(其实也没有怎么 ...
Python自然语言处理学习——jieba分词
jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目. 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的 ...
$好玩的分词——python jieba分词模块的基本用法
jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法结巴分词分为三种模式:精确模式(默认).全模式和 ...
jieba分词初学
昨天,做的那个数据分析报告用到了jieba分词.但是只是借用了别人的部分代码.具体函数代表什么还不太明白.今天去官网研究了下..... jieba官网简介 "结巴"中文分词:做最好 ...

随机推荐

转://因触发器限制导致oracle用户登录失败
使用PL/SQL DEV登录数据库时,出现如下错误手工创建了test用户,通过dev工具登录没问题.怀疑数据库中有些用户限制了登录的.再看错误编号:ORA-20001,oracle保留的异常错误号范 ...
php 乱整
php获取两个数组相同的元素(交集)以及比较两个数组中不同的元素(差集) (一)php获取两个数组相同元素 array array_intersect(array $array1, array $ ...
微信小程序PHP 微信支付接口调用
小程序端 /** * 微信支付接口 */ wxPaymoney:function (out_trade_no, true_money){ //out_trade_no 后台统一下单接口需要用 var ...
007_Python中的__init__，__call__，__new__
__init__函数当一个类实例被创建时, __init__() 方法会自动执行,在类实例创建完毕后执行,类似构建函数.__init__() 可以被当成构建函数,不过不象其它语言中的构建函数,它并不 ...
hdu - 2586 (LCA板子题)
传送门 (这次的英文题面要比上一个容易看多了) (英语蒟蒻的卑微) 又是一个很裸的LCA题 (显然,这次不太容易打暴力咧) (但听说还是有大佬用dfs直接a掉了) 正好趁这个机会复习一下LCA 这里 ...
Python脱产8期 Day09 2019/4/23
内存管理一.引用计数:垃圾回收机制的依据 1.变量的值被引用,该值的引用计数 +12.变量的值被解绑,该值的引用计数 -13.引用计数为0时就会被垃圾回收机制回收二.引用计数会出现循环引用问题:相 ...
Java 中常见的数据结构
1.数据结构有什么作用? 当使用 Java 里面的容器类时,你有没有想过,怎么 ArrayList 就像一个无限扩充的数组,也好像链表之类的.很好使用,这就是数据结构的用处,只不过你在不知不觉中使用了 ...
mac nginx 启动自启动
MacBook-Pro:local shihw$ brew services start nginx ==> Tapping homebrew/services Cloning into '/u ...
mysql 性能优化思路 - mysqldumpslow /tmp/mysql-slow.log 字符集 utf-8 create database
提高MySQL服务的性能,响应速度: 1.替换有问题的硬件:内存,CPU,磁盘 2.服务的配置参数的配置 3.SQL的优化 .服务参数的配置: 1.1 连接数,连接超时: max_connection ...
SpringBoot整合Mybatis使用注解或XML的方式开发
2018-6-4 补充mybatis-spring-boot注解的使用 1.导包只需要再导入mysql+mybatis两个包 <dependency> <groupId>or ...

结巴（jieba）分词

一.介绍：

jieba:

特点

安装说明

二.功能介绍及例子

1.分词主要功能：

2.简单模式：

3.获取词性：每个词都有其词性，比如名词、动词、代词等，结巴分词的结果也可以带上每个词的词性，要用到jieba.posseg

4.并行分词：在文本数据量非常大的时候，为了提高分词效率，开启并行分词就很有必要了。jieba支持并行分词，基于python自带的multiprocessing模块，但要注意的是在Windows环境下不支持。

5.获取出现频率Top n的词（有些词无实际意义，可筛选）：

6.使用用户字典提高分词准确性：

7.关键词抽取：

附：结巴分词词性对照表（按词性英文首字母排序）

形容词(1个一类，4个二类)

区别词(1个一类，2个二类)

连词(1个一类，1个二类)

副词(1个一类)

叹词(1个一类)

方位词(1个一类)

前缀(1个一类)

后缀(1个一类)

数词(1个一类，1个二类)

名词 (1个一类，7个二类，5个三类)

拟声词(1个一类)

介词(1个一类，2个二类)

量词(1个一类，2个二类)

代词(1个一类，4个二类，6个三类)

处所词(1个一类)

时间词(1个一类，1个二类)

助词(1个一类，15个二类)

动词(1个一类，9个二类)

标点符号(1个一类，16个二类)

字符串(1个一类，2个二类)

语气词(1个一类)

状态词(1个一类)

结巴（jieba）分词的更多相关文章

随机推荐

热门专题

　　1.分词主要功能：

　　2.简单模式：

　　3.获取词性：每个词都有其词性，比如名词、动词、代词等，结巴分词的结果也可以带上每个词的词性，要用到jieba.posseg

　　4.并行分词：在文本数据量非常大的时候，为了提高分词效率，开启并行分词就很有必要了。jieba支持并行分词，基于python自带的multiprocessing模块，但要注意的是在Windows环境下不支持。

　　5.获取出现频率Top n的词（有些词无实际意义，可筛选）：

　　6.使用用户字典提高分词准确性：

　　7.关键词抽取：