昨天，做的那个数据分析报告用到了jieba分词。但是只是借用了别人的部分代码。具体函数代表什么还不太明白。今天去官网研究了下.....

jieba官网简介

“结巴”中文分词：做最好的 Python 中文分词组件

"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.

支持三种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；

全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

支持繁体分词

支持自定义词典

MIT 授权协议

安装

pip install jieba

分词

jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型

jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用

jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

官网实例

所以大概明白了生成词云需要的cut方法的具体参数都代表什么。

import jieba as jb

str_li = jb.cut("我来到北京清华大学",cut_all=True) # 全模式

print(str_li)

<generator object Tokenizer.cut at 0x00000298C3987FC0> # 可以看到返回了一个生成器。

FullMode = 'Full mode :' + '/'.join(str_li) #全模式（不能解决歧义）

print(FullMode)

str_li = jb.cut("我来到北京清华大学",cut_all=False) # 精确模式

AccMode = 'AccurateMode: ' + '/'.join(str_li)

print(AccMode)

AccurateMode: 我/来到/北京/清华大学 #精确模式（适用于文本分析）

str_li = jb.cut("我来到北京清华大学") #默认

DefMode = 'DefaultMode: ' + '/'.join(str_li)

print(DefMode)

DefaultMode: 我/来到/北京/清华大学 # 我们可以看到，默认是精确模式

long_sen = jb.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")# 搜索引擎模式

Long = 'search:'+','.join(long_sen)

print(Long)

search:小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,，,后,在,日本,京都,大学,日本京都大学,深造

# 最后统一对比一下：

print(FullMode)

print(AccMode)

print(DefMode)

print(Long)

Full mode :我/来到/北京/清华/清华大学/华大/大学

AccurateMode: 我/来到/北京/清华大学

DefaultMode: 他/来到/了/网易/杭研/大厦

search:小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,，,后,在,日本,京都,大学,日本京都大学,深造

对于基本的词云及词频分析来说已经足够了，词典什么的情感分析，下次研究。

jeiba地址：https://github.com/fxsjy/jieba

jieba分词初学的更多相关文章

Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
widows下jieba分词的安装
在切词的时候使用到jieba分词器,安装如下: 切入到结巴包,执行 python setup.py install 安装后,可以直接在代码中引用: import jieba
【原】关于使用jieba分词+PyInstaller进行打包时出现的一些问题的解决方法
错误现象: 最近在做一个小项目,在Python中使用了jieba分词,感觉非常简洁方便.在Python端进行调试的时候没有任何问题,使用PyInstaller打包成exe文件后,就会报错: 错误原因分 ...
python结巴(jieba)分词
python结巴(jieba)分词一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解 ...
pypinyin, jieba分词与Gensim
一 . pypinyin from pypinyin import lazy_pinyin, TONE, TONE2, TONE3 word = '孙悟空' print(lazy_pinyin(wor ...
使用pynlpir增强jieba分词的准确度
在使用jieba分词时,发现分词准确度不高.特别是一些专业词汇,比如堡垒机,只能分出堡垒,并不能分出堡垒机.这样导致的问题是很多时候检索并不准确. 经过对比测试,发现nlpir进行分词效果更好.但是n ...
自然语言处理之jieba分词
在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名.地名等需要考虑作为一个整体,比如New York).而对于中文还有其他类似形式的语言,我们需要根据来特殊处 ...
jieba分词(3)
jieba分词中Tokenize的使用,Tokenize主要是用来返回词语在原文的弃之位置,下面贴上代码: #-*- coding:utf-8 -*- from __future__ import u ...
jieba分词(2)
结巴分词系统中实现了两种关键词抽取法,一种是TF-IDF关键词抽取算法另一种是TextRank关键词抽取算法,它们都是无监督的算法. 以下是两种算法的使用: #-*- coding:utf-8 -*- ...

随机推荐

ffmpeg播放RTSP的一点优化
简单记录一下最近使用ffmpeg播放RTSP做的一点参数优化. 先做如下定义: AVDictionary* options = NULL; 1.画质优化原生的ffmpeg参数在对1920x1080的 ...
SPOJ-394-ACODE - Alphacode / dp
ACODE - Alphacode #dynamic-programming Alice and Bob need to send secret messages to each other and ...
【zzuli-2266】number(二进制处理)
题目描述某人刚学习了数位DP,他在某天忽然思考如下问题: 给定n,问有多少数对<x, y>满足: x, y∈[1, n], x < y x, y中出现的[0, 9]的数码种类相同 ...
Prism 4 文档 ---第5章实现MVVM模式
MVVM模式有助于清楚的区分应用程序界面的业务层和展现层.保持一个清晰的应用程序逻辑和UI分离有助于处理开发和设计过程中大量的问题,同时,使得应用程序的测试,维护,和扩展更加容易.MVVM也可 ...
int argc,char *argv[]
main()函数是操作系统调用的,argc表示传入参数的个数,argv[]表示传入的参数. argv[0]表示exe文件所在的路径,所以argc默认为1. main函数的参数是可以通过dos窗口传入, ...
添加git 忽略文件
在使用Git的过程中,我们喜欢有的文件比如日志,临时文件,编译的中间文件等不要提交到代码仓库,这时就要设置相应的忽略规则,来忽略这些文件的提交. Git 忽略文件提交的方法有三种方法可以实现忽略Gi ...
Frequently-Used Network Time Server（Base On NTP:Network Time Protocol）
国家授时中心服务器 210.72.145.44 133.100.11.8 日本福冈大学 time-a.nist.gov 129.6 ...
LeetCode OJ：Convert Sorted List to Binary Search Tree（将排序好的链表转换成二叉搜索树）
Given a singly linked list where elements are sorted in ascending order, convert it to a height bala ...
Linux（CentOS 7）新增或修改 SSH默认端口
通过ssh连接到服务器,登录root用户执行命令编辑sshd配置文件 vi /etc/ssh/sshd_config 找到这一行 # Port 去除#号,修改22 为你想要的端口重启sshd服务 ...
New Concept English three （24）
33 72 We often read in novels how a seemingly respectable person or family has some terrible secret ...

jieba分词初学

jieba官网简介

安装

分词

官网实例

jieba分词初学的更多相关文章

随机推荐

热门专题