Python之jieba分词
jieba,很有意思的一个模块,专门用来分词。
import jieba # sentence:分割的中文字符串 # cut_all:是否采用全模式,默认为False表示精确模式 # HMM:表示是否使用HMM模型,默认为True seg_list1 = jieba.cut(sentence="争取在二零一九年从面相对象编程到面向对象亲亲", cut_all=True, HMM=True) # 得到的是一个生成器,我们来转化成列表 print(list(seg_list1)) ''' ['争取', '在', '二', '零', '一九', '九年', '从', '面相', '相对', '对象', '编程', '到', '面向', '面向对象', '对象', '亲亲'] 可以看到全匹配就是这个样子,会有重复的 ''' seg_list2 = jieba.cut(sentence="争取在二零一九年从面相对象编程到面向对象亲亲", cut_all=False, HMM=True) # 改成精确模式打印一下 print(list(seg_list2)) ''' ['争取', '在', '二零一', '九年', '从', '面相', '对象', '编程', '到', '面向对象', '亲亲'] 可以看到整体还是比较让人满意的,除了那个二零一九年,jieba分成了"二零一"和"九年" 不过整体影响不大,毕竟二零一和九年组合起来都是比较符合常理的 ''' # 搜索引擎模式 seg_list3 = jieba.cut_for_search("争取在二零一九年从面相对象编程到面向对象亲亲") print(list(seg_list3)) # ['争取', '在', '二零一', '九年', '从', '面相', '对象', '编程', '到', '面向', '对象', '面向对象', '亲亲']
# 关键词提取 import jieba import jieba.analyse sentence = "给我听到了你们这群蠢货" \ "你们一直渴望得到的时间机器已经不在这里了" \ "在这个时代已经不存在了" \ "给我好好地后悔吧" \ "然后感到恐惧吧" \ "我一定会将命运石之门找出来" \ "这就是本大爷的选择" # sentence: 待提取的文本 # topK: 权重最大的关键词数量,默认为20个 # withWeight: 是否返回权重值,默认值为False # allowPOS: 仅包括指定的词性的词,默认值为空,即全包括 # n: 名词 ns: 地名 vn: 名动词 v: 动词 nr: 人名,不在这里面的会被过滤掉 keywords = jieba.analyse.extract_tags(sentence=sentence, topK=5, withWeight=True, allowPOS=("n", "nr", "ns") ) for item in keywords: print(item[0], item[1]) ''' 时间机器 2.2012550785666667 石之门 1.9924612504833332 蠢货 1.8892880490833335 大爷 1.3061487405483334 命运 1.1011633218949999 ''' # 查看词性 import jieba.posseg as pos words = pos.cut("我的太太叫新垣结衣") for word, category in words: print(word, category) ''' 我 r 的 uj 太太 n 叫 v 新垣 ns 结衣 n '''
Python之jieba分词的更多相关文章
- python结巴(jieba)分词
python结巴(jieba)分词 一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解 ...
- python环境jieba分词的安装
我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明======= 代码对 Python 2/3 均兼容 * 全自动安装:`ea ...
- Python使用jieba分词
# -*- coding: utf-8 -*- # Spyder (python 3.7) import pandas as pd import jieba import jieba.analyse ...
- python bottle + jieba分词服务
2019-12-16 19:46:34 星期一 最近接触到结巴分词项目, 就试试 用python的bottle库来当服务器监听localhost:8080 把请求的数据转给jieba来分词, 并返回分 ...
- python的jieba分词
# 官方例程 # encoding=utf-8 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print ...
- python安装Jieba中文分词组件并测试
python安装Jieba中文分词组件 1.下载http://pypi.python.org/pypi/jieba/ 2.解压到解压到python目录下: 3.“win+R”进入cmd:依次输入如下代 ...
- [python] 使用Jieba工具中文分词及文本聚类概念
声明:由于担心CSDN博客丢失,在博客园简单对其进行备份,以后两个地方都会写文章的~感谢CSDN和博客园提供的平台. 前面讲述了很多关于Python爬取本体Ontology.消息盒Inf ...
- Python自然语言处理学习——jieba分词
jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目. 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的 ...
- $好玩的分词——python jieba分词模块的基本用法
jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认).全模式和 ...
随机推荐
- 8 定制10MINs 3
1. <div class="ui inverted red basic segment"> <h3 class="ui header"> ...
- CSAcademy Palindromic Concatenation 字符串哈希
题意: 题目链接 给出\(n\)个字符串,求有多少对\((i,j),i \neq j\)使得\(s_i\)与\(s_j\)拼起来是回文串 分析: 设\(s_i,s_j\)的长度分别为\(L_i, L_ ...
- Docker构建nginx+uwsgi+flask镜像(一)
前言 笔者之前是从事Java方面的工作,自从18年5月左右来到新的公司,接触到Python,被其简单优雅的语法风格深深吸引,同时,新公司也帮助笔者打开Docker世界的大门,让笔者体会到“一次打包,到 ...
- Python的类(一)
类(Class): 用来描述具有相同的属性和方法的对象的集合.它定义了该集合中每个对象所共有的属性和方法.对象是类的实例. 类变量:类变量在整个实例化的对象中是公用的.类变量定义在类中且在函数体之外. ...
- laravel5.5路由
目录 1. routes/web.php 2. routes/api.php 3. 重定向路由 4. 路由参数 5. 约束 6. 命名路由 7. 路由组 8 路由模型绑定 9 表单方法伪造 10 访问 ...
- centos使用--supervisor使用
目录 1 下载程序并安装 2 编辑配置文件 3 supervisor的使用 4 配置文件详细解析 参考资料 supervisor是用Python开发的一套通用的进程管理程序,能将一个普通的命令行进程变 ...
- Python 3基础教程6-for循环语句
本文介绍另外一种循环语句,for循环,直接看例子. 用for实现打印1到9的数字. 方法一:写入一个列表,然后遍历列表 # 这里介绍 for循环# 打印1到9 exampleList = [1,2,3 ...
- python之if测试
(一)python的条件判断语句一般格式如下: if (条件1): (执行结果) elif(条件2): (执行结果) ..... else: (执行结果) 执行顺序为从上到下判断,若条件1不符合则进入 ...
- 2、shader基本语法、变量类型、shader的三种形式、subshader、fallback、Pass LOD、tags
新建一个shader,名为MyShader1内容如下: 1._MainTex 为变量名 2.“Base (RGB)”表示在unity编辑面板中显示的名字,可以定义为中文 3.2D 表示变量的类型 4. ...
- 孤荷凌寒自学python第六十天在windows10上搭建本地Mongodb数据服务
孤荷凌寒自学python第六十天在windows10上找搭建本地Mongodb数据服务 (完整学习过程屏幕记录视频地址在文末) 今天是学习mongoDB数据库的第六天.成功在本地搭建了windows ...