• 环境

Anaconda3 Python 3.6, Window 64bit

  • 目的

利用 jieba 进行分词,关键词提取

  • 代码
  1. # -*- coding: utf-8 -*-
  2.  
  3. import jieba
  4. import jieba.posseg as jbpos
  5. import jieba.analyse as jbal
  6.  
  7. '''
  8. 词性说明:
  9. a:形容词
  10. d:副词
  11. i:成语
  12. m:数词
  13. n:名词
  14. nr:人名
  15. ns:地名
  16. nt:机构团体
  17. nz:其他专有名词
  18. t:时间
  19. v:动词
  20. x:标点符号
  21. f:方位词
  22. un:未知
  23. '''
  24.  
  25. string1 = "国内掀起了大数据、云计算的热潮。"
  26.  
  27. # 全模式
  28. w1 = jieba.cut(string1, cut_all=True)
  29. # for i in w1:
  30. # print(i)
  31.  
  32. # 精准模式,默认是精准模式
  33. w2 = jieba.cut(string1)
  34. # for i in w2:
  35. # print(i)
  36. # print("<----------->")
  37.  
  38. # 搜索引擎模式
  39. w3 = jieba.cut_for_search(string1)
  40. # for i in w3:
  41. # print(i)
  42. # print("<----------->")
  43.  
  44. # 词性标注
  45. w4 = jbpos.cut(string1)
  46. # for i in w4:
  47. # print(i.word + "--" + i.flag)
  48. # print("<----------->")
  49.  
  50. # 词典加载
  51. # jieba.load_userdict("dict2.txt")
  52. string2 = "国内掀起了大数据、云计算的热潮。仙鹤门地区。"
  53. #word 词语,flag 词性
  54. w5 = jbpos.cut(string2)
  55. for i in w5:
  56. print(i.word + "--" + i.flag)
  57. print("<----------->\n")
  58.  
  59. # 更改词频-单个词
  60. jieba.suggest_freq("大数据", True)
  61. jieba.suggest_freq("云计算", True)
  62. w6 = jbpos.cut(string2)
  63. for i in w6:
  64. print(i.word + "--" + i.flag)
  65. print("<----------->\n")
  66.  
  67. # 动态修改词典 删除词 del_word
  68. jieba.add_word("仙鹤门")
  69. w7 = jbpos.cut(string2)
  70. for i in w7:
  71. print(i.word + "--" + i.flag)
  72. print("<----------->\n")
  73.  
  74. # 提取关键词 第二个参数控制提取参数个数
  75. w8 = jbal.extract_tags(string2, 5)
  76. print(w8)
  • 结果展示

Python jieba 分词的更多相关文章

  1. $好玩的分词——python jieba分词模块的基本用法

    jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认).全模式和 ...

  2. python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库 -转载

    转载请注明出处  “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...

  3. python jieba分词(添加停用词,用户字典 取词频

    中文分词一般使用jieba分词 1.安装 pip install jieba 2.大致了解jieba分词 包括jieba分词的3种模式 全模式 import jieba seg_list = jieb ...

  4. python jieba分词工具

    源码地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试图将句 ...

  5. python——jieba分词过程

    import jieba """函数2:分词函数""" def fenci(training_data): ""&quo ...

  6. python jieba 分词进阶

    https://www.cnblogs.com/jiayongji/p/7119072.html 文本准备 到网上随便一搜"三体全集",就很容易下载到三体三部曲的全集文本(txt文 ...

  7. python jieba分词小说与词频统计

    1.知识点 """ 1)cut() a) codecs.open() 解决编码问题 b) f.readline() 读取一行,也可以使用f.readlines()读取多行 ...

  8. python结巴(jieba)分词

    python结巴(jieba)分词 一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解 ...

  9. Python自然语言处理学习——jieba分词

    jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目. 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的 ...

随机推荐

  1. c# WinForm软件启动拦截(通过更改文件关联实现)

    前几天想做一个软件启动之前拦截的程序,找了下网上的资料没有找到合适的,突然看到电脑软件某看图软件,找到个思路就是跟他一样的,通过修改文件关联进行启动拦截. 原理是这样的,更改.exe默认的启动方式为我 ...

  2. Centos 软链接命令(十)

    链接命令:ln  (link) ln -s [源文件] [目标文件] 功能描述:生成链接文件 选项: -s 创建软链接 硬链接特征: 1,拥有相同的i节点和存储block块,可以看作是同一个文件: 2 ...

  3. java 统计文件注释个数

    参考:https://segmentfault.com/q/1010000012636380/a-1020000012640905 题目:统计文件中//和/* */注释的个数,双引号中的不算 impo ...

  4. linkText()的用法

    1.linkText()常用于定位链接,以谷歌的gmail为例: WebElement gmailLink = driver.findElement(By.linkText("Gmail&q ...

  5. Python元组组成的列表转化为字典

    虽然元组.列表不可以直接转化为字典,但下面的确是可行的,因为经常用python从数据库中读出的是元组形式的数据. # 原始数据 rows = (('apollo', 'male', '164.jpeg ...

  6. Python时间获取详解,Django获取时间详解,模板中获取时间详解(navie时间和aware时间)

    1.Python获取到的时间 import pytz from datetime import datetime now = datetime.now() # 这个时间为navie时间(自己不知道自己 ...

  7. Tflearn的安装

    scipy-doc安装 sudo apt-get install python-scipy-doc安装python-scipy-doc h5py安装 sudo pip install h5py sci ...

  8. servlet 文件下载

    [本文简介] 一个servlet 文件下载 的简单例子. [文件夹结构] [java代码] package com.zjm.www.servlet; import java.io.BufferedIn ...

  9. 安装SQL2012

    1. 优先安装软件 1. net framework3.5. 2. 在安装SQL SERVER 2012前需要3.5的支持.在WIN 2012系统可以在系统管理的添加角色和功能中安装,如下将[.NET ...

  10. dymaic方式的Json序列化

    from:http://stackoverflow.com/questions/3142495/deserialize-json-into-c-sharp-dynamic-object If you ...