1、import jieba

jieba的cut函数有三个模式:全模式、精准模式、搜索引擎模式

1 精确模式,试图将句子最精确地切开,适合文本分析;
2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

【jieba.lcut生成list,如  tags = jieba.lcut(text) ,text也要先处理成list。】

例子:全模式:cut_all=True

  1. import jieba
  2. sentence="我喜欢上海东方明珠"
  3. w1=jieba.cut(sentence,cut_all=True)
  4. for item in w1:
  5. print(item)
  6.  
  7. #结果:

    喜欢
    上海
    上海东方
    海东
    东方
    东方明珠
    方明
    明珠

精准模式:cut_all=False,或者默认情况下

  1. import jieba
  2. sentence="我喜欢上海东方明珠"
  3. w2=jieba.cut(sentence,cut_all=False)
  4. #或者w2=jieba.cut(sentence)
  5. for item in w2:
  6. print(item)
    #结果:

    喜欢
    上海
    东方明珠

搜索引擎模式:jieba.cut_for_search()

  1. import jieba
  2. snetence="我喜欢上海东方明珠"
  3. w3=jieba.cut_for_search(sentence)
  4. for item in w3
  5. print(item)
    #结果


喜欢
上海
东方
方明
明珠
东方明珠

2、结巴的词性标注

  1. import jieba.posseg
  2. sentence="我喜欢上海东方明珠"
  3. w4=jieba.posseg.cut(sentence)
  4. #flag为词性,word为词
  5. for item in w4:
  6. print(item.word+"---"+item.flag)
    #结果
    我---r
    喜欢---v
    上海---ns
    东方明珠---nr

词性:

3、加载自己创建的词典

比如:我在桌面创建了一个dict.txt。

  1. import jieba.posseg
  2. jieba.load_userdict('C:/user/Desktop/dict.txt')
  3. sentence="Lee_yl学习Python"
  4. w5=jieba.posseg.cut(sentence)
  5. for item in w5:
  6. print(item)
    #结果
    Lee_yl/nr
    学习/v
    Python/eng

加载自己的文件是暂时的,本次加载在内存中,下一次需要再加载。

4、提取关键词【jieba.analyse.extract_tags(字符串,关键词数量)】

  1. import jieba.analyse
  2. sentence="我喜欢上海东方明珠"
  3. w6=jieba.analyse.extract_tags(sentence,3)print(w6)
    #结果
    ['东方明珠', '喜欢', '上海']

5、返回词语的位置

  1. import jieba
  2. w7=jieba.tokenize(sentence,mode="search")
  3. for item in w7:
  4. print(item)
    #结果,0,1,3,5,9表示词的索引位置
    ('我', 0, 1)
    ('喜欢', 1, 3)
    ('上海', 3, 5)
    ('东方明珠', 5, 9)

6、计算词频(collections.defaultdict)

  1. from collections import defaultdict
    s = 'mississippi'
  2. d = defaultdict(int)
  3. for k in s:
  4. d[k] += 1
  5.  
  6. list(d.items())

结果:[('m', 1), ('i', 4), ('s', 4), ('p', 2)]

这里的defaultdict(function_factory)构建的是一个类似dictionary的对象,其中keys的值,自行确定赋值,但是values的类型,是function_factory的类实例,而且具有默认值。比如default(int)则创建一个类似dictionary对象,里面任何的values都是int的实例,而且就算是一个不存在的key, d[key] 也有一个默认值,这个默认值是int()的默认值0.

python数据分析------文本挖掘(jieba)的更多相关文章

  1. 【Python 数据分析】jieba文本挖掘

    jieba是一个强大的分词库,完美支持中文分词 安装jieba 使用命令安装 pip install jieba 出现上图表示安装成功了 jieba分词模式 全模式 全模式:试图将句子精确地切开,适合 ...

  2. 【原】python中文文本挖掘资料集合

    这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加:   1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7% ...

  3. Python数据分析简介

    1,Python作为一门编程语言开发效率快,运行效率被人诟病,但是Python核心部分使用c/c++等更高效的语言来编写的还有强大的numpy, padnas, matplotlib,scipy库等应 ...

  4. [Python数据分析]新股破板买入,赚钱几率如何?

    这是本人一直比较好奇的问题,网上没搜到,最近在看python数据分析,正好自己动手做一下试试.作者对于python是零基础,需要从头学起. 在写本文时,作者也没有完成这个小分析目标,边学边做吧. == ...

  5. 【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例

    基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化 已经正确地实现 ...

  6. 【Python数据分析】Python3操作Excel(二) 一些问题的解决与优化

    继上一篇[Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 对豆瓣图书Top250进行爬取以后,鉴于还有一些问题没有解决,所以进行了进一步的交流讨论,这期间得到了一只尼玛 ...

  7. 【搬砖】【Python数据分析】Pycharm中plot绘图不能显示出来

    最近在看<Python数据分析>这本书,而自己写代码一直用的是Pycharm,在练习的时候就碰到了plot()绘图不能显示出来的问题.网上翻了一下找到知乎上一篇回答,试了一下好像不行,而且 ...

  8. Python 数据分析(二 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识

    Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识 第1节 groupby 技术 第2节 数据聚合 第3节 分组级运算和转换 第4 ...

  9. 转]python 结巴分词(jieba)学习

    原文  http://www.gowhich.com/blog/147 主题 中文分词Python 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http:/ ...

随机推荐

  1. HDU - 3040 - Happy Girls

    先上题目: Happy Girls Time Limit: 6000/3000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others ...

  2. [bzoj2131]免费的馅饼_树状数组

    免费的馅饼 bzoj-2131 题目大意: 注释:$1\le n \le 10^5$,$1\le w \le 10^8$. 想法:首先,想到dp 状态:dp[i][j]表示i分钟在位置j的最大收益 优 ...

  3. 【android】uses-permission和permission具体解释

    1.<uses-permission>: 官方描写叙述: If an application needs access to a feature protected by a permis ...

  4. DexClassLoader和PathClassLoader类载入机制

    0x00 在DexClassLoader和PathClassLoader载入Dex流程一文中,我们分析了dex文件怎样形成了DexFile结构体.本文中解说类载入机制,实际上就是生成ClassObje ...

  5. C C++每个头文件的功能说

    C/C++每个头文件的功能说明 传统 C++ #include <assert.h> //设定插入点 #include <ctype.h> //字符处理 #include &l ...

  6. ijkplayer视频播放

      http://android-doc.com/androiddocs/2017/1018/5416.html https://www.2cto.com/kf/201801/714366.html ...

  7. bzoj5178: [Jsoi2011]棒棒糖

    就是裸的主席树嘛... 表扬一下自己1A #include<cstdio> #include<iostream> #include<cstring> #includ ...

  8. git如何解决冲突(master分支的上的冲突--太岁头上动土)

    欢迎加入前端交流群交流知识&&获取视频资料:749539640 git是什么就不废话了,详情点击 出现以下情况怎么解决? 有个index.ts文件 export const ENV = ...

  9. C#关于XML的一些简单用法

    关于XML文件的用法,本文简单介绍创建.读取和增删操作 . 1.创建有三种方法 (1)通过XmlDocument创建,然后分级添加子目录 XmlDocument doc = new XmlDocume ...

  10. 关于打包压缩几种格式(gzip,bzip2,xz)的试验对比

    要通过脚本进行备份,必然将会应用到压缩技术,这里简单针对几个常见的格式进行测验,从而得到一种合适的方式. 这里以一个应用目录做例子: [root@isj-test-5 mnt]$du -sh * 66 ...