【Python】文本包jieba使用

看了一个教程：https://www.cnblogs.com/wkfvawl/p/9487165.html

有些不懂的地方自己查阅了一下

键值的添加，获得文件中相同字符出现的次数， counts = {}，counts.get(word,0)

一个常用的统计词频的方法

txt = "a b c d a b c a b a e"

words = txt.split() #将每个字符按空格分开

print(words) #输出示例

counts = {}  #新建一个字典

for word in words:

    counts[word] = counts.get(word,0) + 1 #能够获得键对应的值

    print(list(counts.items()))

Python Dictionary items()方法

字典的一个函数，以列表返回可遍历的（键，值）元组元素

s = "双儿 洪七公 赵敏 赵敏 逍遥子 鳌拜 殷天正 金轮法王 乔峰"

ls=s.split()

counts={}

for word in ls:

    counts[word]=counts.get(word,0)+1

item=counts.items()

print("字典类型：",counts)

print("元组类型：",item)

出来的结果不是list类型，需要强制转化为list类型。

元素排序：items.sort[key=lambda x:x[1],reverse=True)

key=lambda x: x[1]lambda是一个隐函数，在这里可以不用管它，记得有这个就可以

后面的x: x[1] 为对前面的对象中的第二维数据（即value）的值进行排序。
格式化输出print("{0:<5}{1:>5}".format(word, count))

print ("{0:<10}{1:>5}".format(word, count))

这个是format方法的格式控制。

{<参数序号>：<填充符号><对齐><宽度><，>< . 精度 ><类型>}

< ： 左对齐

> ：右对齐

^ : 居中对

< , > 表示数字的千位分隔符

整数类型：b, c, d, o, x, X

浮点数类型：e, E, f, %

>>>"{} {}".format("hello", "world")    # 不设置指定位置，按默认顺序

'hello world'

>>> "{0} {1}".format("hello", "world")  # 设置指定位置

'hello world'

>>> "{1} {0} {1}".format("hello", "world")  # 设置指定位置

'world hello world'

import jieba

txt = open("三国演义.txt", "r", encoding='utf-8').read()

words = jieba.lcut(txt)

counts = {} #通过键值对的形式存储词语及其出现次数

for word in words:

    if len(word) == 1:

        continue

    else:

        counts[word] = counts.get(word, 0) + 1 #有word时返回其值，+1能够累计次数

#参考https://blog.csdn.net/weixin_42800007/article/details/82024108 

items = list(counts.items())

print(type(items[5]))

items.sort(key = lambda x: x[1], reverse = True)

#key = lambda隐函数；x:x[1]按第二维数据排序（value）

for i in range(15):

    word, count = items[i]

    print("{0:<5}{1:>5}".format(word, count))

【Python】文本包jieba使用的更多相关文章

机器学习常用Python扩展包
在Ubuntu下安装Python模块通常有3种方法:1)使用apt-get:2)使用pip命令(推荐);3)easy_instal 可安装方法参考:[转]linux和windows下安装python集 ...
python库包大全(转)
python 库资源大全转自: Python 资源大全中文版环境管理管理 Python 版本和环境的工具 p:非常简单的交互式 python 版本管理工具.官网 pyenv:简单的 Python ...
Python分词工具——jieba
jieba简介 python在数据挖掘领域的使用越来越广泛.想要使用python做文本分析,分词是必不可少的一个环节在python的第三方包里,jieba应该算得上是分词领域的佼佼者. GitHub地 ...
转]python 结巴分词(jieba)学习
原文 http://www.gowhich.com/blog/147 主题中文分词Python 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http:/ ...
python第三方库------jieba库(中文分词)
jieba“结巴”中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点支持三种分词模式: 精确模式,试图将句子最精确地切开, ...
python 结巴分词(jieba)详解
文章转载:http://blog.csdn.net/xiaoxiangzi222/article/details/53483931 jieba “结巴”中文分词:做最好的 Python 中文分词组件 ...
LFD,非官方的Windows二进制文件的Python扩展包
LFD,非官方的Windows二进制文件的Python扩展包 LFD,非官方版本.32和64位.Windows.二进制文件.科学开源.Python扩展包克里斯托夫·戈尔克(by Christoph ...
Python第三方库jieba（中文分词）入门与进阶（官方文档）
jieba "结巴"中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点支持三种分词模式: 精确模式, ...
Python文本数据分析与处理
Python文本数据分析与处理(新闻摘要) 分词使用jieba分词, 注意lcut只接受字符串过滤停用词 TF-IDF得到摘要信息或者使用LDA主题模型 TF-IDF有两种 jieba.analy ...

随机推荐

c++学习笔记1（引用）
引用格式:类型名&引用名=某变量名: 概念实例:编写交换整型变量的函数对比不用引用实机操作使用引用实机操作实例2:用作函数的返回值可对函数返回值赋值常引用使用格式,在引用前 ...
动手写一个简单的Web框架（HelloWorld的实现）
动手写一个简单的Web框架(HelloWorld的实现) 关于python的wsgi问题可以看这篇博客我就不具体阐述了,简单来说,wsgi标准需要我们提供一个可以被调用的python程序,可以实函数 ...
ES6基础知识（Generator 函数应用）
1.Ajax 是典型的异步操作,通过 Generator 函数部署 Ajax 操作,可以用同步的方式表达 function* main() { var result = yield request(& ...
[cf1270I]Xor on Figures
考虑一个构造:令初始$2^{k}\times 2^{k}$的矩阵为$A$(下标从0开始),再构造一个矩阵$T$,满足仅有$T_{x_{i},y_{i}}=1$(其余位置都为0),定义矩阵卷积$\oti ...
android测试之monkey测试
1.首先安装SDK包 2.配置环境变量 3.打开CMD命令窗口,查看是否安装成功命令:adb version 4.要做monkey测试的安卓包名,获取方式如下(必须启动要获取报名的app) 1.ad ...
『学了就忘』Linux权限管理 — 54、sudo授权
目录 1.什么是sudo授权 2. sudo授权说明 3.sudo命令的使用示例1 示例2 示例3 1.什么是sudo授权在Linux系统中,/sbin/和/usr/sbin/两个目录中的命令只有 ...
c语言printf输出最前端字符不显示
原因:语法错误,和其它语言语法混用. printf("链表长度 : %d \n",length); printf("length is : %d \n",len ...
CF1463F Max Correct Set
考虑证明一个答案必定为$(x + y)$的循环节递归. 考虑到如果第二块比第一块答案大,则必定可以把第一块换为第二块增加答案. 且可以证明,如果$(x + y)$是合法的,则整个序列合法. 那 ...
学军中学csp-noip2020模拟5
Problem List(其实这几场全是附中出的) 这场比赛的题目相当有价值,特别是前两题,相当的巧妙. A.路径二进制数据范围这么小,当然是搜索. $30pts:$大力搜索出奇迹,最后统计答案 ...
Redis高并发处理常见问题及解决方案
1. 大型电商系统高流量系统设计场景: 大量电商系统每天要处理上亿请求,其中大量请求来自商品访问.下单.商品的详情是时刻变化,由于请求量过大,不会频繁去服务端获取商品信息,导致服务器压力极大.需要用 ...

【Python】文本包jieba使用

【Python】文本包jieba使用的更多相关文章

随机推荐

热门专题