一,文本挖掘 1.1,什么是文本挖掘 文本挖掘是指从大量文本数据中抽取事先未知的,可理解的,最终可用的知识的过程,同时运用这些知识更好的组织信息以便将来参考 1.2,文本挖掘基本流程 收集数据 数据集.如果是已经被人做成数据集了,这就省去了很多麻烦事 抓取.这个是 Python 做得最好的事情,优秀的包有很多,比如 scrapy,beautifulsoup等等. 预处理(对这里的高质量讨论结果的修改,下面的顺序仅限英文) 去掉抓来的数据中不需要的部分,比如 HTML TAG,只保留文本.结合 b…
前言 在Python中,需要对字符串进行大量的操作,有时需要从一个字符串中提取到特定的信息,用切片肯定是不行的,所有这一节记录两个强大的文本处理模块,一个是正则表达式re模块,另一个是中文处理模块jieba,Here wo go! 一.re模块 re模块的出现使得Python完全支持正则表达式,在学re模块之前,先来认识一下正则表达式 正则表达式使用单个字符串来描述.匹配出特定句法的字符串,在文本编辑中,正则表达式常用来检索.替换那些特定匹配模式的文本.正则表达式使用起来十分繁琐,但是它带来的功…
jieba模块 下载 pip install jieba 使用 import jieba 精确模式 jieba.cut() 直接打印出的是单个文字 转换成列表-->jieba.lcut() import jieba txt = '每当黎明的第一缕阳光冲散黑暗点亮大地,每当我们走向国旗台看见五星红红旗冉冉升起,右手放在胸上时,此刻我的心中只有一样东西,那就是祖国!' ##精确模式 # res = jieba.cut(txt) # for i in res: # print(i) res1 = ji…
python从入门到大神---Python的jieba模块简介 一.总结 一句话总结: jieba包是分词技术,也就是将一句话分成多个词,有多种分词模型可选 1.分词模块包一般有哪些分词模式(比如python的jieba包分'我想和女朋友一起去北京天安门闲逛..')? 精确模式:jieba.cut(s):词只分一次:我,想,和,女朋友,一起,去,北京,天安门,闲逛,.,. 全模式:jieba.cut(s,cut_all = True):尽量将所有的词拿出来:我,想,和,女朋友,朋友,一起,去,北…
借鉴于 [jieba 模块文档] 用于自己学习和记录! jieba 模块是一个用于中文分词的模块 此模块支持三种分词模式 精确模式(试图将句子最精确的切开,适合文本分析) 全模式(把句子在所有可以成词的成语都扫描出来,速度非常快,但是不能解决歧义的问题) 搜索引擎模式(在精确模式的基础上,对长词再次切分,提高召回率) 主要功能 1. 分词 需要分词的字符串可以是 unicode 或 UTF-8 字符串.GBK 字符串.但是,不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 j…
现如今,词云技术遍地都是,分词模块除了jieba也有很多,主要介绍一下jieba的基本使用 import jieba import jieba.posseg as psg from os import path from collections import Counter s=u'我想和女朋友一起去北京天安门闲逛..' cut = jieba.cut(s) print('精确模式') print(cut) print(','.join(cut)) print ('全模式') print(','…
api参考地址:https://github.com/fxsjy/jieba/blob/master/README.md 安装自行百度 基本用法: import jieba #全模式 word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = True) print("Full Mode:" + "/ ".join(word)) #>>>Full Mode:一/ 人…
一.select介绍 select()的机制中提供一fd_set的数据结构,实际上是一long类型的数组, 每一个数组元素都能与一打开的文件句柄(不管是Socket句柄,还是其他文件或命名管道或设备句柄)建立联系,建立联系的工作由程序员完成, 当调用select()时,由内核根据IO状态修改fd_set的内容,由此来通知执行了select()的进程哪一Socket或文件可读或可写.主要用于Socket通信当中. 总结:select主要用于socket通信当中,能监视我们需要的文件描述变化. 二.…
pip install jieba安装jieba模块 如果网速比较慢,可以使用豆瓣的Python源:pip install -i https://pypi.douban.com/simple/ jieba 一.分词: import jieba seg_list = jieba.cut("从没见过我这么弱的垃圾", cut_all=True)print("全模式:" + " ".join(seg_list))# 全模式,把句子中所有的可以成词的词语…
今日学习了python的词云技术 from os import path from wordcloud import WordCloud import matplotlib.pyplot as plt d=path.dirname(__file__) text=open(path.join(d,"data//constitution.txt")).read() # 步骤3-2:设置一张词云图对象 wordcloud = WordCloud(background_color="…