作者:doze_worm
来源:https://www.douban.com/note/620615113/

gensim 起步:
本节介绍理解和使用 gensim 所必须的基础概念和术语,并提供一个简单用例。

核心概念和简单样例:
从高层级来看,gensim 是一个通过衡量词组(或更高级结构,如整句或文档)模式来挖掘文档语义结构的工具。gensim 以“文集”——文本文档的集合——作为输入,并生成一个“向量”来表征该文集的文本内容,从而实现语义挖掘。该向量表示可被用于训练一个“模型”。模型是从数据生成不同特征的算法集,通常是更为语义化的。这三个概念是理解 gensim 是如何工作的关键,因此让我们花些时间来对它们分别解释一下。与此同时,我们会完成一个简单示例来刻画这三个概念。

文集:
文集是一组数字文档集合。该集合是 gensim 的输入,它蕴含着所有文档的结构、主题、等等。文集所蕴含的潜在结构可在稍后用于给训练文集中没出现过的新文档设置标题。因此,我们也将这一集合称为训练文集。无需人工干预(如手工标记文档)——主题分类为无监督学习。

我们使用包含9个字符串的列表作为我们的文集,每个字符串由一个单句组成。
In [1]: raw_corpus = ["Human machine interface for lab abc computer applications",
                         "A survey of user opinion of computer system response time",
                         "The EPS user interface management system",
                         "System and human system engineering testing of EPS",
                         "Relation of user perceived response time to error measurement",
                         "The generation of random binary unordered trees",
                         "The intersection graph of paths in trees",
                         "Graph minors IV Widths of trees and well quasi ordering",
                         "Graph minors A survey"]
这只是一个用于演示的非常小的文集样例。我们也可以把莎士比亚的所有戏剧、维基百科的所有文章、或互联网上某人的所有推特作为一个文集样例。

当我们完成文集收集后,有几个典型的处理步骤我们希望完成。为了让文集简练,把一些常规英语单词(如“the”)及只出现一次的单词移除。为进行此步处理,我们将数据符号化。符号化将文档拆分成单词(此处以空格作为分割符)。

In [2]: # Create a set of frequent words
            stoplist = set('for a of the and to in'.split(' '))
            # Lowercase each document, split it by white space and filter out stopwords
            texts = [word for word in document.lower().split() if word not in stoplist]
                     for document in raw_corpus]

# Count word frequencies
            from collections import defaultdict
            frequency = defaultdict(int)
            for text in texts:
                for token in text:
                    frequency[token] += 1

# Only keep words that appear more than once
            processed_corpus = [token for token in text if frequency[token] > 1] for text in texts]
            processed_corpus

Out[2]: ['human', 'interface', 'computer'],
              ['survey', 'user', 'computer', 'system', 'response', 'time'],
              ['eps', 'user', 'interface', 'system'],
              ['system', 'human', 'system', 'eps'],
              ['user', 'response', 'time'],
              ['trees'],
              ['graph', 'trees'],
              ['graph', 'minors', 'trees'],
              ['graph', 'minors', 'survey']

进行操作前,我们希望为文集中的每个单词分配一个唯一的 ID。我们可以使用 gensim.corpora.Dictionary 类来实现。该词典定义了我们的处理器知晓的所有单词词表。

In [3]: from gensim import corpora
             dictionary = corpora.Dictionary(processed_corpus)
             print(dictionary)

Out [3]: Dictionary(12 unique tokens:[u'minors', u'graph', u'system', u'trees', u'eps']...)

由于我们的文集很小,词典中只有12个不同符号。对于大的文集,词典中包含10万量级的符号是很寻常的。

向量:
为了表示我们文集中蕴含的潜在结构,我们需要一种可以进行数学运算的表征文档的方法。一种尝试是把文档表示成一个向量。有很多种不同的文档向量特征生成方法,此处简单以“词袋(BOW)模型”为例。在词袋模型下,我们用文档中出现词典里单词的频率的向量来表示一个文档。举例来说:给定一个词典包含['coffee', 'milk', 'sugar', 'spoon'],由以下字符串 "coffee milk coffee"组成的文档可以表示为向量[2, 1, 0, 0]。向量的每个分量(按顺序)是文档中"coffee", "milk", "sugar" 和 "spoon" 出现的次数。向量的长度是词典中词条的数量。词袋模型的一个主要属性是它完全忽略文档中所涉及的单词出现的顺序,这也是词袋这一名字的由来。

我们处理的文集包含有12个独立单词,也就意味着在词袋模型下,每一个文档将以一个12维数组来表示。我们可以用该词典将符号化的文档转换为12维向量。我们看到这些 ID 对应于:
In [4]: print(dictionary.token2id)

Out [4]: {u'minors': 11, u'graph': 10, u'system': 6, u'trees': 9, u'eps': 8, u'computer': 1, u'survey': 5,
             u'user': 7, u'human': 2, u'time': 4, u'interface': 0, u'response': 3}

例如,我们想将短语“Human computer interaction”(注意,该短语不存在于原始的文集中)向量化,我们可以用 doc2bow 方法创建文档在指定词典下的词袋表征。它将返回一个词频的稀疏表示:
In [5]: new_doc = "Human computer interaction"
             new_vec = dictionary.doc2bow(new_doc.lower().split())
             new_vec
Out[5]: [(1, 1), (2, 1)]

每个元组的第一项对应词典中符号的 ID,第二项对应该符号出现的次数。

注1:原始文集中没有 “interaction“,因此它不包含在向量化结果中。
注2:该向量只包含文档中出现的单词条目,是因为任意给定文档只会包含词典中众多单词中的少数几个,向量化结果中不出现的单词则默认次数为0以节约空间。

我们可以将原始文集转换成一个向量列表:
In [6]: bow_corpus = [dictionary.doc2bow(text) for text in processed_corpus]
             bow_corpus
Out[6]: [(0, 1), (1, 1), (2, 1)],
              [(1, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1)],
              [(0, 1), (6, 1), (7, 1), (8, 1)],
              [(2, 1), (6, 2), (8, 1)],
              [(3, 1), (4, 1), (7, 1)],
              [(9, 1)],
              [(9, 1), (10, 1)],
              [(9, 1), (10, 1), (11, 1)],
              [(5, 1), (10, 1), (11, 1)]

注3:上述结果列表完全保存在内存中。而在大多数应用中,你会希望有种更为规模可控的解决方案。很幸运,gensim 允许你使用任意游标来每次访问一个文档。更多细节请查阅文档。

模型:
现在,我们已经向量化了我们的文集,我们可以开始用模型来对它进行转换。我们使用模型作为一个抽象术语,来描述把一个文档表示转换成另一种文档表示的行为。在 Gensim 中,文档用向量表示,因此模型可以被理解为两个向量空间的转换。这一转换的细节是通过对训练文集的学习得到的。

一个模型的简单样例是 tf-idf。tf-idf 模型将词袋表示向量转换到词频权重向量空间,该向量空间中,以文集中每个单词的希缺性的权重替代单词出现的频率计数。
下面是一个简单用例。首先初始化 tf-idf 模型,以我们的文集对它进行训练,并对字符串”system minors“进行转换:

In [7]: from gensim import models
             # train the model
             tfidf = models.TfidfModel(bow_corpus)
             # transform the "system minors" string
             tfidf[dictionary.doc2bow("system minors".lower().split())]

Out[7]: [(6, 0.5898341626740045), (11, 0.8075244024440723)]

tf-idf 模型返回了一个元组列表,元组的第一项是符号 ID,第二项是 tf-idf 权重。这里我们注意到,”system“(在原始文集中出现4次)的 ID 的权重要比”minors“(只出现了2次)的 ID 的权重要低。

gensim 提供了多种不同模型/转换方法。更多细节参考Transformations and Topics

文本分析:初识Gensim的更多相关文章

  1. Solr:文本分析

    文本分析时搜索引擎的核心工作之一,对文本包含许多处理步骤,比如:分词.大写转小写.词干化.同义词转化等.简单的说,文本分析就说将一个文本字段的值转为一个一个的token,然后被保存到Lucene的索引 ...

  2. 使用Linux的命令行工具做简单的文本分析

    Basic Text Analysis with Command Line Tools in Linux | William J Turkel 这篇文章非常清楚的介绍了如何使用Linux的命令行工具进 ...

  3. 用R进行文本分析初探——以《红楼梦》为例

    一.写在前面的话~ 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析. 文本数据挖掘(Text ...

  4. 重磅︱R+NLP:text2vec包——New 文本分析生态系统 No.1(一,简介)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 词向量的表示主流的有两种方式,一种当然是耳熟能 ...

  5. Linux文本分析命令awk的妙用

    基本用法 awk是一个强大的文本分析工具,简单来说awk就是把文件逐行读入,(空格,制表符)为默认分隔符将每行切片,切开的部分再进行各种分析处理 awk命令格式如下 awk [-F field-sep ...

  6. LinkedIn文本分析平台:主题挖掘的四大技术步骤

    作者 Yongzheng (Tiger) Zhang ,译者 木环 ,本人只是备份一下.. LinkedIn前不久发布两篇文章分享了自主研发的文本分析平台Voices的概览和技术细节.LinkedIn ...

  7. R软件中 文本分析安装包 Rjava 和 Rwordseg 傻瓜式安装方法四部曲

    这两天,由于要做一个文本分析的内容,所以搜索了一天R语言中的可以做文本分析的加载包,但是在安装包的过程,真是被虐千百遍,总是安装不成功.特此专门写一篇博文,把整个心塞史畅快的释放一下. ------- ...

  8. linux文本分析利器awk

    转 快速理解linux文本分析利器awk 原文链接 杜亦舒 性能与架构 awk是什么 如果工作中需要操作linux比较多,那么awk是非常值得学习的 awk是一个极其强大的文本分析工具,把文件逐行的读 ...

  9. linux 文本分析工具---awk命令(7/1)

    awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各 ...

  10. Linux 之 awk文本分析工具

    AWK是一种处理文本文件的语言,是一个强大的文本分析工具.Linux环境中自带. awk调用方法 命令行 awk [-F field-separator] 'commands' input-file( ...

随机推荐

  1. chrome调试笔记

    F12启动调试 1.右键加载按钮可以清空缓存并重新加载,有时候浏览器有缓存,代码更新不会及时反映出来. 2.performance mointer实时查看performance 点击三个竖着的小点,选 ...

  2. Linux系统调优相关工具

    一.系统调优概述 系统的运行状况: CPU -> MEM -> DISK*-> NETWORK -> 应用程序调优 分析是否有瓶颈(依据当前应用需求) 调优(把错误的调正确) ...

  3. CentOS8 使用 aliyun 阿里云 镜像站点的方法

    CentOS8现已可使用国内的aliyun阿里云镜像站,方法如下: 用cd命令切换到yum.repos目录,备份原始的3个repo文件:cd /etc/yum.repos.d/sudo cp Cent ...

  4. Image组件的使用

    // 注意图片放置的目录问题 <Image source = {require('./img/logo.png')} style = {styles4.imageStyle}/> 注意要导 ...

  5. Driver drowsy detection dataset

    Introduction Driver drowsy detection dataset consists of both male and female drivers, with various ...

  6. java中图片地址base64编码的相互转换

    public class Base64Url { /** * 将base64编码字符串转换为图片 * @param imgStr: base64编码字符串 * @param path: 图片路径-具体 ...

  7. What happens when you type an URL in the browser and press enter?

    What happens when you type an URL in the browser and press enter? 1. You type maps.google.com into t ...

  8. IDEA 2019中一些有偏好设置

    1.取消启动时自动进入上一次工程: 路径:Setting ——> Appearance & Behavior ——> System Setting 取消勾选Reopen last ...

  9. pandas - parse-date

    1.pd.read_csv()函数中parse_dates()参数 boolean. True -> 解析索引 boolean. If True -> try parsing the in ...

  10. 第五周课程总结&实验报告(四)

    第五周课程总结 本周主要学习了 1.抽象类 抽象类的定义格式 abstract class抽象类名称{ 属性; 访问权限返回值类型方法名称(参数){ //普通方法 [return返回值]; } 访问权 ...