在知识图谱构建阶段的实体对齐和属性值决策、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等实例中,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知识。
        这篇文章主要是先叙述VSM和余弦相似度相关理论知识,然后引用阮一峰大神的例子进行解释,最后通过Python简单实现百度百科和互动百科Infobox的余弦相似度计算。

一. 基础知识

第一部分参考我的文章: 基于VSM的命名实体识别、歧义消解和指代消解

第一步,向量空间模型VSM
        向量空间模型(Vector Space Model,简称VSM)表示通过向量的方式来表征文本。一个文档(Document)被描述为一系列关键词(Term)的向量。
        简言之,判断一篇文章是否是你喜欢的文章,即将文章抽象成一个向量,该向量由n个词Term组成,每个词都有一个权重(Term Weight),不同的词根据自己在文档中的权重来影响文档相关性的重要程度。
        Document = { term1, term2, …… , termN }
        Document Vector = { weight1, weight2, …… , weightN }

 
        其中ti(i=1,2,...n)是一列相互之间不同的词,wi(d)是ti在d中对应的权值。
        选取特征词时,需要降维处理选出有代表性的特征词,包括人工选择或自动选择。
        第二步,TF-IDF
        特征抽取完后,因为每个词语对实体的贡献度不同,所以需要对这些词语赋予不同的权重。计算词项在向量中的权重方法——TF-IDF。
        它表示TF(词频)和IDF(倒文档频率)的乘积:

        词频(Term Frequency,简称TF)表示特征词出现的次数除以文章总词数:

其中TF表示某个关键词出现的频率,IDF为所有文档的数目除以包含该词语的文档数目的对数值。

|D|表示所有文档的数目,|w∈d|表示包含词语w的文档数目。
        由于“是”“的”“这”等词经常会出现,故需要IDF值来降低其权值。所谓降维,就是降低维度。具体到文档相似度计算,就是减少词语的数量。常见的可用于降维的词以功能词和停用词为主(如:"的","这"等),事实上,采取降维的策略在很多情况下不仅可以提高效率,还可以提高精度。
        最后TF-IDF计算权重越大表示该词条对这个文本的重要性越大。

第三步,余弦相似度计算
        这样,就需要一群你喜欢的文章,才可以计算IDF值。依次计算得到你喜欢的文章D=(w1, w2, ..., wn)共n个关键词的权重。当你给出一篇文章E时,采用相同的方法计算出E=(q1, q2, ..., qn),然后计算D和E的相似度。
        计算两篇文章间的相似度就通过两个向量的余弦夹角cos来描述。文本D1和D2的相似性公式如下:

其中分子表示两个向量的点乘积,分母表示两个向量的模的积。
        计算过后,就可以得到相似度了。我们也可以人工的选择两个相似度高的文档,计算其相似度,然后定义其阈值。同样,一篇文章和你喜欢的一类文章,可以取平均值或寻找一类文章向量的中心来计算。主要是将语言问题转换为数学问题进行解决。
        缺点:计算量太大、添加新文本需要重新训练词的权值、词之间的关联性没考虑等。其中余弦定理为什么能表示文章相似度间参考资料。

二. 实例解释

第二部分主要参考阮一峰大神的个人博客,举例解释VSM实现余弦相似度计算,强烈推荐大家去阅读阮神的博客:TF-IDF与余弦相似性的应用
        此部分为转载,阮神举了一个简单的例子(后面第三部分是相对复杂的例子):

  句子A:我喜欢看电视,不喜欢看电影。

  句子B:我不喜欢看电视,也不喜欢看电影。

请问怎样才能计算上面两句话的相似程度?
    基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度。

第一步,分词。

  句子A:我/喜欢/看/电视,不/喜欢/看/电影。

  句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。

第二步,列出所有的词。

  我,喜欢,看,电视,电影,不,也。

   第三步,计算词频。

  句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。

  句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。

   第四步,写出词频向量。

  句子A:[1, 2, 2, 1, 1, 1, 0]

  句子B:[1, 2, 2, 1, 1, 2, 1]

到这里,问题就变成了如何计算这两个向量的相似程度。

使用余弦这个公式,我们就可以得到,句子A与句子B的夹角的余弦。

余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。所以,上面的句子A和句子B是很相似的,事实上它们的夹角大约为20.3度。
    由此,我们就得到了"找出相似文章"的一种算法:

(1)使用TF-IDF算法,找出两篇文章的关键词;
(2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);
(3)生成两篇文章各自的词频向量;
(4)计算两个向量的余弦相似度,值越大就表示越相似。

"余弦相似度"是一种非常有用的算法,只要是计算两个向量的相似程度,都可用它。

PS:这部分内容完全照搬阮神的博客,因为真的讲得通俗易懂,我都有点爱不释手了。如果觉得版权不妥之处,我可以删除,同时推荐大家阅读他的更多文章。
        阮一峰个人博客链接:http://www.ruanyifeng.com/home.html

三. 代码实现

最后就简单讲解我的Python实现百度百科和互动百科关于消息盒InfoBox的相似度计算。其中爬虫部分参考我的博客:
        [Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

我已经通过Selenium爬取了所有“国家5A级景区”的InfoBox消息盒,并使用开源分词工具进行了分词处理,“故宫”数据如下所示:

        计算“百度百科-故宫”和“互动百科-故宫”的消息盒相似度代码如下。基本步骤:
        1.分别统计两个文档的关键词,读取txt文件,CountKey()函数统计
        2.两篇文章的关键词合并成一个集合MergeKey()函数,相同的合并,不同的添加
        3.计算每篇文章对于这个集合的词的词频 TF-IDF算法计算权重,此处仅词频
        4.生成两篇文章各自的词频向量
        5.计算两个向量的余弦相似度,值越大表示越相似

  1. # -*- coding: utf-8 -*-
  2. import time
  3. import re
  4. import os
  5. import string
  6. import sys
  7. import math
  8.  
  9. ''' ------------------------------------------------------- '''
  10. #统计关键词及个数
  11. def CountKey(fileName, resultName):
  12. try:
  13. #计算文件行数
  14. lineNums = len(open(fileName,'rU').readlines())
  15. print u'文件行数: ' + str(lineNums)
  16.  
  17. #统计格式 格式<Key:Value> <属性:出现个数>
  18. i = 0
  19. table = {}
  20. source = open(fileName,"r")
  21. result = open(resultName,"w")
  22.  
  23. while i < lineNums:
  24. line = source.readline()
  25. line = line.rstrip('\n')
  26. print line
  27.  
  28. words = line.split(" ") #空格分隔
  29. print str(words).decode('string_escape') #list显示中文
  30.  
  31. #字典插入与赋值
  32. for word in words:
  33. if word!="" and table.has_key(word): #如果存在次数加1
  34. num = table[word]
  35. table[word] = num + 1
  36. elif word!="": #否则初值为1
  37. table[word] = 1
  38. i = i + 1
  39.  
  40. #键值从大到小排序 函数原型:sorted(dic,value,reverse)
  41. dic = sorted(table.iteritems(), key = lambda asd:asd[1], reverse = True)
  42. for i in range(len(dic)):
  43. #print 'key=%s, value=%s' % (dic[i][0],dic[i][1])
  44. result.write("<"+dic[i][0]+":"+str(dic[i][1])+">\n")
  45. return dic
  46.  
  47. except Exception,e:
  48. print 'Error:',e
  49. finally:
  50. source.close()
  51. result.close()
  52. print 'END\n\n'
  53.  
  54. ''' ------------------------------------------------------- '''
  55. #统计关键词及个数 并计算相似度
  56. def MergeKeys(dic1,dic2):
  57. #合并关键词 采用三个数组实现
  58. arrayKey = []
  59. for i in range(len(dic1)):
  60. arrayKey.append(dic1[i][0]) #向数组中添加元素
  61. for i in range(len(dic2)):
  62. if dic2[i][0] in arrayKey:
  63. print 'has_key',dic2[i][0]
  64. else: #合并
  65. arrayKey.append(dic2[i][0])
  66. else:
  67. print '\n\n'
  68.  
  69. test = str(arrayKey).decode('string_escape') #字符转换
  70. print test
  71.  
  72. #计算词频 infobox可忽略TF-IDF
  73. arrayNum1 = [0]*len(arrayKey)
  74. arrayNum2 = [0]*len(arrayKey)
  75.  
  76. #赋值arrayNum1
  77. for i in range(len(dic1)):
  78. key = dic1[i][0]
  79. value = dic1[i][1]
  80. j = 0
  81. while j < len(arrayKey):
  82. if key == arrayKey[j]:
  83. arrayNum1[j] = value
  84. break
  85. else:
  86. j = j + 1
  87.  
  88. #赋值arrayNum2
  89. for i in range(len(dic2)):
  90. key = dic2[i][0]
  91. value = dic2[i][1]
  92. j = 0
  93. while j < len(arrayKey):
  94. if key == arrayKey[j]:
  95. arrayNum2[j] = value
  96. break
  97. else:
  98. j = j + 1
  99.  
  100. print arrayNum1
  101. print arrayNum2
  102. print len(arrayNum1),len(arrayNum2),len(arrayKey)
  103.  
  104. #计算两个向量的点积
  105. x = 0
  106. i = 0
  107. while i < len(arrayKey):
  108. x = x + arrayNum1[i] * arrayNum2[i]
  109. i = i + 1
  110. print x
  111.  
  112. #计算两个向量的模
  113. i = 0
  114. sq1 = 0
  115. while i < len(arrayKey):
  116. sq1 = sq1 + arrayNum1[i] * arrayNum1[i] #pow(a,2)
  117. i = i + 1
  118. print sq1
  119.  
  120. i = 0
  121. sq2 = 0
  122. while i < len(arrayKey):
  123. sq2 = sq2 + arrayNum2[i] * arrayNum2[i]
  124. i = i + 1
  125. print sq2
  126.  
  127. result = float(x) / ( math.sqrt(sq1) * math.sqrt(sq2) )
  128. return result
  129.  
  130. ''' -------------------------------------------------------
  131. 基本步骤:
  132. 1.分别统计两个文档的关键词
  133. 2.两篇文章的关键词合并成一个集合,相同的合并,不同的添加
  134. 3.计算每篇文章对于这个集合的词的词频 TF-IDF算法计算权重
  135. 4.生成两篇文章各自的词频向量
  136. 5.计算两个向量的余弦相似度,值越大表示越相似
  137. ------------------------------------------------------- '''
  138. #主函数
  139. def main():
  140. #计算文档1-百度的关键词及个数
  141. fileName1 = "BaiduSpider.txt"
  142. resultName1 = "Result_Key_BD.txt"
  143. dic1 = CountKey(fileName1, resultName1)
  144.  
  145. #计算文档2-互动的关键词及个数
  146. fileName2 = "HudongSpider\\001.txt"
  147. resultName2 = "HudongSpider\\Result_Key_001.txt"
  148. dic2 = CountKey(fileName2, resultName2)
  149.  
  150. #合并两篇文章的关键词及相似度计算
  151. result = MergeKeys(dic1, dic2)
  152. print result
  153.  
  154. if __name__ == '__main__':
  155. main()

其中由于只需要计算InfoBox消息盒的相似度,不会存在一些故不需要计算TF-IDF值,通过词频就可以表示权重,在代码中简单添加循环后,可以计算百度百科的“故宫”与互动百科不同实体的相似度,运行结果如下所示,可以发现“北京故宫”和“故宫”相似度最高。这也是简单的实体对齐。

 
        希望文章对你有所帮助,尤其是代码部分。如果文章中有错误或不足之处,还请海涵~毕竟作者自己也还在学习当中,如果有关于实体对齐和属性对齐的好方法和实现代码,也可以推荐给我,3Q。
        最后是参考和推荐一些相关的文章关于VSM和余弦相似度计算:
        TF-IDF与余弦相似性的应用(一):自动提取关键词 - 阮一峰
        TF-IDF与余弦相似性的应用(二):找出相似文章 - 阮一峰
        Lucene学习之计算相似度模型VSM(Vector Space Model)
        VSM向量空间模型对文本的分类以及简单实现 - java
        话说正确率、召回率和F值 - silence1214
        向量空间模型(VSM) - wyy_820211网易博客
        向量空间模型(VSM)的余弦定理公式(cos) - live41
        向量空间模型文档相似度计算实现(C#)- felomeng
        向量空间模型(VSM)在文档相似度计算上的简单介绍 - felomeng
        隐马尔科夫模型学习总结.pdf - a123456ei
        向量空间模型VSM - ljiabin
(By:Eastmount 2015-11-18 深夜5点   http://blog.csdn.net/eastmount/

Python简单实现基于VSM的余弦相似度计算的更多相关文章

  1. Spark Mllib里相似度度量(基于余弦相似度计算不同用户之间相似性)(图文详解)

    不多说,直接上干货! 常见的推荐算法 1.基于关系规则的推荐 2.基于内容的推荐 3.人口统计式的推荐 4.协调过滤式的推荐 协调过滤算法,是一种基于群体用户或者物品的典型推荐算法,也是目前常用的推荐 ...

  2. java算法(1)---余弦相似度计算字符串相似率

    余弦相似度计算字符串相似率 功能需求:最近在做通过爬虫技术去爬取各大相关网站的新闻,储存到公司数据中.这里面就有一个技术点,就是如何保证你已爬取的新闻,再有相似的新闻 或者一样的新闻,那就不存储到数据 ...

  3. 两矩阵各向量余弦相似度计算操作向量化.md

    余弦相似度计算: \cos(\bf{v_1}, \bf{v_2}) = \frac{\left( v_1 \times v_2 \right)}{||v_1|| * ||v_2|| } \cos(\b ...

  4. 转:Python 文本挖掘:使用gensim进行文本相似度计算

    Python使用gensim进行文本相似度计算 转于:http://rzcoding.blog.163.com/blog/static/2222810172013101895642665/ 在文本处理 ...

  5. <tf-idf + 余弦相似度> 计算文章的相似度

    背景知识: (1)tf-idf 按照词TF-IDF值来衡量该词在该文档中的重要性的指导思想:如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词. ...

  6. KNN cosine 余弦相似度计算

    # coding: utf-8 import collections import numpy as np import os from sklearn.neighbors import Neares ...

  7. 余弦相似度及基于python的三种代码实现、与欧氏距离的区别

    1.余弦相似度可用来计算两个向量的相似程度 对于如何计算两个向量的相似程度问题,可以把这它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向.两条线段之间形成一个夹角, ...

  8. 余弦相似度-Cosine Similar(转载)

    余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小.相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上. 与欧几里德距离类似,基于余弦相似度的计算方法也是把用 ...

  9. 【转】基于VSM的命名实体识别、歧义消解和指代消解

    原文地址:http://blog.csdn.net/eastmount/article/details/48566671 版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步 ...

随机推荐

  1. 《DSP using MATLAB》Problem 4.5

    1. 2. 3. 5.不会

  2. BL老师的建议,数学不好的,大数据一票否决--后赋从java转大数据

    __________________________ 作者:我是蛋蛋链接:https://www.zhihu.com/question/59593387/answer/167235075来源:知乎著作 ...

  3. Math类的学习 java 类库 API 文档学习

  4. Documentation/usb/gadget_configfs.txt

    Linux USB gadget configured through configfs 25th April 2013 Overview======== A USB Linux Gadget is ...

  5. ballerina 学习二十九 数据库操作

    ballerina 数据操作也是比较方便的,官方也我们提供了数据操作的抽象,但是我们还是依赖数据库驱动的. 数据库驱动还是jdbc模式的 项目准备 项目结构 ├── mysql_demo │ ├── ...

  6. xsl -fo 了解

    XSL-FO是用于格式化XML数据的语言,全称为Extensible Stylesheet Language Formatting Objects(格式化对象的可扩展样式表语言),是W3C参考标准,现 ...

  7. MySQL命令行--导入导出数据库

    MySQL命令行导出数据库:   1,进入MySQL目录下的bin文件夹:cd MySQL中到bin文件夹的目录 如我输入的命令行:cd C:\Program Files\MySQL\MySQL Se ...

  8. php 5.2.17 升级到5.3.29

    修改php.ini配置文件 register_globals =On include_path = ".;d:/testoa/webroot" error_reporting = ...

  9. PHP接口开发加密技术实例原理与例子

    下面例子简单讲解PHP接口开发加密技术:如app要请求用户列表,api是“index.php?module=user&action=list”app生成token = md5sum (‘use ...

  10. 实际用户ID和有效用户ID (二)

    看UNIX相关的书时经常能遇到这几个概念,但一直没有好好去理清这几个概念,以致对这几个概念一直一知半解.今天好好区分了一下这几个概念并总结如下.说白了这几个UID引出都是为了系统的权限管理. 下面分别 ...