wordvector to sentence vector

wordvector已经通过word2vec训练出来了，可是如何通过WV得到SV（Sentence Vector）？

思路1：

直接将句子的向量叠加取平均：效果很不好，每个词没有考虑权重，获取的向量会平均的靠近每一个词

思路2：

方法同上，可是使用关键词算法，对不同的词给与不同的权重：还没有测试，可是我一直对于短文本，关键词的常见算法很不放心。比如TF-IDF的权重，本身也只是一个假设，并不是真的意义上可以说明这个词很关键，并量化。只有到其他方法都不行，我才会考虑这个方法。

思路3：

使用gensim的doc2vec，也是参照了Mikolov2014年的文章“Distributed Representations of Sentences and Documents”.

花了一个早上学会了使用这个包，可是这个的实现实在是很难用，有关的使用案例又非常少，而且我也没有足够的时间去学习这篇文章，最后测试的结果并不好，所以此方法暂且按下不表。

思路4：

知乎上知友提供了一个思路，是一个浙大数学系的人在BAT工作的时候，他们探讨并最后确定实践的方案，据说效果非常好。

链接稍后附上，原理是：

我们word2vec训练出来的模型，构成了一个比如10000词的词典，而在词袋模型中，我们通常是用一个词是否出现、或者出现几次，构成一个稀疏矩阵。

如果一个句子是：我爱北京天安门

在word2vec训练下，与‘我’相似的的TOPN个词，分别有相似度对应，把这几个词的相似度，放到这个稀疏矩阵对应的位置上。相当于，我们从word2vec训练后，得到的信息A，把这个信息放到稀疏矩阵里。

这个思路其实非常巧妙，实现也容易。实现之后，对于520个问题的相似度（采用余弦相似度）匹配，发现TOP250对，都是非常准确的。相似度基本在0.3以上(相似度1为完全相同)的基本是很相似的问句。（因为做了one hot映射，所以相似度-不同的词数的曲线，会前几个骤减，）

到了这部，我们已经可以结合word2vec和one-hot映射得到句子向量，并根据句子向量得到相似度，可是我们依然无法解决长短句难以相似的问题。

首先，一个很长的句子，如果包含了大量的信息，明显是无法直接和短句子进行相似度匹配的，所以我们需要对特征进行提取。

改进思路：加入句法分析，使用分析得到的标签提取关键词，如果这样提取的效果不好，最后还是得尝试使用关键词算法。

wordvector to sentence vector的更多相关文章

Gensim进阶教程：训练word2vec与doc2vec模型
本篇博客是Gensim的进阶教程,主要介绍用于词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型在Gensim中的实现. Word2vec Word2vec并不是一个模型--它其 ...
[leetcode-557-Reverse Words in a String III]
Given a string, you need to reverse the order of characters in each word within a sentence whilestil ...
AI佳作解读系列(四)——数据增强篇
前言在深度学习的应用过程中,数据的重要性不言而喻.继上篇介绍了数据合成(个人认为其在某种程度上可被看成一种数据增强方法)这个主题后,本篇聚焦于数据增强来介绍几篇杰作! (1)NanoNets : H ...
通过Visualizing Representations来理解Deep Learning、Neural network、以及输入样本自身的高维空间结构
catalogue . 引言 . Neural Networks Transform Space - 神经网络内部的空间结构 . Understand the data itself by visua ...
google tensorflow bert代码分析
参考网上博客阅读了bert的代码,记个笔记.代码是 bert_modeling.py 参考的博客地址: https://blog.csdn.net/weixin_39470744/article/de ...
26 THINGS I LEARNED IN THE DEEP LEARNING SUMMER SCHOOL
26 THINGS I LEARNED IN THE DEEP LEARNING SUMMER SCHOOL In the beginning of August I got the chance t ...
【paddle学习】词向量
http://spaces.ac.cn/archives/4122/ 关于词向量讲的很好上边的形式表明,这是一个以2x6的one hot矩阵的为输入.中间层节点数为3的全连接神经网络层,但你看右 ...
2017年计算语义相似度最新论文，击败了siamese lstm，非监督学习
Page 1Published as a conference paper at ICLR 2017AS IMPLE BUT T OUGH - TO -B EAT B ASELINE FOR S EN ...
AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记
AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记这 ...

随机推荐

3D Slicer 4.7.0 VS 2010 Compile 编译
花了将近一周的时间的,终于在VS2010成功的编译了最新版的3D Slicer 4.7.0,感觉快要崩溃了.Slicer用了20多个外部的库,全都要一起编译,完整编译一次起码要七八个小时,光VS的Ou ...
vue使用render渲染&jsx
vue&jsx文档 vue实例属性 // App.ts import hBtn from './components/hBtn' import hUl from './components/h ...
.NET Core开发日志——结构化日志
在.NET生态圈中,最早被广泛使用的日志库可能是派生自Java世界里的Apache log4net.而其后来者,莫过于NLog.Nlog与log4net相比,有一项较显著的优势,它支持结构化日志. 结 ...
Ubuntu下文件所属用户的说明
最近做项目发现,当你使用sudo建立新的文件或者目录时,该文件的所有者是root用户,此种情况下,使用tensorflow加速就会报错,除非你把文件的权限改成777,但是这样不安全. 纠正的做法是,建 ...
1.7Oob 静态变量静态方法
1)静态方法中可以直接调用同类中的静态成员,但不能直接调用非静态成员 2)如果希望在静态方法中调用非静态变量,可以通过创建类的对象,然后通过对象来访问非静态变量. 3)静态方法中不能直接调用非静态方法 ...
notbook1.1
1)95年创建java语言 2)1.2版本使java具有了生产能力 3)1.8版本增加新的API lamda 函数式编程1.9 使之模块化 4)java编程的基本套路 1. 编写源代码2. 编译源程 ...
mac下安装debug坑
mac默认情况下的php版本是很低的,当你直接用phpize的时候默认是使用mac默认安装的phpize版本,这个时候查看Phpinfo的时候是看不到xdebug的,这时候查看错误日志会收到这样的报错 ...
LeetCode 852 Peak Index in a Mountain Array 解题报告
题目要求 Let's call an array A a mountain if the following properties hold: A.length >= 3 There exist ...
linux根文件系统制作，busybox启动流程分析
分析 busybox-1.1.6 启动流程,并制作一个小的根文件系统源码百度云链接:https://pan.baidu.com/s/1tJhwctqj4VB4IpuKCA9m1g 提取码 :l10 ...
sublime 可能卡的原因
在重新安装编辑器的时候,配置javascript提示,发现这个插件安装之后,sublime变得非常卡,按照我电脑的性能,同时开着的atom敲代码都不卡.于是把这个插件卸载之后,sublime变得非常流 ...

wordvector to sentence vector

wordvector to sentence vector的更多相关文章

随机推荐

热门专题