wordvector to sentence vector
wordvector已经通过word2vec训练出来了,可是如何通过WV得到SV(Sentence Vector)?
思路1:
直接将句子的向量叠加取平均:效果很不好,每个词没有考虑权重,获取的向量会平均的靠近每一个词
思路2:
方法同上,可是使用关键词算法,对不同的词给与不同的权重:还没有测试,可是我一直对于短文本,关键词的常见算法很不放心。比如TF-IDF的权重,本身也只是一个假设,并不是真的意义上可以说明这个词很关键,并量化。只有到其他方法都不行,我才会考虑这个方法。
思路3:
使用gensim的doc2vec,也是参照了Mikolov2014年的文章“Distributed Representations of Sentences and Documents”.
花了一个早上学会了使用这个包,可是这个的实现实在是很难用,有关的使用案例又非常少,而且我也没有足够的时间去学习这篇文章,最后测试的结果并不好,所以此方法暂且按下不表。
思路4:
知乎上知友提供了一个思路,是一个浙大数学系的人在BAT工作的时候,他们探讨并最后确定实践的方案,据说效果非常好。
链接稍后附上,原理是:
我们word2vec训练出来的模型,构成了一个比如10000词的词典,而在词袋模型中,我们通常是用一个词是否出现、或者出现几次,构成一个稀疏矩阵。
如果一个句子是:我 爱 北京 天安门
在word2vec训练下,与‘我’相似的的TOPN个词,分别有相似度对应,把这几个词的相似度,放到这个稀疏矩阵对应的位置上。相当于,我们从word2vec训练后,得到的信息A,把这个信息放到稀疏矩阵里。
这个思路其实非常巧妙,实现也容易。实现之后,对于520个问题的相似度(采用余弦相似度)匹配,发现TOP250对,都是非常准确的。相似度基本在0.3以上(相似度1为完全相同)的基本是很相似的问句。 (因为做了one hot映射,所以相似度-不同的词数的曲线,会前几个骤减,)
到了这部,我们已经可以结合word2vec和one-hot映射得到句子向量,并根据句子向量得到相似度,可是我们依然无法解决长短句难以相似的问题。
首先,一个很长的句子,如果包含了大量的信息,明显是无法直接和短句子进行相似度匹配的,所以我们需要对特征进行提取。
改进思路:加入句法分析,使用分析得到的标签提取关键词,如果这样提取的效果不好,最后还是得尝试使用关键词算法。
wordvector to sentence vector的更多相关文章
- Gensim进阶教程:训练word2vec与doc2vec模型
本篇博客是Gensim的进阶教程,主要介绍用于词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型在Gensim中的实现. Word2vec Word2vec并不是一个模型--它其 ...
- [leetcode-557-Reverse Words in a String III]
Given a string, you need to reverse the order of characters in each word within a sentence whilestil ...
- AI佳作解读系列(四)——数据增强篇
前言 在深度学习的应用过程中,数据的重要性不言而喻.继上篇介绍了数据合成(个人认为其在某种程度上可被看成一种数据增强方法)这个主题后,本篇聚焦于数据增强来介绍几篇杰作! (1)NanoNets : H ...
- 通过Visualizing Representations来理解Deep Learning、Neural network、以及输入样本自身的高维空间结构
catalogue . 引言 . Neural Networks Transform Space - 神经网络内部的空间结构 . Understand the data itself by visua ...
- google tensorflow bert代码分析
参考网上博客阅读了bert的代码,记个笔记.代码是 bert_modeling.py 参考的博客地址: https://blog.csdn.net/weixin_39470744/article/de ...
- 26 THINGS I LEARNED IN THE DEEP LEARNING SUMMER SCHOOL
26 THINGS I LEARNED IN THE DEEP LEARNING SUMMER SCHOOL In the beginning of August I got the chance t ...
- 【paddle学习】词向量
http://spaces.ac.cn/archives/4122/ 关于词向量讲的很好 上边的形式表明,这是一个以2x6的one hot矩阵的为输入.中间层节点数为3的全连接神经网络层,但你看右 ...
- 2017年计算语义相似度最新论文,击败了siamese lstm,非监督学习
Page 1Published as a conference paper at ICLR 2017AS IMPLE BUT T OUGH - TO -B EAT B ASELINE FOR S EN ...
- AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记
AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记 这 ...
随机推荐
- 慢慢看Spring源码
1. 要想在java技术上提升一下,不看一下java源码是不行的,jdk源码,框架源码等.但是源码那么多,专门去看源码肯定很枯燥,所以就得一点一点看,坚持下去.有一点心得就记一点,如org.sprin ...
- 阿里云服务器tomcat ./shutdown.sh关闭命令报错Could not contact localhost:8005. Tomcat may not be running.
JDK1.8运行./shutdown 停止tomcat报错: 昨天购买了一个阿里云服务器,由于时间问题今天才来启动tomcat,启动的时候才发现跟我以前使用的服务器不太一样,去网上搜索了半天以为是to ...
- Devart.Data.Oracle.OracleException: ORA-01480: STR 绑定值的结尾 Null 字符缺失,entity framework
1. 问题描述 这个问题主要的原因是 使用Devart oracle更新的时候 有中文的话 那就会出这个,其实就是 我们sqlserver 你没有加 N'' 这种的去更新 2. 解决方案 在连接字符串 ...
- python爬虫之真实世界中的网页解析
Request和Response Request是我们平常浏览网页,向网站所在的服务器发起请求,而服务器收到请求后,返回给我们的回应就是Response,这种行为就称为HTTP协议,也就是客户端(浏览 ...
- pycharm 下的djiango使用
创建工程可以在虚拟环境下运行,创建工程后使用命令 在python 下的命令窗口(Terminal) python3 manage.py startapp django_web (或者 python3替 ...
- [No0000F5]C# 类(Class)
当你定义一个类时,你定义了一个数据类型的蓝图.这实际上并没有定义任何的数据,但它定义了类的名称意味着什么,也就是说,类的对象由什么组成及在这个对象上可执行什么操作.对象是类的实例.构成类的方法和变量成 ...
- tensoflow模型中提示:ValueError: Variable rnn/basic_rnn_cell/kernel already exists, disallowed. Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope? 解决办法
在利用tensorflow框架进行模型训练的时候,有时我们需要多次训练对结果求均值来得到一个均衡的评测结论.比如训练十次求平均值.但是tf的本质就是图,当变量第一次定义使用后,第二次再使用就是提示: ...
- Linux下的几种IPC方式及其C语言实现
写在前面:本博客为本人原创,严禁任何形式的转载!本博客只允许放在博客园(.cnblogs.com),如果您在其他网站看到这篇博文,请通过下面这个唯一的合法链接转到原文! 本博客全网唯一合法URL:ht ...
- extundelete fuser
[extundelete ] fuser -mv /dev/sda6 https://blog.csdn.net/xwl145/article/details/38896699 多列排序[sort]h ...
- day0311 深浅copy
1.赋值运算 l1 = [1,2,3,['barry','alex']] l2 = l1 l1[0] = 111 print(l1) # [111, 2, 3, ['barry', 'alex']] ...