利用卷积神经网络(CNN)构造社区问答系统
/* 版权声明:能够随意转载,转载时请标明文章原始出处和作者信息 .*/
author: 张俊林
问答社区算是一类已经比較成熟的互联网应用了,国外的比方Quora、StackOverflow。国内的比方老派的百度知道,新一代的知乎,都算是代表性的社交类问答社区。问答社区本质上就是个人肉知识库,通过一段时间的积累,会累积相当多以<问题。答案>方式存在的知识。
除了这些通用的问答社区外还有非常多垂直领域的问答社区,比方我们畅捷通的会计家园。就是拥有数百万財会人员的知识交流社区,財会人员能够在社区提出自己的一些工作和生活中的疑问,会有非常多热心网友或领域专家帮你答疑解惑,会计家园长这个样子:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" />
这样的问答社区往往有信息冗余的问题。就是说历史上已经有不少同样的问题以及答案,可是非常多用户并不清楚这点,往往还会问出同样的问题,当然两个问题虽然是同一个问题,可是因为语言表达的灵活性,在字面上看起来可能问题还是有区别。就比方以下两个问题:
问题A:注冊资本认缴制下实收资本的账务怎样处理?
问题B:认缴制下成立的公司。一開始的账务处理是什么样的,实收资本要做吗?求解
为了能够添加信息的复用率。我们已经使用自然语言处理、搜索技术以及一些深度学习的技术做了问题推荐系统,在用户提问的时候就将语义相关的问题推荐出来。假设用户看到类似的问题直接看答案即可,所以用户提问的时候看到的这样的交互界面:
可是我们想更进一步,是否能在用户问出问题后,直接把答案交给用户?说实话,这事实上是搜索引擎的近乎终极目标。就是用户提出疑问,直接给出答案。眼下搜索引擎的交互方式还是比較原始的,比方用户发出问题。然后人要在搜索结果里面再筛一遍,找到真正自己关心的答案。所以事实上是技术+人工的方式。将来的搜索引擎交互方式应该是用户问问题。搜索引擎直接给答案。当然详细体现形式能够有多种,比方眼下比較火的聊天机器人本质上就是在往这个目标走的一个中间形式。也就是说是这样的方式:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" />
将来的话,假设全息投影技术普及后,应该就是科幻电影里常见的交互模式。那时候随时随地召唤出全息天使全天候为您服务,您不用操心雾霾天他有没胆出门的问题…..比方以这样的附体方式:
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" />
嗯,上面是口味比較重的用户的选择,大多数用户可能会更喜欢这样的附体方式:
闲话少叙,让我们言归正传而且紧张严肃起来。形式化地说。如今我们面临的是例如以下问题:
找到与Qnew语义同样的问题Qi后,将Qi相应的答案Ai推荐给用户,就完毕了用户提出新问题后。直接告诉用户答案的任务。所以这个问题本质上是个问句Paraphrase问题。就是说推断两个句子是否语义等价的问题。
(读者小Y画外音Qi:请说人话!
作者小张回答Ai:请去京东买本初中数学教材。)
我们用Word Embedding加上卷积神经网络CNN来解决问题。CNN不必说了,眼下在图像处理领域基本已经横扫,未来两年出现1000层CNN网络叠加起来解决应用问题也不必惊奇。
Word Embedding更是深度学习在文本处理领域的技术基石。假设如今做应用不用这两样东西预计你出门不太好意思跟同行打招呼吧。为了面子上挂得住,咱得掏出这两把刷子刷刷。以证明咱确实拥有这两把刷子。
一种直观的思路会用两个CNN来解决问题。其架构图例如以下:
就是说首先把两个要推断语义是否等价的句子转换为Word Embedding形式,作为整个神经网络的输入层,然后CNN1通过卷积层和池化层来抽取出一个句子的语义特征,CNN2抽取出另外一个句子的语义特征,之后两个CNN的池化层拼接起来作为兴许三层神经网络的输入层,兴许三层神经网络通过隐层对两组语义特征进行非线性变换。最后通过线性层分类输出,得出两个句子是语义同样(比方输出1)或者语义不同(比方输出0)的分类结果。
可是,我们想换种思路来做这个任务。能不能把输入层改造成真正的二维结构。就像一张图片那样。然后套上一个CNN来解决问题呢?让我们来试试,首先第一个问题是。给定两个句子SentenceA和SentenceB,怎样把CNN的输入层改造成类似图片的二维结构?
在做之前,我们假设两个句子例如以下:(说明:这个样例仅仅是为了方便绘图和举例,真实的训练和測试样例是会计家园的实际问题对,长度大约在10几个字到几十个字左右)
SentenceA:电脑多少钱?
SentenceB:计算机价格?
能够这么做:
Step1:把SentenceA分割成3-Gram表达形式,于是SentenceA变成例如以下形式
SetA={电脑多。脑多少。多少钱}
Step2:把SentenceB分割成3-Gram表达形式。于是SentenceB变成例如以下形式
SetB={计算机,算机价,机价格}
Step3:把SetA的元素作为纵坐标。SetB的元素作为横坐标,将两个输入改造成二维结构,就像以下的图形:
Step4:那么这个矩阵格子里面的值怎么填呢?用横坐标和纵坐标相应的语言片段的语义类似性填充就能够。于是新问题又产生了,给了两个语言片段。比方“多少钱”和“机价格”,怎样计算它们的语义类似性呢。请移步看Step5;
Step5:计算两个语言片段的语义类似性。
此时锣鼓点响起,我们的小杀器Word Embedding该粉墨登场了。
首先能够用Word2Vec训练出每一个汉字的Word Embedding,也就是其低维向量表示。一定程度上代表其包括的语义信息。
那么3-GRAM包括了三个汉字,这3-GRAM的语义向量Word Embedding该怎么表示?能够简单粗暴地把其三个汉字的Word Embedding相应维度上的值累加求和即可,看上去霸王硬上弓包办婚姻,可是事实上这是一种通常的做法,一般应用效果还能够。嗯,我们土豪界办事情通常就是这么任性。
这样两个3-GRAM片段相应的Word Embedding都有了,剩下的就简单了,它们两个的语义类似性直接用Cosine计算两个Word Embedding在语义空间的向量夹角就成。一般语义越类似。Cosine得分越大。
Step 6:有了Step5的锦囊妙计。就能够完形填空。填充矩阵中相应格子的值了,假设填充完图形例如以下:
那么类似图片的二维输入结构就完毕了。
这个矩阵代表什么含义呢?代表的是两个句子随意两个语言片段之间的语义类似性。
有了上面填充好的二维矩阵作为神经网络的输入层,那么后面就简单了,你就当做输入的是个图片。然后直接套上一层或者多层CNN,最后再加上一个全联接分类层就齐活了。改造完的神经网络结构例如以下:
敲定了网络结构。剩下的就是训练神经网络了。我们利用眼下已经做好的问题推荐系统。通过人工找到语义同样表达不同的句子对作为训练集的正例,把一些语义相近可是不同的句子对作为训练集的负例。然后就能够训练这个基于Word Embedding和CNN的神经网络了。
通过实验我们发现,多层CNN并不能带来性能优势。所以终于仍然採用了一层CNN结构。然后用Torch 7训练模型。调整超參数比方隐层神经元个数,卷积层filter的个数等,终于最优分类精度在90.36%左右。效果还不错。说明祭出CNN这个大杀器和Word Embedding这个小杀器还是有效的。
当然这跟负例中两个句子对的语义相关性有一定关系,非常明显负例句子对语义相关性越高。分类难度越大,后面我们还会不断添加分类难度对模型进行调整。
致谢:感谢畅捷通公司智能平台沈磊、薛会萍、桑海岩和黄通文等同事在构建模型和整理训练数据方面的工作。
扫一扫关注微信号:“布洛卡区” ,深度学习在自然语言处理等智能应用的技术研讨与科普公众号。
利用卷积神经网络(CNN)构造社区问答系统的更多相关文章
- 使用深度双向LSTM模型构造社区问答系统
所看到的. 首先强调一下,这个结构也是一个解决对照两个句子类似性的通用RNN解决方式,不只能够使用在问答社区.凡是涉及到对照两个句子或者实体关系的场合全然能够套用这个模型来解决.这点希望读者注意. 首 ...
- 卷积神经网络(CNN)基础介绍
本文是对卷积神经网络的基础进行介绍,主要内容包含卷积神经网络概念.卷积神经网络结构.卷积神经网络求解.卷积神经网络LeNet-5结构分析.卷积神经网络注意事项. 一.卷积神经网络概念 上世纪60年代. ...
- 卷积神经网络(CNN)反向传播算法
在卷积神经网络(CNN)前向传播算法中,我们对CNN的前向传播算法做了总结,基于CNN前向传播算法的基础,我们下面就对CNN的反向传播算法做一个总结.在阅读本文前,建议先研究DNN的反向传播算法:深度 ...
- 卷积神经网络CNN总结
从神经网络到卷积神经网络(CNN)我们知道神经网络的结构是这样的: 那卷积神经网络跟它是什么关系呢?其实卷积神经网络依旧是层级网络,只是层的功能和形式做了变化,可以说是传统神经网络的一个改进.比如下图 ...
- 深度学习之卷积神经网络(CNN)详解与代码实现(二)
用Tensorflow实现卷积神经网络(CNN) 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10737065. ...
- 深度学习之卷积神经网络(CNN)详解与代码实现(一)
卷积神经网络(CNN)详解与代码实现 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10430073.html 目 ...
- Neuromation新研究:利用卷积神经网络进行儿童骨龄评估
近日,Neuromation 团队在 Medium 上撰文介绍其最新研究成果:利用卷积神经网络(CNN)评估儿童骨龄,这一自动骨龄评估系统可以得到与放射科专家相似或更好的结果.该团队评估了手骨不同区域 ...
- 卷积神经网络CNN学习笔记
CNN的基本结构包括两层: 特征提取层:每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征.一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来: 特征映射层:网络的每个计算层由多 ...
- paper 162:卷积神经网络(CNN)解析
卷积神经网络(CNN)解析: 卷积神经网络CNN解析 概揽 Layers used to build ConvNets 卷积层Convolutional layer 池化层Pooling Layer ...
随机推荐
- GitHub中国区前100名到底是什么样的人?(转载)
本文根据Github公开API,抓取了地址显示China的用户,根据粉丝关注做了一个排名,分析前一百名的用户属性,剖析这些活跃在技术社区的牛人到底是何许人也!后续会根据我的一些经验出品<技术人员 ...
- STM32F407 SPI 个人笔记
概述 SPI ,Serial Peripheral interface,串行外围设备接口 全双工,同步的通信总线,四根线 主要应用在 EEPROM,FLASH,实时时钟,AD转换器,还有数字信号处理器 ...
- 【转载】CentOS7 安装Chrome浏览器
本篇文章主要记录如何在CentOS7.0上安装Chrome浏览器. 方法1: Google官方源在国内可能无法正常访问,故而添加Fedora中文社区提供的镜像源: sudo wget http://r ...
- MySQL5.7 MTS work线程stack
复制现象是,slave线程状态正常,但是sql 线程不应用,所以delay越来越大,查看复制状态 mysql> show slave status\G********************** ...
- 【Luogu】P2831愤怒的小鸟(手算抛物线+状压DP)
题目链接 设f[s]表示二进制集合表示下的s集合都打掉用了多少小鸟. 预处理出lne[i][j]表示i.j确定的抛物线能打掉的小鸟集合. 于是就有f[s|lne[i][j]]=min(f[s|lne[ ...
- PAT天梯赛练习题——L3-007. 天梯地图(多边权SPFA)
L3-007. 天梯地图 时间限制 300 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 陈越 本题要求你实现一个天梯赛专属在线地图,队员输入自己学校 ...
- BZOJ 2946 [Poi2000]公共串 ——后缀自动机
任意选择一个串作为模式串,构建出后缀自动机. 然后用其他的串在后缀自动机上跑匹配. 然后就到了理解后缀自动机性质的时候. 在某一个节点的最大值是可以沿着parent树上传的. 然后用dp[i][j]表 ...
- BZOJ 3527 [Zjoi2014]力 ——FFT
[题目分析] FFT,构造数列进行卷积,挺裸的一道题目诶. 还是写起来并不顺手,再练. [代码] #include <cmath> #include <cstdio> #inc ...
- POJ 3581 Sequence ——后缀数组 最小表示法
[题目分析] 一见到题目,就有了一个显而易见obviously的想法.只需要每次找到倒过来最小的那一个字符串翻转就可以了. 然而事情并不是这样的,比如说505023这样一个字符串,如果翻转了成为320 ...
- SSD ECC中的LDPC编解码原理
转自:http://blog.csdn.net/zhuzongpeng/article/details/78899198 目前SSD中ECC纠错代码主要两种BCH和LDPC.不过,随着SSD对ECC纠 ...