fastText(三)：微博短文本下fastText的应用（二）

上一篇讲到，fastText在训练数据中过拟合的问题。接下来将介绍一些提高fastText泛化能力的尝试。

模型泛化
使用过fastText的人，往往会被它的很多特性征服，例如训练速度、兼具word embedding和分类等。但是正如一个硬币有正反两面，fastText也并非完美，fastText的泛化性是它的短板。

增加正则项
在Logistic Regression中，调节正则项能够提高模型的泛化性能。通过上一篇博客可知，fastText的代价函数是：

L(d,h)=−∑i=1CyilogPi=−∑i=1CyilogeθTih∑Cj=1eθTjh
L(d,h)=−∑i=1Cyilog⁡Pi=−∑i=1Cyilog⁡eθiTh∑j=1CeθjTh
增加正则项后，代价函数：

L(d,h)=−∑i=1CyilogPi+λ∑i=1V∥wi∥+μ∑j=1C∥θj∥
L(d,h)=−∑i=1Cyilog⁡Pi+λ∑i=1V‖wi‖+μ∑j=1C‖θj‖
此时词向量的更新方式变为：

wj=wj−η∑i=1C(Pi−yi)θi−λwj, j=1,2,...,L
wj=wj−η∑i=1C(Pi−yi)θi−λwj, j=1,2,...,L
增加了正则项后，同一个句子的词向量无法按照相同的方向更新，词向量间的相似便无法保证。此时，fastText与常见的前馈神经网络（DNN）没有任何差别，它的很多优秀的特质全部丧失了。个人猜测，这是Mikolov大神为什么没有在word2vec或者fastText中增加正则项的原因。

Dropout
Dropout是常见的增加神经网络泛化性能的trick，它按照一定的概率将神经网络单元暂时从网络中丢弃。fastText作为一种浅层神经网络，能够加入dropout的地方非常有限：

在唯一的隐层，增加dropout，即hidden=dropout(1n∑ni=1wi)hidden=dropout(1n∑i=1nwi)
在输入层增加dorpout，即hidden=1n∑ni=1dropout(wi)hidden=1n∑i=1ndropout(wi)。在输入层dropout中，有两种方法：
按照概率，随机干掉某个词
按照概率，随机干掉某个词的某个维度
在微博场景下，第二种方法的第一个子方法是最好的，即按照概率，随机干掉某个词。在引入dropout时，最开始通过等概率干掉某个词，即

dropout(wi)={wi if p>t0 otherwise
dropout(wi)={wi if p>t0 otherwise
经过试验发现效果不好，模型对于某些关键词的学习效果不佳，例如上面提到的皮肤问题。考虑到微博广告文本中有许多强特征（关键词），它们的存在干扰了模型的泛化能力，因此等概率dropout是不适用的，需要一种不等概率的dropout——category dropout，简记为cdropout。在cdropout中，某个词被干掉的概率与它在某个类别的出现频率相关：

cdropout(c,wi)={wi if p>1−t(c,i)0 otherwise
cdropout(c,wi)={wi if p>1−t(c,i)0 otherwise
其中cc表示训练样本的类别，t(c,i)t(c,i)表示词ii在类别cc中的阈值。设计t(c,i)t(c,i)时，需要考虑两个问题：

cdropout会干掉那些强特征，使模型能够从剩余的句子中，寻找有用的信息。
模型会把某些无用的词当作特征。
基于上述两个问题，t(c,i)t(c,i)的形式如下：

t(c,i)=max(0.5,log7n(c,i)10)
t(c,i)=max(0.5,log7n(c,i)10)
其中n(c,i)n(c,i)表示词ii在类别cc中出现的概率。t(c,i)t(c,i)既保证强特征不会被完全干掉，也使模型能够从剩余的句子中寻找有用的信息。使用上述方法后，fastText对于关键词的预测效果如下所示：

关键词类别
祛痘 label祛痘 1.00001 label邮政业务 1e-05 label买点卡 1e-05
痘痘 label祛痘 1.00001 label邮政业务 1e-05 label买点卡 1e-05
黑头 label祛痘 1.00001 label邮政业务 1e-05 label买点卡 1e-05
长痘 label祛痘 1.00001 label邮政业务 1e-05 label买点卡 1e-05
痤疮 label祛痘 1.00001 label邮政业务 1e-05 label买点卡 1e-05
痘坑 label祛痘 1.00001 label邮政业务 1e-05 label买点卡 1e-05
皮肤问题 label美甲美瞳 1.00001 label祛痘 1.05769e-05 label美发护发 1.00299e-05
关键词类别
婚纱照 label美甲美瞳 1.00001 label祛痘 1.05769e-05 label美发护发 1.00299e-05
婚纱照 label旅行跟拍 0.549722 label婚纱摄影 0.450298 label邮政业务 1e-05
相册 label婚纱摄影 1.00001 label邮政业务 1e-05 label买点卡 1e-05
拍一套 label旅行跟拍 1.00001 label邮政业务 1e-05 label买点卡 1e-05
婚照 label婚纱摄影 1.00001 label邮政业务 1e-05 label买点卡 1e-05
样片 label婚纱摄影 1.00001 label祛痘 1.00004e-05 label美甲美瞳 1.00003e-05
金夫人 label婚纱摄影 1.00001 label减肥瘦身 1.00005e-05 label美发护发 1.00002e-05
客片 label婚纱摄影 1.00001 label旅行跟拍 1.00002e-05 label国内游 1e-05
显然，加入cdropout后，类别准确度有了长足的进步。与此同时，cdropout也兼顾了词的余弦相似度

祛痘
黑头 0.962714
粉刺 0.941785
痤疮 0.941042
毛孔 0.939662
痘坑 0.937129
长痘 0.934889
青春痘 0.915363
痘 0.910426
痘痘 0.910171
祛 0.909382
1
2
3
4
5
6
7
8
9
10
11
婚纱照
摄 0.921392
婚照 0.905441
海景 0.848199
造 0.832112
全送 0.831038
婚纱 0.826123
夜景 0.818146
放大 0.81653
视觉 0.807251
这座 0.804767
1
2
3
4
5
6
7
8
9
10
11
可见cdropout，不仅提高了模型的泛化性能，而且保证了fastText的很多优秀特质。

总结
通过cdropout，fastText的泛化性能得到了长足的进步，但是对于实际场景，尤其是微博短文本场景，依然是不够。在实际应用中，我们做了很多模型以外的工作，例如规则、爬虫等等。希望这三篇博客，能够对你有所帮助！吃饭去喽～

---------------------
作者：cptu
来源：CSDN
原文：https://blog.csdn.net/ackclinkz/article/details/81907903
版权声明：本文为博主原创文章，转载请附上博文链接！

fastText(三)：微博短文本下fastText的应用（二）的更多相关文章

fastText(二)：微博短文本下fastText的应用（一）
众所周知,微博中的内容以短文本居多,文本内容随意性极强,这给建模增加了很大的难度.针对这一问题,这里分享一下fastText在微博短文本的应用. 任务目标简单介绍一下整个任务的目标:给微博内容打上标签 ...
文本情感分析(二)：基于word2vec、glove和fasttext词向量的文本表示
上一篇博客用词袋模型,包括词频矩阵.Tf-Idf矩阵.LSA和n-gram构造文本特征,做了Kaggle上的电影评论情感分类题. 这篇博客还是关于文本特征工程的,用词嵌入的方法来构造文本特征,也就是用 ...
JAVA之编码---->CSV在文本下是正常的，用EXCEL打开是乱码的问题
JAVA之编码---->CSV在文本下是正常的,用EXCEL打开是乱码的问题在JAVA下输出文件流,保存成CSV(用UTF-8)文件,怎么处理用EXCEL下是乱码,但是在记事本等其他软件都是正 ...
java清除所有微博短链接 Java问题通用解决代码
java实现微博短链接清除,利用正则,目前只支持微博短链接格式为"http://域名/字母或数字8位以内"的链接格式,现在基本通用如果链接有多个,返回结果中会有多出的空格,请注意 ...
【转】URL短地址压缩算法微博短地址原理解析（Java实现）
转自: URL短地址压缩算法微博短地址原理解析 (Java实现) 最近,项目中需要用到短网址(ShortUrl)的算法,于是在网上搜索一番,发现有C#的算法,有.Net的算法,有PHP的算法,就是没 ...
CSS 文本下划线 text-decoration
定义和用法 text-decoration 属性规定添加到文本的修饰. 可能的值值描述 none 默认.定义标准的文本. underline 定义文本下的一条线. overline 定义文本上 ...
文本主题模型之LDA(二) LDA求解之Gibbs采样算法
文本主题模型之LDA(一) LDA基础文本主题模型之LDA(二) LDA求解之Gibbs采样算法文本主题模型之LDA(三) LDA求解之变分推断EM算法(TODO) 本文是LDA主题模型的第二篇, ...
Android平台下利用zxing实现二维码开发
Android平台下利用zxing实现二维码开发现在走在大街小巷都能看到二维码,而且最近由于项目需要,所以研究了下二维码开发的东西,开源的二维码扫描库主要有zxing和zbar,zbar在iPos平 ...
CentOS下Docker与.netcore(二) 之 Dockerfile
CentOS下Docker与.netcore(一) 之安装 CentOS下Docker与.netcore(二) 之 Dockerfile CentOS下Docker与.netcore(三)之三剑客 ...

随机推荐

stm32f103c8t6命名
stm32f103c8t6和stm32f103rbt c8:48脚.64k :rb:64脚.128k.
<!--#include 引入失败
在html中使用了<!--#include file="a.html">,结果发现页面上并没有引入到a.html页面,F12看是以注释的形式展示出来了,百度了很久. 最 ...
MAPZONE GIS SDK接入Openlayers3之五——图形编辑工具
图形编辑工具提供对要素图形进行增.删.改的功能,具体包括以下几种工具类型: 浏览工具选择工具创建要素工具删除命令分割工具合并命令节点编辑工具修边工具撤销命令重做命令工具的实现基本上 ...
bash 文件头尾插入字符
头部插入:sed -i '1i\Insert this line' file.txt 尾部插入:echo "hehe" >> tmp.txt
Solidworks如何制作动画2
切换到Motion Study,然后定位到任意一帧,然后就可以摆弄当前装配体到新的位置和姿态,然后此时的时间和姿态就被记录下来了.以此类推可以多做几帧. 动画做好之后,点击播放可以预览.如果要保存,先 ...
Autolayout和VFL
Autolayout,開始于iOS6.0 一.什么时候用autolayout比較适合 1.不负责任的骑墙派说法:apple的设备越来越多了,你的应用应该都使用al. (而且用sb) 2.要 ...
SVN系列之—-SVN版本回滚的办法
例:SVN版本为:TortoiseSVN 1.9.7 一.SVN简介 subversion(简称svn)是一种跨平台的集中式版本控制工具,支持linux和windows. 版本控制解决了:*代码管理混 ...
Cocos2d-x 精灵碰撞检測（方法一）
声明函数碰撞检測函数,两个精灵和重写update bool isCollision( CCPoint p1,CCPoint p2,int w1,int h1,int w2,int h2 ); CCSp ...
Vue 建立工程
npm install -g vue npm install -g vue-cli vue init webpack my-project cd my-project npm isntall npm ...
[转载]CodeIgniter配置之URL
应该有很多项目中会有这样的情况,通过 http://pc.local 可以访问,若通过 http://localhost/pc/public 则会出现一些图片.样式显示不到,超链接出错的情况,项目的移 ...

fastText(三)：微博短文本下fastText的应用（二）

fastText(三)：微博短文本下fastText的应用（二）的更多相关文章

随机推荐

热门专题