fastText入门
简介
fastText是Facebook AI Research在2016年提出的文本分类和词训练的工具。它最大的特点:模型非常简单,训练速度快,并且能够达到与深度学习旗鼓相当的精度。
最近在做一个给微博内容分类的项目,主要目的是给微博打上商业标签。这个项目是一个经典的多分类任务,传统的方法包括:SVM、TextCNN、LSTM等。上面这些方法都略有尝试,而大名鼎鼎的fastText一直没有尝尝鲜,正好借此机会尝尝鲜。
原理
fastText主要有两个功能:训练词向量和文本分类。除此之外,它的训练中还考虑了N-gram。
训练词向量
word2vec的训练粒度是词语,而fastText进一步考虑了subword粒度。subword是一种character-level的n-gram。例如使用tri-gram,那么词语where可以分解成:
文本分类
若熟悉Continuous Bag of Words(CBOW)的模型结构,你会发现它完全有潜力扩展成一个分类模型:
上图左边是word2vec中CBOW的结构,右边是fastText的结构。两类模型的结构区别是:
CBOW使用context(wt−2,wt−1,...,wt+1,wt+2wt−2,wt−1,...,wt+1,wt+2)作为模型输入,而fastText使用document的词(w1,w2,...,wnw1,w2,...,wn)。
fastText使用label作为学习目标,而CBOW使用wtwt。
总结而言,学习目标是造成模型结构不同的决定性因素,即fastText是有监督模型,而word2vec是无监督模型。
在上述模型结构下,hidden层的计算方式是:
hidden=1n∑i=1nwi
hidden=1n∑i=1nwi
由于分类是模型的最终目标,因此需要一个从hidden层到label的映射,常见的映射方法:
Softmax
Hierarchical Softmax
Noise Contrastive Estimation
Negative Sampling
上述方法中,softmax是常见的多分类分类器,其余三种均是对Softmax的近似(通过近似计算,避免过大的归一化代价)。关于Softmax的近似计算,我会在以后的博客中介绍,这里介绍Softmax在fastText的应用。基于Softmax的fastText,其代价函数如下所示:
loss=−1N∑i=1N∑j=1M1(yi=j)log(y^ij)
loss=−1N∑i=1N∑j=1M1(yi=j)log(y^ij)
其中:
y^i=softmax(hiddeni)
y^i=softmax(hiddeni)
N-gram特征
根据上面的介绍,fastText本质上仍是一类基于词袋(bag-of-words)的分类模型,而丢失词顺序是词袋模型最受人诟病的地方。在词袋模型中,常见增加词顺序信息的方法是N-gram。但是增加N-gram的方法,将带来词典包含大量的词汇,进而导致内存溢出。为了解决此类问题,fastText采用了Hash桶的方式,把所有的N-gram哈希到buckets中,哈希到同一个bucket内的n-gram共享一个vector。具体实现过程如下所示:
为了更好的表述,如何将n-gram特征转化为hidden层,这里举一个例子。假设一个文本由三个词组成w1w1,w2w2,w3w3,其bigram是w12w12,w23w23,那么此时hidden层的计算公式如下所示:
hidden=15(w1+w2+w3+w12+w23)
hidden=15(w1+w2+w3+w12+w23)
结语
以上便是fastText的基本原理,接下来将介绍fastText在微博中的应用。
[1] 玩转fastText
[2] P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information
[3] A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, Bag of Tricks for Efficient Text Classification
[4] facebookresearch/fastText
---------------------
作者:cptu
来源:CSDN
原文:https://blog.csdn.net/AckClinkz/article/details/81907555
版权声明:本文为博主原创文章,转载请附上博文链接!
fastText入门的更多相关文章
- Angular2入门系列教程7-HTTP(一)-使用Angular2自带的http进行网络请求
上一篇:Angular2入门系列教程6-路由(二)-使用多层级路由并在在路由中传递复杂参数 感觉这篇不是很好写,因为涉及到网络请求,如果采用真实的网络请求,这个例子大家拿到手估计还要自己写一个web ...
- ABP入门系列(1)——学习Abp框架之实操演练
作为.Net工地搬砖长工一名,一直致力于挖坑(Bug)填坑(Debug),但技术却不见长进.也曾热情于新技术的学习,憧憬过成为技术大拿.从前端到后端,从bootstrap到javascript,从py ...
- Oracle分析函数入门
一.Oracle分析函数入门 分析函数是什么?分析函数是Oracle专门用于解决复杂报表统计需求的功能强大的函数,它可以在数据中进行分组然后计算基于组的某种统计值,并且每一组的每一行都可以返回一个统计 ...
- Angular2入门系列教程6-路由(二)-使用多层级路由并在在路由中传递复杂参数
上一篇:Angular2入门系列教程5-路由(一)-使用简单的路由并在在路由中传递参数 之前介绍了简单的路由以及传参,这篇文章我们将要学习复杂一些的路由以及传递其他附加参数.一个好的路由系统可以使我们 ...
- Angular2入门系列教程5-路由(一)-使用简单的路由并在在路由中传递参数
上一篇:Angular2入门系列教程-服务 上一篇文章我们将Angular2的数据服务分离出来,学习了Angular2的依赖注入,这篇文章我们将要学习Angualr2的路由 为了编写样式方便,我们这篇 ...
- Angular2入门系列教程4-服务
上一篇文章 Angular2入门系列教程-多个组件,主从关系 在编程中,我们通常会将数据提供单独分离出来,以免在编写程序的过程中反复复制粘贴数据请求的代码 Angular2中提供了依赖注入的概念,使得 ...
- wepack+sass+vue 入门教程(三)
十一.安装sass文件转换为css需要的相关依赖包 npm install --save-dev sass-loader style-loader css-loader loader的作用是辅助web ...
- wepack+sass+vue 入门教程(二)
六.新建webpack配置文件 webpack.config.js 文件整体框架内容如下,后续会详细说明每个配置项的配置 webpack.config.js直接放在项目demo目录下 module.e ...
- wepack+sass+vue 入门教程(一)
一.安装node.js node.js是基础,必须先安装.而且最新版的node.js,已经集成了npm. 下载地址 node安装,一路按默认即可. 二.全局安装webpack npm install ...
随机推荐
- luogu P1043 数字游戏
题目描述 丁丁最近沉迷于一个数字游戏之中.这个游戏看似简单,但丁丁在研究了许多天之后却发觉原来在简单的规则下想要赢得这个游戏并不那么容易.游戏是这样的,在你面前有一圈整数(一共n个),你要按顺序将其分 ...
- 初学Java经典例子
我自己看的书的理解学习Java就是学习对象,就像谈恋爱,你对她多付出,收货就多(跑题了对象是啥??对象就是实体,通过类可以生成具有特定状态(或者叫属性)和行为或动作的实例,问题来了怎么创建? new一 ...
- sqlplus登陆scott用户,以及退出连接
进入sqlplus界面 即登陆成功,PLsql也一样 退出连接:
- Adding an Exception Breakpoint - Terminating app due to uncaught exception 'NSRangeException', reason: '*** -[__NSArrayM objectAtIndex:]: index 25 bey
用如下的方法可以非常方便停留到具体crash的某行代码 Adding an Exception Breakpoint Add an exception breakpoint to your proje ...
- 从实例看hibernate的主键生成策略
学习了hibernate会发现.hibernate中有实体类.实体类的映射文件.可是我们怎么样才干知道实体类的主键是如何的生成方式呢?hibernate提供的主键生成策略帮我们完美地解答了这个疑问.以 ...
- OSI七层模型详解(转)
OSI 七层模型通过七个层次化的结构模型使不同的系统不同的网络之间实现可靠的通讯,因此其最主要的功能就是帮助不同类型的主机实现数据传输 . 完成中继功能的节点通常称为中继系统.在OSI七层模型中,处于 ...
- C++对象模型——Default Constructor的建构操作(第二章)
第2章 构造函数语意学 (The Semantics of Constructor) 关于C++,最常听到的一个抱怨就是,编译器背着程序猿做了太多事情.Conversion运算符就是最常被引用的 ...
- C#压缩或解压(rar和zip文件)
/// <summary> /// 解压RAR和ZIP文件(需存在Winrar.exe(只要自己电脑上可以解压或压缩文件就存在Winrar.exe)) /// </summary&g ...
- nginx+play framework +mongoDB+redis +mysql+LBS实战总结
nginx+play framework +mongoDB+redis +mysql+LBS实战总结(一) 使用这个样的组合结构已经很久了,主要是实现web-server,不是做网站,二是纯粹的数据服 ...
- postgres启动过程分析
今天来学习一下pg启动的过程. pg的启动命令./bin/postgres -D path/to/data. 1.主体监控进程 postmaster进程进入无限循环,等待客户端请求并为之提供请求的服务 ...