Chinese word segment based on character representation learning 论文笔记
论文名和编号 |
摘要/引言 |
相关背景和工作 |
论文方法/模型 |
实验(数据集)及 分析(一些具体数据) |
未来工作/不足 |
是否有源码 |
|||
问题 |
原因 |
解决思路 |
优势 |
||||||
基于表示学习的中文分词 编号:1001-9081(2016)10-2794-05 |
1.为提高中文分词的准确率和未登录词识别率。 |
1.分词后计算机才能得知中文词语的确切边界,进而理解文本中所包含的语义信息。中文分词是中文自然语言处理的一项基础性工作,是中文信息处理技术发展的技术瓶颈。 |
1.使用skip-gram模型将文本中的词映射为高维向量空间中的向量;其次用K-means聚类算法将词向量聚类,并将聚类结果作为条件随机场(CRF)模型的特征进行训练;最后基于该语言模型进行分词和未登录词识别。 |
1.在未利用外部知识的条件下,分词的F值和OOV识别率分别达到了95.67%和94.78%,证明将此地聚类特征加入到条件随机场模型中能有效提高中文短文本的分词性能。 |
1.中文分词和未登录词识别都可以看作一个序列标记任务来完成,应用广泛的序列标注模型主要有隐马尔科夫模型(HMM)、最大熵马尔可夫模型(MEMM)和条件随机场模型(CRF)等。其中CRF比HMM和MEMM更能灵活地选择特征和控制训练数据地拟合程度。但是传统地CRF模型的使用难以避免“词汇鸿沟”,因为其大多使用基于词袋模型的特征表示,另外低频词也容易导致训练不足,及过拟合现象。 2.2006年Hinton等提出深度学习后,从大量未标记文本中学习字的方法已经被证实是对识别未登录词、命名实体识别、词性标注和依存分析有效的了。 |
1.简要说明:先从大量未标记的微博语料中学习中文字符的语义向量,基于这些语义向量作K-means聚类,同时对中文字符进行布朗聚类,然后再将这些字的表示特征应用于CRF模型中进行有监督的中文分词。 2.具体框架:先用空格将原始文本全部分开,然后利用word2vec对处理后的预料进行学习以得到字符的向量表示。接着利用K-means聚类算法得到字的一种聚类类别。最后将两种不同的聚类结果最为CRF的特征训练语言模型。 |
1.数据:采用NLPCC2015中文微博文本分词任务所提供的训练(1.96MB,共10000个句子,215567个词)及测试(662KB,共5000个句子,106843个词)语料。 2.如图2,测试了利用word2vec训练得到的不同维度的字向量以及K-means聚类类别数不同的情况下对分词结果的影响,以分词结果F值为参考。当向量维度d=200,K-means聚类类别数k=400时分词效果较好,F值达到94.07%。F值随着字向量维度d值的增大而趋于平滑,意味着随着向量维度的增加,向量所表示的字的语义信息更为全面和准确,聚类特征表现得更良好。 同时从聚类结果也可看出,党字向量维度增大时,聚类结果中各类别所包含的字的语义表现得更为相近。如表1,当字向量维度较大时,类别内部的字之间的相似度更好,语义更相关。 3.图3对比了布朗聚类与字向量分别为200维和300维时K-means聚类在类别数不同时对分词结果的影响。当类别数k=200时,布朗聚类对分词结果的影响达到峰值,其后分词效果随着k值的增加而递减。整体而言,当类别数k值较小时,布朗聚类效果比K-means聚类效果更好,随着k值的增大,布朗聚类的效果比K-means聚类的效果下降的更快。 4.综上,仅加入字向量的K-means聚类特征时,在d=200,k=400时分词效果达到最佳,仅加入字的布朗聚类特征时,在k=200时CRF分词效果达到最佳。 5.相对于baseline结果,两种不同的字表示方法的加入均对分词结果有积极作用,且布朗聚类优于K-means聚类,两者共同使用时效果优于只使用任意一种的效果,最高值达到94.44%,OOV召回率达到92.91%,相对baseline分别提升了1.28%和1.41%,说明两种不同聚类表示提供了不同的信息,弥补了各自部分的缺点。 6.引用词典知识也可降低未登录词和交叠歧义对分词结果的影响,词典中的词均来源于NLPCC提供的已有正确标记序列的微博语料。结果显示,引用词典特征后,F值和OOV召回率比baseline分别提高了1.99%和2.54%,说明了词典引入的重要性。同时,在引入词典特征的基础上再叠加使用两种字的表示特征后,F值和OOV召回率相比仅加入词典特征再次提高了0.52%和0.74%,体现了字表示对中文分词结果的改善作用。 |
1.对语料中不同长度的字块进行表示学习,如2-gram字块和3-gram字块,将其加入到CRF型中,通过多长度的表示学习来提高分词准确率。 2.增加外部知识学习,扩大语料库,进行开放测试并提升其分词效果。 |
无 |
Chinese word segment based on character representation learning 论文笔记的更多相关文章
- Hierarchical Attention Based Semi-supervised Network Representation Learning
Hierarchical Attention Based Semi-supervised Network Representation Learning 1. 任务 给定:节点信息网络 目标:为每个节 ...
- Deep Learning论文笔记之(八)Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
- Deep Learning论文笔记之(六)Multi-Stage多级架构分析
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些 ...
- Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
- Deep Learning论文笔记之(一)K-means特征学习
Deep Learning论文笔记之(一)K-means特征学习 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感 ...
- Deep Learning论文笔记之(三)单层非监督学习网络分析
Deep Learning论文笔记之(三)单层非监督学习网络分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感 ...
- Spectral Norm Regularization for Improving the Generalizability of Deep Learning论文笔记
Spectral Norm Regularization for Improving the Generalizability of Deep Learning论文笔记 2018年12月03日 00: ...
- [CVPR 2017] Semantic Autoencoder for Zero-Shot Learning论文笔记
http://openaccess.thecvf.com/content_cvpr_2017/papers/Kodirov_Semantic_Autoencoder_for_CVPR_2017_pap ...
- Correlation Filter in Visual Tracking系列二:Fast Visual Tracking via Dense Spatio-Temporal Context Learning 论文笔记
原文再续,书接一上回.话说上一次我们讲到了Correlation Filter类 tracker的老祖宗MOSSE,那么接下来就让我们看看如何对其进一步地优化改良.这次要谈的论文是我们国内Zhang ...
随机推荐
- Android 开发工具类 18_NetWorkUtil
检测网络的一个工具包: 1.网络是否可用: 2.判断是否有网络连接: 3.判断 WIFI 网络是否可用: 4.判断 MOBILE 网络是否可用; 5.获取当前网络连接的类型信息: 6.获取当前的网络状 ...
- .NET代码树执行时间计时器
有很多时候我们需要对代码不同段计算一个执行时间,并希望通过节点树的方式表达现每段代码的执行时长.在.Net下似乎找不到这样一个功能类,所以花了一些时间实现这样一个代码运行计时器.首先看一下简单的需求. ...
- 拥抱单页网站! jQuery全屏滚动插件fullPage.js
不知道从什么时候开始,单页网站就悄悄走进人们的视线,尤其是国外的网站,更是钟爱单页网站.制作一个全屏滚动的效果,然后每个滚动页弄一个好看的背景色,配上一些描述性的文字,大家都喜欢这么弄,仿佛逼格瞬间可 ...
- Unity实现c#热更新方案探究(三)
转载请标明出处:http://www.cnblogs.com/zblade/ 前面两篇文章从头到尾讲解了C#热更新的一些方案,从程序域来加载和卸载DLL,到使用ILRuntime来实现安卓和IOS平台 ...
- DocX开源WORD操作组件的学习系列四
DocX学习系列 DocX开源WORD操作组件的学习系列一 : http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_sharp_001_docx1.htm ...
- centos7忘记root密码
开机时狂点方向键下(Windows还原习惯了),或者狂点别的键.目的为了不让它进入系统. 方向键移动光标定位在第一行,按e编辑它. 在新界面找到linux16开头的行.→光标到 ro 改成rw ...
- 什么是DevOps?
一. 什么是DevOps 是什么? DevOps (英文 Development 和 Operations 的组合)是一组过程.方法与系统的统称,用于促进开发(应用程序 / 软件工程).技术运营和质量 ...
- CSS float的相关图文详解(一)
大家好,作为一个刚入门的小前端,第一次写博客,很是鸡冻.由于涉猎较浅,有些知识可能说的不清楚,或者有什么错误,欢迎留言指正.我的第一篇博客写的关于css的浮动的.想必很多小伙伴特别是刚学的,对浮动有一 ...
- web类协议脚本-飞机订票系统示例
以下是LR自带的飞机订票系统的Demo,希望能帮助大家. Action() { int iRand; int iTmp; char *strTmpA; char *strTmpB; char *str ...
- express中间件系统的基本实现
一直觉得express的中间件系统这种流式处理非常形象,就好像加工流水线一样,每个环节都在针对同一个产品的不同部分完成自己的工作,最后得到一个成品.今天就来实现一个简易的[中间件队列]. 一. API ...