【中文分词】结构化感知器SP

【【中文分词】结构化感知器SP】的更多相关文章

【中文分词】结构化感知器SP

结构化感知器(Structured Perceptron, SP)是由Collins [1]在EMNLP'02上提出来的,用于解决序列标注的问题:中文分词工具THULAC.LTP所采用的理论模型便是基于此. 1. 结构化感知器模型 CRF全局化地以最大熵准则建模概率\(P(Y|X)\):其中,\(X\)为输入序列\(x_1^n\),\(Y\)为标注序列\(y_1^n\).不同于CRF,SP则是(同样以最大熵准则)建模score函数: \[ S(Y,X) = \sum_s \alpha_s \P…

自己DIY出来一个JSON结构化展示器

说来也巧,这个玩意,一直都想亲手写一个,因为一直用着各种网上提供的工具,觉得这个还是有些用途,毕竟,后面的实现思路和原理不是太复杂,就是对json的遍历,然后给予不同节点类型以不同的展现风格. 我这次,是出于将一个专利写清楚,自己构思了一个实现方案,且还能显示出当前的路径,具体的显示风格,依据自己的喜好,随便DIY吧. 写这个JSON展示器,其实有很多用处,不仅仅就是为了看一个json的结构化展示. . 更重要的是可以辅助用户和json数据进行交互,能够知道用户感兴趣的json字段是什么,可以对…

开源中文分词工具探析（五）：FNLP

FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词.词性标注.文本分类.依存句法分析等功能. [开源中文分词工具探析]系列: 中文分词工具探析(一):ICTCLAS (NLPIR) 中文分词工具探析(二):Jieba 中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具探析(五):FNLP 1. 前言类似于THULAC,FNLP也是采用线性模型(linear model)作为基础分词模型.与对数线性模型…

开源中文分词工具探析（四）：THULAC

THULAC是一款相当不错的中文分词工具,准确率高.分词速度蛮快的:并且在工程上做了很多优化,比如:用DAT存储训练特征(压缩训练模型),加入了标点符号的特征(提高分词准确率)等. 1. 前言 THULAC所采用的分词模型为结构化感知器(Structured Perceptron, SP),属于两种CWS模型中的Character-Based Model,将中文分词看作为一个序列标注问题:对于字符序列\(C=c_1^n\),找出最有可能的标注序列\(Y=y_1^n\).定义score函数\(S(…