THULAC是一款相当不错的中文分词工具,准确率高.分词速度蛮快的:并且在工程上做了很多优化,比如:用DAT存储训练特征(压缩训练模型),加入了标点符号的特征(提高分词准确率)等. 1. 前言 THULAC所采用的分词模型为结构化感知器(Structured Perceptron, SP),属于两种CWS模型中的Character-Based Model,将中文分词看作为一个序列标注问题:对于字符序列\(C=c_1^n\),找出最有可能的标注序列\(Y=y_1^n\).定义score函数\(S(…
1. 前言 Jieba是由fxsjy大神开源的一款中文分词工具,一款属于工业界的分词工具--模型易用简单.代码清晰可读,推荐有志学习NLP或Python的读一下源码.与采用分词模型Bigram + HMM 的ICTCLAS 相类似,Jieba采用的是Unigram + HMM.Unigram假设每个词相互独立,则分词组合的联合概率: \begin{equation} P(c_1^n) = P(w_1^m) = \prod_i P(w_{i}) \label{eq:unigram} \end{eq…
1. 前言 ICTCLAS是张华平在2000年推出的中文分词系统,于2009年更名为NLPIR.ICTCLAS是中文分词界元老级工具了,作者开放出了free版本的源代码(1.0整理版本在此). 作者在论文[1] 中宣称ICTCLAS是基于HHMM(Hierarchical Hidden Markov Model)实现,后在论文[2]中改成了基于层叠隐马尔可夫模型CHMM(Cascaded Hidden Markov Model).我把HHMM的原论文[3]读了一遍,对照ICTCLAS源码,发现I…
Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高分词准确度.虽然基本分词原理与ICTLAS的一样,但是Ansj做了一些工程上的优化,比如:用DAT高效地实现检索词典.array + linked-list方式实现分词DAG.支持自定义词典与自定义消歧义规则等. 1. 前言 Ansj支持多种分词方式,其中ToAnalysis为店长推荐款: 它在易用…
FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词.词性标注.文本分类.依存句法分析等功能. [开源中文分词工具探析]系列: 中文分词工具探析(一):ICTCLAS (NLPIR) 中文分词工具探析(二):Jieba 中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具探析(五):FNLP 1. 前言 类似于THULAC,FNLP也是采用线性模型(linear model)作为基础分词模型.与对数线性模型…
在”浏览器环境下Javascript脚本加载与执行探析“系列文章的前几篇,分别针对浏览器环境下JavaScript加载与执行相关的知识点或者属性进行了探究,感兴趣的同学可以先行阅读前几篇文章,了解相关的知识点: (1)<浏览器环境下JavaScript脚本加载与执行探析之代码执行顺序>主要针对向页面引入JavaScript代码的不同方法,研究了其在代码执行顺序方面的问题,特别重点研究了document.write这种方式引入JavaScript脚本时的执行顺序问题. (2)<浏览器环境下…
defer和async特性相信是很多JavaScript开发者"熟悉而又不熟悉"的两个特性,从字面上来看,二者的功能很好理解,分别是"延迟脚本"和"异步脚本"的作用.然而,以defer为例,一些细节问题可能开发者却并不一定熟悉,比如:有了defer特性的脚本会延迟到什么时候执行:内部脚本和外部脚本是不是都能够支持defer:defer后的脚本除了会延迟执行之外,还有哪些特殊的地方等等.本文结合已有的一些文章以及MDN文档中对两个特性的阐述,对de…
koa被认为是第二代web后端开发框架,相比于前代express而言,其最大的特色无疑就是解决了回调金字塔的问题,让异步的写法更加的简洁.在使用koa的过程中,其实一直比较好奇koa内部的实现机理.最近终于有空,比较深入的研究了一下koa一些原理,在这里会写一系列文章来记录一下我的学习心得和理解. 在我看来,koa最核心的函数是大名鼎鼎的co,koa正是基于这个函数实现了异步回调同步化,以及中间件流程控制.当然在这篇文章中我并不会去分析co源码,我打算在整个系列文章中,一步一步讲解如何实现koa…
Emmet 语法探析 Emmet(Zen Coding)是一个能大幅度提高前端开发效率的一个工具. 大多数编辑器都支持Snippet,即存储和重用一些代码块.但是前提是:你必须先定义 这些代码块. Emmet的特点在于你可以设置CSS形式的能够动态解析的表达式,然后根据所输入 的表达式来生成相应的内容.Emmet还有一些常用的高级功能,如生成Lorem Ipsum,更新CSS的属性值, 将图片资源转换成data url形式等.通过对Emmet的熟练使用,可以极大地推动你的生产力. 使用Emmet…
Erlang调度器细节探析 Erlang的很多基础特性使得它成为一个软实时的平台.其中包括垃圾回收机制,详细内容可以参见我的上一篇文章Erlang Garbage Collection Details and Why It Matters 什么是调度 一般来说,调度是一种将工作分配给工作者的机制.这些工作可以是数学运算,字符串处理,数据提取,工作者指的是类似于Green Threads或者原生线程等这种资源.调度器就是执行调度任务的程序,它在某种程度上提供:最大化吞吐,公平执行,最小化响应时间和…