paip.语义分析--单字词形容词表180个 INSERT INTO t (word) SELECT DISTINCT word FROM `word_main` where tsisin is not null and tsisin like '%adj%' and LENGTH(word)=3 order by CONVERT(word USING gbk) ASC limit 10000 mysq按照拼音排序 排除重复 select * from t_n where wo…
paip.语义分析--单字名词表 INSERT INTO t (word) SELECT DISTINCT word FROM `word_main` where tsisin is not null and tsisin like 'n%' and LENGTH(word)=3 order by CONVERT(word USING gbk) ASC limit 10000 mysq按照拼音排序 作者Attilax 艾龙, EMAIL:1466519819@qq.com…
paip.语义分析--单字动词表.txt 排除重复 select * from t where word in (SELECT word from t_a) or word in (SELECT word from t_n) total 386 爱,按,扒,拔,掰,摆,拜,搬,拌,绊,绑,傍,抱,绷,蹦,逼,编,扁,变,憋,濒,播,擦,猜,采,踩,测,蹭,插,查,搽,拆,搀,缠,尝,唱,抄,吵,炒,扯,撤,闯,撑,乘,吃,抽,瞅,锄,揣,踹,穿,喘,吹,捶,刺,促,窜,催,…
中科院nlpir和海量分词(http://www.hylanda.com/)是收费的. hanlp:推荐基于CRF的模型的实现~~要看语料,很多常用词会被分错,所以需要词库支撑.目前最友好的开源工具包应该是HanLP,基于词典,对各种实体词汇做了HMM,也提供了CRF模型.工程实现也不错,性能不是瓶颈.代码有相对完备的注释,文档也比较全,各种算法原理实现也有对应blog,自己研究和做二次开发都比较方便. 最近写了一款分词器,调研了不少文章的开源实现.最终定的方案是 Language Model…
原文名称: An Efficient Digital Search Algorithm by Using a Double-Array Structure 作者: JUN-ICHI AOE 译文: 使用双数组结构的一个高效的Digital Search算法 摘要: 本文介绍了一种新的内部(内部排序的内部,也就是在内存里)数组结构的digital search算法,叫做双数组,结合了数组存取的快速和链式存储的压缩.Digital search树的每一条弧在双数组中都可以以O(1)的时间复杂度计算得…