paip.语义分析--单字词形容词表180个  INSERT INTO t (word)  SELECT DISTINCT word FROM `word_main` where tsisin is not null and tsisin like '%adj%' and LENGTH(word)=3 order by    CONVERT(word USING gbk) ASC  limit 10000    mysq按照拼音排序 排除重复 select * from t_n where wo…
paip.语义分析--单字名词表   INSERT INTO t (word)  SELECT DISTINCT word FROM `word_main` where tsisin is not null and tsisin like 'n%' and LENGTH(word)=3 order by    CONVERT(word USING gbk) ASC  limit 10000    mysq按照拼音排序 作者Attilax  艾龙,  EMAIL:1466519819@qq.com…
paip.语义分析--分词--常见的单音节字词 2_deDuli  单字词 774个 作者Attilax  艾龙,  EMAIL:1466519819@qq.com  来源:attilax的专栏 地址:http://blog.csdn.net/attilax 啊挨癌岸凹傲扒拔把掰百拜稗瓣邦绑蚌胞堡爆碑奔绷嘣蹦彼笔闭裨扁便遍镖憋别濒冰兵柄播帛泊不埠擦猜财舱藏操糙嘈槽草册测恻层曾蹭叉茶查拆搀禅蝉尝怅潮扯撤趁呈乘池尺冲仇处揣踹喘疮窗床创吹捶锤瓷雌此刺葱从凑粗促窜催脆存寸搓达逮蛋裆岛到得蹬等瞪堤敌嫡电刁…
paip.语义分析--单字动词表.txt 排除重复  select * from t where word in (SELECT word from t_a)  or   word in (SELECT word from t_n)  total  386      爱,按,扒,拔,掰,摆,拜,搬,拌,绊,绑,傍,抱,绷,蹦,逼,编,扁,变,憋,濒,播,擦,猜,采,踩,测,蹭,插,查,搽,拆,搀,缠,尝,唱,抄,吵,炒,扯,撤,闯,撑,乘,吃,抽,瞅,锄,揣,踹,穿,喘,吹,捶,刺,促,窜,催,…
Paip.语义分析----情绪情感词汇表总结 以下词语是按感情色彩共分为十四类: 作者Attilax  艾龙,  EMAIL:1466519819@qq.com  来源:attilax的专栏 地址:http://blog.csdn.net/attilax 一.喜 高兴.欢喜.满意.如愿.幸福.如意.顺心.随心.称心.快乐.高兴.豁朗.喜欢.愉快.甜美.愉快.舒服.甜蜜.舒适.幸福.愉快.痛快.舒畅.高兴.尽兴.喜爱.喜欢.心醉.畅快.喜悦.心旷神怡.心情舒畅.快意.喜上眉梢.满心欢喜.欢欣鼓舞.…
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断. 11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 /**  * 获取文本的所有分词结果, 对比不同分…
中科院nlpir和海量分词(http://www.hylanda.com/)是收费的. hanlp:推荐基于CRF的模型的实现~~要看语料,很多常用词会被分错,所以需要词库支撑.目前最友好的开源工具包应该是HanLP,基于词典,对各种实体词汇做了HMM,也提供了CRF模型.工程实现也不错,性能不是瓶颈.代码有相对完备的注释,文档也比较全,各种算法原理实现也有对应blog,自己研究和做二次开发都比较方便. 最近写了一款分词器,调研了不少文章的开源实现.最终定的方案是 Language Model…
原文名称: An Efficient Digital Search Algorithm by Using a Double-Array Structure 作者: JUN-ICHI AOE 译文: 使用双数组结构的一个高效的Digital Search算法 摘要: 本文介绍了一种新的内部(内部排序的内部,也就是在内存里)数组结构的digital search算法,叫做双数组,结合了数组存取的快速和链式存储的压缩.Digital search树的每一条弧在双数组中都可以以O(1)的时间复杂度计算得…
一 基本构造 Trie树是搜索树的一种,来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,是中文匹配分词算法中词典的一种常见实现.它本质上是一个确定的有限状态自动机(DFA),每个节点代表自动机的一个状态.在词典中这此状态包括“词前缀”,“已成词”等. 双数组Trie(double array Trie)是trie树的一个简单而有效的实现,由两个整数数组构成,一个是base[],另一个是check[].设数组下标为i ,如果base[i],check[i]均为0…
分词算法设计中的几个基本原则: 1.颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安 局长”.“公安局 长”.“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好(当然前提是所使用的词典中有这个词) 2.切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的是可以独立运用的单字,如“的”.“了”.“和”.“你”.“我”.“他”.例…