中科院nlpir和海量分词(http://www.hylanda.com/)是收费的. hanlp:推荐基于CRF的模型的实现~~要看语料,很多常用词会被分错,所以需要词库支撑.目前最友好的开源工具包应该是HanLP,基于词典,对各种实体词汇做了HMM,也提供了CRF模型.工程实现也不错,性能不是瓶颈.代码有相对完备的注释,文档也比较全,各种算法原理实现也有对应blog,自己研究和做二次开发都比较方便. 最近写了一款分词器,调研了不少文章的开源实现.最终定的方案是 Language Model
期刊: best (1) IEEE Transactions on Pattern Analysis and Machine Intelligence,IEEE模式分析与机器智能汇刊,简称PAMI,是IEEE最重要的学术性汇刊之一. (2) ACM Transactions on Graphics,美国计算机协会图形汇刊,简称TOG,该刊侧重于计算机图形的处理,影响因子在该领域也比较高. (3) International Journal of Computer Vision,该刊也是该领域的顶
原来这个实验已经做了的.也出现了些问题,但是上网找到了解决方法,那个时候是完成数据挖掘的课程论文,用WEKA运行LIBSVM,也没有很深入,简单跑出结果就算了. 这次想着研讨会就讲这个,想着深入进去,顺便看下用Java实现下算法,看下有没有可以深入的点,发篇中文核心. 但是上次是在实验室另一台机子上配置好的,换了个机子后,简单地装了下weka,没有把wlsvm.jar和libsvm.jar放到weka安装目录下,出现了libSVM classes not in CLASSPATH. 然后才想起原