java实现中文分词

IK Analyzer是基于lucene实现的分词开源框架

下载路径：http://so.csdn.net/so/search/s.do?q=IKAnalyzer2012.jar&t=doc&o=&s=all&l=null

需要在项目中引入：

IKAnalyzer2012.jar

lucene-core-3.6.0.jar

实现的两种方法：

使用(lucene)实现：

 import java.io.IOException;

 import java.io.StringReader;

 import org.wltea.analyzer.core.IKSegmenter;

 import org.wltea.analyzer.core.Lexeme;

 public class Fenci1 {

     public static void main(String[] args) throws IOException{

         String text="你好，我的世界！";

         StringReader sr=new StringReader(text);

         IKSegmenter ik=new IKSegmenter(sr, true);

         Lexeme lex=null;

         while((lex=ik.next())!=null){

             System.out.print(lex.getLexemeText()+"，");

         }

     }

 }

使用(IK Analyzer)实现:

 import java.io.IOException;

 import java.io.StringReader;

 import org.apache.lucene.analysis.Analyzer;

 import org.apache.lucene.analysis.TokenStream;

 import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

 import org.wltea.analyzer.lucene.IKAnalyzer;

 public class Fenci {

     public static void main(String[] args) throws IOException {

             String text="你好，我的世界!";

             //创建分词对象

             Analyzer anal=new IKAnalyzer(true);

             StringReader reader=new StringReader(text);

             //分词

             TokenStream ts=anal.tokenStream("", reader);

             CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);

             //遍历分词数据

             while(ts.incrementToken()){

                 System.out.print(term.toString()+"，");

             }

             reader.close();

             System.out.println();

     }

 }

运行后结果:

你好,我,的,世界,

java实现中文分词的更多相关文章

11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
推荐十款java开源中文分词组件
1:Elasticsearch的开源中文分词器 IK Analysis(Star:2471) IK中文分词器在Elasticsearch上的使用.原生IK中文分词是从文件系统中读取词典,es-ik本身 ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
Java开源中文分词类库
IKAnalyzer IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本.最初,它是以开 ...
java读取中文分词工具(一)
import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.I ...
java+lucene中文分词，来看看百度究竟是怎么找到你想要的（十分重要，楼主幸苦之作）
我想只要是学过数据库的孩纸,不管是mysql,还是sqlsever,一提到查找,本能的想到的便是like关键字,其实去转盘网(分类模式)之前也是采用这种算法,但我可以告诉大家一个很不幸的事情,like ...
【原创】中文分词系统 ICTCLAS2015 的JAVA封装和多线程执行（附代码）
本文针对的问题是 ICTCLAS2015 的多线程分词,为了实现多线程做了简单的JAVA封装.如果有需要可以自行进一步封装其它接口. 首先ICTCLAS2015的传送门(http://ictclas. ...
中科院NLPIR中文分词java版
中科院NLPIR中文分词java版中科院NLPIR中文分词java版
基于Tire树和最大概率法的中文分词功能的Java实现
对于分词系统的实现来说,主要应集中在两方面的考虑上:一是对语料库的组织,二是分词策略的制订. 1. Tire树 Tire树,即字典树,是通过字串的公共前缀来对字串进行统计.排序及存储的一种树形结构 ...

随机推荐

数据分析之pandas教程------数据处理
目录 1 数据合并 1.1 实现数据库表join功能 1.2 实现union功能 2 数据转换 2.1 轴旋转 2.2 数据转换 2.2.1 去重 2.2.2 对某一列运用函数 2.2 ...
Selenium_WebDriver_定位元素
版权声明:本文为博主原创文章,转载请注明出处. 定位单个元素 WebDriver提供了八种元素定位方法,Java中定位语句形如:driver.findElement(By.id()): 何为元素定位? ...
typedef void(*Fun)(void);
typedef void(*Fun)(void); 函数类似于数组,函数名就是它的首地址: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 ...
一个备份mysql 数据库的脚本
# 获取当前系统日期,格式为: 2009-2-21DATE=`date "+%F"` # 定义mysql 服务的主目录 DB_DIR=/usr # 定义备份后的路径BAK_DIR= ...
linux 添加静态路由
Linux下静态路由修改命令方法一:添加路由route add -net 192.168.0.0/24 gw 192.168.0.1route add -host 192.168.1.1 dev 19 ...
img alt与title的区别
前端 alt是图片加载不出来时候,对图片的文本替代 title 是鼠标放在图片上时,对图片的进一步说明 seo 搜索引擎对图片意思的理解主要靠 alt
【Javascript】在文本框光标处插入文字并定位光标 (转)
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
javaWeb页面实现下载
jsp页面发送请求,后台实现指定路径下的文件,在浏览器上完成下载功能.@RequestMapping(value = "downloadFile")public void down ...
一种解决eclipse中安装maven出错的方法
1.安装步骤:https://jingyan.baidu.com/article/a17d5285feb4dd8099c8f26e.html 2.安装第三步的解决办法:m2e 路径换成 http ...
java4 - 函数（方法）
一.学习大纲: 1. 定义函数可以将功能封装 2. 函数的级别都是同级别的,不能进行函数套用 3. 便于对该功能进行复用 4. 函数只有被调用才能被执行 5. 函数的出现提高了代码的复用性 6. 函数 ...

java实现中文分词

java实现中文分词的更多相关文章

随机推荐

热门专题