一、前期准备:

1、下载最新版本的资源包:CTCLAS20160405171043_ICTCLAS2016分词系统下载包

2、下载最新版本的licence:https://github.com/NLPIR-team/NLPIR/tree/master/License

二、调试程序

1、将JnaTest_NLPIR工程工程导入到MyEclipse。

2、修改NLPIR目录

  这个与操作系统有关,在\汉语分词20140928\lib\操作系统目录下。我的是win7 64bit,所以在汉语分词20140928\libwin64\目录下。写路径的时候注意特殊字符的转义,而且windows路径是反斜杠“\”,注意改成形如这样:“E://test//汉语分词20140928//lib//win64//NLPIR”,文件名不加后缀名。

3、修改Data文件夹目录

  String argu = new File("").getAbsolutePath();  //Data文件夹在工程目录下

  Data文件不在工程目录下,写路径要注意编码问题,我程序设置的系统编码是GBK,但是工程的编码设置的是utf-8,打印出来就能看出来路径中的中文都是乱码,当然会导致无法加载类或者是找不到配置文件。将所有设置编码的地方都设置成一样的编码,保证不会有错。工程的编码可以是utf-8,只要程序中所有地方都引用同一个系统编码就可以。

  我第二次做这个实验鬼抽风般File("").getAbsolutePath();得到的是乱码(没有中文也有乱码)。还是IDE的编码设置等和其他一些编码设置问题,这个我实在是郁闷了。new File("").getAbsolutePath().getBytes("GBK")也许有效~我设置了工程的编码是GBK,但是打开工程文件.project是里面写了utf-8,我不清楚这有没有关系,实在不行,用命令行调试吧。

三、运行程序

  如果你运气够好,没有出现什么幺蛾子,没有乱改程序,这时程序就可以正常运行了。

  运行结果:

  分词结果为: 据悉/v ,/wd 质检/vn 总局/n 已/d 将/d 最新/a 有关/vn 情况/n 再次/d 通报/v 美方/n ,/wd 要求/v 美方/n 加强/v 对/p 输/v 华/b 玉米/n 的/ude1 产地/n 来源/n 、/wn 运输/vn 及/cc 仓储/vn 等/udeng 环节/n 的/ude1 管/v 控/v 措施/n ,/wd 有效/ad 避免/v 输/v 华/b 玉米/n 被/pbei 未经/d 我国/n 农业部/nt 安全/an 评估/vn 并/cc 批准/v 的/ude1 转基因/n 品系/n 污染/vn 。/wj 
  关键词提取结果是:农业部#评估#仓储#污染#

  如果你像我一样乱改了程序或者运气实在太差,sorry,你可能初始化失败。初始化失败的原因可能有:

  1、licence过期。解决办法是下载最新的licence和修改系统时间。

  2、无法找到Configure.xml。可能你有个地方乱改字符集或者字符集代码。请检查所有设置字符集的地方N遍。我在初始化ICTCLAS_Init时,将new File("").getAbsolutePath().getBytes("字符集")作为参数传递就可以正确运行了。

  3、其他错误请参见错误日志的输出。

四、分析其他文件

1、字符流缓冲类输入输出文件

 File file = new File("文件路径");
FileReader fileReader = new FileReader(file);
BufferedReader bufferedReader = new BufferedReader(fileReader);
String sInput = bufferedReader.readLine();
File outFile = new File("输出结果路径+输出结果.txt");
FileWriter fileWiter = new FileWriter(outFile);
BufferedWriter bufferedWriter = new BufferedWriter(fileWiter);
while((sInput = bufferedReader.readLine())!=null){
 String nativeBytes = null;
 try {
  nativeBytes = CLibrary.Instance.NLPIR_ParagraphProcess(sInput, 3);
  // String nativeStr = new String(nativeBytes, 0,
  // nativeBytes.length,"utf-8");
  //System.out.println("分词结果为: " + nativeBytes);
  System.out.println("分词结果为: "+ transString(nativeBytes, system_charset, "GBK"));
  bufferedWriter.write("分词结果为: "+ transString(nativeBytes, system_charset, "GBK"));
  bufferedWriter.write("\r\n");
int nCountKey = 0;
  String nativeByte = CLibrary.Instance.NLPIR_GetKeyWords(sInput, 10,false);
System.out.println("关键词提取结果是:" + nativeByte);
  bufferedWriter.write("关键词提取结果是:" + nativeByte);
  bufferedWriter.write("\r\n");
  } catch (Exception ex) {
    // TODO Auto-generated catch block
    ex.printStackTrace();
  }
}

  记得关闭bufferedWriter。

2、找一篇文章存为txt格式,进行分词和关键词提取。

  到此为止我终于调试好了分词系统,中英文都很有效。文件也差不多看了,只是.dll里面不知道写了什么。能做到这里我已经很开心了,下篇我将按照说明做hadoop使用分词实例。

ICTCLAS20160405分词系统调试过程的更多相关文章

  1. php 分词 —— PHPAnalysis无组件分词系统

    分词,顾名思义就是把词语分开,从哪里分开?当然是一大堆词语里了,一大堆词语是什么?是废话或者名言.这在数据库搜索时非常有用. 官方网站 http://www.phpbone.com/phpanalys ...

  2. 在TensorFlow中基于lstm构建分词系统笔记

    在TensorFlow中基于lstm构建分词系统笔记(一) https://www.jianshu.com/p/ccb805b9f014 前言 我打算基于lstm构建一个分词系统,通过这个例子来学习下 ...

  3. stm32--FatFs调试过程(SPIFlash)

    移植方法参见我的另一篇博客:<stm32--FatFs移植(SPIFlash)>. 本文仅记录在初次移植完成后,遇到的问题,和解决的过程. 调试记录: 问题1:f_open返回3,即磁盘没 ...

  4. 分词系统简介:PHPAnalysis分词程序

    分词系统简介:PHPAnalysis分词程序使用居于unicode的词库,使用反向匹配模式分词,理论上兼容编码更广泛,并且对utf-8编码尤为方便. 由于PHPAnalysis是无组件的系统,因此速度 ...

  5. Python环境下NIPIR(ICTCLAS2014)中文分词系统使用攻略

    一.安装 官方链接:http://pynlpir.readthedocs.org/en/latest/installation.html 官方网页中介绍了几种安装方法,大家根据个人需要,自行参考!我采 ...

  6. 【原创】中文分词系统 ICTCLAS2015 的JAVA封装和多线程执行(附代码)

    本文针对的问题是 ICTCLAS2015 的多线程分词,为了实现多线程做了简单的JAVA封装.如果有需要可以自行进一步封装其它接口. 首先ICTCLAS2015的传送门(http://ictclas. ...

  7. 视频: 千重浪Linux系统调试技术培训 03-01_Basic-CPU-Register

    免费轻松学习Linux系统调试技术 欢迎收看本工作室放到优酷上播放的免费教学视频. 清晰! 完整!  无病毒! 请点击:http://v.youku.com/v_show/id_XNjM1OTQ3Mj ...

  8. 一个简单的CS系统打包过程图文版

    一个简单的CS系统打包过程图文版 1.     打包内容 1.1.  此次打包的要求和特点 主工程是一个CS系统: 此CS系统运行的先决条件是要有.Net Framework 3.5: 主工程安装完成 ...

  9. linux系统开机过程描述

    本文描述linux系统开机过程,属于个人理解范畴,如果文中表述有误请大家批评指正! 计算机开机之后,首先要加载BIOS(基本输入输出系统)信息,BIOS包含了很多重要的信息,包括CPU信息,设备启动顺 ...

随机推荐

  1. java连接mysql数据库详细步骤解析

    java连接mysql数据库详细步骤解析      第一步:下载一个JDBC驱动包,例如我用的是:mysql-connector-java-5.1.17-bin.jar      第二步:导入下载的J ...

  2. EasyUI分页

    $("#tanModelBox1").css("display","none"); $('#dg').datagrid({ fitColum ...

  3. ubuntu server 12.04U盘安装,提示无法挂载安装光盘或光盘读取数据出错

    今天用Ultraiso将Ubuntu server 12.04 刻入U盘中安装系统,中间提示错误:1.检测不到cdrom(即U盘没有挂载上):2.从光盘中读取数据出错.问题如下图所示: 上网搜了下解决 ...

  4. jira任务批量操作示例

    1. 获取jira任务编号 使用字段提取工具获取编号,如WQBNEWSDLDL-347,WQBNEWSDLDL-348: 字段提取正则表达式:(?<2>[\[[](?<1>[A ...

  5. 实现一个小目标,动动小指,分享可得iphone7/ipad/U盘|奥威软件

    为什么很多人喜欢冬天呢?是因为冬天有着“床边挂起长长棉袜,而你做着甜甜美梦”的平安夜?还是因为冬天有着“具有无法言述的浪漫情怀”的圣诞节? 是不是还沉浸在平安夜,圣诞节的双节狂欢中, 好像不管长到多大 ...

  6. 判断网站地址是否是http开头

    var url = ""; if(!string.IsNullOrEmpty(Model.WebsiteURL)){ url = Model.WebsiteURL.ToString ...

  7. Ubantu16.04一键部署Cacti监控服务器

    Ubantu16.04一键部署Cacti监控服务器 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 欢迎加入高级运维工程师之路:598432640 一.查看系统环境(关于该系统的安装 ...

  8. Bringing the activity to foreground 将activity切换到前台

    今天遇到这个问题,找了很久,网上一些解决方法不够完全.特做此记录: 经测试以下方法不能将在后台运行的activity切换到前台运行! Intent i = new Intent(); i.setCla ...

  9. Tomcat 常用配置及网站部署

    一.同一Tomcat  多个端口部署不同的项目       在tomcat 安装目录下C:/Program Files/apache-tomcat-6.0.29/conf找到server.xml (1 ...

  10. C++之检测文件结尾

    当使用文件作为输入流时,为了确保适时的结束文件读取操作,程序要靠检查文件尾来判断该何时停止读取.常用的检查文件尾方法有两种: 两种方式均已将 fin 与文件关联,即 均已声明 fin 输入流,并已调用 ...