基于weka的文本分类实现
weka介绍
参见
1)百度百科:http://baike.baidu.com/link?url=V9GKiFxiAoFkaUvPULJ7gK_xoEDnSfUNR1woed0YTmo20Wjo0wYo7uff4mq_wg3WzKhTZx4Ok0JFgtiYY19U4q
2)weka官网: http://www.cs.waikato.ac.nz/ml/weka/
简单文本分类实现:
此处文本为已处理好的文本向量空间模型,关于文本特征提取主要是基于TF-IDF算法对已分词文档进行特征抽取,然后基于已提取特征将所有文档表示为向量空间模型。
偷个小懒,就用weka自带的*.arff格式文档来做实现。
weka对于文本分类提供两种方式,一种是批量式文本分类,即将所有数据一次性放入内存进行分类处理,这种情况对内存有所要求;为适应大量数据的分类实现,另一种增量式
文本分类,允许分批次导入数据至内存进行分类,这样就避免了因数据集过大而内存不足的问题。具体实现如下:
1)采用增量式朴素贝叶斯算法进行分类
注:weka中所有增量式分类器都实现了UpdateableClassifier接口,该接口位于weka.classifiers包中。
/**
* train a classifier using trainSet,then evaluate the classifier on testSet
* 分类分为两种:增量、批量
* 此处为增量式分类:适用于训练集太大而内存有限的情况
* 加载数据集(训练集or测试集),使用ArffLoader
* @param trainSet:训练集路径
* @param testSet:测试集路径
* @return classifier
*
*/
private Classifier trainClassifierIncremental(String trainSet,String testSet){
ArffLoader loader=new ArffLoader();
Instances instances = null;
NaiveBayesUpdateable naiveBayesUpdateable=null;
try {
//load data
loader.setFile(new File(trainSet));
instances=loader.getStructure();
// instances.setClassIndex(classIndex); // 指定分类属性索引
instances.setClassIndex(instances.numAttributes()-1); //默认最后一个属性为分类属性 // train NaiveBayes :incremental classifier
naiveBayesUpdateable=new NaiveBayesUpdateable();
naiveBayesUpdateable.buildClassifier(instances);
Instance current;
while((current=loader.getNextInstance(instances))!=null){
naiveBayesUpdateable.updateClassifier(current);
} //evaluate classifier
Instances testInstances=new Instances(new FileReader(testSet));
testInstances.setClassIndex(testInstances.numAttributes()-1);
Evaluation eval=new Evaluation(instances);
eval.evaluateModel(naiveBayesUpdateable, testInstances);
System.out.println(eval.toMatrixString());
System.out.println(eval.toSummaryString());
System.out.println(eval.toClassDetailsString()); } catch (Exception e) {
e.printStackTrace();
}
return naiveBayesUpdateable;
}
增量式分类实现
其中,Evaluation类,是weka提供的对分类器分类效率进行评估的模块,通过该模块的调用,可观察分类器的各种性能,如召回率、准确率、F值等等。ArffLoader用来加载指
定路径的数据集,注意该数据集应为.arff格式。
2)采用决策树算法(J48)进行批量式分类
/**
* train a classifier using trainSet,then evaluate the classifier on testSet
* 分类分为两种:增量、批量
* 此处为批量式分类:适用于训练集能够在内存中存放的情况
* 加载数据集(训练集or测试集),使用ArffLoader
* @param trainSet:训练集路径
* @param testSet:测试集路径
* @return classifier
*
*/
private Classifier trainClassifierBatch(String trainSet,String testSet){
ArffLoader loader=new ArffLoader();
Instances instances = null;
J48 tree=null;
try {
//load data
loader.setFile(new File(trainSet));
// instances=loader.getStructure();
instances=loader.getDataSet();
// instances.setClassIndex(classIndex); // 指定分类属性索引
instances.setClassIndex(instances.numAttributes()-1); //默认最后一个属性为分类属性 // train NaiveBayes :incremental classifier
tree=new J48();
tree.buildClassifier(instances); //evaluate classifier
Instances testInstances=new Instances(new FileReader(testSet));
testInstances.setClassIndex(testInstances.numAttributes()-1);
Evaluation eval=new Evaluation(instances);
eval.evaluateModel(tree, testInstances);
System.out.println(eval.toMatrixString());
System.out.println(eval.toSummaryString());
System.out.println(eval.toClassDetailsString()); } catch (Exception e) {
e.printStackTrace();
}
return tree;
}
批量式分类实现
3)关于分类器的评估
weka对于分类器的评估,除了上述明确划分训练集和测试集,然后以测试集来评估分类性能的方式,还提供了交叉验证方式,该方式适用于数据集只有一个(即没有明确划分出训练集和测试集)的情况,weka在Evaluation类中提供了一个crossValidateModel方法来实现交叉验证,该方法要求提供一个未训练的分类器,数据集,交叉验证折数,一个随机化种子。
public void crossValidate(String dataSet){
try {
// load data
Instances instances=new Instances(new FileReader(dataSet));
//evaluate
Evaluation eval=new Evaluation(instances);
J48 tree=new J48();
eval.crossValidateModel(tree, instances, 10, new Random(1));
System.out.println(eval.toMatrixString());
System.out.println(eval.toSummaryString());
System.out.println(eval.toClassDetailsString());
} catch (FileNotFoundException e) {
System.out.println("dataSet not found...");
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
} }
交叉验证实现
此处实现采用10折交叉验证,随机化种子选取1.
4)对未分类实例进行分类
/**
* 利用已训练的分类模型对未分类数据集进行分类
* @param dataSet:未分类数据集
* @param cls:已训练好的分类模型
* @param labeledSet:分类后数据存放路径
*/
public void classifyInstances(String dataSet,Classifier cls,String labeledSet){
try {
// load unlabeled data and set class attribute
Instances unlabeled=new Instances(new FileReader(dataSet));
unlabeled.setClassIndex(unlabeled.numAttributes()-1);
// create copy
Instances labeled = new Instances(unlabeled);
// label instances
for (int i = 0; i < unlabeled.numInstances(); i++) {
double clsLabel = cls.classifyInstance(unlabeled.instance(i));
labeled.instance(i).setClassValue(clsLabel);
}
// save newly labeled data
DataSink.write(labeledSet, labeled); } catch (FileNotFoundException e) {
System.out.println("DataSet,File Not Found...");
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
}
未分类实例分类实现
相关方法简介:
<--instances.setClassIndex(instances.numAttributes()-1); //默认最后一个属性为分类属性 -->
Instances类方法:setClassIndex(int classIndex) 用于设置分类属性索引, numAttributes()返回instance实例中属性(特征)个数,即特征向量维度
<--eval.toMatrixString());
eval.toSummaryString();
eval.toClassDetailsString();
-->
• toMatrixString – outputs the confusion matrix.
• toClassDetailsString – outputs TP/FP rates, precision, recall, F-measure,AUC (per class).
输出结果展示:
=== Confusion Matrix ===
a b c <-- classified as
50 0 0 | a = Iris-setosa
0 47 3 | b = Iris-versicolor
0 3 47 | c = Iris-virginica
Correctly Classified Instances 144 96 %
Incorrectly Classified Instances 6 4 %
Kappa statistic 0.94
Mean absolute error 0.035
Root mean squared error 0.1486
Relative absolute error 7.8697 %
Root relative squared error 31.5185 %
Coverage of cases (0.95 level) 98.6667 %
Mean rel. region size (0.95 level) 37.3333 %
Total Number of Instances 150
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
1 0 1 1 1 1 Iris-setosa
0.94 0.03 0.94 0.94 0.94 0.992 Iris-versicolor
0.94 0.03 0.94 0.94 0.94 0.992 Iris-virginica
Weighted Avg. 0.96 0.02 0.96 0.96 0.96 0.995
基于weka的文本分类实现的更多相关文章
- tensorflow实现基于LSTM的文本分类方法
tensorflow实现基于LSTM的文本分类方法 作者:u010223750 引言 学习一段时间的tensor flow之后,想找个项目试试手,然后想起了之前在看Theano教程中的一个文本分类的实 ...
- 一文详解如何用 TensorFlow 实现基于 LSTM 的文本分类(附源码)
雷锋网按:本文作者陆池,原文载于作者个人博客,雷锋网已获授权. 引言 学习一段时间的tensor flow之后,想找个项目试试手,然后想起了之前在看Theano教程中的一个文本分类的实例,这个星期就用 ...
- 基于SVMLight的文本分类
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 .非线性及高维模式识别 中表现出许多特有的优势,并能够推广应用到函数拟合等 ...
- 基于tensorflow的文本分类总结(数据集是复旦中文语料)
代码已上传到github:https://github.com/taishan1994/tensorflow-text-classification 往期精彩: 利用TfidfVectorizer进行 ...
- Python 基于 NLP 的文本分类
这是前一段时间在做的事情,有些python库需要python3.5以上,所以mac请先升级 brew安装以下就好,然后Preference(comm+',')->Project: Text-Cl ...
- NLP第9章 NLP 中用到的机器学习算法——基于统计学(文本分类和文本聚类)
- 基于Text-CNN模型的中文文本分类实战 流川枫 发表于AI星球订阅
Text-CNN 1.文本分类 转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
- 基于Text-CNN模型的中文文本分类实战
Text-CNN 1.文本分类 转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
- 使用libsvm实现文本分类
@Hcy(黄灿奕) 文本分类,首先它是分类问题,应该对应着分类过程的两个重要的步骤,一个是使用训练数据集训练分类器,另一个就是使用测试数据集来评价分类器的分类精度.然而,作为文本分类,它还具有文本这样 ...
随机推荐
- urllib2.open(req).read() 报403的错误:怎么办?
http://www.douban.com/group/topic/18095751/ heads = {'Accept':'text/html,application/xhtml+xml,appli ...
- 完成一段简单的Python程序,使用函数实现用来判断输入数是偶数还是奇数
#!/bin/usr/env python#coding=utf-8'''完成一段简单的Python程序,使用函数实现用来判断偶数和奇数'''def number_deal(a): if a%2==0 ...
- 优秀IT技术文章集(最新)(高质量)
作者:赵磊 博客:http://elf8848.iteye.com 阅读优秀的文章可以使你快速进步,本文收集了广受好评的优秀IT技术文章,在你有空时读一读,安静下来思考一下. 不断更新中... --- ...
- 【python】进程
multiprocessing 如果你打算编写多进程的服务程序,Unix/Linux无疑是正确的选择.由于Windows没有fork调用,难道在Windows上无法用Python编写多进程的程序? 由 ...
- 【Oozie】安装配置Oozie
安装和配置Oozie Oozie用于Hadoop的工作流配置: 参考链接: <Install and Configure Apache Oozie Workflow Scheduler for ...
- ios uiwebview 上几个技巧
以下内容转自 CrespoXiao的微博 分享个tips,阅读类app内容加载一般是本地存几个html框架,接口传body过来就行了,目的是节省流量.但是loadHTMLString在内容多尤其是图片 ...
- 读CopyOnWriteArrayList有感
除了加锁外,其实还有一种方式可以防止并发修改异常,这就是将读写分离技术(不是数据库上的). 先回顾一下一个常识: 1.JAVA中“=”操作只是将引用和某个对象关联,假如同时有一个线程将引用指向另外一个 ...
- Android Gradle 多Module单独编译一个Module
假如项目中有两个Module,app1和app2.假如我只想对app1 module进行build,则可以: gradle :App1:build build命令可以换成任意gradle命令.
- HelloWorld
1.创建一src目录,并创建一个文本文件 2.将文件重命名为Hello.java,并用notepad打开 3.编写代码 4.将源代码编译为类文件 Java编译器(javac.exe)的作用是将Java ...
- libpcap和WinPcap
能从物理上访问网络上的流量后,你需要用软件把它记录下来.这里,我们探究记录.解析和分析被捕获的数据包中最常用的软件库:libpcap和WinPcap.也将介绍包括tcpdump.Wireshark等基 ...