改用MyAnalyzer的KMeans聚类算法

<strong><span style="font-size:18px;">/***

 * @author YangXin

 * @info 改用MyAnalyzer的KMeans聚类算法

 */

package unitTen;

import java.io.File;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.SequenceFile;

import org.apache.lucene.analysis.Analyzer;

import org.apache.mahout.clustering.Cluster;

import org.apache.mahout.clustering.kmeans.KMeansDriver;

import org.apache.mahout.clustering.kmeans.RandomSeedGenerator;

import org.apache.mahout.common.HadoopUtil;

import org.apache.mahout.common.distance.CosineDistanceMeasure;

import org.apache.mahout.vectorizer.DictionaryVectorizer;

import org.apache.mahout.vectorizer.DocumentProcessor;

import org.apache.mahout.vectorizer.tfidf.TFIDFConverter;

public class NewsKMeansClustering {

	public static void main(String args[]) throws Exception {

	    int minSupport = 5;

	    int minDf = 5;

	    int maxDFPercent = 99;

	    int maxNGramSize = 1;

	    int minLLRValue = 50;

	    int reduceTasks = 1;

	    int chunkSize = 200;

	    int norm = -1;

	    boolean sequentialAccessOutput = true;

	    String inputDir = "reuters-seqfiles";

	    File inputDirFile = new File(inputDir);

	    Configuration conf = new Configuration();

	    FileSystem fs = FileSystem.get(conf);

	    String outputDir = "newsClusters";

	    HadoopUtil.delete(conf, new Path(outputDir));

	    Path tokenizedPath = new Path(outputDir,

	        DocumentProcessor.TOKENIZED_DOCUMENT_OUTPUT_FOLDER);

	    MyAnalyzer analyzer = new MyAnalyzer();

	    DocumentProcessor.tokenizeDocuments(new Path(inputDir), analyzer

	        .getClass().asSubclass(Analyzer.class), tokenizedPath, conf);

	    DictionaryVectorizer.createTermFrequencyVectors(tokenizedPath,

	      new Path(outputDir), conf, minSupport, maxNGramSize, minLLRValue, 2, true, reduceTasks,

	      chunkSize, sequentialAccessOutput, false);

	    TFIDFConverter.processTfIdf(

	      new Path(outputDir , DictionaryVectorizer.DOCUMENT_VECTOR_OUTPUT_FOLDER),

	      new Path(outputDir), conf, chunkSize, minDf,

	      maxDFPercent, norm, true, sequentialAccessOutput, false, reduceTasks);

	    Path vectorsFolder = new Path(outputDir, "tfidf-vectors");

	    Path centroids = new Path(outputDir, "centroids");

	    Path clusterOutput = new Path(outputDir, "clusters");

	    RandomSeedGenerator.buildRandom(conf, vectorsFolder, centroids, 20,

	      new CosineDistanceMeasure());

	    KMeansDriver.run(conf, vectorsFolder, centroids, clusterOutput,

	      new CosineDistanceMeasure(), 0.01, 20, true, false);

	    SequenceFile.Reader reader = new SequenceFile.Reader(fs,

	        new Path(clusterOutput, Cluster.CLUSTERED_POINTS_DIR

	                                + "/part-m-00000"), conf);

	  }

}

</span></strong>

改用MyAnalyzer的KMeans聚类算法的更多相关文章

机器学习六--K-means聚类算法
机器学习六--K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别 ...
K-means聚类算法（转）
K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是 ...
K-Means 聚类算法
K-Means 概念定义: K-Means 是一种基于距离的排他的聚类划分方法. 上面的 K-Means 描述中包含了几个概念: 聚类(Clustering):K-Means 是一种聚类分析(Clus ...
k-means聚类算法python实现
K-means聚类算法算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他 ...
K-Means 聚类算法原理分析与代码实现
前言在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...
Kmeans聚类算法原理与实现
Kmeans聚类算法 1 Kmeans聚类算法的基本原理 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一.K-means算法的基本思想是:以空间中k个点为中心进行聚类,对 ...
转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...
沙湖王 | 用Scipy实现K-means聚类算法
沙湖王 | 用Scipy实现K-means聚类算法用Scipy实现K-means聚类算法
Matlab中K-means聚类算法的使用（K-均值聚类）
K-means聚类算法采用的是将N*P的矩阵X划分为K个类,使得类内对象之间的距离最大,而类之间的距离最小. 使用方法:Idx=Kmeans(X,K)[Idx,C]=Kmeans(X,K) [Idx, ...

随机推荐

easyui datagrid 学习（一）
注意:当使用谷歌浏览器时!需要设置style="overflow:hidden",这样则可以去掉滚动条!(该样式添加到layout上!) fit:属性自动填父容器, borde ...
JS获取屏幕宽度
document.write("屏幕分辨率为:"+screen.width+"*"+screen.height+"<br />" ...
java 四舍五入保留两位小数
1. 格式化字符串 java.text.DecimalFormat df = new java.text.DecimalFormat("#0.00"); float val=Flo ...
Oracle连接查询小结
表TESTA,TESTB,TESTC,各有A, B两列 A B 001 10A 002 20A A B 001 10B 003 30B A B 001 10C 004 40C 连接分为两种:内连接与外 ...
ansible中playbook使用
palybook使用 ####yaml语法ansible中使用的yaml基础元素:变量Inventory条件测试迭代 playbook的组成结构InventoryModulesAd Hoc Comma ...
[TC_SRM_466]DrawingBlackCrosses
[TC_SRM_466]DrawingBlackCrosses 试题描述 \(n \times m\)(\(n, m \le 20\))的棋盘其中至多有 \(8\) 个格子为黑色,其他格子为白色每 ...
【03】Vue 之列表渲染及条件渲染
3.1. 条件渲染有时候我们要根据数据的情况,决定标签是否进行显示或者有其他动作.最常见的就是,表格渲染的时候,如果表格没有数据,就显示无数据.如果有数据就显示表格数据. Vue帮我们提供了一个v- ...
【HDOJ5975】Aninteresting game（BIT原理）
题意:给定n个区间,第i个区间的范围是[i-lowbit(i)+1,i].一共有q组询问,询问有两种: 1 x y:询问sigma lowbit(i) (x<=i<=y) 2.x:询问有几 ...
js6：history和navigator对象的学习
原文发布时间为:2008-11-08 -- 来源于本人的百度文章 [由搬家工具导入] <html> <head> <title>js</title> & ...
WIN8.1安装 .net framework 3.5
1.虚拟光驱加载安装镜像 2.以管理员权限运行cmd 3.输入以下命令: dism.exe /online /enable-feature /featurename:NetFX3 /Source:X: ...

改用MyAnalyzer的KMeans聚类算法

改用MyAnalyzer的KMeans聚类算法的更多相关文章

随机推荐

热门专题