Clustering text documents using k-means

源代码的链接为http://scikit-learn.org/stable/auto_examples/text/document_clustering.html

Loading 20 newsgroups dataset for categories:

['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space']

3387 documents

4 categories

Extracting features from the training dataset using a sparse vectorizer

done in 2.980000s

n_samples: 3387, n_features: 10000

Clustering sparse data with MiniBatchKMeans(batch_size=1000, compute_labels=True, init='k-means++',

        init_size=1000, max_iter=100, max_no_improvement=10, n_clusters=4,

        n_init=1, random_state=None, reassignment_ratio=0.01, tol=0.0,

        verbose=False)

done in 0.514s

Homogeneity: 0.506

Completeness: 0.576

V-measure: 0.539

Adjusted Rand-Index: 0.477

Silhouette Coefficient: 0.006

Top terms per cluster:

Cluster 0: hst nasa mission jpl ___ gov baalke access orbit __

Cluster 1: space henry nasa access toronto com alaska digex pat sky

Cluster 2: god com people sandvik keith don jesus article say think

Cluster 3: graphics com university thanks posting image host nntp computer ac

一、

TfidfVectorizer

HashingVectorizer

二、

Two algorithms are demoed: ordinary k-means and its more scalable cousin minibatch k-means

(To be continued)

Clustering text documents using k-means的更多相关文章

犀利的background-clip:text，实现K歌字幕效果
今天学到了一个新的CSS3属性,更准确的说是属性值,那就是background-clip:text.利用此属性值可以制作出很神奇的效果.可惜只有chrome支持,不过今天可以先来玩玩这个属性. 先来介 ...
Classification of text documents: using a MLComp dataset
注:原文代码链接http://scikit-learn.org/stable/auto_examples/text/mlcomp_sparse_document_classification.html ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
软件——机器学习与Python，聚类，K——means
K-means是一种聚类算法: 这里运用k-means进行31个城市的分类城市的数据保存在city.txt文件中,内容如下: BJ,2959.19,730.79,749.41,513.34,467. ...
scikit-learn：4.2.3. Text feature extraction
http://scikit-learn.org/stable/modules/feature_extraction.html 4.2节内容太多,因此将文本特征提取单独作为一块. 1.the bag o ...
sklearn文本特征提取
http://cloga.info/2014/01/19/sklearn_text_feature_extraction/ 文本特征提取词袋(Bag of Words)表征文本分析是机器学习算法的 ...
Feature extraction - sklearn文本特征提取
http://blog.csdn.net/pipisorry/article/details/41957763 文本特征提取词袋(Bag of Words)表征文本分析是机器学习算法的主要应用领域 ...
coursera课程Text Retrieval and Search Engines之Week 2 Overview
Week 2 OverviewHelp Center Week 2 On this page: Instructional Activities Time Goals and Objectives K ...
论文解读SDCN《Structural Deep Clustering Network》
前言主体思想:深度聚类需要考虑数据内在信息以及结构信息. 考虑自身信息采用基础的 Autoencoder ,考虑结构信息采用 GCN. 1.介绍在现实中,将结构信息集成到深度聚类中通常需要解决以 ...

随机推荐

UICollectController
九宫格 UICollectController 1.新建一个xib描述cell 2.注册xib 3.collectionView显示cell *必须设置数据源(和代理并遵守协议) *实现数据源和代理的 ...
并查集+bfs+暴力滑窗 Codeforces Round #356 (Div. 2) E
http://codeforces.com/contest/680/problem/E 题目大意:给你一个n*n的图,然后图上的 . (我们下面都叫做‘点’)表示可以走,X表示不能走,你有如下的操作, ...
NoRouteToHostException
http://stackoverflow.com/questions/1572215/how-to-avoid-a-noroutetohostexception 端口不够用,注意一定要关闭所有不用的连 ...
LightOJ 1341 Aladdin and the Flying Carpet（整数拆分定理）
分析:题目并不难理解,就是一些细节上的优化需要我们注意,我在没有优化前跑了2000多MS,优化了一些细节后就是400多MS了,之前还TLE了好几次. 方法:将整数拆分为质因子以后,表达为这样的形式,e ...
前端知识复习一（css）
1.清楚浮动父盒子高度为0,子盒子全部定位.浮动.子盒子不会撑开父盒子,下面的盒子会顶上来清楚方法: clear:both: overflow:hidden: 加空标签单/双 //双标签 .cl ...
笔记整理--Linux编程
linux c编程open() read() write()函数的使用方法及实例 | 奶牛博客 - Google Chrome (2013/8/31 17:56:10) 今天把文件IO操作的一些东东整 ...
SD卡的控制方法（指令集和控制时序）
1.SD卡的命令格式: SD卡的指令由6字节(Byte)组成,如下: Byte1:0 1 x x x x x x(命令号,由指令标志定义,如CMD39为100111即16进制0x27,那么完整的CMD ...
we7调用模板如何区分栏目页与详细页
<a href='/xsdt/0000-00-00-00.html?id=<%# Eval("ID")%>'> 0000-00-00-00.html传参数来 ...
n皇后问题<dfs>
n皇后问题指的是: n*n的国际象棋棋盘上摆放n个皇后,使其不能互相攻击, 即任意两个皇后都不能处于同一行.同一列或同一斜线上, 问有多少种摆法. 和一般n皇后问题不同的是,现在棋盘上有可能已经放了一 ...
ReactiveCocoa Weak-Strong Dance
AC在应用中大量使用了block,由于Objective-C语言的内存管理是基于引用计数的,为了避免循环引用问题,在block中如果要引用self,需要使用@weakify(self)和@strong ...

Clustering text documents using k-means

Clustering text documents using k-means的更多相关文章

随机推荐

热门专题