足球游戏论坛数据分析－－简单粗暴的K均值聚类

在<<足球游戏论坛数据分析－－简单粗暴的贝叶斯>>中尝试了贴标签后,一直觉得结果无法接受, 慢慢回想, 其实选择的算法是错误的,原因有

论坛帖子分类并非就是PC/PS/XBOX这么简单
即使是作者自己贴的标签,也存在挂羊头的可能性

既然没法简单的给帖子分类,那么就尝试一下聚类算法看看有没有发现:

    #事先已经把分好词的所有文本存成一个文件,没有事先分类

    f = codecs.open('forum_all.txt', 'r', 'utf-8')

    words_full = f.readlines()

    f.close()

    true_k = 5  #事先预设分成5类

    vectorizer = TfidfVectorizer(max_df=0.5, max_features=1000,

                                 min_df=2)

    transformer = TfidfTransformer()

    td = vectorizer.fit_transform(words_full)

    tfidf = transformer.fit_transform(td)

    word = np.array(vectorizer.get_feature_names())

    km = KMeans(n_clusters=true_ke, init='k-means++', max_iter=200, n_init=1)

    km.fit(td)

    print(u"Silhouette Coefficient(轮廓系数): %0.3f"

          % metrics.silhouette_score(td, km.labels_, sample_size=5000))

    order_centroids = km.cluster_centers_.argsort()[:, ::-1]   

    terms = vectorizer.get_feature_names()

    for i in range(true_ke):  #输出每个分类头10个特征词

        for ind in order_centroids[i, :10]:

            print ' %s' % terms[ind],

        print ''

运行结果

Silhouette Coefficient(轮廓系数): 0.137

Cluster 0:  1634 posts

 显卡  识别  独立  安装  如何  方法  教程  最后  破解版  reloaded

Cluster 1:  4388 posts

 2014  evolution  soccer  推荐  pro  论坛  首发  dlc3  下载  破解版

Cluster 2:  1677 posts

 汇总  资源  dlc6  22  10  更新  pes2014  分享  谢谢  支持

Cluster 3:  7872 posts

 wecn  发布  正式  pes2016  patch  v2  简体中文  汉化  v1  补丁

Cluster 4:  11287 posts

 pes2014  疑难解答  补丁  更新  球员  10  球场  分享  pes2016  谢谢

从这个分类结果来看,我抓取的论坛板块主要讨论的是:

能/爽玩游戏的电脑配置, 即PC版游戏
"你懂的"游戏用户还是不少,正版化依然任重而道远
过半数的讨论(分类3和4)是游戏的各路补丁,老司机都知道,在版权问题这个点上,FIFA无敌
颇为意外的是, 2014/2016竟然是热门版本, 2015毫无存在感
我现在有点怀疑我的爬虫花了大量时间在扒PC板块的帖子 -_-b

PS, 分类数5其实只是个随便定下的值. 之所以最终选5, 只是在测试了从3到12的分类后, 发现轮廓系数在5开始步入稳定状态,提升不大.

最后,附上个特征向量经降维后作的分类散点图

足球游戏论坛数据分析－－简单粗暴的K均值聚类的更多相关文章

5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...
【转】算法杂货铺——k均值聚类(K-means)
k均值聚类(K-means) 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时 ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
机器学习理论与实战（十）K均值聚类和二分K均值聚类
接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类 ...
K均值聚类
聚类(cluster)与分类的不同之处在于, 分类算法训练过程中样本所属的分类是已知的属监督学习. 而聚类算法不需要带有分类的训练数据,而是根据样本特征的相似性将其分为几类,又称为无监督分类. K均值 ...
探索sklearn | K均值聚类
1 K均值聚类 K均值聚类是一种非监督机器学习算法,只需要输入样本的特征 ,而无需标记. K均值聚类首先需要随机初始化K个聚类中心,然后遍历每一个样本,将样本归类到最近的一个聚类中,一个聚类中样本特征 ...
机器学习之K均值聚类
聚类的核心概念是相似度或距离,有很多相似度或距离的方法,比如欧式距离.马氏距离.相关系数.余弦定理.层次聚类和K均值聚类等 1. K均值聚类思想 K均值聚类的基本思想是,通过迭代的方法寻找K个 ...
k均值聚类算法原理和（TensorFlow）实现
顾名思义,k均值聚类是一种对数据进行聚类的技术,即将数据分割成指定数量的几个类,揭示数据的内在性质及规律. 我们知道,在机器学习中,有三种不同的学习模式:监督学习.无监督学习和强化学习: 监督学习,也 ...
聚类之K均值聚类和EM算法
这篇博客整理K均值聚类的内容,包括: 1.K均值聚类的原理: 2.初始类中心的选择和类别数K的确定: 3.K均值聚类和EM算法.高斯混合模型的关系. 一.K均值聚类的原理 K均值聚类(K-means) ...

随机推荐

springMVC学习笔记(一)-----springMVC原理
一.什么是springmvc springMVC是spring框架的一个模块,springMVC和spring无需通过中间整合层进行开发. springMVC是一个基于mvc的web框架. Sprin ...
null和undefined的一些区别
读了阮一峰的博客,自己总结一下,便记录一篇博客在javacript的基本类型中,有2种基本类型,只有1个值,便是null和undefined,都表示的是"无".在一定程度上是相等 ...
Autofac - 装配
从容器中的可用服务中, 选取一个构造函数来创造对象, 这个过程就是自动装配. 一.选择构造函数默认情况下, autofac会使用无参构造函数, 去创建对象. 我将Person类稍微修改了下. pub ...
[Asp.net 5] Localization-resx资源文件的管理
上一篇博文地址:[Asp.net 5] Localization-简单易用的本地化-全球化信息本文继续介绍asp.net 5多语言.今天重点讲的是多语言的resx文件.涉及到的工程有:Microso ...
多个提高C#编程能力的建议
1.总是用属性 (Property) 来代替可访问的数据成员 2.在 readonly 和 const 之间,优先使用 readonly 3.在 as 和强制类型转换之间,优先使用 as 操作符 4 ...
背水一战 Windows 10 (18) - 绑定: 与 Element 绑定, 与 Indexer 绑定, TargetNullValue, FallbackValue
[源码下载] 背水一战 Windows 10 (18) - 绑定: 与 Element 绑定, 与 Indexer 绑定, TargetNullValue, FallbackValue 作者:weba ...
hdu-2063-二分图最大匹配
过山车 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submiss ...
《疯狂Java讲义》学习笔记——第2章理解面向对象
面向对象的三种基本特征:继承,封装,多态 UML(统一建模语言) 2.1 面向对象 2.1.1 结构化程序设计简介图2.1 结构化软件的逻辑结构示意图从图2.1可以看出,结构化设计需要采用自顶向 ...
MyEclipse10查看Struts2源码及Javadoc文档
1:查看Struts2源码 (1):Referenced Libraries >struts2-core-2.1.6.jar>右击>properties. (2):Java Sour ...
小议jQuery插件开发
1.写在前面: 大家都知道PHP专注后台与数据库的交互,前端页面中是js的天下,而jQuery作为使用最广泛,最简单有效的js的框架.深受大家的喜欢. 而js作为一门面向对象的开发语言,它独特的语法和 ...

足球游戏论坛数据分析－－简单粗暴的K均值聚类

足球游戏论坛数据分析－－简单粗暴的K均值聚类的更多相关文章

随机推荐

热门专题