利用word2vec对关键词进行聚类

1、收集预料

自己写个爬虫去收集网页上的数据。
使用别人提供好的数据http://www.sogou.com/labs/dl/ca.html

2、对预料进行去噪和分词

我们需要content其中的值，通过简单的命令把非content 的标签干掉

    cat news_tensite_xml.dat | iconv -f gbk -t utf- -c | grep "<content>"  > corpus.txt

分词可以用jieba分词：

#!/usr/bin/env python

#-*- coding:utf-8 -*-

import jieba

import jieba.analyse

import jieba.posseg as pseg

def cut_words(sentence):

    #print sentence

    return " ".join(jieba.cut(sentence)).encode('utf-8')

f = open("corpus.txt")

target = open("resultbig.txt", 'a+')

print 'open files'

line = f.readlines(100000)

num=0

while line:

    num+=1

    curr = []

    for oneline in line:

        #print(oneline)

        curr.append(oneline)

    '''

    seg_list = jieba.cut_for_search(s)

    words = pseg.cut(s)

    for word, flag in words:

        if flag != 'x':

            print(word)

    for x, w in jieba.analyse.extract_tags(s, withWeight=True):

        print('%s %s' % (x, w))

    '''

    after_cut = map(cut_words, curr)

    # print lin,

    #for words in after_cut:

        #print words

    target.writelines(after_cut)

    print 'saved %s00000 articles'% num

    line = f.readlines(100000)

f.close()

target.close()

3、运行word2vec输出每个词的向量

./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1

输出为vectors.bin

然后我们计算距离的命令即可计算与每个词最接近的词了：
```
./distance vectors.bin
```

4、现在经过以上的熟悉，我们进入对关键词的聚类：

则只需输入一行命令即可：

./word2vec -train resultbig.txt -output classes.txt -cbow  -size  -window  -negative  -hs  -sample 1e- -threads  -classes

然后按类别排序，再输入另一个命令：
```
sort classes.txt -k  -n > classes.sorted.txt 
```

利用word2vec对关键词进行聚类的更多相关文章

利用模拟退火提高Kmeans的聚类精度
http://www.cnblogs.com/LBSer/p/4605904.html Kmeans算法是一种非监督聚类算法,由于原理简单而在业界被广泛使用,一般在实践中遇到聚类问题往往会优先使用Km ...
利用python爬虫关键词批量下载高清大图
前言在上一篇写文章没高质量配图?python爬虫绕过限制一键搜索下载图虫创意图片!中,我们在未登录的情况下实现了图虫创意无水印高清小图的批量下载.虽然小图能够在一些移动端可能展示的还行,但是放到pc ...
利用 word2vec 训练的字向量进行中文分词
最近针对之前发表的一篇博文<Deep Learning 在中文分词和词性标注任务中的应用>中的算法做了一个实现,感觉效果还不错.本文主要是将我在程序实现过程中的一些数学细节整理出来,借此优 ...
利用中文数据跑Google开源项目word2vec
一直听说word2vec在处理词与词的相似度的问题上效果十分好,最近自己也上手跑了跑Google开源的代码(https://code.google.com/p/word2vec/). 1.语料首先准 ...
重磅︱文本挖掘深度学习之word2vec的R语言实现
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:2013年末,Google发布的 w ...
自然语言处理工具：中文 word2vec 开源项目，教程，数据集
word2vec word2vec/glove/swivel binary file on chinese corpus word2vec: https://code.google.com/p/wor ...
word2vec词向量训练及中文文本类似度计算
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...
[python] 使用scikit-learn工具计算文本TF-IDF值
在文本聚类.文本分类或者比较两个文档相似程度过程中,可能会涉及到TF-IDF值的计算.这里主要讲述基于Python的机器学习模块和开源工具:scikit-learn. 希望文章对你有所帮 ...
机器学习——利用K-均值聚类算法对未标注数据分组
聚类是一种无监督的学习,它将相似的对象归到同一簇中.它有点像全自动分类.聚类方法几乎可以应用到所有对象,簇内的对象越相似,聚类的效果越好. K-均值(K-means)聚类算法,之所以称之为K-均值是因 ...

随机推荐

Data Structure 之最优二叉树
给定n个权值作为n的叶子结点,构造一棵二叉树,若带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman tree).哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近. ...
js字符串的各种格式的转换 ToString，Format
1.转换钱的格式,仅限int型,float型,double型 double d = 400; d.ToString("C"); //￥400.00 2.10进制数,仅限int型的数 ...
解决Lost connection to MySQL server at 'reading initial communication packet', 的方法
今天用heidsql连接mysql时出了问题,提示:Lost connection to MySQL server at 'reading initial communication packet 网 ...
【阿里云产品公测】利用PTS服务优化网站数据库读写性能
[阿里云产品公测]利用PTS服务优化网站数据库读写性能作者:阿里云用户千鸟写这个帖子主要也是因为在用PTS测试网站的时候,手动访问网站进入报错页面,主要原因是数据库连接对象存在问题,导致并发多的时 ...
剑指Offer05 用栈模拟队列
添加了模板类应用 /************************************************************************* > File Name: ...
hdu-5703 Desert(水题)
题目链接: Desert Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others) Pr ...
获取https证书
获取证书个人如果想购买SSL证书,相对来说还是比较简单的.对于小型网站,可以考虑通过StartSSL获取免费证书.另外还可以通过LetsEncrypt项目使用一个简单的命令行界面为服务获取免费证书. ...
Sharepoint中有关文件夹的操作
1.GetItemsWithUniquePermissions根据返回数量和是否返回文件夹获取唯一权限的列表项集合对于SharePoint对象模型中SPList的GetItemsWithUnique ...
【CSS3】---结构性伪类选择器—nth-child(n)+nth-last-child(n)
结构性伪类选择器—nth-child(n) “:nth-child(n)”选择器用来定位某个父元素的一个或多个特定的子元素.其中“n”是其参数,而且可以是整数值(1,2,3,4),也可以是表达式(2n ...
ruby学习--varaible
#全局变量 $global_variable=10 class Class1 def print_global() puts "Global variable in Class1 is #{ ...

利用word2vec对关键词进行聚类

利用word2vec对关键词进行聚类的更多相关文章

随机推荐

热门专题