word2vec配置到使用

（1）首先下载word2vec，地址：https://code.google.com/p/word2vec/，可能下载的时候有问题，google上不去，那么可以从csdn上面下载。

解压后目录如下：

w2v/

`-- trunk

    |-- LICENSE

    |-- README.txt

    |-- compute-accuracy.c

    |-- demo-analogy.sh

    |-- demo-classes.sh

    |-- demo-phrase-accuracy.sh

    |-- demo-phrases.sh

    |-- demo-train-big-model-v1.sh

    |-- demo-word-accuracy.sh

    |-- demo-word.sh

    |-- distance.c

    |-- makefile

    |-- questions-phrases.txt

    |-- questions-words.txt

    |-- word-analogy.c

    |-- word2phrase.c

    `-- word2vec.c

（2）进入w2c/trunk文件夹，运行make，编辑文件。从makefile中可以看到，需要编译的文件，主要有两个word2vec.c和distance.c，编译后生成word2vec和distance。但是在编译的时候可能出现问题，参照http://blog.csdn.net/zshunmiao/article/details/15339105，可以对问题进行解决。

makefile内容如下：

（3）然后就可以跑个demo了，运行./demo-word.sh。

demo-word.sh内代码如下：

CC = gcc

#Using -Ofast instead of -O3 might result in faster code, but is supported only by newer GCC versions

CFLAGS = -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result

all: word2vec word2phrase distance word-analogy compute-accuracy

word2vec : word2vec.c

        $(CC) word2vec.c -o word2vec $(CFLAGS)

word2phrase : word2phrase.c

        $(CC) word2phrase.c -o word2phrase $(CFLAGS)

distance : distance.c

        $(CC) distance.c -o distance $(CFLAGS)

word-analogy : word-analogy.c

        $(CC) word-analogy.c -o word-analogy $(CFLAGS)

compute-accuracy : compute-accuracy.c

        $(CC) compute-accuracy.c -o compute-accuracy $(CFLAGS)

        chmod +x *.sh

clean:

        rm -rf word2vec word2phrase distance word-analogy compute-accuracy

然后输入单词，就可以计算其近义词，并按照顺序排列。

Enter word or sentence (EXIT to break): china       

Word: china  Position in vocabulary: 

                                              Word       Cosine distance

------------------------------------------------------------------------

                                             japan              0.648631

                                            taiwan              0.630534

                                         manchuria              0.599535

                                             tibet              0.583566

                                               prc              0.560898

                                          kalmykia              0.558937

                                            xiamen              0.556037

                                             jiang              0.553501

                                           chinese              0.547065

                                              liao              0.543676

                                             india              0.536273

                                             korea              0.534758

                                               roc              0.530741

                                          thailand              0.529334

                                             hunan              0.527629

                                             liang              0.527374

                                          shanghai              0.526314

                                         chongqing              0.525559

                                           nanjing              0.521342

                                            yunnan              0.518669

                                             wuhan              0.516914

                                              zhao              0.513246

                                          xinjiang              0.509939

                                              tuva              0.507322

                                         guangdong              0.507288

                                             hubei              0.505540

                                           guangxi              0.501068

                                            taipei              0.497673

                                             macao              0.497303

                                            hainan              0.494808

                                          shandong              0.493323

                                          shenzhen              0.491871

                                          hangzhou              0.489323

                                            balhae              0.488846

                                         guangzhou              0.486907

                                            fujian              0.485473

                                          zhejiang              0.485011

                                            harbin              0.483171

word2vec配置到使用的更多相关文章

用中文把玩Google开源的Deep-Learning项目word2vec
google最近新开放出word2vec项目,该项目使用deep-learning技术将term表示为向量,由此计算term之间的相似度,对term聚类等,该项目也支持phrase的自动识别,以及与t ...
Google开源的Deep-Learning项目word2vec
用中文把玩Google开源的Deep-Learning项目word2vec google最近新开放出word2vec项目,该项目使用deep-learning技术将term表示为向量,由此计算te ...
学习笔记CB011:lucene搜索引擎库、IKAnalyzer中文切词工具、检索服务、查询索引、导流、word2vec
影视剧字幕聊天语料库特点,把影视剧说话内容一句一句以回车换行罗列三千多万条中国话,相邻第二句很可能是第一句最好回答.一个问句有很多种回答,可以根据相关程度以及历史聊天记录所有回答排序,找到最优,是一个 ...
利用jieba,word2vec,LR进行搜狐新闻文本分类
一.简介 1)jieba 中文叫做结巴,是一款中文分词工具,https://github.com/fxsjy/jieba 2)word2vec 单词向量化工具,https://radimrehurek ...
NLP：Gensim库之word2vec
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达.它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法, ...
word2vec参数理解
之前写了对word2vec的一些简单理解,实践过程中需要对其参数有较深的了解: class gensim.models.word2vec.Word2Vec(sentences=None,size=10 ...
word2vec模型评估方案
1.word2vec参数详解 · sentences:可以是一个·ist,对于大语料集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建.· sg: 用于设置训练算 ...
语义分析之ansj_seg+word2vec的使用
语义分析,我是一个初学者,有很多东西,需要理论和实践结合后,才能理解的相对清楚. 今天,我就在语义理解中基于背景语料的情况,实现语义上下文的预测,比如,我说“王宝强”,你会想到什么?别告诉没有“马蓉” ...
机器学习之路： python 实践 word2vec 词向量技术
git: https://github.com/linyi0604/MachineLearning 词向量技术 Word2Vec 每个连续词汇片段都会对后面有一定制约称为上下文context 找到句 ...

随机推荐

QTestLib Tutorial
本学习指南介绍了如何使用QTestLib框架的一些特性,分为4章: 编写一个单元测试程序数据驱动测试模拟GUI事件重复GUI事件第一章编写一个单元测试程序文件列表: qtestlib/tu ...
从汇编看c++的虚拟继承以及其内存布局(一)
先看第一种最简单的情形,所有类中没有任何虚函数的菱形继承. 下面是c++源码: class Top {//虚基类 public: int i; Top(int ii) { i = ii; } }; c ...
php 格式
$abc = ($_POST[' : strtotime($_POST['start_time']); 解析:判断接收的数据是否为0,如果等于0赋值0,若不等于,则赋值获取的数值. strtotime ...
python成长之路第三篇(3)_内置函数及生成器迭代器
打个广告欢迎加入linux,python资源分享群群号:478616847 目录: 1.lambda表达式 2.map内置函数 3.filter内置函数 4.reduce内置函数 5.yield生成器 ...
Leetcode 226 Invert Binary Tree python
题目: Invert a binary tree. 翻转二叉树. 递归,每次对节点的左右节点调用invertTree函数,直到叶节点. python中也没有swap函数,当然你可以写一个,不过pyth ...
java学习：AWT组件和事件处理的笔记(1)--Frame
1.java的抽象窗口工具包(AWT)中包含了许多类来支持GUI设计2.AWT由java的java.awt包提供3.再进行GUI编程时,要理解:容器类(Container),组件(component) ...
EntityFramework+Autofac+MVC+EasyUI 搭建公司基本服务项目
去年年底用了2个星期的时间搭建了这套框架,从ORM,IOC,MVC,EasyUI都仔细的研究了下,还有日志,异常等等.mvc 我已经开发过很多项目了,我就觉得自己写套框架,看看自己的水平如何.欢迎大 ...
python操作redis-set
#!/usr/bin/python #!coding: utf-8 import redis if __name__=="__main__": try: conn=redis.St ...
SQL Server 查看identity值的几种方法。
方法 1. ident_incr('Table_name');# 增量 identity(A,B) 中的B值 ident_seed('Table_name'); # 种子 identit ...
新手学习.net编程计划-1
.NET是一个庞大的学习体系,对于新手来说会感觉无从下手.学习知识必须从入门的基础学起,才能更好地掌握.学习.net也是如此,最基础的莫过于了解.net平台,以及掌握.net的基础语法C#. 本计划是 ...

word2vec配置到使用

word2vec配置到使用的更多相关文章

随机推荐

热门专题