语义分析之ansj_seg+word2vec的使用

语义分析，我是一个初学者，有很多东西，需要理论和实践结合后，才能理解的相对清楚。

今天，我就在语义理解中基于背景语料的情况，实现语义上下文的预测，比如，我说“王宝强”，你会想到什么？别告诉没有“马蓉”，别告诉我没有“泰囧”，再比如，我说“白百何”，不要说你没有想到“出轨”两个字。。。这就是语义预测，也就是相关信息的映射。这个，就是word2vec的功劳了。

word2vec是谷歌开源的一个语义预测框架。主要是将词映射到一个维度空间上，每个词都有n个不同维度的信息，用vector表示，词与词之间的关系，就用vec之间的cosine值来表示，consine值越大，说明这两个词之间的关系越近。详细的word2vec的介绍，自行查阅相关资料。

不过，这里，有必要说一下的就是word2vec有两个重要的模型：

CBOW（Continuous Bag-of-Words Model）是一种根据上下文的词语预测当前词语的出现概率的模型，其图示如下图左。CBOW是已知上下文，估算当前词语的语言模型；
而Skip-gram只是逆转了CBOW的因果关系而已，即已知当前词语，预测上下文，其图示如下图右；

这两个模型，对应不同的使用场景。

word2vec的一个重要数据逻辑，就是贝叶斯定律，通俗的说，这个定理就是指：在某件事情发生的前提下，再发生另外一件事情的概率。具体的理论，自行学习去吧！

ansj_seg,是中科院开源的一个中文分词工具。这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化。

今天这篇博文的主要内容，就是通过ansj_seg对搜狗实验室的语料进行分词，然后用word2vec的skip-gram模型进行预测上下文。正如前面说的，说到王宝强，白百何之类的人物名称，你会得到什么信息。。。

下载sogou实验室的语料，地址：http://www.sogou.com/labs/resource/ca.php

关于这个语料的内容，直接去搜狗实验室的网站上了解吧。这里不多说。我直接下载的zip包。

下载ansj_seg的jar包，这里我用的是最新版本5.1.1.下载地址：http://central.maven.org/maven2/org/ansj/ansj_seg/5.1.1/ansj_seg-5.1.1.jar

获取这个jar包，官方要求最好配合最新版本的nlp-lang一起用，我这里也是最新版本。这个的下载地址：http://central.maven.org/maven2/org/nlpcn/nlp-lang/1.7.2/nlp-lang-1.7.2.jar

下载word2vec的源码，这里下载的是github上的master版本。下载地址：https://github.com/svn2github/word2vec

下面进行具体的操作。

1》将语料进行预处理，取出其中的content。

cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>" > corpus.txt

这里，iconv指令需要了解一点点基础知识，他是一个字符集转换工具，-f表示源字符集，-t表示转换后的编码字符集，上述指令中是将gbk字符集转换为utf-8的字符集，-c表示丢弃任何无效的字符（基于字符集）

2》通过java程序，处理content，基于ansj将其中的内容进行分词。

java代码如下：

/**

 * @author "shihuc"

 * @date   2017年4月12日

 */

package ansjDemo;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileReader;

import java.io.PrintWriter;

import java.io.Reader;

import java.util.HashSet;

import java.util.Set;

import org.ansj.domain.Result;

import org.ansj.domain.Term;

import org.ansj.splitWord.analysis.ToAnalysis;

/**

 * @author chengsh05

 *

 */

public class AnsjSegDemo {

    /**

     * @param args

     */

     private static final String TAG_START_CONTENT = "<content>";

        private static final String TAG_END_CONTENT = "</content>";

        private static final String INPUT_FILE = "./src/ansjDemo/corpus.txt";

        private static final String OUTPUT_FILE = "./src/ansjDemo/corpus_out.txt";

        public static void main(String[] args) throws Exception {

            BufferedReader reader = null;

            PrintWriter pw = null;

            Reader fr = null;

            try {

                System.out.println("开始处理分词...");

                File file = new File(INPUT_FILE);

                fr =  new FileReader(file);

                reader = new BufferedReader(fr);

                pw = new PrintWriter(OUTPUT_FILE);

                long start = System.currentTimeMillis();

                int totalCharactorLength = ;

                int totalTermCount = ;

                Set<String> set = new HashSet<String>();

                String temp = null;

                while ((temp = reader.readLine()) != null) {

                    temp = temp.trim();

                    if (temp.startsWith(TAG_START_CONTENT)) {

                        //System.out.println("处理文本:" + temp);

                        int end = temp.indexOf(TAG_END_CONTENT);

                        String content = temp.substring(TAG_START_CONTENT.length(), end);

                        totalCharactorLength += content.length();

                        Result result = ToAnalysis.parse(content);

                        for (Term term : result) {

                            String item = term.getName().trim();

                            totalTermCount++;

                            pw.print(item + " ");

                            set.add(item);

                        }

                        pw.println();

                    }

                }

                long end = System.currentTimeMillis();

                System.out.println("共" + totalTermCount + "个Term，共"

                    + set.size() + "个不同的Term，共 "

                    + totalCharactorLength + "个字符，每秒处理字符数:"

                    + (totalCharactorLength * 1000.0 / (end - start)));

            } finally {

                if(fr != null){

                    fr.close();

                }

                if(reader != null){

                    reader.close();

                }

                if(pw != null){

                    pw.close();

                }

            }

        }

}

编译的日志输出，可以反映出一些逻辑：

开始处理分词...

log4j:WARN No such property [datePattern] in org.apache.log4j.RollingFileAppender.

[-- ::] [ WARN] [main] [org.ansj.util.MyStaticValue.<clinit>(MyStaticValue.java:)] - not find library.properties in classpath use it by default !

  [-- ::] [ INFO] [main] [org.ansj.dic.impl.File2Stream.toStream(File2Stream.java:)] - path to stream library/ambiguity.dic

  [-- ::] [ERROR] [main] [org.ansj.library.AmbiguityLibrary.init(AmbiguityLibrary.java:)] - Init ambiguity library error :org.ansj.exception.LibraryException:  path :library/ambiguity.dic file:E:\\workwps\RProject\library\ambiguity.dic not found or can not to read, path: library/ambiguity.dic

  [-- ::] [DEBUG] [main] [org.ansj.library.DicLibrary.init(DicLibrary.java:)] - begin init dic !

  [-- ::] [ INFO] [main] [org.ansj.dic.impl.File2Stream.toStream(File2Stream.java:)] - path to stream library/default.dic

  [-- ::] [ERROR] [main] [org.ansj.library.DicLibrary.init(DicLibrary.java:)] - Init ambiguity library error :org.ansj.exception.LibraryException:  path :library/default.dic file:E:\\workwps\RProject\library\default.dic not found or can not to read, path: library/default.dic

  [-- ::] [ INFO] [main] [org.ansj.library.DATDictionary.loadDAT(DATDictionary.java:)] - init core library ok use time :

  [-- ::] [ INFO] [main] [org.ansj.library.NgramLibrary.<clinit>(NgramLibrary.java:)] - init ngram ok use time :

  共388487481个Term，共941062个不同的Term，共 622383693个字符，每秒处理字符数:1461210.679044084

3》编译word2vec

编译之前，看看我的机器配置吧，个人觉得还是不错的机器。

[root@localhost word2vec-master]# cat /proc/cpuinfo| grep "processor"| wc -l

[root@localhost word2vec-master]# free -h

              total        used        free      shared  buff/cache   available

Mem:            31G        .9G         17G         33M         10G         27G

Swap:           15G          0B         15G

现在，开始对源码进行编译。

[root@localhost word2vec-master]# make

gcc word2vec.c -o word2vec -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result

gcc word2phrase.c -o word2phrase -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result

gcc distance.c -o distance -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result

distance.c: In function ‘main’:

distance.c::: warning: unused variable ‘ch’ [-Wunused-variable]

   char ch;

        ^

gcc word-analogy.c -o word-analogy -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result

word-analogy.c: In function ‘main’:

word-analogy.c::: warning: unused variable ‘ch’ [-Wunused-variable]

   char ch;

        ^

gcc compute-accuracy.c -o compute-accuracy -lm -pthread -O3 -march=native -Wall -funroll-loops -Wno-unused-result

compute-accuracy.c: In function ‘main’:

compute-accuracy.c::: warning: unused variable ‘ch’ [-Wunused-variable]

   char st1[max_size], st2[max_size], st3[max_size], st4[max_size], bestw[N][max_size], file_name[max_size], ch;

                                                                                                             ^

chmod +x *.sh

4》对java分词后的文件，基于word2vec进行训练预测，主要基于skip-gram。

[root@localhost resouce]# bash word2vec_train.sh

Starting training using file corpus_out.txt

Vocab size:

Words in train file:

Alpha: 0.000002  Progress: 100.00%  Words/thread/sec: .20k  begin:

end:

gap:

下面，看看我的word2vec_train.sh的内容是啥吧：

#!/bin/bash

BEGIN_TIME=`date +"%Y-%m-%d %H:%M:%S"`

word2vec -train corpus_out.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 50 -binary 1

END_TIME=`date +"%Y-%m-%d %H:%M:%S"`

time1=`date -d "$BEGIN_TIME" +%s`

time2=`date -d "$END_TIME" +%s`

gap=$[$time2-$time1]

echo "begin: $time1"

echo "end:   $time2"

echo "gap:   $gap"

说明下上面红色部分的含义：

-train 训练数据

-output 结果输入文件，即每个词的向量

-cbow 是否使用cbow模型，0表示使用skip-gram模型，1表示使用cbow模型，默认情况下是skip-gram模型，cbow模型快一些，skip-gram模型效果好一些

-size 表示输出的词向量维数

-window 为训练的窗口大小，5表示每个词考虑前5个词与后5个词（实际代码中还有一个随机选窗口的过程，窗口大小<=)

-negative 表示是否使用负例采样方法0表示不使用，其它的值目前还不是很清楚

-hs 是否使用Hierarchical Softmax方法，0表示不使用，1表示使用

-sample 表示采样的阈值，如果一个词在训练样本中出现的频率越大，那么就越会被采样

-binary 表示输出的结果文件是否采用二进制存储，0表示不使用（即普通的文本存储，可以打开查看），1表示使用，即vectors.bin的存储类型

从我的shell脚本，可以看出，这个将近2G的文本，在24核，几十G内存，我起50个线程。将CPU全都跑满的情况下，也跑了7500多秒。

5》验证效果

语义分析之ansj_seg+word2vec的使用的更多相关文章

[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
文本深度表示模型Word2Vec
简介 Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向 ...
用中文把玩Google开源的Deep-Learning项目word2vec
google最近新开放出word2vec项目,该项目使用deep-learning技术将term表示为向量,由此计算term之间的相似度,对term聚类等,该项目也支持phrase的自动识别,以及与t ...
Google开源的Deep-Learning项目word2vec
用中文把玩Google开源的Deep-Learning项目word2vec google最近新开放出word2vec项目,该项目使用deep-learning技术将term表示为向量,由此计算te ...
word2vec并行实现小记
word2vec能将文本中出现的词向量化,其原理建立在Mikolov的博士论文成果及其在谷歌的研究经验的基础上.与潜在语义分析(Latent Semantic Index, LSI).潜在狄立克雷分配 ...
利用Tensorflow进行自然语言处理（NLP）系列之二高级Word2Vec
本篇也同步笔者另一博客上(https://blog.csdn.net/qq_37608890/article/details/81530542) 一.概述在上一篇中,我们介绍了Word2Vec即词向 ...
word2vec 中的数学原理详解
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单.高效,因此引起了很多人的关注.由于 word2vec 的作者 Tomas Miko ...
Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据
在上篇实现了电影详情和短评数据的抓取.到目前为止,已经抓了2000多部电影电视以及20000多的短评数据. 数据本身没有规律和价值,需要通过分析提炼成知识才有意义.抱着试试玩的想法,准备做一个有关情感 ...
word2vec参数调整及lda调参
一.word2vec调参 ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -neg ...

随机推荐

Python 数据结构--查找
1 顺序查找O(n) def sequential_search(a_list, item): pos = 0 found = False while pos < len(a_list) and ...
php 安装过程第二次探索
由于第一次安装过程写的比较乱,再做整理 1.phpstudy 才是正确姿势. http://phpstudy.php.cn/ 官网下载. phpstrom 中配置 php为 phpstudy目录下 ...
16 多校 8 Ball （贪心排序）很巧妙的思路啊~
ZZX has a sequence of boxes numbered 1,2,...,n1,2,...,n. Each box can contain at most one ball. You ...
react native 之获取键盘高度
多说不如多撸: /** * Created by shaotingzhou on 2017/2/23. *//** * Sample React Native App * https://github ...
PHP目前比较常见的五大运行模式SAPI（转）
运行模式关于PHP目前比较常见的五大运行模式: 1)CGI(通用网关接口/ Common Gateway Interface) 2)FastCGI(常驻型CGI / Long-Live CGI) 3 ...
MySQL中的修改表操作
一.增加表的列语法:alter table 表名 add( 增加列定义 ); 实例: #增加列 alter table text add( text_num ) ...
vim 删除
shift + $ :光标往后 shift + ^ :光标往前 shift + D 删除当前光标直到末尾
jquerymobile动态添的无索刷新
当我们使用Ajax或者javascript动态在页面上添加元素后,如添加select控件的option元素,添加ul的li元素.添加之后我们会发现,它们显示的样式不是jQuery Mobile的炫酷样 ...
论container的前世今生
why Normally, thin-client multitiered applications are hard to write because they involve many lines ...
51Nod 1240：莫比乌斯函数
1240 莫比乌斯函数基准时间限制:1 秒空间限制:131072 KB 分值: 0 难度:基础题收藏关注莫比乌斯函数,由德国数学家和天文学家莫比乌斯提出.梅滕斯(Mertens)首先使 ...

语义分析之ansj_seg+word2vec的使用

语义分析之ansj_seg+word2vec的使用的更多相关文章

随机推荐

热门专题