Windows下基于python3使用word2vec训练中文维基百科语料(一)

在进行自然语言处理之前，首先需要一个语料，这里选择维基百科中文语料，由于维基百科是 .xml.bz2文件，所以要将其转换成.txt文件，下面就是相关步骤：

步骤一：下载维基百科中文语料

https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

然后解压文件

文件夹里是一个这个文件

步骤二：安装依赖库

我们需要安装一些依赖库，有numpy、scipy以及gensim，安装gensim依赖于scipy，安装scipy依赖于numpy。我们直接用pip安装numpy，在windows命令行下使用命令：

 pip install numpy

 pip install scipy

 pip install gensim

步骤三：将xml.bz2文件转换成.text文件

注意：我在网上找的代码，通常说会因为python2和python3的版本不同在使用python3进行解压会在output.write(space.join(text) + "\n")这一句出现提示关于byte或str的错误，

但是我用了python3修改的代码，反而出现错误，其实现在下载的语料直接用python2的代码也可以。

*********不过为了有些人可能采用下面代码会出现byte和str的错误，我将之前网上找的对于python3代码的修改依然保留（32-40行）***********************

（1）写代码命名为process_wiki.py

 # -*- coding:utf-8 -*-

 # Author:Gao

 import logging

 import os.path

 import six

 import sys

 import warnings

 warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

 from gensim.corpora import WikiCorpus

 if __name__ == '__main__':

     program = os.path.basename(sys.argv[0])

     logger = logging.getLogger(program)

     logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')

     logging.root.setLevel(level=logging.INFO)

     logger.info("running %s" % ' '.join(sys.argv))

     # check and process input arguments

     if len(sys.argv) != 3:

         print("Using: python process_wiki.py enwiki.xxx.xml.bz2 wiki.en.text")

         sys.exit(1)

     inp, outp = sys.argv[1:3]

     space = " "

     i = 0

     output = open(outp, 'w',encoding='utf-8')

     wiki = WikiCorpus(inp, lemmatize=False, dictionary={})

     for text in wiki.get_texts():

         # if six.PY3:

         #     output.write(b' '.join(text).decode('utf-8') + '\n')

         # else:

         #     output.write(space.join(text) + "\n")

         output.write(space.join(text) + "\n")

         i=i+1

         if (i%10000==0):

             logger.info("Saved " + str(i) + " articles")

     output.close()

     logger.info("Finished Saved " + str(i) + " articles")

（2）运行代码（在cmd中运行）

首先到自己下载的中文维基百科预料的文件夹下，将自己的语料库和执行文件放在同一个文件夹下，这样方便执行，然后进入放置这两个文件的文件夹下（我的在f盘）

python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

（3）运行结果（运行时间比较长，耐心等待，后面就出结果啦）

现在我们就得到了处理后的中文维基百科.txt文档，下一篇我们将进一步对文档进行处理

相关参考：https://www.jianshu.com/p/98d84854f7a3

Windows下基于python3使用word2vec训练中文维基百科语料(一)的更多相关文章

Windows下基于python3使用word2vec训练中文维基百科语料(二)
在上一篇对中文维基百科语料处理将其转换成.txt的文本文档的基础上,我们要将为文本转换成向量,首先都要对文本进行预处理步骤四:由于得到的中文维基百科中有许多繁体字,所以我们现在就是将繁体字转换成简体 ...
Windows下基于python3使用word2vec训练中文维基百科语料(三)
对前两篇获取到的词向量模型进行使用: 代码如下: import gensim model = gensim.models.Word2Vec.load('wiki.zh.text.model') fla ...
使用word2vec对中文维基百科数据进行处理
一.下载中文维基百科数据https://dumps.wikimedia.org/zhwiki/并使用gensim中的wikicorpus解析提取xml中的内容二.利用opencc繁体转简体三.利用 ...
Windows下基于Python3安装Ipython Notebook(即Jupyter)。python –m pip install XXX
1.安装Python3.x,注意修改环境变量path(追加上python安装目录,如:D:\Program Files\Python\Python36-32) 2.查看当前安装的第三方包:python ...
windows下基于sublime text3的nodejs环境搭建
第一步:先安装sublime text3.详细教程可自行百度,这边不具体介绍了. 第二步.安装nodejs插件,有两种方式第一种方式:直接下载https://github.com/tanepiper ...
Windows下安装Python3.4.2
一.Windows下安装Python3.4.2 1.下载Windows下的Python3.4.2.exe 2.指定一个目录安装,然后下一步 3.配置环境变量包括Python.exe的文件.目录如下图所 ...
环境搭建文档——Windows下的Python3环境搭建
前言背景介绍: 自己用Python开发了一些安卓性能自动化测试的脚本, 但是想要运行这些脚本的话, 本地需要Python的环境. 测试组的同事基本都没有安装Python环境, 于是乎, 我就想直接在 ...
word2vec训练中文模型
-- 这篇文章是一个学习.分析的博客 --- 1.准备数据与预处理首先需要一份比较大的中文语料数据,可以考虑中文的维基百科(也可以试试搜狗的新闻语料库).中文维基百科的打包文件地址为 https: ...
Windows下基于http的git服务器搭建-gitstack
版权声明:若无来源注明,Techie亮博客文章均为原创. 转载请以链接形式标明本文标题和地址: 本文标题:Windows下基于http的git服务器搭建-gitstack 本文地址:http: ...

随机推荐

windows网络模型
Windows提供了四种异步IO技术,机制几乎时相同的,区别在于通知结果的方式不同: 1.通过注册的消息函数进行通知 2.通过内核event事件进行通知 3.通过称为完成例程的回调函数进行通知 4.通 ...
ICE checkbox 用法
Hello everybody, I have a datable which contain multiple lines gotten from database, in the header o ...
当提交的表单类型为multipart/form-data时后台的dopost则不能使用 setCharset来进行解码了需要单独对字段使用原始的new String(req.name("ISO-8859-1"),"utf-8")形式解码了
当提交的表单类型为multipart/form-data时后台的dopost则不能使用 setCharset来进行解码了需要单独对字段使用原始的new String(req.name(" ...
Python 嵌套函数和闭包
Python 嵌套函数和闭包 1.函数嵌套如果在一个函数内部定义了另一个函数,我们称外部的函数为外函数,内部的函数为内函数,如下代码: def out_func(): def inner_func1 ...
BZOJ 3040最短路
题目描述给定一个 NN 个点, MM 条有向边的带权图,请你计算从 SS 出发,到每个点的距离. 数据保证你能从 SS 出发到任意点. 输入输出格式输入格式: 第一行两个整数 NN . MM ,表 ...
dashboard and reporting Interface analysis
dashboard and reporting Interface analysis > show system show system backup show system counters ...
详细图解jQuery对象，以及如何扩展jQuery插件
详细图解jQuery对象,以及如何扩展jQuery插件早几年学习前端,大家都非常热衷于研究jQuery源码.我还记得当初从jQuery源码中学到一星半点应用技巧的时候常会有一种发自内心的惊叹,“原来 ...
springMVC+spring+mybatis搭建最近
一:概述SSM框架在项目开发中经常使用到,相比于SSH框架,它在仅几年的开发中运用的更加广泛. Spring作为一个轻量级的框架,有很多的拓展功能,最主要的我们一般项目使用的就是IOC和AOP. Sp ...
POJ2689：Prime Distance——题解
http://poj.org/problem?id=2689 题目大意,给不超过int的l,r,其中r-l+1<=1000000,筛出其中的素数,并且求出相邻素数差值最大和最小的一对. ———— ...
关于PDO取得结果集的数据类型为string的问题
很久没写些什么了, 正好今天工作中遇到了以前在意过的问题. 之前曾注意到过,php从数据库中取得的结果集后,其中的字段全都会变成string类型.今儿通过ajax调取数据, 有一个type字段是int ...

Windows下基于python3使用word2vec训练中文维基百科语料(一)

Windows下基于python3使用word2vec训练中文维基百科语料(一)的更多相关文章

随机推荐

热门专题