在上一篇对中文维基百科语料处理将其转换成.txt的文本文档的基础上,我们要将为文本转换成向量,首先都要对文本进行预处理 步骤四:由于得到的中文维基百科中有许多繁体字,所以我们现在就是将繁体字转换成简体字 opencc工具进行繁简转换,首先去下载opencc:https://bintray.com/package/files/byvoid/opencc/OpenCC 下载完成之后解压即可,随后使用命令: opencc -i wiki.zh.text -o wiki.zh.jian.text -c…
在进行自然语言处理之前,首先需要一个语料,这里选择维基百科中文语料,由于维基百科是 .xml.bz2文件,所以要将其转换成.txt文件,下面就是相关步骤: 步骤一:下载维基百科中文语料 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 然后解压文件 文件夹里是一个这个文件 步骤二:安装依赖库 我们需要安装一些依赖库,有numpy.scipy以及gensim,安装gensim依赖于scipy…
对前两篇获取到的词向量模型进行使用: 代码如下: import gensim model = gensim.models.Word2Vec.load('wiki.zh.text.model') flag=1 while(flag): word = input("Please input the key_word:\n") if word in model: print(model['word']) # 词相似度 result = model.most_similar(word) for…
一.下载中文维基百科数据https://dumps.wikimedia.org/zhwiki/并使用gensim中的wikicorpus解析提取xml中的内容 二.利用opencc繁体转简体 三.利用jieba对转换后的文本进行分词,去停词 四.利用gensim中的word2vec训练分词后的文本 五.测试 python代码如下: #!/user/bin/python #coding:utf-8 __author__ = 'yan.shi' from gensim.corpora import…
1.安装Python3.x,注意修改环境变量path(追加上python安装目录,如:D:\Program Files\Python\Python36-32) 2.查看当前安装的第三方包:python –m pip list 3.安装IPython:python –m pip install ipython[all] 4.安装其它: python –m pip install pyzmq python -m pip install jinja2 python -m pip install tor…
第一步:先安装sublime text3.详细教程可自行百度,这边不具体介绍了. 第二步.安装nodejs插件,有两种方式 第一种方式:直接下载https://github.com/tanepiper/SublimeText-Nodejs 压缩包,压缩后重命名为Nodejs放到package目录下.package打开方式:Preferences-> Browser Package 第二种方式:通过package control install package的方式下载 第三步:安装nodejs.…
一.Windows下安装Python3.4.2 1.下载Windows下的Python3.4.2.exe 2.指定一个目录安装,然后下一步 3.配置环境变量包括Python.exe的文件.目录如下图所示 4.在命令行模式下执行Python命令 如果执行正确,会进软件界面,看到Python的版本号:如果执行提示没有这个命令,那么就是你的环境变量设置有问题. 首先要知道你需要安装的软件包的名称,可以执行下面的命令: 1.pip search setuptools 2.pip install setu…
前言 背景介绍: 自己用Python开发了一些安卓性能自动化测试的脚本, 但是想要运行这些脚本的话, 本地需要Python的环境. 测试组的同事基本都没有安装Python环境, 于是乎, 我就想直接在网上找一篇Python环境搭建的文章, 但是没有找到让我觉得简洁又满意的搭建文档,所以我就直接用虚拟机的环境去记录一次Python环境的搭建文档 说明: 此次搭建的是Windows下的Python3的环境, Python2的环境应该也可以参照这篇文章(建议大家使用Python3的环境, Python…
--  这篇文章是一个学习.分析的博客 --- 1.准备数据与预处理 首先需要一份比较大的中文语料数据,可以考虑中文的维基百科(也可以试试搜狗的新闻语料库).中文维基百科的打包文件地址为 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 中文维基百科的数据不是太大,xml的压缩文件大约1G左右.首先用 process_wiki_data.py处理这个XML压缩文件,执行:python pr…
版权声明:若无来源注明,Techie亮博客文章均为原创. 转载请以链接形式标明本文标题和地址: 本文标题:Windows下基于http的git服务器搭建-gitstack     本文地址:http://techieliang.com/2017/12/514/ 文章目录 1. 下载安装 2. 注意  2.1. 关于Python冲突问题  2.2. gitstack密码重置 3. gitstack与wamp冲突 1. 下载安装 官网下载即可 安装流程也很简洁方便.安装步骤 安装完成后可通过管理地址…
Windows下基于IIS服务的SSL服务器的配置 实验环境 Windows Server 2008 R1(CA) Windows Server 2008 R2(web服务器) Windows 7 x64(客户端) 3台虚拟机打开桥接模式,保证能够相互ping通 实验原理 CA(根CA)负责为服务器颁发证书使得服务器证书可信. 服务器下载IIS组建,向CA申请一个SSL证书,并且将此证书与本机IP绑定.最后打开SSL服务. 客户端信任CA,因此可以安全地访问服务器网址. 实验步骤 安装证书服务…
Windows下Git设置编码正常显示中文: 在 CMD 下设置环境变量 set LESSCHARSET=utf-8 在 PowerShell 下设置环境变量 $env:LESSCHARSET='utf-8'GitBash中正常显示中文: 打开Gitbash -> 右键->options ->左侧text->设置locale:zh_cn,设置Character set:GBK->save->apply 测试是否正常:GitBash输入 systeminfo看能否正常显示…
前几天配置windows下基于IIS配置ssl证书 完全按照步骤执行 绑定https网址后,一直显示:无法访问此网站 检查了443端口,还有防火墙限制,没发现什么 足足困扰了我好几天 后来突然想到前不久刚在服务器上装了一个安全狗软件 应该是它的网络防火墙把443端口给禁止了 结果还真是,把禁止解除就可以访问了,呜呜呜…… 这个坑………
最近试了一下Word2Vec, GloVe 以及对应的python版本 gensim word2vec 和 python-glove,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料进入了视线.维基百科官方提供了一个很好的维基百科数据源:https://dumps.wikimedia.org,可以方便的下载多种语言多种格式的维基百科数据.此前通过gensim的玩过英文的维基百科语料并训练LSI,LDA模型来计算两个文档的相似度,所以想看看gensim有没有提供一种简便的方式来处理维基…
英文维基百科 https://dumps.wikimedia.org/enwiki/ 中文维基百科 https://dumps.wikimedia.org/zhwiki/ 全部语言的列表 https://dumps.wikimedia.org/backup-index.html 提取处理可以使用 wikiextractor提取正文(由于网页数量太多,结构又很纷乱,提取出来的会有少许瑕疵,再处理即可) https://github.com/attardi/wikiextractor 运行命令: …
https://www.jianshu.com/p/87798bccee48 一.文本处理流程 通常我们文本处理流程如下: 1 对文本数据进行预处理:数据预处理,包括简繁体转换,去除xml符号,将单词条内容处理成单行数据,word2vec训练原理是基于词共现来训练词之间的语义联系的.不同词条内容需分开训练 2 中文分词:中文NLP很重要的一步就是分词了,分词的好坏很大程度影响到后续的模型训练效果 3 特征处理:也叫词向量编码,将文本数据转换成计算机能识别的数据,便于计算,通常是转换成数值型数据,…
http://blog.csdn.net/lostaway/article/details/8086056 1.简介 Windows 下远程 Linux 开发工具,比较著名的就是 WinGDB 和 Magic C++.都是商业软件,而且配置复杂,据说还不稳定.其实,我们想要的就是个图形环境 IDE,而且是直接操作的远程 Linux 环境.经过若干的实践,发现使用 SecureCRT + Eclipse 基于 X11 转发即可实现可视化远程 Linux 开发.先附上最终效果图: 2.环境&软件准备…
转载请注明出处:http://www.cnblogs.com/superbi/p/5482516.html 到目前为止,网络和官网上并没有关于libxls在windows下支持中文的教程,也没有现成的二进制文件. 想直接得到结果的请直接拉到最后获取成果,想自己以后遇到类似问题不用焦虑的请慢慢往下看 xls的第三方库目前能找到的只有libxl.libxls.xlslib. libxl是商业的,对我来说直接过滤掉. libxls只能读,xlslib只能写,对我来说知足了. 我也想能有一个跨平台的开源…
不多说,直接上干货! 建议,你用Anaconda2或Anaconda3. 见 全网最全的Windows下Anaconda2 / Anaconda3里正确下载安装用来向微信好友发送消息的itchat库(图文详解)   Python2 里 是无法安装,需要3系列以上的版本. Python3里 找到python安装目录下的scripts文件物理路径,cd进去然后输入命令即可. cd D:\Program Files\Python36\Scripts  我的python安装目录是这个,根据自己的安装目录…
1.为什么会写windows下微秒级延时 在上一篇 实现memcpy()函数及过程总结 中测试memcpy的效率中,测试时间的拷贝效率在微秒级别,需要使用微秒级时间间隔计数. windows下提供QueryPerformanceCounter(查询高性能计数器),QPC是基于硬件计数器,获取高分辨率时间戳. 参考:Acquiring high-resolution time stamps 应用形式: LARGE_INTEGER start, end; LARGE_INTEGER Frequenc…
笔者:风起怨江南 出处:https://www.cnblogs.com/mengjinxiang 笔者原创,文章欢迎转载,如果喜欢请点赞+关注,谢谢! 问题:window系统下,如果升级了最新的Python版本(比如当前Python3.7.7版本),需要卸载以前的Python版本么?安装后如何切换版本使用? 操作: 由于WIndows不支持Python直接更新升级,所以需要在官网下载需要升级更新的Python安装包,本文以Python3.7.7为例. 1.查看当前Python版本情况: 2.在官…
首先感谢 : 1.https://blog.csdn.net/qq_39023569/article/details/88556301 2.https://www.cnblogs.com/CherishFX/p/5280259.html 3.https://www.cs.bgu.ac.il/~elhadad/nlp12/jwpl/wikification.html 4.https://blog.csdn.net/Icy233333/article/details/80383336 一.中文维基数…
下载mongoDB  http://www.mongodb.org/downloads 根据操作系统,选择需要下载的安装包 添加mongodb 安装目录 将解压的文件夹中内容拷贝,存放在想要安装的文件目录中: 如:D:\Program Files\mongoDB 添加日志文件夹 在 D:\Program Files\mongoDB  目录下新建 log 文件夹, 并在log 文件夹中添加 mongo.log 日志文件 添加数据存储文件夹 在 D:\Program Files\mongoDB  目…
在一般ARM编程教学和实验环境里,一般采用 ADS加+并口转Jtag板+H-Jtag的开发环境.但是这种方法最大缺点是需要机器上有一个并口.现在无论PC还是笔记本都很难有并口,因此采用USB接口调试器就大行其道.其中Segger的JLink是比较有名和方便的调试器.             ADS 1.2 ,可以如下链接下载       http://esoft.mcu123.com/MCU123_temp_0080309@/ARM/ads1.2.rar       硬件可以参考这个      …
本文只针对刚刚拿到“驾照”的实习生 老司机回去开车.. 下载python 地址:https://www.python.org/ 选择Downloads下的windows 选择自己合适的版本  下面的是官方推出的最新版本 Python3 和 Python2 小编这里是选择 Python3.6.5版本 64位操作系统 下载之后 双击安装 这里需要注意一下 记得添加系统环境变量 也就是箭头1所指 打对勾 之后箭头2默认安装 安装中 等待几分钟 看到这个界面 表示我们已经安装好了第一步 按住键盘的win…
网上的教程是比较多的,但是基于php7+windows的教程非常之少,通过几天的摸索及参考很多资料,终于发现如下可以运行. php7要求使用vc2015,同时安装sdk,我使用的是8.1的windows sdk 8.1,我用的是win10 10586,也可以装10586的 Visual Studio 2015 社区版本 php-sdk-binary-tools-20110915.zip (http://windows.php.net/downloads/php-sdk/下载) deps-7.0-…
1.安装python3和django (1)Python 下载地址:https://www.python.org/downloads/ (2)Django 下载地址:https://www.djangoproject.com/download/ python安装:傻瓜式安装,Next-> 安装成功后,打开cmd,运行python django安装:下载django安装包,解压,运行cmd,进入到解压目录,运行python setup.py install 验证是否安装成功:可以看到django版…
libevent是一个常用的网络库,下面就看看在windows下面编译测试的过程吧. 一 环境 系统:win8.1编译器:VS2013官方下载地址:http://libevent.org/版本:2.0.22-stable 二 编译静态库 1 解压把上面下载到libevent-2.0.22-stable.tar.gz解压,得到libevent-2.0.22-stable文件夹2 添加宏定义在libevent-2.0.22-stable文件夹下找到下面三个文件:event_iocp.cevthrea…
参考 https://blog.csdn.net/xingyanchao/article/details/79362443 问题在于生成SSL证书的时候Windows环境下会报错 解决方案 参考 https://blog.csdn.net/kitok/article/details/72957185 提供的方式安装 openssl ,之后就可以按照第一篇文章的方式生成ssl证书了…
下载python3 首先去 python的官网 下载最新稳定版的python3, 我下载的时候python3的最新版本是3.6.5. 亦可点击 此链接 直接下载. 安装python3 傻瓜式安装,注意安装的第一步有一项: "Add Python 3.6 to PATH" 默认是没有勾选的,勾选上. 然后点击"Install Now"进行安装. 安装的最后有一个选项是"Disable path length limit",点击此项继续.然后点击&q…