word2vec初探（用python简单实现）

为什么要用这个?

因为看论文和博客的时候很常见,不论是干嘛的,既然这么火,不妨试试.

如何安装

从网上爬数据下来
对数据进行过滤、分词
用word2vec进行近义词查找等操作

完整的工程传到了我的github上了:https://github.com/n2meetu/word2vec.git

运行结果：

需要安装的包，可以用pycharm的preference：

点「+」加号

同样，点「+」加号。过一会儿会提示你安装是否成功的。

整个的文件结构：

-语料（网上爬下来的）

-自定义词典

-主要的python文件

主要的py文件：

# -*- coding: utf-8-*-

import jieba

from gensim.models import word2vec

#  去掉中英文状态下的逗号、句号

def clearSen(comment):

    comment = comment.strip(' ')

    comment = comment.replace('、','')

    comment = comment.replace('~','。')

    comment = comment.replace('～','')

    comment = comment.replace('{"error_message": "EMPTY SENTENCE"}','')

    comment = comment.replace('…','')

    comment = comment.replace('\r', '')

    comment = comment.replace('\t', ' ')

    comment = comment.replace('\f', ' ')

    comment = comment.replace('/', '')

    comment = comment.replace('、', ' ')

    comment = comment.replace('/', '')

    comment = comment.replace(' ', '')

    comment = comment.replace(' ', '')

    comment = comment.replace('_', '')

    comment = comment.replace('?', ' ')

    comment = comment.replace('？', ' ')

    comment = comment.replace('了', '')

    comment = comment.replace('➕', '')

    return comment

# 用jieba进行分词

comment = open('./corpus/comment.txt').read()

comment = clearSen(comment)

jieba.load_userdict('./user_dict/userdict_food.txt')

comment = ' '.join(jieba.cut(comment))

# 分完词后保存到新的txt中

fo = open("./corpus/afterSeg.txt","w")

fo.write(comment)

print("finished!")

fo.close()

# 用 word2vec 进行训练

sentences=word2vec.Text8Corpus(u'./corpus/afterSeg.txt')

# 第一个参数是训练语料，第二个参数是小于该数的单词会被剔除，默认值为5, 第三个参数是神经网络的隐藏层单元数，默认为100

model=word2vec.Word2Vec(sentences,min_count=3, size=50, window=5, workers=4)

y2=model.similarity(u"不错", u"好吃") #计算两个词之间的余弦距离

print(y2)

for i in model.most_similar(u"好吃"): #计算余弦距离最接近“滋润”的10个词

    print(i[0],i[1])

# 训练词向量时传入的两个参数也对训练效果有很大影响，需要根据语料来决定参数的选择，好的词向量对NLP的分类、聚类、相似度判别等任务有重要意义

清洗数据的clearSen()不要笑。萌新就是这样很傻很粗暴的……

word2vec初探（用python简单实现）的更多相关文章

Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
亲身试用python简单小爬虫
前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下. 以下是网上很容易搜到的一种方法: #coding=utf-8 import urllib i ...
GJM : Python简单爬虫入门（二） [转载]
感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...
Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
【美妙的Python之中的一个】Python简单介绍及环境搭建
美妙的Python之Python简单介绍及安装简而言之: Python 是能你无限惊喜的语言,与众不同. 1.Python: ...
PHP分页初探一个最简单的PHP分页代码的简单实现
PHP分页代码在各种程序开发中都是必须要用到的,在网站开发中更是必选的一项. 要想写出分页代码,首先你要理解SQL查询语句:select * from goods limit 2,7.PHP分页代码核 ...
python 简单图像识别--验证码
python 简单图像识别--验证码记录下,准备工作安装过程很是麻烦. 首先库:pytesseract,image,tesseract,PIL windows安装PIL,直接exe进行安装更方便( ...
python简单的监控脚本-利用socket、psutil阻止远程主机运行特定程序
python简单的监控脚本-利用socket.psutil阻止远程主机运行特定程序 psutil是一个跨平台的库(http://code.google.com/p/psutil/),能够轻松的实现获取 ...
Python 简单入门指北(二)
Python 简单入门指北(二) 2 函数 2.1 函数是一等公民一等公民指的是 Python 的函数能够动态创建,能赋值给别的变量,能作为参传给函数,也能作为函数的返回值.总而言之,函数和普通变量 ...

随机推荐

linux下关闭网络命令
CTRL+ALT+F1 进入命令行模式 CTRL+ALT+F7 退出命令行模式 sudo ifconfig ethX dwon 关闭网卡sudo /etc/init.d/networking stop ...
Filecoin2017年Q4进度更新(完整版)
亲爱的Filecoin支持者.矿工.用户.投资者和广大的社区朋友们, 自从Token销售完成以后,我们便开始集中精力把Filecoin项目从设想变为现实-从实现Filecoin协议的核心代码到打造我们 ...
python web开发-flask中消息闪现flash的应用
Flash中的消息闪现,在官方的解释是用来给用户做出反馈.不过实际上这个功能只是一个记录消息的方法,在某一个请求中记录消息,在下一个请求中获取消息,然后做相应的处理,也就是说flask只存在于两个相邻 ...
笔记：I/O流-ZIP文档
ZIP文档以压缩格式存储了一个或多个文件,每个ZIP文档都有一个头,包含诸如每个文件名字和所使用的压缩方法等信息,在 Java 中可以使用 ZipInputStream 来读入ZIP 文档,getNe ...
poj 3664
http://poj.org/problem?id=3664 进行两轮选举,第一轮选前n进入第二轮,第二轮选最高 #include<algorithm> #include<cstdi ...
[mysql] MySQL解压缩安装步骤
以前装的MySQL出问题了,只好卸载了. 又下载了一个mysql-5.6.24-win32.1432006610.zip.msi文件直接安装就行了.这里需要解压到指定目录,配置后可使用. 环境变量配置 ...
java数组排序，并将数组内的数据求和
java数据编列并求和,江湖我狼哥,人狠话不多,直接上代码! import java.util.Arrays; public class Intarry { public static void ma ...
oracle维护数据的完整性
介绍: 数据的完整性用于确保数据库数据遵从一定的商业的逻辑规则.在oracle中,数据完整性可以使用约束.触发器.应用程序(过程.函数)三种方法来实现,在这三种方法中,因为约束易于维护,并且具有最好的 ...
Oracle Orion tool check io(ORACLE Orion 工具查看以及校验IO)
文档主要来自oracle官方文档performance 8.3章节 Oracle数据库提供了Orion,一种 I/O校准工具.Orion是预测Oracle数据库性能的工具,无需安装Oracle或创建数 ...
java使用io创建文件与删除文件的工具类
java中对于文件的操作,是再常见不过了.以下代码是自己代码中所用到的工具类,仅供参考. import java.io.File; import java.io.IOException; /** * ...

word2vec初探（用python简单实现）

为什么要用这个?

如何安装

完整的工程传到了我的github上了:https://github.com/n2meetu/word2vec.git

运行结果：

需要安装的包，可以用pycharm的preference：

整个的文件结构：

主要的py文件：

清洗数据的clearSen()不要笑。萌新就是这样很傻很粗暴的……

word2vec初探（用python简单实现）的更多相关文章

随机推荐

热门专题