2.keras实现-->字符级或单词级的one-hot编码 VS 词嵌入

1. one-hot编码

# 字符集的one-hot编码

import string

samples = ['zzh is a pig','he loves himself very much','pig pig han']

characters = string.printable

token_index = dict(zip(range(1,len(characters)+1),characters))

max_length =20

results = np.zeros((len(samples),max_length,max(token_index.keys()) + 1))

for i,sample in enumerate(sample):

    for j,character in enumerate(sample):

        index = token_index.get(character)

        results[i,j,index] = 1

results

characters= '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVW

XYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

# keras实现单词级的one-hot编码

from keras.preprocessing.text import Tokenizer

samples = ['zzh is a pig','he loves himself very much','pig pig han']

tokenizer = Tokenizer(num_words = 100)

#创建一个分词器(tokenizer),设置为只考虑前1000个最常见的单词

tokenizer.fit_on_texts(samples)#构建单词索引

sequences = tokenizer.texts_to_sequences(samples)

one_hot_results = tokenizer.texts_to_matrix(samples,mode='binary')

# one_hot_results.shape --> (3, 100)

word_index = tokenizer.word_index

print('发现%s个unique标记',len(word_index))

sequences = [[2, 3, 4, 1], 
[5, 6, 7, 8, 9, 10],
 [1, 1, 11]]

发现10个unique标记

word_index =

{'pig': 1, 'zzh': 2, 'is': 3, 'a': 4, 'he': 5, 
'loves': 6,'himself': 7, 'very': 8, 'much': 9,
 'han': 10}

one-hot 编码的一种办法是 one-hot散列技巧（one-hot hashing trick）

如果词表中唯一标记的数量太大而无法直接处理，就可以使用这种技巧。

这种方法没有为每个单词显示的分配一个索引并将这些索引保存在一个字典中，而是将单词散列编码为固定长度的向量，通常用一个非常简单的散列函数来实现。

优点:节省内存并允许数据的在线编码（读取完所有数据之前，你就可以立刻生成标记向量）

缺点:可能会出现散列冲突

如果散列空间的维度远大于需要散列的唯一标记的个数，散列冲突的可能性会减小

import numpy as np

samples = ['the cat sat on the mat the cat sat on the mat the cat sat on the mat','the dog ate my homowork']

dimensionality = 1000#将单词保存为1000维的向量

max_length = 10

results = np.zeros((len(samples),max_length,dimensionality))

for i,sample in enumerate(samples):

    for j,word in list(enumerate(sample.split()))[:max_length]:

        index = abs(hash(word)) % dimensionality

        results[i,j,index] = 1

2. 词嵌入

获取词嵌入的两种方法：

在完成主任务的同时学习词嵌入。在这种情况下，一开始是随机的词向量，然后对这些词向量进行学习，其学习方式与学习神经网络的权重相同。

在不同于待解决的机器学习任务上预计算好词嵌入，然后将其加载到模型中。这些词嵌入叫作预训练词嵌入

实验数据：imdb电影评论，我们添加了以下限制，将训练数据限定为200个样本（打乱顺序）。

（1）使用embedding层学习词嵌入
# 处理imdb原始数据的标签 # __ coding:utf-8 __ import os imdb_dir = 'imdb' train_dir = os.path.join(imdb_dir,'train') labels = [] texts = [] for label_type in ['neg','pos']: dir_name = os.path.join(train_dir,label_type) for fname in os.listdir(dir_name): if fname[-4:] == '.txt': f = open(os.path.join(dir_name,fname),encoding='UTF-8') texts.append(f.read()) f.close() if label_type == 'neg': labels.append(0) else: labels.append(1)	len(texts)=25000 len(labels)=25000
# 对imdb原始数据的文本进行分词 from keras.preprocessing.text import Tokenizer from keras.preprocessing.sequence import pad_sequences max_len = 100 #每句话最大长度不超过100个单词 training_samples = 200 validation_samples = 10000 max_words = 10000 #只考虑数据集中前10000个最常见的单词 tokenizer = Tokenizer(num_words=max_len) tokenizer.fit_on_texts(texts) sequences = tokenizer.texts_to_sequences(texts) len(sequences)	sequence[0]
word_index = tokenizer.word_index	#88592个unique单词 word_index
data = pad_sequences(sequences,maxlen=max_len)	data.shape = (25000,100) data[0]
labels = np.asarray(labels)	#asarray会跟着原labels的改变，算是浅拷贝吧，没有新开一片内存
indices = np.arange(data.shape[0]) np.random.shuffle(indices)	indices array([ 2501, 4853, 2109, ..., 2357, 22166, 12397])
#将data，label打乱顺序 data = data[indices] labels = labels[indices] x_train = data[:training_samples] y_train = labels[:training_samples] x_val = data[training_samples:training_samples+validation_samples] y_val = labels[training_samples:training_samples+validation_samples]	x_val.shape,y_val.shape (10000, 100) (10000,)
#2014年英文维基百科的预计算嵌入：Glove词嵌入(包含400000个单词) glove_dir = 'glove.6B' embeddings_index = {} f = open(os.path.join(glove_dir,'glove.6B.100d.txt'),encoding='utf8') for line in f: values = line.split() word = values[0] coefs = np.asarray(values[1:],dtype='float32') embeddings_index[word] = coefs f.close()	len(embeddings_index) 400000 f.readline() #'the -0.038194 -0.24487 ...' 每个单词对应一个词向量
#准备glove词嵌入矩阵 embedding_dim = 100 # 每个单词都有编号，根据编号得到对应的矩阵 embedding_matrix = np.zeros((max_words,embedding_dim)) for word,i in word_index.items(): # print(word,i)--> the 1 if i < max_words: embedding_vector = embeddings_index.get(word) if embedding_vector is not None: embedding_matrix[i] = embedding_vector # print(embedding_matrix[0])	把数据集里面的单词在glove中找到对应的词向量，组成embedding_matrix, 若在glove中不存在，那就为0向量
#定义模型 from keras.models import Sequential from keras.layers import Embedding,Flatten,Dense model = Sequential() model.add(Embedding(max_words,embedding_dim,input_length=max_len)) model.add(Flatten()) model.add(Dense(32,activation='relu')) model.add(Dense(1,activation='sigmoid')) model.summary() #将预训练的词嵌入加载到embedding层中， model.layers[0].set_weights([embedding_matrix]) #embedding_matrix ==>(max_words,embedding_dim) model.layers[0].trainable = False
model.compile(loss='binary_crossentropy',optimizer='rmsprop',metrics=['acc']) history = model.fit(x_train,y_train, epochs = 10, batch_size = 32, validation_data = (x_val,y_val)) model.save_weights('pre_trained_glove_model.h5')
import matplotlib.pyplot as plt acc = history.history['acc'] loss = history.history['loss'] val_acc = history.history['val_acc'] val_loss = history.history['val_loss'] epochs = range(1,len(acc)+1) plt.plot(epochs,acc,'bo',label='Training acc') plt.plot(epochs,val_acc,'b',label='Validation acc') plt.title('Traning and validation acc') plt.legend() plt.figure() plt.plot(epochs,loss,'bo',label='Training loss') plt.plot(epochs,val_loss,'b',label='Validation loss') plt.title('Traning and validation loss') plt.legend() plt.show()
模型很快就开始过拟合，考虑到训练样本很少，这也很情有可原的

（2）下面在不使用预训练词嵌入的情况下，训练相同的模型
#定义模型 from keras.models import Sequential from keras.layers import Embedding,Flatten,Dense model = Sequential() model.add(Embedding(max_words,embedding_dim,input_length=max_len)) model.add(Flatten()) model.add(Dense(32,activation='relu')) model.add(Dense(1,activation='sigmoid')) model.summary() model.compile(loss='binary_crossentropy',optimizer='rmsprop',metrics=['acc']) history = model.fit(x_train,y_train, epochs = 10, batch_size = 32, validation_data = (x_val,y_val))
import matplotlib.pyplot as plt acc = history.history['acc'] loss = history.history['loss'] val_acc = history.history['val_acc'] val_loss = history.history['val_loss'] epochs = range(1,len(acc)+1) plt.plot(epochs,acc,'bo',label='Training acc') plt.plot(epochs,val_acc,'b',label='Validation acc') plt.title('Traning and validation acc') plt.legend() plt.figure() plt.plot(epochs,loss,'bo',label='Training loss') plt.plot(epochs,val_loss,'b',label='Validation loss') plt.title('Traning and validation loss') plt.legend() plt.show()
#在测试集上评估模型 test_dir = os.path.join(imdb_dir,'test') labels = [] texts = [] for label_type in ['neg','pos']: dir_name = os.path.join(test_dir,label_type) for fname in os.listdir(dir_name): if fname[-4:] == '.txt': f = open(os.path.join(dir_name,fname),encoding='UTF-8') texts.append(f.read()) f.close() if label_type == 'neg': labels.append(0) else: labels.append(1) sequence = tokenizer.texts_to_sequences(texts) x_test = pad_sequences(sequences,maxlen = max_len) y_test = np.asarray(labels)
model.load_weights('pre_trained_glove_model.h5') model.evaluate(x=x_test,y=y_test)

如果增加训练集样本的数量，可能使用词嵌入得到的效果会好很多。

2.keras实现-->字符级或单词级的one-hot编码 VS 词嵌入的更多相关文章

51nod图论题解（4级，5级算法题）
51nod图论题解(4级,5级算法题) 1805 小树基准时间限制:1.5 秒空间限制:131072 KB 分值: 80 难度:5级算法题她发现她的树的点上都有一个标号(从1到n),这些树都在空 ...
Linux学习笔记(三)：系统执行级与执行级的切换
1.Linux系统与其它的操作系统不同,它设有执行级别.该执行级指定操作系统所处的状态.Linux系统在不论什么时候都执行于某个执行级上,且在不同的执行级上执行的程序和服务都不同,所要完毕的工作和所要 ...
codewar代码练习1——8级晋升7级
最近发现一个不错的代码练习网站codewar(http://www.codewars.com).注册了一个账号,花了几天的茶余饭后时间做题,把等级从8级升到了7级.本文的目的主要介绍使用感受及相应题目 ...
[数据库事务与锁]详解五: MySQL中的行级锁,表级锁,页级锁
注明: 本文转载自http://www.hollischuang.com/archives/914 在计算机科学中,锁是在执行多线程时用于强行限制资源访问的同步机制,即用于在并发控制中保证对互斥要求的 ...
MySQL行级锁,表级锁,页级锁详解
页级:引擎 BDB. 表级:引擎 MyISAM , 理解为锁住整个表,可以同时读,写不行行级:引擎 INNODB , 单独的一行记录加锁表级,直接锁定整张表,在你锁定期间,其它进程无法对该表进行写 ...
行为级和RTL级的区别（转）
转自:http://hi.baidu.com/renmeman/item/5bd83496e3fc816bf14215db RTL级,registertransferlevel,指的是用寄存器这一级别 ...
CSS 各类块级元素行级元素水平垂直居中问题
元素的居中问题是每个初学者碰到的第一个大问题,在此我总结了下各种块级行级水平垂直的居中方法,并尽量给出代码实例. 首先请先明白块级元素和行级元素的区别行级元素一块级元素 1 水平居中: ( ...
【数据库】数据库的锁机制，MySQL中的行级锁,表级锁,页级锁
转载:http://www.hollischuang.com/archives/914 数据库的读现象浅析中介绍过,在并发访问情况下,可能会出现脏读.不可重复读和幻读等读现象,为了应对这些问题,主流数 ...
MySQL中的行级锁,表级锁,页级锁
在计算机科学中,锁是在执行多线程时用于强行限制资源访问的同步机制,即用于在并发控制中保证对互斥要求的满足. 在数据库的锁机制中介绍过,在DBMS中,可以按照锁的粒度把数据库锁分为行级锁(INNODB引 ...

随机推荐

python中的list和array的不同之处
原文地址: http://blog.csdn.net/liyaohhh/article/details/51055147#reply python中的list是python的内置数据类型,list中 ...
常见的mysql 进程state<转自网络>
Analyzing 线程是对MyISAM 表的统计信息做分析(例如, ANALYZE TABLE ). checking permissions 线程是检查服务器是否具有所需的权限来执行该语句. Ch ...
OGG日常运维监控的自动化脚本模板
#!/usr/bin/ksh export ORACLE_BASE=/oracle/ export ORACLE_SID=epmln1 export ORACLE_HOSTNAME=pmlnpdb1 ...
GitStack系统RCE漏洞学习
漏洞简介漏洞简情漏洞程序 GitStack 影响版本 <=2.3.10 漏洞类型 RCE 漏洞评价高危漏洞编号 CVE-2018-5955 漏洞程序介绍 GitStack是一款基于Pyt ...
Python虚拟开发环境pipenv
简介 requests库的作者,requests库的作者,requests库的作者(重要的事情说三遍)的又一力作,囊落了virtualenv, pip, pipfile等作为虚拟开发环境的命令行工具 ...
【黑金原创教程】【FPGA那些事儿-驱动篇I 】实验十：PS/2模块④ — 普通鼠标
实验十:PS/2模块④ - 普通鼠标学习PS/2键盘以后,接下来就要学习 PS/2 鼠标.PS/2鼠标相较PS/2键盘,驱动难度稍微高了一点点,因为FPGA(从机)不仅仅是从PS/2鼠标哪里读取数据 ...
虚拟机VMware怎么完全卸载干净，如何彻底卸载VMware虚拟机
亲测好使. 1.禁用VM虚拟机服务首先,需要停止虚拟机VMware相关服务.按下快捷键WIN+R,打开windows运行对话框,输入[services.msc],点击确定.如下图. 在服务管理中,找 ...
[通信] C# TCP实现多个客户端与服务端数据与文件的传输
说明: http://download.csdn.net/detail/chwei_cson/4423874 源码: http://download.csdn.net/download/meicanj ...
oracle如何删除表空间
drop tablespace 表空间名 including contents and datafiles cascade constraint; ............. 以system用户登录, ...
7.19python昨日复习和多线程(2)
2018-7-19 21:39:49 我觉得这次的笔记是非常非常完美的!!!明天继续睡觉去啦! 傍黑时候和晴宝打电话,她特能说,很喜欢这种感觉,有好多东西要和你分享! 1.复习! # !/usr/b ...