tensorflow 教程文本分类 IMDB电影评论

昨天配置了tensorflow的gpu版本，今天开始简单的使用一下

主要是看了一下tensorflow的tutorial 里面的 IMDB 电影评论二分类这个教程

教程里面主要包括了一下几个内容：下载IMDB数据集，显示数据（将数组转换回评论文本），准备数据，建立模型（隐层设置，优化器和损失函数的配置），建立一个验证集，训练模型，评估模型，显示训练精度和损失图。

代码我已经完全上传到我的github中去了 https://github.com/OnesAlone/deepLearning/blob/master/two_classification_with_movie_review.ipynb

大部分内容均有注释

下面我简单介绍一下：

首先导入需要的工具包，包括tensorflow，keras，numpy，再下载imdb数据集

import tensorflow as tf

from tensorflow import keras

import numpy as np

imdb = keras.datasets.imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

　　下载完成后可以用

len(train_data[0]), len(train_data[1])

　　检查一下是否下载完成

接下来是将整形数组转换为原始的影评（对于训练模型来说没有影响）

# 字典:用于将数字转向单词

word_index = imdb.get_word_index()

# key值不变，value值加3，并新增了4个键值对

word_index = {k:(v+3) for k,v in word_index.items()}

word_index["<PAD>"] = 0 # 用来将每一个sentence扩充到同等长度

word_index["<START>"] = 1

word_index["<UNK>"] = 2 # 未知，可能是生僻单词或是人名

word_index["UNUSED"] = 3

# 将键值对的键与值互换

reverse_word_index = dict([(value,key) for (key,value) in word_index.items()])

# 转译为原句

def decode_review(text):

    return ' '.join([reverse_word_index.get(i,'?') for i in text])

　　输入

decode_review(train_data[0])

　　确认一下是否可以转化，转化结果如下所示

接下来对数据进性预处理

因为每一个sequence的长度不一致，为了将其输入到神经网络中，需要将他们的维度做一下预处理，有两种方式

第一种：one-hot编码将每一个sequence转译成num_words(10000)个 0s和 1s,代表每一个单词是否出现过，这种方式仅统计是否出现和不统计词频，且是内存密集型的编码，总计会有num_words * num_reviews 大小的matrix

第二种：扩展整数数组让他们拥有相同的长度，这样每一个sequence会有共同的max_length（256），总计会占用 max_length*num_reviews大小

教程内采用第二种，在sequence后面扩充0

train_data = keras.preprocessing.sequence.pad_sequences(train_data,value=word_index["<PAD>"],padding='post',maxlen=256)

test_data = keras.preprocessing.sequence.pad_sequences(test_data,value=word_index["<PAD>"],padding='post',maxlen=256)

　接下来构建模型

输入数据是单词组合，标签是0或者1

先进行数据稀疏稠密化，因为sequence里面的word_index值是[0~10000]内稀疏的，所以将每一个单词用一个16维的向量代替；input(1024,256)output(1024,256,16)

再通过均值的池化层，将每一个sequence做均值，类似于将单词合并 ;input(1024,256,16),output(1024,16)

全连接层采用relu激活函数;input(1024,16),output(1024,16)

全连接层采用sigmoid激活函数；input(1024,16),output(1024,1)

vocab_size = 10000

model = keras.Sequential()

model.add(keras.layers.Embedding(vocab_size,16))

model.add(keras.layers.GlobalAveragePooling1D())

model.add(keras.layers.Dense(16,activation=tf.nn.relu))

model.add(keras.layers.Dense(1,activation=tf.nn.sigmoid))

model.summary()

　　因为采用了sigmoid激活函数，所以损失函数不能用mse均方误差，因为在sigmoid函数的两端梯度很小，会使w和b更新很慢，所以采用交叉熵代价函数（cross-entropy cost function）

model.compile(optimizer=tf.train.AdamOptimizer(),loss='binary_crossentropy',metrics=['accuracy'])

　　构建训练集

x_val =train_data[:10000]

partial_x_train = train_data[10000:]

y_val = train_labels[:10000]

partial_y_train = train_labels[10000:]

　　开始训练模型，并将训练模型过程中的一些参数如训练精度和交叉验证精度等保存在history中

history = model.fit(partial_x_train,partial_y_train,epochs=40,batch_size=1024,validation_data=(x_val,y_val),verbose=1)

　　评估模型

results = model.evaluate(test_data, test_labels)

results

可以看到精度大概在87%

最后通过matplot显示训练过程中的一些参数

import matplotlib.pyplot as plt

acc = history.history['acc']

val_acc = history.history['val_acc']

loss = history.history['loss']

val_loss = history.history['val_loss']

epochs = range(1, len(acc) + 1)

plt.plot(epochs, loss, 'bo', label='Training loss')

plt.plot(epochs, val_loss, 'b', label='Validation loss')

plt.title('Training and validation loss')

plt.xlabel('Epochs')

plt.ylabel('Loss')

plt.legend()

plt.show()

plt.clf()   # 清除图表

acc_values = history_dict['acc']

val_acc_values = history_dict['val_acc']

plt.plot(epochs, acc, 'bo', label='Training acc')

plt.plot(epochs, val_acc, 'b', label='Validation acc')

plt.title('Training and validation accuracy')

plt.xlabel('Epochs')

plt.ylabel('Accuracy')

plt.legend()

plt.show()

交叉熵代价函数具有非负性和当真实输出与期望输出相近的时候，代价函数接近于零

tensorflow 教程文本分类 IMDB电影评论的更多相关文章

Pytorch文本分类(imdb数据集)，含DataLoader数据加载，最优模型保存
用pytorch进行文本分类,数据集为keras内置的imdb影评数据(二分类),代码包含六个部分(详见代码) 使用环境: pytorch:1.1.0 cuda:10.0 gpu:RTX2070 (1 ...
基于tensorflow的文本分类总结（数据集是复旦中文语料）
代码已上传到github:https://github.com/taishan1994/tensorflow-text-classification 往期精彩: 利用TfidfVectorizer进行 ...
kaggle——Bag of Words Meets Bags of Popcorn（IMDB电影评论情感分类实践）
kaggle链接:https://www.kaggle.com/c/word2vec-nlp-tutorial/overview 简介:给出 50,000 IMDB movie reviews,进行0 ...
使用RNN对文本进行分类实践电影评论
本教程在IMDB大型影评数据集上训练一个循环神经网络进行情感分类. from __future__ import absolute_import, division, print_function, ...
kaggle之电影评论文本情感分类
电影文本情感分类 Github地址 Kaggle地址这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯.逻辑回 ...
基于Keras的imdb数据集电影评论情感二分类
IMDB数据集下载速度慢,可以在我的repo库中找到下载,下载后放到~/.keras/datasets/目录下,即可正常运行.)中找到下载,下载后放到~/.keras/datasets/目录下,即可正 ...
AI - TensorFlow - 示例02：影评文本分类
影评文本分类文本分类(Text classification):https://www.tensorflow.org/tutorials/keras/basic_text_classificatio ...
在 TensorFlow 中实现文本分类的卷积神经网络
在TensorFlow中实现文本分类的卷积神经网络 Github提供了完整的代码: https://github.com/dennybritz/cnn-text-classification-tf 在 ...
tensorflow实现基于LSTM的文本分类方法
tensorflow实现基于LSTM的文本分类方法作者:u010223750 引言学习一段时间的tensor flow之后,想找个项目试试手,然后想起了之前在看Theano教程中的一个文本分类的实 ...

随机推荐

【设计模式最终总结】桥接模式 VS 外观模式
差异点外观模式,是把功能通过一个接口提供出来,方便日后更换实现,或者这种实现可以由多方提供,但同时只用一个.典型例子:@Slf4j 桥接模式,多个维度,每个维度提供一个接口,这些接口集中在一个类中, ...
Python函数式编程(进阶2)
转载请标明出处: http://www.cnblogs.com/why168888/p/6411915.html 本文出自:[Edwin博客园] Python函数式编程(进阶2) 1. python把 ...
如何在Windows中安装GitHub
1.使用Git 在Git官网下载Git安装包,双击开始安装即可.安装完毕之后,在Windows中会具有一个Git Bash命令行工具以及一个Git GUI客户端工具. 点击Download即可下载. ...
hdu-4135 Co-prime---容斥定理经典&&求1-m中与n互质的数目
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=4135 题目大意: 求区间[a, b]中与N互质的数目. 解题思路: 首先对n求出所有素因子. 对于区 ...
用eclipse pydev 创建一个新py文件时文件的coding设置问题
问题: 当安装好eclipse和pydev后,创建一个project, 创建一个新的py文件,文件头都会自带中文时间.这样在编译的时候会报错. 解决办法之一: 通过设置,可以使新建的文件的文件头自动带 ...
django+ajax用FileResponse文件下载到浏览器过程中遇到的问题
问题: 公司的需求是从mongodb中查找数据并下载回本地,但是在将文件从mongodb通过django服务端,然后从django服务端向浏览器下载文件.但是在下载的时候出了些问题.由于是用的ajax ...
VC++和C语言中常见数据类型转换为字符串的方法
1.短整型(int) itoa(i,temp,10);///将i转换为字符串放入temp中,最后一个数字表示十进制 itoa(i,temp,2); ///按二进制方式转换 2.长整型(long) lt ...
java三大特性（封装、继承、多态）
oop(面向对象程序设计)具有三大特性:封装.继承.多态一.封装封装就是讲类的信息隐藏在类的内部,不允许外部程序直接访问,而是通过该类的实现隐藏信息的操作和访问. 实现封装 1.需要修改属性的访问 ...
TestNG注解使用技巧 - @Factory
之前在测试中一直使用testNG的@Test注解都很顺利没有碰到什么问题,今天突然遇到@Test不能用的情况,运行后提示: org.testng.TestNGException: Can't invo ...
PHP实现数组递归转义的方法
本文以实例形式讲述了PHP实现数组递归转义的方法,分享给大家供大家参考之用.具体方法如下: 主要功能代码如下: $arr = array('a"aa',array("c'd&quo ...

tensorflow 教程 文本分类 IMDB电影评论

tensorflow 教程 文本分类 IMDB电影评论的更多相关文章

随机推荐

热门专题

tensorflow 教程文本分类 IMDB电影评论

tensorflow 教程文本分类 IMDB电影评论的更多相关文章