使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同，因为CNN里图像检测卷积一般是3x3，而文本分类的话是直接是一维的3、4、5

代码如下：

from __future__ import division, print_function, absolute_import

import tensorflow as tf

import tflearn

from tflearn.layers.core import input_data, dropout, fully_connected

from tflearn.layers.conv import conv_1d, global_max_pool

from tflearn.layers.merge_ops import merge

from tflearn.layers.estimator import regression

from tflearn.data_utils import to_categorical, pad_sequences

from tflearn.datasets import imdb

import os

from tensorflow.contrib.learn.python import learn

from sklearn import metrics

from sklearn.model_selection import train_test_split

import numpy as np

MAX_DOCUMENT_LENGTH = 200

EMBEDDING_SIZE = 50

n_words=0

def load_one_file(filename):

    x=""

    with open(filename) as f:

        for line in f:

            x+=line

    return x

def load_files(rootdir,label):

    list = os.listdir(rootdir)

    x=[]

    y=[]

    for i in range(0, len(list)):

        path = os.path.join(rootdir, list[i])

        if os.path.isfile(path):

            #print "Load file %s" % path

            y.append(label)

            x.append(load_one_file(path))

    return x,y 

def load_data():

    x=[]

    y=[]

    x1,y1=load_files("../data/movie-review-data/review_polarity/txt_sentoken/pos/",0)

    x2,y2=load_files("../data/movie-review-data/review_polarity/txt_sentoken/neg/", 1)

    x=x1+x2

    y=y1+y2

    return x,y

def  do_cnn(trainX, trainY,testX, testY):

    global n_words

    # Data preprocessing

    # Sequence padding

    trainX = pad_sequences(trainX, maxlen=MAX_DOCUMENT_LENGTH, value=0.)

    testX = pad_sequences(testX, maxlen=MAX_DOCUMENT_LENGTH, value=0.)

    # Converting labels to binary vectors

    trainY = to_categorical(trainY, nb_classes=2)

    testY = to_categorical(testY, nb_classes=2)

    # Building convolutional network

    network = input_data(shape=[None, MAX_DOCUMENT_LENGTH], name='input')

    network = tflearn.embedding(network, input_dim=n_words+1, output_dim=128)

    branch1 = conv_1d(network, 128, 3, padding='valid', activation='relu', regularizer="L2")

    branch2 = conv_1d(network, 128, 4, padding='valid', activation='relu', regularizer="L2")

    branch3 = conv_1d(network, 128, 5, padding='valid', activation='relu', regularizer="L2")

    network = merge([branch1, branch2, branch3], mode='concat', axis=1)

    network = tf.expand_dims(network, 2)

    network = global_max_pool(network)

    network = dropout(network, 0.5)

    network = fully_connected(network, 2, activation='softmax')

    network = regression(network, optimizer='adam', learning_rate=0.001,

                         loss='categorical_crossentropy', name='target')

    # Training

    model = tflearn.DNN(network, tensorboard_verbose=0)

    model.fit(trainX, trainY, n_epoch = 20, shuffle=True, validation_set=(testX, testY), show_metric=True, batch_size=32)

if __name__ == '__main__':

    # IMDB Dataset loading

    global n_words

    x,y=load_data()

    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.4, random_state=0)

    vp = learn.preprocessing.VocabularyProcessor(max_document_length=MAX_DOCUMENT_LENGTH, min_frequency=1)

    vp.fit(x)

    x_train = np.array(list(vp.transform(x_train)))

    x_test = np.array(list(vp.transform(x_test)))

    n_words=len(vp.vocabulary_)

    print('Total words: %d' % n_words)

    do_cnn(x_train, y_train,x_test, y_test)

准确率是100%

使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同，因为CNN里图像检测卷积一般是3x3，而文本分类的话是直接是一维的3、4、5的更多相关文章

使用LSTM做电影评论负面检测——使用朴素贝叶斯才51%，但是使用LSTM可以达到99%准确度
基本思路: 每个评论取前200个单词.然后生成词汇表,利用词汇index标注评论(对每条评论的前200个单词编号而已),然后使用LSTM做正负评论检测. 代码解读见[[[评论]]]!embeddin ...
『科学计算』图像检测微型demo
这里是课上老师给出的一个示例程序,演示图像检测的过程,本来以为是传统的滑窗检测,但实际上引入了selectivesearch来选择候选窗,所以看思路应该是RCNN的范畴,蛮有意思的,由于老师的注释写的 ...
基于Keras的imdb数据集电影评论情感二分类
IMDB数据集下载速度慢,可以在我的repo库中找到下载,下载后放到~/.keras/datasets/目录下,即可正常运行.)中找到下载,下载后放到~/.keras/datasets/目录下,即可正 ...
【项目实战】Kaggle电影评论情感分析
前言这几天持续摆烂了几天,原因是我自己对于Kaggle电影评论情感分析的这个赛题敲出来的代码无论如何没办法运行,其中数据变换的维度我无法把握好,所以总是在函数中传错数据.今天痛定思痛,重新写了一遍代 ...
kaggle之电影评论文本情感分类
电影文本情感分类 Github地址 Kaggle地址这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯.逻辑回 ...
基于卷积神经网络CNN的电影推荐系统
本项目使用文本卷积神经网络,并使用MovieLens数据集完成电影推荐的任务. 推荐系统在日常的网络应用中无处不在,比如网上购物.网上买书.新闻app.社交网络.音乐网站.电影网站等等等等,有人的地方 ...
tensorflow 教程文本分类 IMDB电影评论
昨天配置了tensorflow的gpu版本,今天开始简单的使用一下主要是看了一下tensorflow的tutorial 里面的 IMDB 电影评论二分类这个教程教程里面主要包括了一下几个内容:下载 ...
CNN做序列标注问题（tensorflow）
一.搭建简单的CNN做序列标注代码 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt TIME_ST ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...

随机推荐

使用jQuery对图片进行居中设置
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
4185 Oil Skimming 最大匹配奇偶建图
题目大意: 统计相邻(上下左右)的‘#’的对数. 解法: 与题目hdu1507 Uncle Tom's Inherited Land*类似,需要用奇偶建图.就是行+列为奇数的作为X集合,偶尔作为Y集合 ...
Singleton pattern的线程安全问题
original post from here方法一:同步机制关键词public class Singleton { 2 //利用静态变量来记录Singleton的唯一实例 3 private sta ...
python爬虫：爬取凤凰指数
在知乎上看到的这个问题,讲讲我爬取过程中遇到的问题: 1.循环爬取其他页面,在其他项目中用循环一般可以搞定,可是这个,第一页和第二第三页的表格是不同的,所以要重新写规则,我懒,写了第一页后,就不想在写 ...
Http状态码大全（200、404、500等）
基本涵盖了所有问题 HTTP 400 – 请求无效HTTP 401.1 – 未授权:登录失败HTTP 401.2 – 未授权:服务器配置问题导致登录失败HTTP 401.3 – ACL 禁止访问资源H ...
（转）基于MVC4+EasyUI的Web开发框架形成之旅--权限控制
http://www.cnblogs.com/wuhuacong/p/3361351.html 我在上一篇随笔<基于MVC4+EasyUI的Web开发框架形成之旅--框架总体界面介绍>中大 ...
Js判断一个字符串是否包含一个子串
Js中经常遇到判断一个字符串是否包含一个子串,java语言中有containes的方法,直接调用就可以了.除非引用第三方数据库,Js中没有contains方法. 为了实现更java语言中contain ...
Apex语言（二）变量与常量
1.变量凡是交给计算运算(处理)的数据就是变量,用来保存参加运算的数据和计算结果. 变量由变量名来标识. 变量名由字母数字和下划线组成,不能以数字开头. [正确]number,number1,num ...
MySQL 视图触发器事务存储过程函数
事务致命三问什么是事务:开启了一个包含多条SQL语句的事务,这些SQL语句要么都执行成功,要么有别想成功:例如A向B转账,二人账户并不属于一家银行,在转账过程中由于网络问题,导致A显示转账成功 ...
面试题1-----SVM和LR的异同
1.异(加下划线是工程上的不同) (1)两者损失函数不一样 (2)LR无约束.SVM有约束 (3)SVM仅考虑支持向量. (4)LR的可解释性更强,SVM先投影到更高维分类再投影到低维空间. (5)S ...

使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同，因为CNN里图像检测卷积一般是3x3，而文本分类的话是直接是一维的3、4、5

使用CNN做电影评论的负面检测——本质上感觉和ngram或者LSTM同，因为CNN里图像检测卷积一般是3x3，而文本分类的话是直接是一维的3、4、5的更多相关文章

随机推荐

热门专题