1 大纲概述

  文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类。总共有以下系列:

  word2vec预训练词向量

  textCNN 模型

  charCNN 模型

  Bi-LSTM 模型

  Bi-LSTM + Attention 模型

  RCNN 模型

  Adversarial LSTM 模型

  Transformer 模型

  ELMo 预训练模型

  BERT 预训练模型

  所有代码均在textClassifier仓库中。

2 数据集

  数据集为IMDB 电影影评,总共有三个数据文件,在/data/rawData目录下,包括unlabeledTrainData.tsv,labeledTrainData.tsv,testData.tsv。在进行文本分类时需要有标签的数据(labeledTrainData),数据预处理如文本分类实战(一)—— word2vec预训练词向量中相似,唯一的不同是需要保留标点符号,否则模型难以收敛。预处理后的文件为/data/preprocess/labeledCharTrain.csv。

3 charCNN 模型结构

  在charCNN论文Character-level Convolutional Networks for Text Classification中提出了6层卷积层 + 3层全连接层的结构,具体结构如下图:

  

  针对不同大小的数据集提出了两种结构参数:

  1)卷积层

    

  2)全连接层

    

4 配置参数

  1. import os
  2. import time
  3. import datetime
  4. import csv
  5. import json
  6. from math import sqrt
  7. import warnings
  8.  
  9. import numpy as np
  10. import pandas as pd
  11. import tensorflow as tf
  12. from sklearn.metrics import roc_auc_score, accuracy_score, precision_score, recall_score
  13. warnings.filterwarnings("ignore")
  1. # 参数配置
  2.  
  3. class TrainingConfig(object):
  4. epoches = 10
  5. evaluateEvery = 100
  6. checkpointEvery = 100
  7. learningRate = 0.001
  8.  
  9. class ModelConfig(object):
  10.  
  11. # 该列表中子列表的三个元素分别是卷积核的数量,卷积核的高度,池化的尺寸
  12. convLayers = [[256, 7, 4],
  13. [256, 7, 4],
  14. [256, 3, 4]]
  15. # [256, 3, None],
  16. # [256, 3, None],
  17. # [256, 3, 3]]
  18. fcLayers = [512]
  19. dropoutKeepProb = 0.5
  20.  
  21. epsilon = 1e-3 # BN层中防止分母为0而加入的极小值
  22. decay = 0.999 # BN层中用来计算滑动平均的值
  23.  
  24. class Config(object):
       # 我们使用论文中提出的69个字符来表征输入数据
  25. alphabet = "abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:'\"/\\|_@#$%^&*~`+-=<>()[]{}"
  26. # alphabet = "abcdefghijklmnopqrstuvwxyz0123456789"
  27.  
  28. sequenceLength = 1014 # 字符表示的序列长度
  29. batchSize = 128
  30.  
  31. rate = 0.8 # 训练集的比例
  32.  
  33. dataSource = "../data/preProcess/labeledCharTrain.csv"
  34.  
  35. training = TrainingConfig()
  36.  
  37. model = ModelConfig()
  38.  
  39. config = Config()

5 训练数据生成

  1) 加载数据,将所有的句子分割成字符表示

  2) 构建字符-索引映射表,并保存成json的数据格式,方便在inference阶段加载使用

  3)将字符转换成one-hot的嵌入形式,作为模型中embedding层的初始化值。

  4) 将数据集分割成训练集和验证集

  1. # 数据预处理的类,生成训练集和测试集
  2.  
  3. class Dataset(object):
  4. def __init__(self, config):
  5. self._dataSource = config.dataSource
  6.  
  7. self._sequenceLength = config.sequenceLength
  8. self._rate = config.rate
  9.  
  10. self.trainReviews = []
  11. self.trainLabels = []
  12.  
  13. self.evalReviews = []
  14. self.evalLabels = []
  15.  
  16. self._alphabet = config.alphabet
  17. self.charEmbedding =None
  18.  
  19. self._charToIndex = {}
  20. self._indexToChar = {}
  21.  
  22. def _readData(self, filePath):
  23. """
  24. 从csv文件中读取数据集
  25. """
  26.  
  27. df = pd.read_csv(filePath)
  28. labels = df["sentiment"].tolist()
  29. review = df["review"].tolist()
  30. reviews = [[char for char in line if char != " "] for line in review]
  31.  
  32. return reviews, labels
  33.  
  34. def _reviewProcess(self, review, sequenceLength, charToIndex):
  35. """
  36. 将数据集中的每条评论用index表示
  37. wordToIndex中“pad”对应的index为0
  38. """
  39.  
  40. reviewVec = np.zeros((sequenceLength))
  41. sequenceLen = sequenceLength
  42.  
  43. # 判断当前的序列是否小于定义的固定序列长度
  44. if len(review) < sequenceLength:
  45. sequenceLen = len(review)
  46.  
  47. for i in range(sequenceLen):
  48. if review[i] in charToIndex:
  49. reviewVec[i] = charToIndex[review[i]]
  50. else:
  51. reviewVec[i] = charToIndex["UNK"]
  52.  
  53. return reviewVec
  54.  
  55. def _genTrainEvalData(self, x, y, rate):
  56. """
  57. 生成训练集和验证集
  58. """
  59.  
  60. reviews = []
  61. labels = []
  62.  
  63. # 遍历所有的文本,将文本中的词转换成index表示
  64.  
  65. for i in range(len(x)):
  66. reviewVec = self._reviewProcess(x[i], self._sequenceLength, self._charToIndex)
  67. reviews.append(reviewVec)
  68.  
  69. labels.append([y[i]])
  70.  
  71. trainIndex = int(len(x) * rate)
  72.  
  73. trainReviews = np.asarray(reviews[:trainIndex], dtype="int64")
  74. trainLabels = np.array(labels[:trainIndex], dtype="float32")
  75.  
  76. evalReviews = np.asarray(reviews[trainIndex:], dtype="int64")
  77. evalLabels = np.array(labels[trainIndex:], dtype="float32")
  78.  
  79. return trainReviews, trainLabels, evalReviews, evalLabels
  80.  
  81. def _genVocabulary(self, reviews):
  82. """
  83. 生成字符向量和字符-索引映射字典
  84. """
  85.  
  86. chars = [char for char in self._alphabet]
  87.  
  88. vocab, charEmbedding = self._getCharEmbedding(chars)
  89. self.charEmbedding = charEmbedding
  90.  
  91. self._charToIndex = dict(zip(vocab, list(range(len(vocab)))))
  92. self._indexToChar = dict(zip(list(range(len(vocab))), vocab))
  93.  
  94. # 将词汇-索引映射表保存为json数据,之后做inference时直接加载来处理数据
  95. with open("../data/charJson/charToIndex.json", "w", encoding="utf-8") as f:
  96. json.dump(self._charToIndex, f)
  97.  
  98. with open("../data/charJson/indexToChar.json", "w", encoding="utf-8") as f:
  99. json.dump(self._indexToChar, f)
  100.  
  101. def _getCharEmbedding(self, chars):
  102. """
  103. 按照one的形式将字符映射成向量
  104. """
  105.  
  106. alphabet = ["UNK"] + [char for char in self._alphabet]
  107. vocab = ["pad"] + alphabet
  108. charEmbedding = []
  109. charEmbedding.append(np.zeros(len(alphabet), dtype="float32"))
  110.  
  111. for i, alpha in enumerate(alphabet):
  112. onehot = np.zeros(len(alphabet), dtype="float32")
  113.  
  114. # 生成每个字符对应的向量
  115. onehot[i] = 1
  116.  
  117. # 生成字符嵌入的向量矩阵
  118. charEmbedding.append(onehot)
  119.  
  120. return vocab, np.array(charEmbedding)
  121.  
  122. def dataGen(self):
  123. """
  124. 初始化训练集和验证集
  125. """
  126.  
  127. # 初始化数据集
  128. reviews, labels = self._readData(self._dataSource)
  129.  
  130. # 初始化词汇-索引映射表和词向量矩阵
  131. self._genVocabulary(reviews)
  132.  
  133. # 初始化训练集和测试集
  134. trainReviews, trainLabels, evalReviews, evalLabels = self._genTrainEvalData(reviews, labels, self._rate)
  135. self.trainReviews = trainReviews
  136. self.trainLabels = trainLabels
  137.  
  138. self.evalReviews = evalReviews
  139. self.evalLabels = evalLabels
  140.  
  141. data = Dataset(config)
  142. data.dataGen()

 6 生成batch数据集

  1. # 输出batch数据集
  2.  
  3. def nextBatch(x, y, batchSize):
  4. """
  5. 生成batch数据集,用生成器的方式输出
  6. """
  7.  
  8. perm = np.arange(len(x))
  9. np.random.shuffle(perm)
  10. x = x[perm]
  11. y = y[perm]
  12.  
  13. numBatches = len(x) // batchSize
  14.  
  15. for i in range(numBatches):
  16. start = i * batchSize
  17. end = start + batchSize
  18. batchX = np.array(x[start: end], dtype="int64")
  19. batchY = np.array(y[start: end], dtype="float32")
  20.  
  21. yield batchX, batchY

7 charCNN模型

  在charCNN 模型中我们引入了BN层,但是效果并不明显,甚至存在一些收敛问题,待之后去探讨。

  1. # 定义char-CNN分类器
  2.  
  3. class CharCNN(object):
  4. """
  5. char-CNN用于文本分类
  6. """
  7. def __init__(self, config, charEmbedding):
  8. # placeholders for input, output and dropuot
  9. self.inputX = tf.placeholder(tf.int32, [None, config.sequenceLength], name="inputX")
  10. self.inputY = tf.placeholder(tf.float32, [None, 1], name="inputY")
  11. self.dropoutKeepProb = tf.placeholder(tf.float32, name="dropoutKeepProb")
  12. self.isTraining = tf.placeholder(tf.bool, name="isTraining")
  13.  
  14. self.epsilon = config.model.epsilon
  15. self.decay = config.model.decay
  16.  
  17. # 字符嵌入
  18. with tf.name_scope("embedding"):
  19.  
  20. # 利用one-hot的字符向量作为初始化词嵌入矩阵
  21. self.W = tf.Variable(tf.cast(charEmbedding, dtype=tf.float32, name="charEmbedding") ,name="W")
  22. # 获得字符嵌入
  23. self.embededChars = tf.nn.embedding_lookup(self.W, self.inputX)
  24. # 添加一个通道维度
  25. self.embededCharsExpand = tf.expand_dims(self.embededChars, -1)
  26.  
  27. for i, cl in enumerate(config.model.convLayers):
  28. print("开始第" + str(i + 1) + "卷积层的处理")
  29. # 利用命名空间name_scope来实现变量名复用
  30. with tf.name_scope("convLayer-%s"%(i+1)):
  31. # 获取字符的向量长度
  32. filterWidth = self.embededCharsExpand.get_shape()[2].value
  33.  
  34. # filterShape = [height, width, in_channels, out_channels]
  35. filterShape = [cl[1], filterWidth, 1, cl[0]]
  36.  
  37. stdv = 1 / sqrt(cl[0] * cl[1])
  38.  
  39. # 初始化w和b的值
  40. wConv = tf.Variable(tf.random_uniform(filterShape, minval=-stdv, maxval=stdv),
  41. dtype='float32', name='w')
  42. bConv = tf.Variable(tf.random_uniform(shape=[cl[0]], minval=-stdv, maxval=stdv), name='b')
  43.  
  44. # w_conv = tf.Variable(tf.truncated_normal(filter_shape, stddev=0.05), name="w")
  45. # b_conv = tf.Variable(tf.constant(0.1, shape=[cl[0]]), name="b")
  46. # 构建卷积层,可以直接将卷积核的初始化方法传入(w_conv)
  47. conv = tf.nn.conv2d(self.embededCharsExpand, wConv, strides=[1, 1, 1, 1], padding="VALID", name="conv")
  48. # 加上偏差
  49. hConv = tf.nn.bias_add(conv, bConv)
  50. # 可以直接加上relu函数,因为tf.nn.conv2d事实上是做了一个卷积运算,然后在这个运算结果上加上偏差,再导入到relu函数中
  51. hConv = tf.nn.relu(hConv)
  52.  
  53. # with tf.name_scope("batchNormalization"):
  54. # hConvBN = self._batchNorm(hConv)
  55.  
  56. if cl[-1] is not None:
  57. ksizeShape = [1, cl[2], 1, 1]
  58. hPool = tf.nn.max_pool(hConv, ksize=ksizeShape, strides=ksizeShape, padding="VALID", name="pool")
  59. else:
  60. hPool = hConv
  61.  
  62. print(hPool.shape)
  63.  
  64. # 对维度进行转换,转换成卷积层的输入维度
  65. self.embededCharsExpand = tf.transpose(hPool, [0, 1, 3, 2], name="transpose")
  66. print(self.embededCharsExpand)
  67. with tf.name_scope("reshape"):
  68. fcDim = self.embededCharsExpand.get_shape()[1].value * self.embededCharsExpand.get_shape()[2].value
  69. self.inputReshape = tf.reshape(self.embededCharsExpand, [-1, fcDim])
  70.  
  71. weights = [fcDim] + config.model.fcLayers
  72.  
  73. for i, fl in enumerate(config.model.fcLayers):
  74. with tf.name_scope("fcLayer-%s"%(i+1)):
  75. print("开始第" + str(i + 1) + "全连接层的处理")
  76. stdv = 1 / sqrt(weights[i])
  77.  
  78. # 定义全连接层的初始化方法,均匀分布初始化w和b的值
  79. wFc = tf.Variable(tf.random_uniform([weights[i], fl], minval=-stdv, maxval=stdv), dtype="float32", name="w")
  80. bFc = tf.Variable(tf.random_uniform(shape=[fl], minval=-stdv, maxval=stdv), dtype="float32", name="b")
  81.  
  82. # w_fc = tf.Variable(tf.truncated_normal([weights[i], fl], stddev=0.05), name="W")
  83. # b_fc = tf.Variable(tf.constant(0.1, shape=[fl]), name="b")
  84.  
  85. self.fcInput = tf.nn.relu(tf.matmul(self.inputReshape, wFc) + bFc)
  86.  
  87. with tf.name_scope("dropOut"):
  88. self.fcInputDrop = tf.nn.dropout(self.fcInput, self.dropoutKeepProb)
  89.  
  90. self.inputReshape = self.fcInputDrop
  91.  
  92. with tf.name_scope("outputLayer"):
  93. stdv = 1 / sqrt(weights[-1])
  94. # 定义隐层到输出层的权重系数和偏差的初始化方法
  95. # w_out = tf.Variable(tf.truncated_normal([fc_layers[-1], num_classes], stddev=0.1), name="W")
  96. # b_out = tf.Variable(tf.constant(0.1, shape=[num_classes]), name="b")
  97.  
  98. wOut = tf.Variable(tf.random_uniform([config.model.fcLayers[-1], 1], minval=-stdv, maxval=stdv), dtype="float32", name="w")
  99. bOut = tf.Variable(tf.random_uniform(shape=[1], minval=-stdv, maxval=stdv), name="b")
  100. # tf.nn.xw_plus_b就是x和w的乘积加上b
  101. self.predictions = tf.nn.xw_plus_b(self.inputReshape, wOut, bOut, name="predictions")
  102. # 进行二元分类
  103. self.binaryPreds = tf.cast(tf.greater_equal(self.predictions, 0.0), tf.float32, name="binaryPreds")
  104.  
  105. with tf.name_scope("loss"):
  106. # 定义损失函数,对预测值进行softmax,再求交叉熵。
  107.  
  108. losses = tf.nn.sigmoid_cross_entropy_with_logits(logits=self.predictions, labels=self.inputY)
  109. self.loss = tf.reduce_mean(losses)
  110.  
  111. def _batchNorm(self, x):
  112. # BN层代码实现
  113. gamma = tf.Variable(tf.ones([x.get_shape()[3].value]))
  114. beta = tf.Variable(tf.zeros([x.get_shape()[3].value]))
  115.  
  116. self.popMean = tf.Variable(tf.zeros([x.get_shape()[3].value]), trainable=False, name="popMean")
  117. self.popVariance = tf.Variable(tf.ones([x.get_shape()[3].value]), trainable=False, name="popVariance")
  118.  
  119. def batchNormTraining():
  120. # 一定要使用正确的维度确保计算的是每个特征图上的平均值和方差而不是整个网络节点上的统计分布值
  121. batchMean, batchVariance = tf.nn.moments(x, [0, 1, 2], keep_dims=False)
  122.  
  123. decay = 0.99
  124. trainMean = tf.assign(self.popMean, self.popMean*self.decay + batchMean*(1 - self.decay))
  125. trainVariance = tf.assign(self.popVariance, self.popVariance*self.decay + batchVariance*(1 - self.decay))
  126.  
  127. with tf.control_dependencies([trainMean, trainVariance]):
  128. return tf.nn.batch_normalization(x, batchMean, batchVariance, beta, gamma, self.epsilon)
  129.  
  130. def batchNormInference():
  131. return tf.nn.batch_normalization(x, self.popMean, self.popVariance, beta, gamma, self.epsilon)
  132.  
  133. batchNormalizedOutput = tf.cond(self.isTraining, batchNormTraining, batchNormInference)
  134. return tf.nn.relu(batchNormalizedOutput)

8 性能指标函数

  输出分类问题的常用指标。

  1. # 定义性能指标函数
  2.  
  3. def mean(item):
  4. return sum(item) / len(item)
  5.  
  6. def genMetrics(trueY, predY, binaryPredY):
  7. """
  8. 生成acc和auc值
  9. """
  10.  
  11. auc = roc_auc_score(trueY, predY)
  12. accuracy = accuracy_score(trueY, binaryPredY)
  13. precision = precision_score(trueY, binaryPredY, average='macro')
  14. recall = recall_score(trueY, binaryPredY, average='macro')
  15.  
  16. return round(accuracy, 4), round(auc, 4), round(precision, 4), round(recall, 4)

9 训练模型

  在训练时,我们定义了tensorBoard的输出,并定义了两种模型保存的方法。

  1. # 训练模型
  2.  
  3. # 生成训练集和验证集
  4. trainReviews = data.trainReviews
  5. trainLabels = data.trainLabels
  6. evalReviews = data.evalReviews
  7. evalLabels = data.evalLabels
  8.  
  9. charEmbedding = data.charEmbedding
  10.  
  11. # 定义计算图
  12. with tf.Graph().as_default():
  13.  
  14. session_conf = tf.ConfigProto(allow_soft_placement=True, log_device_placement=False)
  15. session_conf.gpu_options.allow_growth=True
  16. session_conf.gpu_options.per_process_gpu_memory_fraction = 0.9 # 配置gpu占用率
  17.  
  18. sess = tf.Session(config=session_conf)
  19.  
  20. # 定义会话
  21. with sess.as_default():
  22.  
  23. cnn = CharCNN(config, charEmbedding)
  24. globalStep = tf.Variable(0, name="globalStep", trainable=False)
  25. # 定义优化函数,传入学习速率参数
  26. optimizer = tf.train.RMSPropOptimizer(config.training.learningRate)
  27. # 计算梯度,得到梯度和变量
  28. gradsAndVars = optimizer.compute_gradients(cnn.loss)
  29. # 将梯度应用到变量下,生成训练器
  30. trainOp = optimizer.apply_gradients(gradsAndVars, global_step=globalStep)
  31.  
  32. # 用summary绘制tensorBoard
  33. gradSummaries = []
  34. for g, v in gradsAndVars:
  35. if g is not None:
  36. tf.summary.histogram("{}/grad/hist".format(v.name), g)
  37. tf.summary.scalar("{}/grad/sparsity".format(v.name), tf.nn.zero_fraction(g))
  38.  
  39. outDir = os.path.abspath(os.path.join(os.path.curdir, "summarys"))
  40. print("Writing to {}\n".format(outDir))
  41.  
  42. lossSummary = tf.summary.scalar("trainLoss", cnn.loss)
  43.  
  44. summaryOp = tf.summary.merge_all()
  45.  
  46. trainSummaryDir = os.path.join(outDir, "train")
  47. trainSummaryWriter = tf.summary.FileWriter(trainSummaryDir, sess.graph)
  48.  
  49. evalSummaryDir = os.path.join(outDir, "eval")
  50. evalSummaryWriter = tf.summary.FileWriter(evalSummaryDir, sess.graph)
  51.  
  52. # 初始化所有变量
  53. saver = tf.train.Saver(tf.global_variables(), max_to_keep=5)
  54.  
  55. # 保存模型的一种方式,保存为pb文件
  56. builder = tf.saved_model.builder.SavedModelBuilder("../model/charCNN/savedModel")
  57. sess.run(tf.global_variables_initializer())
  58.  
  59. def trainStep(batchX, batchY):
  60. """
  61. 训练函数
  62. """
  63. feed_dict = {
  64. cnn.inputX: batchX,
  65. cnn.inputY: batchY,
  66. cnn.dropoutKeepProb: config.model.dropoutKeepProb,
  67. cnn.isTraining: True
  68. }
  69. _, summary, step, loss, predictions, binaryPreds = sess.run(
  70. [trainOp, summaryOp, globalStep, cnn.loss, cnn.predictions, cnn.binaryPreds],
  71. feed_dict)
  72. timeStr = datetime.datetime.now().isoformat()
  73. acc, auc, precision, recall = genMetrics(batchY, predictions, binaryPreds)
  74. print("{}, step: {}, loss: {}, acc: {}, auc: {}, precision: {}, recall: {}".format(timeStr, step, loss, acc, auc, precision, recall))
  75. trainSummaryWriter.add_summary(summary, step)
  76.  
  77. def devStep(batchX, batchY):
  78. """
  79. 验证函数
  80. """
  81. feed_dict = {
  82. cnn.inputX: batchX,
  83. cnn.inputY: batchY,
  84. cnn.dropoutKeepProb: 1.0,
  85. cnn.isTraining: False
  86. }
  87. summary, step, loss, predictions, binaryPreds = sess.run(
  88. [summaryOp, globalStep, cnn.loss, cnn.predictions, cnn.binaryPreds],
  89. feed_dict)
  90.  
  91. acc, auc, precision, recall = genMetrics(batchY, predictions, binaryPreds)
  92.  
  93. evalSummaryWriter.add_summary(summary, step)
  94.  
  95. return loss, acc, auc, precision, recall
  96.  
  97. for i in range(config.training.epoches):
  98. # 训练模型
  99. print("start training model")
  100. for batchTrain in nextBatch(trainReviews, trainLabels, config.batchSize):
  101. trainStep(batchTrain[0], batchTrain[1])
  102.  
  103. currentStep = tf.train.global_step(sess, globalStep)
  104. if currentStep % config.training.evaluateEvery == 0:
  105. print("\nEvaluation:")
  106.  
  107. losses = []
  108. accs = []
  109. aucs = []
  110. precisions = []
  111. recalls = []
  112.  
  113. for batchEval in nextBatch(evalReviews, evalLabels, config.batchSize):
  114. loss, acc, auc, precision, recall = devStep(batchEval[0], batchEval[1])
  115. losses.append(loss)
  116. accs.append(acc)
  117. aucs.append(auc)
  118. precisions.append(precision)
  119. recalls.append(recall)
  120.  
  121. time_str = datetime.datetime.now().isoformat()
  122. print("{}, step: {}, loss: {}, acc: {}, auc: {}, precision: {}, recall: {}".format(time_str, currentStep, mean(losses),
  123. mean(accs), mean(aucs), mean(precisions),
  124. mean(recalls)))
  125.  
  126. if currentStep % config.training.checkpointEvery == 0:
  127. # 保存模型的另一种方法,保存checkpoint文件
  128. path = saver.save(sess, "../model/charCNN/model/my-model", global_step=currentStep)
  129. print("Saved model checkpoint to {}\n".format(path))
  130.  
  131. inputs = {"inputX": tf.saved_model.utils.build_tensor_info(cnn.inputX),
  132. "keepProb": tf.saved_model.utils.build_tensor_info(cnn.dropoutKeepProb)}
  133.  
  134. outputs = {"binaryPreds": tf.saved_model.utils.build_tensor_info(cnn.binaryPreds)}
  135.  
  136. prediction_signature = tf.saved_model.signature_def_utils.build_signature_def(inputs=inputs, outputs=outputs,
  137. method_name=tf.saved_model.signature_constants.PREDICT_METHOD_NAME)
  138. legacy_init_op = tf.group(tf.tables_initializer(), name="legacy_init_op")
  139. builder.add_meta_graph_and_variables(sess, [tf.saved_model.tag_constants.SERVING],
  140. signature_def_map={"predict": prediction_signature}, legacy_init_op=legacy_init_op)
  141.  
  142. builder.save()

文本分类实战(三)—— charCNN模型的更多相关文章

  1. 文本分类实战(八)—— Transformer模型

    1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...

  2. 文本分类实战(七)—— Adversarial LSTM模型

    1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...

  3. 文本分类实战(六)—— RCNN模型

    1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...

  4. 文本分类实战(五)—— Bi-LSTM + Attention模型

    1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...

  5. 文本分类实战(四)—— Bi-LSTM模型

    1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...

  6. 文本分类实战(二)—— textCNN 模型

    1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...

  7. 文本分类实战(十)—— BERT 预训练模型

    1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...

  8. 文本分类实战(九)—— ELMO 预训练模型

    1 大纲概述 文本分类这个系列将会有十篇左右,包括基于word2vec预训练的文本分类,与及基于最新的预训练模型(ELMo,BERT等)的文本分类.总共有以下系列: word2vec预训练词向量 te ...

  9. Python 1行代码实现文本分类(实战笔记),含代码详细说明及运行结果

    Python 1行代码实现文本分类(实战笔记),含代码详细说明及运行结果 一.详细说明及代码 tc.py =============================================== ...

随机推荐

  1. [十七]基础类型BigDecimal简介

      BigDecimal是不可变的.任意精度的.有符号的.十进制数.   组成部分 BigDecimal 由任意精度的整数非标度值 和 32 位的整数标度 (scale) 组成 BigDecimal ...

  2. jmeter 分布式压测(windows)

    单台压测机通常会遇到客户端瓶颈,受制于客户机的性能.可能由于网络带宽,CPU,内存的限制不能给到服务器足够的压力,这个时候你就需要用到分布式方案来解决客户机的瓶颈,压测的结果也会更加接近于真实情况. ...

  3. Java学习笔记之——TreeMap

    TreeMap: 特点:存储时,按照键排序 底层使用一个红黑树,特殊的而二叉树 排序跟comparable,comparator有关系 如果需要在添加时进行排序,使用hashMap即可 构造方法: T ...

  4. 用JS编写一个函数,返回数组中重复出现过的元素

    用JS编写一个函数,返回数组中重复出现过的元素,见下面的代码: , , , , , , , ]; var getRepeat = function (arr) { var obj = {}; , le ...

  5. jsonp promise 封装

    import originJsonp from 'jsonp' export default function jsonp(url, data, option) { url += (url.index ...

  6. 日志管理工具之logrotate

    Logrotate配置和测试 logrotate软件是一个日志管理工具,用于非分隔日志,删除旧的日志文件,并创建新的日志文件,起到“转储作用”,可以为系统节省磁盘空间.logrotate是基于cron ...

  7. 解决一个Ubuntu中编译NEON优化的OpenCV的错误

    在Ubuntu 16中编译开启NEON优化的Opencv时,遇到libpng编译是使用汇编代码的错误,完整错误见文章末尾.通过查询发现解决方案是安装跨平台编译器,安装代码如下: sudo apt-ge ...

  8. Netty学习笔记(一) 实现DISCARD服务

    官方那个给出的介绍是:Netty是由JBOSS提供的一个java开源框架.Netty提供异步的.事件驱动的网络应用程序框架和工具,用以快速开发高性能.高可靠性的网络服务器和客户端程序.然后我们简单理解 ...

  9. (四)版本控制管理器之VSS

    在上一篇<(二)版本控制管理器值CVS(下)>的文章中,我为大家介绍了CVS这个版本控制器,接下来我继续跟大家分享介绍下一个版本控制管理器--VSS,为什么要说这个版本控制器呢?早已过时的 ...

  10. 各种文件用JS转Base64之后的data类型

    1.txt       data:text/plain;base64, 2.doc     data:application/msword;base64, 3.docx   data:applicat ...