dnn文本分类
简介
- 收集用户query数据。
- 清洗,标记。
- 模型设计。
- 模型学习效果评估。
运行
输入/输出
label text(分词后)
预估样本:
DNN 模型

- 词向量层:为了更好地表示不同词之间语义上的关系,首先将词语转化为固定维度的向量。训练完成后,词与词语义上的相似程度可以用它们的词向量之间的距离来表示,语义上越相似,距离越近。关于词向量的更多信息请参考PaddleBook中的词向量一节。
- 最大池化层:最大池化在时间序列上进行,池化过程消除了不同语料样本在单词数量多少上的差异,并提炼出词向量中每一下标位置上的最大值。经过池化后,词向量层输出的向量序列被转化为一条固定维度的向量。例如,假设最大池化前向量的序列为[[2,3,5],[7,3,6],[1,4,0]],则最大池化的结果为:[7,4,6]。
- 全连接隐层:经过最大池化后的向量被送入两个连续的隐层,隐层之间为全连接结构。
- 输出层:输出层的神经元数量和样本的类别数一致,例如在二分类问题中,输出层会有2个神经元。通过Softmax激活函数,输出结果是一个归一化的概率分布,和为1,因此第$i$个神经元的输出就可以认为是样本属于第$i$类的预测概率。
源码:
- import sys
- import math
- import gzip
- from paddle.v2.layer import parse_network
- import paddle.v2 as paddle
- __all__ = ["fc_net", "convolution_net"]
- def fc_net(dict_dim,
- class_num,
- emb_dim=,
- hidden_layer_sizes=[, ],
- is_infer=False):
- """
- define the topology of the dnn network
- :param dict_dim: size of word dictionary
- :type input_dim: int
- :params class_num: number of instance class
- :type class_num: int
- :params emb_dim: embedding vector dimension
- :type emb_dim: int
- """
- # define the input layers
- data = paddle.layer.data("word",
- paddle.data_type.integer_value_sequence(dict_dim))
- if not is_infer:
- lbl = paddle.layer.data("label",
- paddle.data_type.integer_value(class_num))
- # define the embedding layer
- emb = paddle.layer.embedding(input=data, size=emb_dim)
- # max pooling to reduce the input sequence into a vector (non-sequence)
- seq_pool = paddle.layer.pooling(
- input=emb, pooling_type=paddle.pooling.Max())
- for idx, hidden_size in enumerate(hidden_layer_sizes):
- hidden_init_std = 1.0 / math.sqrt(hidden_size)
- hidden = paddle.layer.fc(
- input=hidden if idx else seq_pool,
- size=hidden_size,
- act=paddle.activation.Tanh(),
- param_attr=paddle.attr.Param(initial_std=hidden_init_std))
- prob = paddle.layer.fc(
- input=hidden,
- size=class_num,
- act=paddle.activation.Softmax(),
- param_attr=paddle.attr.Param(initial_std=1.0 / math.sqrt(class_num)))
- if is_infer:
- return prob
- else:
- return paddle.layer.classification_cost(
- input=prob, label=lbl), prob, lbl
- def convolution_net(dict_dim,
- class_dim=,
- emb_dim=,
- hid_dim=,
- is_infer=False):
- """
- cnn network definition
- :param dict_dim: size of word dictionary
- :type input_dim: int
- :params class_dim: number of instance class
- :type class_dim: int
- :params emb_dim: embedding vector dimension
- :type emb_dim: int
- :params hid_dim: number of same size convolution kernels
- :type hid_dim: int
- """
- # input layers
- data = paddle.layer.data("word",
- paddle.data_type.integer_value_sequence(dict_dim))
- lbl = paddle.layer.data("label", paddle.data_type.integer_value(class_dim))
- # embedding layer
- emb = paddle.layer.embedding(input=data, size=emb_dim)
- # convolution layers with max pooling
- conv_3 = paddle.networks.sequence_conv_pool(
- input=emb, context_len=, hidden_size=hid_dim)
- conv_4 = paddle.networks.sequence_conv_pool(
- input=emb, context_len=, hidden_size=hid_dim)
- # fc and output layer
- prob = paddle.layer.fc(
- input=[conv_3, conv_4], size=class_dim, act=paddle.activation.Softmax())
- if is_infer:
- return prob
- else:
- cost = paddle.layer.classification_cost(input=prob, label=lbl)
- return cost, prob, lbl
训练结果如下图:
预估结果:
dnn文本分类的更多相关文章
- tensoFlow之DNN文本分类
TensorFlow文本分类: 亲测可用:https://blog.csdn.net/u012052268/article/details/77862202 简单实例:https://www.leip ...
- 一文详解如何用 TensorFlow 实现基于 LSTM 的文本分类(附源码)
雷锋网按:本文作者陆池,原文载于作者个人博客,雷锋网已获授权. 引言 学习一段时间的tensor flow之后,想找个项目试试手,然后想起了之前在看Theano教程中的一个文本分类的实例,这个星期就用 ...
- [深度应用]·Keras实现Self-Attention文本分类(机器如何读懂人心)
[深度应用]·Keras实现Self-Attention文本分类(机器如何读懂人心) 配合阅读: [深度概念]·Attention机制概念学习笔记 [TensorFlow深度学习深入]实战三·分别使用 ...
- 使用CNN做文本分类——将图像2维卷积换成1维
使用CNN做文本分类 from __future__ import division, print_function, absolute_import import tensorflow as tf ...
- Tensorflow二分类处理dense或者sparse(文本分类)的输入数据
这里做了一些小的修改,感谢谷歌rd的帮助,使得能够统一处理dense的数据,或者类似文本分类这样sparse的输入数据.后续会做进一步学习优化,比如如何多线程处理. 具体如何处理sparse 主要是使 ...
- Atitti 文本分类 以及 垃圾邮件 判断原理 以及贝叶斯算法的应用解决方案
Atitti 文本分类 以及 垃圾邮件 判断原理 以及贝叶斯算法的应用解决方案 1.1. 七.什么是贝叶斯过滤器?1 1.2. 八.建立历史资料库2 1.3. 十.联合概率的计算3 1.4. 十一. ...
- 基于weka的文本分类实现
weka介绍 参见 1)百度百科:http://baike.baidu.com/link?url=V9GKiFxiAoFkaUvPULJ7gK_xoEDnSfUNR1woed0YTmo20Wjo0wY ...
- LingPipe-TextClassification(文本分类)
What is Text Classification? Text classification typically involves assigning a document to a catego ...
- 文本分类之特征描述vsm和bow
当我们尝试使用统计机器学习方法解决文本的有关问题时,第一个需要的解决的问题是,如果在计算机中表示出一个文本样本.一种经典而且被广泛运用的文本表示方法,即向量空间模型(VSM),俗称“词袋模型”. 我们 ...
随机推荐
- 每个Java开发人员都应该知道的10个基本工具
大家好,我们已经在2019年的第9个月,我相信你们所有人已经在2019年学到了什么,以及如何实现这些目标.我一直在写一系列文章,为你提供一些关于你可以学习和改进的想法,以便在2019年成为一个更好的. ...
- 面试官:服务器安装 JDK 还是 JRE?可以只安装 JRE 吗?
前些日子有知友面试时被问到如题所示的问题,由于他之前没有准备到这些最最基础的知识,没有考虑过这个问题,所以被问到时竟一脸萌币,回答的不是很好.这道题主要考的是对 Java 基础知识的了解,有些同学可能 ...
- jquery easyui dialog一进来直接最大化
扩展自 $.fn.window.defaults.通过 $.fn.dialog.defaults 重写默认的 defaults. 对话框(dialog)是一个特殊类型的窗口,它在顶部有一个工具栏,在底 ...
- 正则表达式(RegExp)
前言:先来了解一下基础知识.再细说正则表达式~ 转义字符 ---- \ 转义字符会将与之相邻的字符转换含义. 例如说,希望在一个字符串中输出 “ 号,那么就可以使用在双引号前加入 \ ,这样就能 ...
- 松软科技课堂:数据库-主键(PrimaryKey)
主键就是一个表中每个数据行的唯一标识.不会有重复值的列才能当主键.一个表可以没有主键,但是会非常难以处理,因此没有特殊理由表都要设定主键 主键有两种选用策略:业务主键和逻辑主键.业务主键是使用有业务意 ...
- 采用WPF技术,开发OFD电子文档阅读器
前言 OFD是国家标准版式文档格式,于2016年生效.OFD文档国家标准参见<电子文件存储与交换格式版式文档>.既然是国家标准,OFD随后肯定会首先在政务系统使用,并逐步推向社会各个方面. ...
- JavaScript之JSON&AJAX
今天为大家讲解JavaScript中非常流行的数据传输形式JSON和异步技术AJAX技术. 一 JSON JSON的全称是JavaScript Object Notation(js对象表示法),它是一 ...
- SVN检出后文件没有图标显示
SVN检出后文件没有图标显示 "Win + R"打开运行框,输入"regedit"打开注册表 在注册表编辑界面按"Ctrl + F"快捷 ...
- vue知识点整理
1.对于mvvm的理解 mvvm是model-view-viewModel vue是以数据为驱动的,vue自身将dom和数据进行绑定,一旦创建绑定,dom和数据将保持同步,每当数据发生变化,dom也会 ...
- 安装sublime text3 、转化为汉化版、安装SublimeREPL使得在交互条件下运行代码,设置快捷键
一.sublime Sublime Text 3是轻量级的,安装包很小,它的大部分功能是依靠丰富的插件实现的,而且占用资源少.目前主流版本是Sublime Text3,在官网就可以下载,http:// ...