keras 文本序列的相关api

1、word_tokenizer = Tokenizer(MAX_WORD_NUMS) MAX_WORD_NUMS设置词典的最大值，为一个int型数值

2、word_tokenizer.fit_on_texts(question_data["words"]) 解释：fit_on_texts(texts)使用一系列文档来生成token词典，texts为list类，每个元素为一个文档。但是在这里直接传入了一个　　　　pandas.series的类型，也是可以用的。

3、　　word_embedding_data = np.concatenate(
　　(
　　np.zeros(shape=(1, word_embedding_data.shape[1]), dtype=np.float64),
　　word_embedding_data.loc[list(word_tokenizer.word_index.keys())[:MAX_WORD_NUMS]].values
　　),
　　axis=0
　　)　

　　解释：np.zeros(shape=(1, word_embedding_data.shape[1]), dtype=np.float64), 生成一个形状为[1,word_embedding_data第二维大小的向量，即每行维度的大小，即多少列]

　　　　 word_embedding_data.loc[list(word_tokenizer.word_index.keys())[:MAX_WORD_NUMS]].values word_index 一个dict，保存所有word对应的编号id，从1开始. 只获取【0~10000】键值，其中排序方式是按照词频降序排列的，原始数据中共有words两万多个，但是这里只取了最常出现的一万个。最后得到的是word的list，然后用loc定位到这些word，得到一个dataframe，最后用values,获得word的编码值。

4、word_input1 = Input(shape=(WORD_SEQ_LEN,), dtype="int32") 解释：Input(shape=None,batch_shape=None,name=None,dtype=K.floatx(),sparse=False,tensor=None)，用来实例化一个keras张量，shape: 形状元组（整型），不包括batch size。for instance, shape=(32,) 表示了预期的输入将是一批32维的向量。

5、

　　embedding_layer = Embedding(
　　input_dim=word_embedding_data.shape[0],
　　output_dim=word_embedding_data.shape[1],
　　weights=[word_embedding_data],
　　input_length=WORD_SEQ_LEN,
　　trainable=False

解释：这里的input_dim和output_dim分别是矩阵W的行数和列数，weights就是权重矩阵W，input_length是句子长度的上限，trainable=false是因为词向量是已经训练完的，所以不要在训练　　了，，input_length：当输入序列的长度固定时，该值为其长度。如果要在该层后接Flatten层，然后接Dense层，则必须指定该参数，否则Dense层的输出维度无法自动推断。

嵌入层将正整数（下标）转换为具有固定大小的向量，如[[4],[20]]->[[0.25,0.1],[0.6,-0.2]]

6、

　　diff = Lambda(lambda x: K.abs(x[0] - x[1]))([merge_a, merge_b])
　　mult = Lambda(lambda x: x[0] * x[1])([merge_a, merge_b])

　　这两个函数非常有意思，首先Lambda（）是keras提供的函数，本函数用以对上一层的输出施以任何Theano/TensorFlow表达式

　　　　　　　　　　　　　　　K.abs() 逐元素绝对值

　　　　　　　　　　　　　　 ([merge_a, merge_b]) 应该是匿名函数的一种调用方式，直接跟在Lambda后面即可。

7、

　　model = Model(
　　inputs = [word_input1, word_input2],
　　outputs = pred
　　)　　
　　model.compile(
　　optimizer="adam",
　　loss="binary_crossentropy",
　　metrics=["acc"]
　　)

　　解释：

optimizer：优化器，为预定义优化器名或优化器对象，参考优化器
loss：损失函数，为预定义损失函数名或一个目标函数，参考损失函数
metrics：列表，包含评估模型在训练和测试时的性能的指标，典型用法是metrics=['accuracy']如果要在多输出模型中为不同的输出指定不同的指标，可像该参数传递一个字典，例如metrics={'ouput_a': 'accuracy'}

8、early_stop = EarlyStopping("val_loss", patience=10)

monitor：需要监视的量
patience：当early stop被激活（如发现loss相比上一个epoch训练没有下降），则经过patience个epoch后停止训练。
verbose：信息展示模式
mode：‘auto’，‘min’，‘max’之一，在min模式下，如果检测值停止下降则中止训练。在max模式下，当检测值不再上升则停止训练。

9、

　　check_point = ModelCheckpoint("./log/%s.cnn.{epoch:03d}.hdf5" % (datetime.now().strftime("%Y%m%d-%H%M%S")),
　　monitor="val_loss",
　　save_best_only=True,
　　save_weights_only=True
　　)

　解释：该回调函数将在每个epoch后保存模型到filepath

filepath可以是格式化的字符串，里面的占位符将会被epoch值和传入on_epoch_end的logs关键字所填入

例如，filepath若为weights.{epoch:02d-{val_loss:.2f}}.hdf5，则会生成对应epoch和验证集loss的多个文件。

参数

filename：字符串，保存模型的路径
monitor：需要监视的值
verbose：信息展示模式，0或1
save_best_only：当设置为True时，将只保存在验证集上性能最好的模型
mode：‘auto’，‘min’，‘max’之一，在save_best_only=True时决定性能最佳模型的评判准则，例如，当监测值为val_acc时，模式应为max，当检测值为val_loss时，模式应为min。在auto模式下，评价准则由被监测值的名字自动推断。
save_weights_only：若设置为True，则只保存模型权重，否则将保存整个模型（包括模型结构，配置信息等）
period：CheckPoint之间的间隔的epoch数

10、

　　model_res = model.fit(
　　x=[train_word1, train_word2],
　　y=train_y,
　　batch_size=BATCH_SIZE,
　　epochs=NUM_EPOCHES,
　　validation_data=([dev_word1, dev_word2], dev_y),
　　shuffle=True,
　　callbacks=[early_stop, check_point]
　　)

解释：

本函数将模型训练nb_epoch轮，其参数有：

x：输入数据。如果模型只有一个输入，那么x的类型是numpy array，如果模型有多个输入，那么x的类型应当为list，list的元素是对应于各个输入的numpy array
y：标签，numpy array
batch_size：整数，指定进行梯度下降时每个batch包含的样本数。训练时一个batch的样本会被计算一次梯度下降，使目标函数优化一步。
epochs：整数，训练终止时的epoch值，训练将在达到该epoch值时停止，当没有设置initial_epoch时，它就是训练的总轮数，否则训练的总轮数为epochs - inital_epoch
verbose：日志显示，0为不在标准输出流输出日志信息，1为输出进度条记录，2为每个epoch输出一行记录
callbacks：list，其中的元素是keras.callbacks.Callback的对象。这个list中的回调函数将会在训练过程中的适当时机被调用，参考回调函数
validation_split：0~1之间的浮点数，用来指定训练集的一定比例数据作为验证集。验证集将不参与训练，并在每个epoch结束后测试的模型的指标，如损失函数、精确度等。注意，validation_split的划分在shuffle之前，因此如果你的数据本身是有序的，需要先手工打乱再指定validation_split，否则可能会出现验证集样本不均匀。
validation_data：形式为（X，y）的tuple，是指定的验证集。此参数将覆盖validation_spilt。
shuffle：布尔值或字符串，一般为布尔值，表示是否在训练过程中随机打乱输入样本的顺序。若为字符串“batch”，则是用来处理HDF5数据的特殊情况，它将在batch内部将数据打乱。
class_weight：字典，将不同的类别映射为不同的权值，该参数用来在训练过程中调整损失函数（只能用于训练）
sample_weight：权值的numpy array，用于在训练时调整损失函数（仅用于训练）。可以传递一个1D的与样本等长的向量用于对样本进行1对1的加权，或者在面对时序数据时，传递一个的形式为（samples，sequence_length）的矩阵来为每个时间步上的样本赋不同的权。这种情况下请确定在编译模型时添加了sample_weight_mode='temporal'。
initial_epoch: 从该参数指定的epoch开始训练，在继续之前的训练时有用。

fit函数返回一个History的对象，其History.history属性记录了损失函数和其他指标的数值随epoch变化的情况，如果有验证集的话，也包含了验证集的这些指标变化情况

11、test_pred = model.predict([test_word1, test_word2], batch_size=BATCH_SIZE)

　　解释：

　　predict(self, x, batch_size=32, verbose=0)

　　本函数按batch获得输入数据对应的输出，其参数有：

　　函数的返回值是预测值的numpy array

keras 文本序列的相关api的更多相关文章

keras 文本分类 LSTM
首先,对需要导入的库进行导入,读入数据后,用jieba来进行中文分词 # encoding: utf-8 #载入接下来分析用的库 import pandas as pd import numpy as ...
Deep-Learning-with-Python] 文本序列中的深度学习
https://blog.csdn.net/LSG_Down/article/details/81327072 将文本数据处理成有用的数据表示循环神经网络使用1D卷积处理序列数据深度学习模型可以 ...
JPA 相关API (一)
[Query 接口下的常用API] [API 测试类:Test_QueryAPI.java] 1 package org.zgf.jpa.entity; 2 3 import java.math.Bi ...
MyBatis框架的使用解析！数据库相关API的基本介绍
动态SQL if 根据条件包含where子句的一部分 <select id="findActiveBlogLike" resultType="Blog"& ...
OpenGL FrameBufferCopy相关Api比较（glCopyPixels,glReadPixels,glCopyTexImage2D,glFramebufferTexture2D）
OpenGL FrameBufferCopy相关Api比较 glCopyPixels,glReadPixels,glCopyTexImage2D,glFramebufferTexture2D 标题所述 ...
Python数据类型之“文本序列(Text Sequence)”
Python中的文本序列类型 Python中的文本数据由str对象或字符串进行处理. 1.字符串字符串是Unicode码值的不可变序列.字符串字面量有多种形式: 单引号:'允许嵌入"双&q ...
QQ音乐的各种相关API
QQ音乐的各种相关API 分类: oc2014-01-29 15:34 2676人阅读评论(2) 收藏举报基本上论坛里做在线音乐的都在用百度的API,进来发现百度的API不仅歌曲的质量不可以保证 ...
addChildViewController相关api深入剖析
注:本文根据个人的实践和理解写成,若有不当之处欢迎斧正和探讨! addChildViewController是一个从iOS5开始支持的api接口,相关的一系列的接口是用来处理viewcontrolle ...
[原创]java WEB学习笔记44：Filter 简介，模型，创建，工作原理，相关API，过滤器的部署及映射的方式，Demo
本博客为原创:综合尚硅谷(http://www.atguigu.com)的系统教程(深表感谢)和网络上的现有资源(博客,文档,图书等),资源的出处我会标明本博客的目的:①总结自己的学习过程,相当 ...

随机推荐

Linux防火墙iptables详解
iptables详解(思维导图) 1. 概述 1.1 iptable简介 1.2 防火墙的种类 1.3 netfilter 2. iptables的工作流程 2.1 iptables工作图示 2.2 ...
小师妹学JVM之:JDK14中JVM的性能优化
目录简介 String压缩分层编译(Tiered Compilation) Code Cache分层新的JIT编译器Graal 前置编译压缩对象指针 Zero-Based 压缩指针 Escap ...
Windows 程序设计(3) 关于字符串
1. 宽窄字节的区别及重要性 1.1 宽窄字节简介: C语言/C++语言,使用的字符串指针就是 char* 类型,C++中的字符串是 string,内部也是对 char* 的封装窄字节其实最早的系 ...
WeChair——团队展示
这个作业属于哪个课程软件工程 (福州大学至诚学院 - 计算机工程系) 团队名称 WeChair 这个作业要求在哪里团队作业第一次这个作业的目标团队合作,项目开发作业正文如下其他参考文献 ...
Linux Systemd 详细介绍: Unit、Unit File、Systemctl、Target
Systemd 简介 CentOS 7 使用 Systemd 替换了SysV Ubuntu 从 15.04 开始使用 Systemd Systemd 是 Linux 系统工具,用来启动守护进程,已成为 ...
黎活明8天快速掌握android视频教程--23_网络通信之网络图片查看器
1.首先新建立一个java web项目的工程.使用的是myeclipe开发软件图片的下载路径是http://192.168.1.103:8080/lihuoming_23/3.png 当前手机和电脑 ...
elk3
视频来自: bootstrap.memory_lock要设置为true,默认使用物理内存 mini_mum_nodes:1表示es集群中最小的matser节点数目,默认就是1,当es集群数目较少的时候 ...
入门大数据---HDFS-API
第一步:创建一个新的项目并导入需要的jar包公共核心包公共依赖包 hdfs核心包 hdfs依赖包第二步:将Linux中hadoop的配置文件拷贝到项目的src目录下第三步:配置windows ...
css的四种使用方式
方式一:内联样式内联样式,也叫行内样式,指的是直接在style属性中添加CSS 示例: <DIV style="display: none;background:red"& ...
linux 测试端口是否可通
windows上一般用telnet 如telnet ip port linux上可以用telnet,跟windows一样 telnet ip port 也可以用wget:如:wget ip:port ...

keras 文本序列的相关api

参数

keras 文本序列的相关api的更多相关文章

随机推荐

热门专题