『Re』知识工程作业_主体识别

作业要求环境路径类似于这样的,一共50篇文档, 均为中文文档,是法院判决书的合集. 程序程序如下,我完全使用正则表达式来实现功能, import re import glob import copy name_list = glob.glob('./*.txt') date_totul = [] indictee_totul = [] court_totul = [] procuratorate_totul = [] with open('./result.txt','a',encodin…

『Re』正则表达式模块_常用方法记录

『Re』知识工程作业_主体识别一个比较完备的正则表达式介绍几个基础函数 re.compile(pattern, flags=0) 将正则表达式模式编译成一个正则表达式对象,它可以用于匹配使用它的match ()和search ()等方法. 实际有两种使用方式: pattern.匹配方法(string) 或者 re.匹配方法(pattern,string) 使用或|来强化匹配规则: pattern_t = re.compile( '[0-9〇一二三四五六七八九]{4}年.{1,2}月.{1,3…

『TensorFlow』分布式训练_其三_多机分布式

本节中的代码大量使用『TensorFlow』分布式训练_其一_逻辑梳理中介绍的概念,是成熟的多机分布式训练样例一.基本概念 Cluster.Job.task概念:三者可以简单的看成是层次关系,task可以看成每台机器上的一个进程,多个task组成job:job又有:ps.worker两种,分别用于参数服务.计算服务,组成cluster. 同步更新各个用于并行计算的电脑,计算完各自的batch 后,求取梯度值,把梯度值统一送到ps服务机器中,由ps服务机器求取梯度平均值,更新ps服务器上的参数…

『PyTorch』第九弹_前馈网络简化写法

『PyTorch』第四弹_通过LeNet初识pytorch神经网络_上『PyTorch』第四弹_通过LeNet初识pytorch神经网络_下在前面的例子中,基本上都是将每一层的输出直接作为下一层的输入,这种网络称为前馈传播网络(feedforward neural network).对于此类网络如果每次都写复杂的forward函数会有些麻烦,在此就有两种简化方式,ModuleList和Sequential.其中Sequential是一个特殊的module,它包含几个子Module,前向传播时…

『TensorFlow』读书笔记_降噪自编码器

『TensorFlow』降噪自编码器设计之前学习过的代码,又敲了一遍,新的收获也还是有的,因为这次注释写的比较详尽,所以再次记录一下,具体的相关知识查阅之前写的文章即可(见上面链接). # Author : Hellcat # Time : 2017/12/6 import numpy as np import sklearn.preprocessing as prep import tensorflow as tf from tensorflow.examples.tutorials.mn…

『TensorFlow』分布式训练_其二_单机多GPU并行&GPU模式设定

建议比对『MXNet』第七弹_多GPU并行程序设计一.tensorflow GPU设置 GPU指定占用 gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.7) sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options)) 上面分配给tensorflow的GPU显存大小为:GPU实际显存*0.7. GPU模式禁用 import os os.environ…

『Numpy』内存分析_高级切片和内存数据解析

在计算机中,没有任何数据类型是固定的,完全取决于如何看待这片数据的内存区域. 在numpy.ndarray.view中,提供对内存区域不同的切割方式,来完成数据类型的转换,而无须要对数据进行额外的copy,可以节约内存空间,我们可以将view看做对内存的展示方式. 如: import numpy as np x = np.arange(10, dtype=np.int) print('An integer array:', x) print ('An float array:', x.view(…

『TensorFlow』读书笔记_进阶卷积神经网络_分类cifar10_上

完整项目见:Github 完整项目中最终使用了ResNet进行分类,而卷积版本较本篇中结构为了提升训练效果也略有改动本节主要介绍进阶的卷积神经网络设计相关,数据读入以及增强在下一节再与介绍网络相关参数输入24*24的图片卷积->relu激活->最大池化->标准化卷积->relu激活->标准化->最大池化全连接:reshape尺寸->384 全连接:192->10 SoftMax 网络实现 git clone https://github.com/…

『TensorFlow』读书笔记_进阶卷积神经网络_分类cifar10_下

数据读取部分实现文中采用了tensorflow的从文件直接读取数据的方式,逻辑流程如下, 实现如下, # Author : Hellcat # Time : 2017/12/9 import os import tensorflow as tf IMAGE_SIZE = 24 NUM_CLASSES = 10 NUM_EXAMPLES_PER_EPOCH_FOR_TRAIN = 50000 NUM_EXAMPLES_PER_EPOCH_FOR_EVAL = 10000 def read_cif…

『TensorFlow』第九弹_图像预处理_不爱红妆爱武装

部分代码单独测试: 这里实践了图像大小调整的代码,值得注意的是格式问题: 输入输出图像时一定要使用uint8编码, 但是数据处理过程中TF会自动把编码方式调整为float32,所以输入时没问题,输出时要手动转换回来!使用numpy.asarray(dtype)或者tf.image.convert_image_dtype(dtype)都行都行 1 import numpy as np import tensorflow as tf import matplotlib.pyplot as plt…

『TensorFlow』分布式训练_其一_逻辑梳理

1,PS-worker架构将模型维护和训练计算解耦合,将模型训练分为两个作业(job): 模型相关作业,模型参数存储.分发.汇总.更新,有由PS执行训练相关作业,包含推理计算.梯度计算(正向/反向传播),由worker执行该架构下,所有的woker共享PS上的参数,并按照相同的数据流图传播不同batch的数据,计算出不同的梯度,交由PS汇总.更新新的模型参数,大体逻辑如下: pull:各个woker根据数据流图拓扑结构从PS获取最新的模型参数 feed:各个worker根据定义的规则填充各…

『MXNet』第九弹_分类器以及迁移学习DEMO

解压文件命令: with zipfile.ZipFile('../data/kaggle_cifar10/' + fin, 'r') as zin: zin.extractall('../data/kaggle_cifar10/') 拷贝文件命令: shutil.copy(原文件, 目标文件) 一.整理数据我们有两个文件夹'../data/kaggle_cifar10/train'和'../data/kaggle_cifar10/test',一个记录了文件名和类别的索引文件我们的目的是在新的…

『PyTorch』第二弹_张量

参考:http://www.jianshu.com/p/5ae644748f21# 几个数学概念: 标量(Scalar)是只有大小,没有方向的量,如1,2,3等向量(Vector)是有大小和方向的量,其实就是一串数字,如(1,2) 矩阵(Matrix)是好几个向量拍成一排合并而成的一堆数字,如[1,2;3,4] 其实标量,向量,矩阵它们三个也是张量,标量是零维的张量,向量是一维的张量,矩阵是二维的张量,除此之外,张量不仅可以是三维的,还可以是四维的.五维的... 一点小注意: 1.由于torc…

『Numpy』内存分析_利用共享内存创建数组

引.内存探究常用函数 id(),查询对象标识,通常返回的是对象的地址 sys.getsizeof(),返回的是这个对象所占用的空间大小,对于数组来说,除了数组中每个值占用空间外,数组对象还会存储数组长度.数组类型等其他信息 numpy.ndarray.ctypes.data属性,返回numpy数组的内存位置 array.array.buffer_info(),数组对象的内存信息,返回元素起始地址和元素个数 help(array.buffer_info)'''buffer_info(self,…

『TensorFlow』张量拼接_调整维度_切片

1.tf.concat tf.concat的作用主要是将向量按指定维连起来,其余维度不变:而1.0版本以后,函数的用法变成: t1 = [[1, 2, 3], [4, 5, 6]] t2 = [[7, 8, 9], [10, 11, 12]] #按照第0维连接 tf.concat( [t1, t2],0) ==> [[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]] #按照第1维连接 tf.concat([t1, t2],1) ==> [[1, 2,…

『TensorFlow』读书笔记_多层感知机

多层感知机输入->线性变换->Relu激活->线性变换->Softmax分类多层感知机将mnist的结果提升到了98%左右的水平知识点过拟合:采用dropout解决,本质是bagging方法,相当于集成学习,注意dropout训练时设置为0~1的小数,测试时设置为1,不需要关闭节点学习率难以设定:Adagrad等自适应学习率方法深层网络梯度弥散:Relu激活取代sigmoid激活,不过输出层仍然使用sigmoid激活对于ReLU激活函数,常用截断正态分布,避免0梯度和…

『TensorFlow』读书笔记_简单卷积神经网络

如果你可视化CNN的各层级结构,你会发现里面的每一层神经元的激活态都对应了一种特定的信息,越是底层的,就越接近画面的纹理信息,如同物品的材质. 越是上层的,就越接近实际内容(能说出来是个什么东西的那些信息),如同物品的种类. 网络结构卷积层->池化层->卷积层->池化层->全连接层->Softmax分类器卷积层激活函数使用relu 卷积层relu激活,偏置项使用极小值初始化,防止Relu出现死亡节点全连接层激活函数使用relu 池化层模式使用SAME,所以stride取…

『TensorFlow』第二弹_线性拟合&神经网络拟合_恰是故人归

Step1: 目标: 使用线性模拟器模拟指定的直线:y = 0.1*x + 0.3 代码: import tensorflow as tf import numpy as np import matplotlib.pyplot as plt def show_data(x,y,w,b): ''' 绘图函数 :param x: 横坐标散点 :param y: 纵坐标散点 :param w: 权重 :param b: 偏移量 :return: 无 ''' plt.figure() plt.scatt…

『MXNet』第一弹_基础架构及API

MXNet是基础,Gluon是封装,两者犹如TensorFlow和Keras,不过得益于动态图机制,两者交互比TensorFlow和Keras要方便得多,其基础操作和pytorch极为相似,但是方便不少,有pytorch基础入门会很简单.注意和TensorFlow不同,MXNet的图片维度是 batch x channel x height x width . MXNet的API主要分为3层,最基础的时mxnet.ndarray(NDArray API),它以近似numpy数组的形式记录了诸多基…

『Python』PIL图像处理_形变操作

使用PIL.Image进行简单的图像处理 # coding=utf-8 from PIL import Image import matplotlib.pyplot as plt def show_img(img): plt.figure('Image') plt.imshow(img) plt.axis('off') # 关闭坐标轴 plt.show() '''载入&存储''' img1 = Image.open('./bg-body-3.jpg') img1.save('./保存的图片.pn…

『Python』skimage图像处理_旋转图像

一段简短的实现图像旋转的代码,使用了skimage库,据说和PIL相比,skimage对numpy等科学计算库的支持更好,这里是为了完成师兄给的帮他修改程序的任务,如果以后有需求的话可能会对python图像处理库做个梳理或者根据自己的需求做个筛选后深入了解一下. from skimage import io,transform import matplotlib.pyplot as plt '''图片旋转''' img2 = io.imread('./bg-body-3.jpg') img2 =…