import tensorflow as tf from tensorflow.contrib.slim import nets slim = tf.contrib.slim import numpy as np /root/anaconda3/lib/python3.6/site-packages/h5py/__init__.py:36: FutureWarning: Conversion of the second argument of issubdtype from `float` to…
基于Spark Mllib的文本分类 文本分类是一个典型的机器学习问题,其主要目标是通过对已有语料库文本数据训练得到分类模型,进而对新文本进行类别标签的预测.这在很多领域都有现实的应用场景,如新闻网站的新闻自动分类,垃圾邮件检测,非法信息过滤等.本文将通过训练一个手机短信样本数据集来实现新数据样本的分类,进而检测其是否为垃圾消息,基本步骤是:首先将文本句子转化成单词数组,进而使用 Word2Vec 工具将单词数组转化成一个 K 维向量,最后通过训练 K 维向量样本数据得到一个前馈神经网络模型,以…
最近在做基于无线感知的身份识别这个工作,在后期数据处理阶段,需要使用二分类的方法进行训练模型.本身使用matlab做,所以看了一下网上很多都是使用libsvm这个工具箱,就去下载了,既然用到了想着就把这个东西梳理一下,顺便记录一下过程中的遇到的问题. 1.  Libsvm下载与安装 Libsvm这个工具箱是台湾大学林智仁(Lin Chih-Jen)教授等开发的一套基于SVM的模式识别的软件包,网上也有详细的介绍,还有源代码,很方便学习. 下载:https://www.csie.ntu.edu.t…
TextCNN @ 目录 TextCNN 1.理论 1.1 基础概念 最大汇聚(池化)层: 1.2 textCNN模型结构 2.实验 2.1 实验步骤 2.2 算法模型 1.理论 1.1 基础概念 在文本处理中使用卷积神经网络:将文本序列当作一维图像 一维卷积 -> 基于互相关运算的二维卷积的特例: 多通道的一维卷积: 最大汇聚(池化)层: 1.2 textCNN模型结构 textCNN模型设计如下所示: 定义多个一维卷积核,并分别对输入执行卷积运算.具有不同宽度的卷积核可以捕获不同数目的相邻词…
1. MNIST数据集介绍 MNIST是一个手写数字数据库,样本收集的是美国中学生手写样本,比较符合实际情况,大体上样本是这样的: MNIST数据库有以下特性: 包含了60000个训练样本集和10000个测试样本集: 分4部分,分别是一个训练图片集,一个训练标签集,一个测试图片集,一个测试标签集,每个标签的值是0~9之间的数字: 原始图像归一化大小为28*28,以二进制形式保存 2.  Windows+caffe框架下MNIST数据集caffemodel分类模型训练及测试 1. 下载mnist数…
基于多线程方式的串行通信接口数据接收案例 广东职业技术技术学院  欧浩源 1.案例背景 在本博客的<[CC2530入门教程-06]CC2530的ADC工作原理与应用>中实现了电压数据采集的程序设计,传感器模块以每1秒发送一帧数据的形式通过串口向上位机发送电压数据.其数据帧由4个字节组成:一个帧头和一个帧尾,中间两个字节为电压数据,其格式如下: 帧头(0xAF)    电压高8位    电压低8位    帧尾(0xFA) 在篇博文中,将讲述如何通过多线程的方式,从串口接收传感器发送过来的数据帧,…
基于事件触发方式的串行通信接口数据接收案例 广东职业技术学院  欧浩源 一.案例背景 之前写过一篇<基于多线程方式的串行通信接口数据接收案例>的博文,讨论了采用轮询方式接收串口数据的情况.经过使用了多线程来处理,而然轮询的办法比较还是比较笨拙的.我们在实际的项目开发中,更加常用的是基于事件触发的方式,这个方式不但好用,而且灵活,只是使用起来需要更多的一点专业知识.在本博文中,就"传感器模块每隔1秒钟向上位机传送4字节的电压数据帧"的项目,对该方法的设计进行详细的讲述.  …
基于多线程方式的串行通信接口数据接收案例 广东职业技术技术学院  欧浩源 1.案例背景 在本博客的<[CC2530入门教程-06]CC2530的ADC工作原理与应用>中实现了电压数据采集的程序设计,传感器模块以每1秒发送一帧数据的形式通过串口向上位机发送电压数据.其数据帧由4个字节组成:一个帧头和一个帧尾,中间两个字节为电压数据,其格式如下: 帧头(0xAF)    电压数据高8位    电压数据低8位    帧尾(0xFA) 在篇博文中,将讲述如何通过多线程的方式,从串口接收传感器发送过来的…
Httpd服务进阶知识-基于Apache Modele的LAMP架构之WordPress案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.安装依赖包及数据库授权 博主推荐阅读: https://www.cnblogs.com/yinzhengjie/p/12019502.html 二.布署WordPress博客程序 1>.下载wordpress软件 官方网站: https://cn.wordpress.org/ 2>.解压缩WordPress博客程序到网页站点目录下 …
Httpd服务进阶知识-基于Apache Modele的LAMP架构之PhpMyAdmin案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.常见LAMP应用 PhpMyAdmin 是一个以PHP为基础,以Web-Base方式架构在网站主机上的MySQL的数据库管理工具,让管理者可用Web接口管理MySQL数据库 WordPress 是一种使用PHP语言开发的博客平台,用户可以在支持PHP和MySQL数据库的服务器上架设属于自己的网站.也可把 WordPress当作一个内…
基于Ambari的WebUI实现集群扩容案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.将HDP的服务托管给Ambari服务 1>.点击“Service Auto Start” 2>.进入到"Server Auto Start"的管理界面 3>.勾选需要随着Ambari启动而启动的HDP服务组件  4>.确认保存 二.扩容节点准备环境 1>.配置Ambari服务器与将要扩容的节点免密登录 [root@hdp101.yinzhen…
基于Ambari Server部署HDP集群实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.部署Ambari Server端 博主推荐阅读: https://www.cnblogs.com/yinzhengjie2020/p/12219108.html 二.时钟同步 我们在生产环境中必须同步各个服务器时间是一致的,最好是有内网的时间服务器. 配置时间同步的好处: 可以定位集群故障发生的具体时间; 解决HBase,Kudu等存储依赖于时间同步的问题(若时间不同步会报…
iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson’s Iris data set.iris包含150个样本,对应数据集的每行数据.每行数据包含每个样本的四个特征和样本的类别信息,所以iris数据集是一个150行5列的二维表.通俗地说,iris数据集是用来给花做分类的数据集,每个样本包含了花萼长度.花萼宽度.花瓣长度.花瓣宽度四个特征(前4列),我们需要建立一个分类器,分类器可以通过样本的四个特征来判断样本属于山鸢尾.变色鸢尾还是维吉尼亚鸢尾(这三个名词都是花的品种). 数…
CART 是 classification and regression tree 的缩写,即分类与回归树. 博主之前学习的时候有用过决策树来做预测的小例子:机器学习之决策树预测--泰坦尼克号乘客数据实例,不过在那篇博客中并没有详细阐述算法的原理,本篇博客以学习 CART 里面的思想为主. 1 基于 CART 的回归 1.1 定义概述 CART 假设决策树是二叉树,因此回归树的生成式递归构建二叉树决策的过程.其核心思想是通过对特征空间分层预测,每个空间的观测值的均值即为该空间内所有观测值的预测值…
详细代码已上传到github: click me Abstract:    Sentiment classification is the process of analyzing and reasoning the sentimental subjective text, that is, analyzing the attitude of the speaker and inferring the sentiment category it contains. Traditional mac…
基于Bert从Windows API序列做恶意软件的多分类 目录 基于Bert从Windows API序列做恶意软件的多分类 0x00 数据集 0x01 BERT BERT的模型加载 从文本到ids 从ids到词嵌入.分类 是否需要训练bert的参数? 0x02 数据预处理 0x03 模型框架和代码 0x00 数据集 https://github.com/ocatak/malware_api_class 偶然间发现,该数据集共有8种恶意软件家族,数量情况如下表. Malware Family S…
数据集下载: 链接:https://pan.baidu.com/s/17EL37CQ-FtOXhtdZHQDPgw 提取码:0829 逻辑斯蒂回归 @ 目录 逻辑斯蒂回归 1.理论 1.1 多分类 1.2 公式 2.实验 2.1 实验步骤 2.2 代码 1.理论 1.1 多分类 若用logistc进行五分类,可以进行5次二分类,把情感标签当作5维向量. softmax常用于多分类,当类别数为2时,和logistic等价.他把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之…
Reuters数据集下载速度慢,可以在我的repo库中找到下载,下载后放到~/.keras/datasets/目录下,即可正常运行. 构建神经网络将路透社新闻分类,一共有46个类别.因为有多个类别,属于多分类问题,而每条数据只属于一个类别,所以是单标签多分类问题:如果每条数据可以被分到多个类别中,那问题则属于多标签多分类问题. 完整代码 欢迎Fork.Star 路透社数据集 Reuters数据集发布在1986年,一系列短新闻及对应话题的数据集:是文本分类问题最常用的小数据集.和IMDB.MNIS…
声明:本文是别人发表在github上的项目,并非个人原创,因为那个项目直接下载后出现了一些版本不兼容的问题,故写此文帮助解决.(本人争取在今年有空的时间,自己实现基于YOLO-V4的行人检测) 项目链接:https://github.com/emedinac/Pedestrain_Yolov2 此项目是基于pytorch框架的实现方案. 本文介绍一下ubuntu安装pytorch的安装方法 直接采用pip install pytorch的下载实在太感人,因此先更改一下pip源. 本人采用的是阿里…
1. 感知机模型   感知机Perception是一个线性的分类器,其只适用于线性可分的数据.          f(x) = sign(w.x + b) 其试图在所有线性可分超平面构成的假设空间中找到一个能使训练集中的数据可分的超平面.因此,它找到的并不一定是最优的,即只是恰好拟合了训练数据的超平面. 2. 学习 感知机的学习策略为:最小化误分类点到超平面的距离. 3. 基于numpy的感知机实现 1 # coding: utf-8 2 import numpy as np 3 4 5 def…
import pygameimport randomfrom pygame.locals import *import numpy as npfrom collections import dequeimport tensorflow as tf # http://blog.topspeedsnail.com/archives/10116import cv2 # http://blog.topspeedsnail.com/archives/4755score = 0BLACK = (0, 0,…
代码链接:https://github.com/ggyyzm/pytorch_segmentation 使用PSPNet作为主干分类网络 1.将VOC2012数据集下载并解压到data/VOCtrainval_11-May-2012中 2.出现以下错误 3.经过调试发现是某一步中运行时间太长.将项目放到服务器上跑没有此问题. 4.出现ValueError: Expected more than 1 value per channel when training, got input size t…
Sentiment classification using LSTM 在这个笔记本中,我们将使用LSTM架构在电影评论数据集上训练一个模型来预测评论的情绪.首先,让我们看看什么是LSTM? LSTM,即长短时记忆,是一种序列神经网络架构,它利用其结构保留了对前一序列的记忆.第一个被引入的序列模型是RNN.但是,很快研究人员发现,RNN并没有保留很多以前序列的记忆.这导致在长文本序列中失去上下文. 为了维护这一背景,LSTM被引入.在LSTM单元中,有一些特殊的结构被称为门和单元状态,它们被改变…
并发的场景 最近在编码中遇到的场景,我的程序需要处理不同类型的任务,场景要求如下: 1.同类任务串行.不同类任务并发. 2.高吞吐量. 3.任务类型动态增减. 思路 思路一: 最直接的想法,每有一个任务种类被新建,就创建对应的处理线程. 这样的思路问题在于线程数量不可控.创建.销毁线程开销大.不可取. 思路二: 比较常规的想法,所有任务共享线程池每有一个任务种类被创建,就新建一个队列,以保证同类任务串行. 这样的思路问题在于数据结构开销不可控,如果是任务种类繁多,但每种任务数量并不多的情况,那么…
http://www.ijrter.com/papers/volume-2/issue-4/dns-tunneling-detection.pdf <DNS Tunneling Detection>In this paper we have presented a method of the DNS tunneling detection based on the clustering of the DNS traffic images.检测手段也分为两种:DNS packet analysi…
小序: 从学生时代就接触到UML,几年的工作中也没少使用,各种图形的概念.图形的元素和属性,以及图形的画法都不能说不熟悉.但是怎样在实际中有效地使用UML使之发挥应有的作用,怎样捕捉用户心中的需求并转换成明确的UML图形,怎样把自己心中的设计意图通过UML图形准确地表达出来,以及各职责人员如何通过UML图形进行有效沟通,关于这些,却深感迷茫. 最近有幸得到了一个台湾人赖信仁写的<UML团队开发流程与管理>这本书,才拜读了前两章,就已经爱不释手了,颇有点欣喜若狂的感觉,看了半本书之后,上述的种种…
Httpd服务进阶知识-基于Apache Modele的LAMP架构之Discuz!论坛案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.安装依赖包及数据库  博主推荐阅读: https://www.cnblogs.com/yinzhengjie/p/12019502.html 二.部署Discuz!论坛程序 1>.下载Discuz!相关软件包 官网地址: https://www.discuz.net/forum.php 2>.解压缩WordPress博客程序到网页站…
1.项目结构 2.基于xml配置的项目 <1>账户的业务层接口及其实现类 IAccountService.java package lucky.service; import lucky.domain.Account; import java.util.List; /** * 账户的业务层接口 */ public interface IAccountService { /** * 查询所有 * @return */ List<Account> queryAllAccount();…
一.智能合约介绍 智能合约是指把合同/协议条款以代码的形式电子化地放到区块链网络上.FISCO BCOS平台支持两种智能合约类型:Solidity智能合约与预编译智能合约 Solidity与Java类似.代码写好后,都需要通过编译器将代码转换成二进制,在Java中,编译器是Javac,而对于Solidity,是solc.生成后的二进制代码,会放到虚拟机里执行.Java代码在Java虚拟机(JVM)中执行,在Solidity中,是一个区块链上的虚拟机EVM.目的,是给区块链提供一套统一的逻辑,让相…