BP神经网络分类应用

　　DNA序列分类 作为研究DNA序列结构的尝试，提出以下对序列集合进行分类的问题：有20个已知类别的人工制造序列，其中序列标号1-10为A类，11-20为B类。请从中提取特征，构造分类方法，并用这些已知类别的序列，衡量你的方法是否足够好。然后用你认为满意的方法，对另外20个未标明类别的人工序列（标号21-40）进行分类，判断哪些属于A类，哪些属于B类，哪些既不属于A类又不属于B类。

　　（一）问题分析

　　　采用DNA序列中4个字符的含量百分比对DNA序列进行分类。

　　（二）模型建立

　　　　（1）BP神经网络结构的确定

　　　　　　我们选取三层结构的BP神经网络模型。

　　　　　　输入层：将所提取的特征作为输入，即DNA序列中a,t,c,g的含量百分比作为BP神经网络的输入。显然，输入层有4个节点。

　　　　　　输出层：BP神经网络的输出为DNA序列的分类结果，将A类DNA序列的输出定义为[1,0],B类DNA序列的输出定义为[0,1],因此，输出层有2个节点。

　　　　　　隐含层：为确定隐含层节点个数l，我们参考下列公式：

　　　　　　　　　　l=sqrt(n+m)+a;

　　　　　　其中n为输入层节点数，m为输出层节点个数，a为1-10之间的常数。我们这里确定隐含层个数为11。

　　　　　　综上所述，建立了一个4-11-2结构的三层BP神经网络，并选择双型s型函数(tansig)作为隐含层的传递函数，线性函数(purelin)作为输出层的传递函数，变学习动量梯度下降算法(traingdx)作为训练函数。

　　　　（2）训练数据及测试数据的确定

　　　　　　训练数据用来训练BP神经网络，测试数据用来测试网络的分类能力。但由于已知类别的DNA序列只有20条（标号1-20），比较少，因此，我们将这20条数据即作为训练数据，又作为测试数据。最后，用训练好的BP神经网络对标号为21-40的DNA序列进行分类。

　　　　（3）BP神经网络的训练

　　（三）模型求解

　　　　利用MATLAB编程求解，在分类时某些DNA序列有时属于A类，有时属于B类。为此将程序运行100次（书上是1000次，电脑慢，就跑100次，效果也很好），统计分类结果：　　　　　

　　　　DNA序号　　21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
　　　　A类　　　　 12 55 100 17 92 20 99 1 99 28 27 50 28 99 99 47 95 9 24 12
　　　　B类　　　　 88 45 0 83 8 80 1 99 1 72 73 50 72 1 1 53 5 91 76 88

从上表可以看出，DNA序列被分到A类或B类的次数明显的多，就可认为该DNA序列属于那一类。但是某些DNA序列被分到A、B类的次数非常相近（如标号22），因此，这些DNA序列即不属于A类又不属于B类，即无法用BP神经网络分类，需要作进一步分析。根据以上分析，我们得到最终的分类结果：
　　　　A类：23、25、27、29、34、35、37；
　　　　B类：21、24、26、28、30、31、33、38、39、40；
　　　　即不属于A类又不属于B类：22、32、36。

MATLAB程序：

 clc

 clear all

 %%=========================统计字符个数以及含量====================================

 fid=fopen('exp12_4_3.txt','r')  %读取数据文件,返回文件标识符，文件打开成功，fid为正数，否则为-1。

 i=1;                                 %计数

 while (~feof(fid))                   %reof测试文件是否到最后一行，到最后一行返回1，否则为0

     data=fgetl(fid);                 %fgetl表示读取文件的一行，不包括换行符号

     a=length(find(data=='a'));       %统计字符a的个数

     t=length(find(data=='t'));       %统计字符t的个数

     c=length(find(data=='c'));       %统计字符c的个数

     g=length(find(data=='g'));       %统计字符g的个数

     e=length(find(data~='a'&data~='c'&data~='t'&data~='g')); %统计其它字符的个数

     DNA_num(i,:)=[a t c g e  a+c+t+g+e];     %将字符个数放到DNA_num矩阵中

     DNA_HanL(i,:)=[a/(a+c+t+g) t/(a+c+t+g) c/(a+c+t+g) g/(a+c+t+g)]; %计算a,t,c,g字符的含量百分比

     i=i+1;                           %文件行数加1

 end

 fclose(fid);                         %关闭文件

  %%=====================BP神经网络训练==========================================

 [n,m]=size(DNA_HanL);

 for i=1:20                           %定义已知类DNA序列的输出

     if i<=10

         output(i,:)=[1,0];          %标号1-10为A类，输出为[1,0]

     else

         output(i,:)=[0,1];          %标号11-20为A类，输出为[0,1]

     end

 end

 train_output=output';               %神经网络训练的输出

 train_input=DNA_HanL(1:20,:)';      %神经网络训练的输入

 for LL=1:10                          %程序运行1000次时，设置为1：1000

in_num=4;                            %输入层节点个数

mid_num=11;                          %隐含层节点个数

out_num=2;                           %输出层节点个数

TF1='tansig';TF2='purelin';          %TF1为隐含层传递函数，TF2为输出层传递函数

net=newff(minmax(train_input),[mid_num,out_num],{TF1,TF2}); %创建BP神经网络

net.trainFcn='traingdx';             %训练函数，变学习动量梯度下降算法

net.trainParam.epochs=5000;          %以下为训练参数设置

net.trainParam.lr=0.1;                  %学习速率

net.trainParam.mc=0.75;             %附加动量因子

net.trainParam.goal=0.001;            % 训练目标最小误差

net=train(net,train_input,train_output);  %网络训练

an=sim(net,train_input);             %网络测试，此处测试数据即训练数据

for i=1:20                           %测试分类结果统计

    output_test_fore(i)=find(an(:,i)==max(an(:,i)));  %1表示分到A类，2表示分到B类

    output1(i)=find(train_output(:,i)==max(train_output(:,i)));

end

error=output_test_fore-output1;        %BP网络分类误差

sim_input=DNA_HanL(21:40,:)';           %待分类数据

anan=sim(net,sim_input);              %网络仿真，返回预测结果

for i=1:20                            %预测分类结果统计

    output_sim_fore(i)=find(anan(:,i)==max(anan(:,i))); %1表示分到A类，2表示分到B类

end

out(LL,:)=output_sim_fore;          %预测分类结果

 end

 [nn,mm]=size(out);

for ii=1:mm

    a=length(find(out(:,ii)==1));

    b=length(find(out(:,ii)==2));

    ff(ii,:)=[ii+20 a b];

end

  ff=ff'

Txt数据：

1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg

2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga

3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga

4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatcataaaaaaaggttgcga

5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag

6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaataaaggaacggcggcaca

7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg

8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg

9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg

10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg

11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt

12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa

13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc

14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttattaaatcttagagatatta

15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa

16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat

17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc

18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt

19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatctcatttaatatcttaa

20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat

21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga

22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtacgtaccgtacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg

23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttcccgggatttagggcccggatggctgggaccc

24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt

25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca

26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac

27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccagtccgttaaggcttag

28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga

29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcggtttagggagggccgggacgcgttagggc

30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta

31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagcaatttattatccgtattaggcttaccgtaggtttagcgt

32.gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctcttgggtttagtcattcccaaaagg

33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagcgatcgactttagcac

34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttaggttggaacccggaaa

35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggtaagtcgcggtagcc

36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg

37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt

38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatttacgtataatttgaccttattttggacactttagtttgggttac

39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgttgcaagtcaaatccat

40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt

BP神经网络分类应用的更多相关文章

BP神经网络原理及python实现
[废话外传]:终于要讲神经网络了,这个让我踏进机器学习大门,让我读研,改变我人生命运的四个字!话说那么一天,我在乱点百度,看到了这样的内容: 看到这么高大上,这么牛逼的定义,怎么能不让我这个技术宅男心 ...
BP神经网络
秋招刚结束,这俩月没事就学习下斯坦福大学公开课,想学习一下深度学习(这年头不会DL,都不敢说自己懂机器学习),目前学到了神经网络部分,学习起来有点吃力,把之前学的BP(back-progagation ...
数据挖掘系列（9）——BP神经网络算法与实践
神经网络曾经很火,有过一段低迷期,现在因为深度学习的原因继续火起来了.神经网络有很多种:前向传输网络.反向传输网络.递归神经网络.卷积神经网络等.本文介绍基本的反向传输神经网络(Backpropaga ...
BP神经网络推导过程详解
BP算法是一种最有效的多层神经网络学习方法,其主要特点是信号前向传递,而误差后向传播,通过不断调节网络权重值,使得网络的最终输出与期望输出尽可能接近,以达到训练的目的. 一.多层神经网络结构及其描述 ...
极简反传(BP)神经网络
一.两层神经网络(感知机) import numpy as np '''极简两层反传(BP)神经网络''' # 样本 X = np.array([[0,0,1],[0,1,1],[1,0,1],[1, ...
 BP神经网络
BP神经网络基本原理 BP神经网络是一种单向传播的多层前向网络,具有三层或多层以上的神经网络结构,其中包含输入层.隐含层和输出层的三层网络应用最为普遍. 网络中的上下层之间实现全连接,而每层神经元之 ...
BP神经网络学习笔记_附源代码
BP神经网络基本原理: 误差逆传播(back propagation, BP)算法是一种计算单个权值变化引起网络性能变化的较为简单的方法.由于BP算法过程包含从输出节点开始,反向地向第一隐含层(即最接 ...
机器学习（一）：梯度下降、神经网络、BP神经网络
这几天围绕论文A Neural Probability Language Model 看了一些周边资料,如神经网络.梯度下降算法,然后顺便又延伸温习了一下线性代数.概率论以及求导.总的来说,学到不少知 ...
基于Storm 分布式BP神经网络，将神经网络做成实时分布式架构
将神经网络做成实时分布式架构: Storm 分布式BP神经网络: http://bbs.csdn.net/topics/390717623 流式大数据处理的三种框架:Storm,Spark和Sa ...

随机推荐

Python学习day34-面向对象和网络编程总结
figure:last-child { margin-bottom: 0.5rem; } #write ol, #write ul { position: relative; } img { max- ...
<每日一题>题目9：求质数V1.0
num= input("请输入您要求质数的范围(以逗号结尾):") down,up = num.split(',',1) down,up = int(down),int(up) i ...
BMP 图片格式
BMP根据颜色深度,可以分为2(1位).16(4位).256(8位).65536(16位)和1670万(24位)以及32位含有alpha通道.8位图像可以是索引彩色图像外,也可以是灰阶图像,而索引 ...
常用有三种json解析jackson、fastjson、gson。
jackson依赖包 <!-- https://mvnrepository.com/artifact/com.fasterxml.jackson.core/jackson-databind -- ...
PKUWC&SC 2018 刷题记录
PKUWC&SC 2018 刷题记录 minimax 线段树合并的题,似乎并不依赖于二叉树. 之前写的草率的题解在这里:PKUWC2018 minimax Slay the Spire 注意到 ...
git的三个区域比较
工作区: 暂存区: 提交区: 工作区与暂存区比较:git diff 工作区与提交区比较:git diff 提交hash码或者HEAD 暂存区与提交区比较:git diff --cached 两个不同提 ...
Kafka在window上安装部署
1.准备工作 ①jdk 具体自行百度安装jdk,配置好 JAVA_HOME和path, 下载地址: http://www.oracle.com/technetwork/java/javase/ ...
LA4794 Sharing Chocolate
传送门记忆化搜索. 在下觉得sxy大佬的代码写得相当好,通篇的骚操作(因为我都不会呀),%%% 学到了预处理每个状态的值.以前的我都是zz地枚举每一位.. for(int i=1;i<(1& ...
maven项目mapper文件加载不到classpath问题解决方案
在调试我的maven项目的过程种,当我执行maven install时总提示找不到mapper.xml文件,看了一下大家的说法,都说是maven没有把src/main/java下的mapper包记载到 ...
移动相关的css
1.首先认识第一个apple-mobile-web-app-capable 删除默认的苹果工具栏和菜单栏. <meta name="apple-mobile-web-app-capab ...

BP神经网络分类应用

BP神经网络分类应用的更多相关文章

随机推荐

热门专题