05、解剖CEL文件各版本格式和读取方法(非R语言)
相比DAT文件,网络上更支持CEL级别的文件。CEL已经把DAT图像转换成数据了,而且CEL比DAT所占空间小得多。介绍一下CEL文件的格式,CEL文件有文本文件(TextCelFile,版本3)、BinaryCelFile(二进制文件,版本4)、GenericCelFile(普通文件,版本1)三种。
1)版本3
早期的CEL文件是版本3的,因为是文本文件,所以直接用记事本打开就可以看到里面的内容了,如下是GSM2899.CEL:
[CEL]
Version=3
[HEADER]
Cols=640
Rows=640
……
DatHeader=[5..46118] AFRGV01031201:CLS=4733 RWS=4733 XIN=3 YIN=3 VE=17 2.0 03/12/ 1 17:16:25 GridVerify=None HG_U95Av2.1sq 6
……
CellHeader=X Y MEAN STDV NPIXELS
0 0 278.0 95.3 25
1 0 22909.3 5244.4 20
2 0 390.0 121.0 25
3 0 22530.0 5102.5 25
……
638 639 20835.5 3531.1 20
639 639 292.0 85.2 25
可以看到Version=3,列数Cols和行数Rows都是640。可以发现DatHeader里有很多的 ,它起到了分割字符串的作用(这是我第一次在C语言源码里看到 这样的乱码),把“DatHeader=”后面的部分分割成若干部分,然后找出以“.1sq”结尾的那部分,即“HG_U95Av2.1sq”,再把“.1sq”去掉,就成功读取出芯片型号HG_U95Av2了。CellHeader=X Y MEAN STDV NPIXELS中的X和Y指的就是探针(特征)的X坐标和Y坐标,MEAN指探针的强度,STDV是方差,NPIXELS指用多少个像素来计算MEAN和STDV。每一行是一个探针(特征)的数据,这是一个640*640的阵列,所以X会从0变化到(640-1),以此循环640次,Y也从0变化到(640-1),不过每个数要重复640次。这样,就刚好有640*640行了。我们所要用到的数据只是MEAN那一列而已,不需要STDV和NPIXELS,而X和Y可以经过推算得出。这样,我们就可以理解为:坐标为(0,0)的探针强度为278.0,坐标为(1,0)的探针强度为22909.3,坐标为(2,0)的探针强度为390.0……
2)版本4
后来出现了版本4的CEL文件,它们是二进制文件,直接用记事本打开会看到很多的乱码。可以用CellFileConversionTool.exe工具进行版本3和版本4的格式转换。把版本3转换成版本4后,文件就小多了,因为已经去掉了X和Y这两列的数据。该版本采用了小端字节序,下面列举了不同数据类型的不同读取方法:
Integer:
若用Java读取整型数据:
如:FileInputStream fin=new FileInputStream("CEL文件的路径");
DataInputStream din=new DataInputStream(fin);
……
/*先读取出4个字节*/
int[] byteDataInt=new int[4];
for (int i=0;i<4;i++)
byteDataInt[i]=din.read();
/*移位,第(i-1)个字节右移i*8个字节*/
for (int i=0;i<4;i++)
byteDataInt[i]=byteDataInt[i]<<8*i;
/*再进行 | 运算*/
int result=byteDataInt[0]|byteDataInt[1]|byteDataInt[2]|byteDataInt[3];
……
若用C把完成以上的工作,就方便多了:
如:FILE *infile = fopen("CEL文件的路径", "rb")) ;
……
int result;
fread_int32(&result,1,infile);
……
这样,一个整型数据就被读取出来存放在result中了。
Short:
若用Java读取短整型数据:
int[] byteDataInt=new int[2];
for (int i=0;i<2;i++)
byteDataInt[i]=din.read();
for (int i=0;i<2;i++)
byteDataInt[i]=byteDataInt[i]<<8*i;
int result=byteDataInt[0] | byteDataInt[1];
用C语言:
fread_int16(&(result,1,infile);
Float:
若用Java读取浮点型数据:
int[] byteDataInt=new int[4];
for (int i=0;i<4;i++)
byteDataInt[i]=din.read();
int symbol=byteDataInt[3] & 8; //get the symbol
int power=(byteDataInt[3]<<1 | byteDataInt[2]>>7)-127; //get the power
int temp= byteDataInt[2] & 127; // let the 8th bit to be 0
int a=temp<<16 | byteDataInt[1]<<8 | byteDataInt[0];
float result=1;
for (int i=1;i<=23;i++)
{
int x=a&(int)(Math.pow(2, i-1)); //keep value of the i bite and make others bites to be 0
int xx=x>>(i-1); // move the i bite to the right end;
double addCount=xx*(Math.pow(2,-(23-(i-1)))); // computing the increment
result=result+addCount;
}
result=result*(int)(Math.pow(2, power));
if (symbol==1)
result=-result;
用C语言:
fread_float32(&(result,1,infile);
以上的3个例子可以看出,Java和C语言可以实现同样的功能,但是Java却麻烦得多,而且实验证明,Java花的时间会多得多。如版本4的探针强度是float型的,假如一张芯片的640*640个探针强度都用Java来读取,将会花费很长的时间,而用C语言不足1秒就可以完成。
3)版本1
版本1在版本3的基础上又去掉了STDV和NPIXELS这两列,并且出现了fread_be_int32、fread_be_uint16、fread_be_float32等C语言读取方法,这些方法都有着等效的Java实现方法,但是用Java来读取CEL文件总是很慢的。
05、解剖CEL文件各版本格式和读取方法(非R语言)的更多相关文章
- YAML/YML文件一直提示格式错误解决方法
第一次接触yml文件,各种格式报错,但是看了几次也没看出来.其实有一个好方法,那就是直接通过yml在线格式检查 可以将yml具体内容复制到以下网址进行查询.具体报错位置会更加详细 https://ww ...
- VC++实现获取文件占用空间大小的两种方法(非文件大小)
// GetFileSpaceSize.cpp : Defines the entry point for the console application. // /***************** ...
- R语言自动化报告格式——knitr
R语言自动化报告格式--knitr 相关文献: R语言自动化报告格式--knitr 资讯 | R Notebooks 即将发布 ------------------------------------ ...
- 【网络爬虫入门05】分布式文件存储数据库MongoDB的基本操作与爬虫应用
[网络爬虫入门05]分布式文件存储数据库MongoDB的基本操作与爬虫应用 广东职业技术学院 欧浩源 1.引言 网络爬虫往往需要将大量的数据存储到数据库中,常用的有MySQL.MongoDB和Red ...
- 让TinyXML保存文件为UTF-8格式
TinyXML是个好东西,这个不用我多说了,我用它做过好几个项目,但这几个项目都只是从xml文件中获取信息,没有涉及到写文件,最近需要生成xml的配置文件,才注意到这个问题,那就是TinyXML似乎不 ...
- 如何用DELPHI编程修改外部EXE文件的版本信
右击里面有修改 点开直接修改就可以了吧. DELPHI 里程序的版本信息怎么是灰色的,无法更改 耐心读以下说明,应该能解决你的问题,如果不能解决,请Hi我~ 如何给自己的dll文件添加版本信息呢? 首 ...
- [Script]EBS里查看模块的版本、文件的版本信息【Z】
系统版本信息 装了哪些模块,以及版本信息 select 'Current Application Release: '||ver||' ('||bug||')' "Description&q ...
- EF+LINQ事物处理 C# 使用NLog记录日志入门操作 ASP.NET MVC多语言 仿微软网站效果(转) 详解C#特性和反射(一) c# API接受图片文件以Base64格式上传图片 .NET读取json数据并绑定到对象
EF+LINQ事物处理 在使用EF的情况下,怎么进行事务的处理,来减少数据操作时的失误,比如重复插入数据等等这些问题,这都是经常会遇到的一些问题 但是如果是我有多个站点,然后存在同类型的角色去操作 ...
- 06、CEL文件与灰度图像
R语言里的image方法可以绘制CEL文件的灰度图像.我们先来讨论image这个的函数: 如:x <- c(0:2) y <- c(0:2) m <- matrix(c(1,5,10 ...
随机推荐
- USACO2018DEC PLATINUM
就按(博主认为的)难度顺序排吧. Sort It Out 分析 容易发现选出的集合一定是所有逆序对的一个最小覆盖集,那么剩下的就一定是一个LIS.仔细想想还可以发现字典序第\(k\)小的最小覆盖集的补 ...
- spring boot V部落 V人事项目
公司倒闭 1 年多了,而我在公司倒闭时候做的开源项目,最近却上了 GitHub Trending,看着这个数据,真是不胜唏嘘. 缘起 2017 年 11 月份的时候,松哥所在的公司因为经营不善要关门了 ...
- log4j.properties 文件,放在 src 下
log4j.rootLogger=INFO,CONSOLE,ERRORLOGlog4j.appender.CONSOLE=org.apache.log4j.ConsoleAppenderlog4j.a ...
- ListView 如何提高其效率?
① 复用 ConvertView② 自定义静态类 ViewHolder③ 使用分页加载 ④ 使用 WeakRefrence 引用 ImageView 对象 ViewHolder 为什么要声明为静态类? ...
- Linux命令之grep用法详解:grep与正则表达式 [转]
正则表达式与通配符不一样,它们表示的含义并不相同. grep命令的选项用于对搜索过程进行补充说明.grep命令的模式十分灵活,可以是字符串.变量,还可以是正则表达式. 无论模式是何种形式,只要模式中包 ...
- 诺依/RuoYi开源系统搭建总结
问题一:从{码云}下载下来看,输入项目编码不过 解决方法: 加入下列依赖,版本要和下载下来的{spring-boot-dependencies}一致.不一致就会报问题2: <parent> ...
- 阶段3 2.Spring_05.基于XML的IOC的案例1_4 注解IOC案例-把自己编写的类使用注解配置
注解改造案例 复制之前的xml配置的pom.xml里面的依赖. 复制com文件 bean.xml配置文件也拷贝过来 测试类也复制过来 开始基于注解的IOC配置 右键项目,选择maven.选择更新 更新 ...
- beego框架学习(三) -orm的使用
2 3 4 5 6 7 8 9 10 11 目前beego-orm支持的数据有: - MySQL:https://github.com/go-sql-driver/mysql - PostgreSQL ...
- Pytorch笔记 (3) 科学计算1
一.张量 标量 可以看作是 零维张量 向量 可以看作是 一维张量 矩阵 可以看作是 二维张量 继续扩展数据的维度,可以得到更高维度的张量 ————> 张量又称 多维数组 给定一个张量数据 ...
- Ubuntu虚拟机共享文件夹的1234
第一 在虚拟机内添加路径 进入虚拟机软件,点开工具栏上方虚拟机,点击设置,选择选项,查看共享文件夹,点击添加,下一步 第二: 第三 点击启用此共享 点击完成 第四 查看共享的文件 在mnt里可以看到S ...