生物医学大数据:

收集数据后对数据的分析,如同看相,而对数据信息的挖掘可以看作是算命。这两个过程是基于算法和软件这类工具之上的。

在存储方面:在硬件上,为了Parallel computing的目的,刚开始选择的处理器是multiple core,之后选择many integrated core architecture(MIC:英特尔® 集成众核架构(英特尔® MIC 架构)产品为开发人员提供了一个关键优势:它们基于标准的现有编程工具和方法运行),之后选择GPU(大内存),之后是FPGA(电场可编程逻辑闸阵列,它是在PAL、GAL、CPLD等可编程逻辑器件的基础上进一步发展的产物。它是作为专用集成电路领域中的一种半定制电路而出现的,既解决了全定制电路的不足,又克服了原有可编程逻辑器件门电路数有限的缺点。但是就生物信息学领域只能跑GATK),如今又有了超级计算机。

No free lunch:由CPU到超算,灵活性下降但是专有性上升,同时存在的问题是费用变高。现如今的生物信息学分析,正在使用更为专有性的硬件,也更加费钱。

因此,面临Massive data和由于data transfer造成的cost,可以有以下基于软件的应对方法:

1.尽可能传输压缩包

2.decouple:将原始数据分析拆解,选择有需要的类型,会减少数据量

3.使用dataset保存分析结果:因为生物数据的特点是a.快速增长b.异构c.一次读多次写,所以以数据特征作为研究对象更为重要,将这些数据特征存入数据库更可以方便查找。

4.去冗余:将原始数据中重复部分去掉。

对于Data的处理过程中,需要注意:

1.要对数据进行Analysis,mining(即是prediction),visual。其中,Data mining这个过程是:首先先能够建立scientific model,这个model是一种grey box,它有别于white box或者black box。white box是研究现象的本质,black box是由现象1指向现象2,它们其中是没有过程的,即不知道为什么;而grey box是通过statistical定量得到的,是利用统计学将不确定是否发生的概率数据化,将预测变成可以度量的数字。因为统计学是将现象1和现象2用数学公式联系在一起,其中数公式反应的是两者的关联强度,并对这个关联强度定量,所以人们利用这个定量值make decision,这个decision可以是判定这些原始数据与某patterns关联很大(或反应了某pattern),据此有一个结论,就是“是or不是某pattern”,根据这个结论,科学家可以找到new knowledge。

2.明白Meta-data(元数据,又称诠释数据、中介数据、中继数据、后设数据等,为描述其他数据信息的数据。)与raw-data之间的关系,因为生物信息学数据有一次读多次写(或者多次分析)的特点,所以应该分离读写。

3.同时面临越来越多的数据必须要扩大内存。

CPU|MICGPU|FPGA|超算|Meta-data|的更多相关文章

  1. 【记】研究Sharding-JDBC遇到的一个异常(Caused by: io.shardingsphere.core.exception.ShardingException: Cannot get uniformed table structure for `t`. The different meta data of actual tables are as follows)

    一.异常信息 Caused by: io.shardingsphere.core.exception.ShardingException: Cannot get uniformed table str ...

  2. GPU、CPU、FPGA

    一.计算核心增加 二者都由寄存器.控制器.逻辑单元构成,但比例很大不同,决定了CPU擅长指令处理,函数调用上:GPU在数据处理(算数运算/逻辑运算)强力很多. NIVIDA基于Maxwell构架的GP ...

  3. A JavaScript library for reading EXIF meta data from image files.

    exif-js/exif-js: JavaScript library for reading EXIF image metadata https://github.com/exif-js/exif- ...

  4. 《BI那点儿事》META DATA(元数据)

    关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据.同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理.为数据仓库的发展 ...

  5. Facebook图片存储系统Haystack——存小文件,本质上是将多个小文件合并为一个大文件来降低io次数,meta data里存偏移量

    转自:http://yanyiwu.com/work/2015/01/04/Haystack.html 一篇14页的论文Facebook-Haystack, 看完之后我的印象里就四句话: 因为[传统文 ...

  6. 国内首款 FPGA 云服务器,性能是通用 CPU 服务器 30 倍以上

    版权声明:本文由薛梁原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/628340001485134638 来源:腾云阁 ht ...

  7. FPGA能代替CPU架构吗?

    你还没听过FPGA?那你一定是好久没有更新自己在企业级IT领域的知识了.今天笔者就和大家聊聊何为FPGA?FPGA主要应用场景是什么?有人说FPGA是替代传统CPU和GPU的未来,你信吗? FPGA全 ...

  8. OpenTSDB-Writing Data

    Writing Data You may want to jump right in and start throwing data into your TSD, but to really take ...

  9. 简单cpu web flask mysql

    转:http://blog.csdn.net/u010663768/article/details/60632133 python 2.7 cpu入库 #!/usr/bin/python # -*- ...

随机推荐

  1. 使用GitHub Pages服务进行域名URL转发

    有时,你注册了一个域名,但是你没有搭建服务器.你希望这个域名能指向你的主页/博客/微博等.但是,很多域名注册商不提供这种服务,或者这是一项收费服务.这时你可以使用GitHub来实现这一功能. 你需要导 ...

  2. SQL查询出一个表数据插入到另一个表里

    下面两中方式都是将 srcTbl 的数据插入到 destTbl,但两句又有区别的: 方式一 (select into from)要求目标表(destTbl)不存在,因为在插入时会自动创建. selec ...

  3. 哈夫曼编码的理解(Huffman Coding)

    哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式,可变字长编码(VLC)的一种.Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最 ...

  4. Tarjan算法:求解无向连通图图的割点(关节点)与桥(割边)

    1. 割点与连通度 在无向连通图中,删除一个顶点v及其相连的边后,原图从一个连通分量变成了两个或多个连通分量,则称顶点v为割点,同时也称关节点(Articulation Point).一个没有关节点的 ...

  5. Python 爬虫 爬取图片入门

    爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 用户看到的网页实质是由 HTML 代码构成的,爬 ...

  6. 流程控制 if-while-for -语句

    if 语句是用来判断条件的真假,是否成立,如果为ture就执行,为flase则跳过 1.python用缩进表示代码的归属 2.同一缩进的代码,称之为代码块,默认缩进4个      if 语句结构   ...

  7. android上线之前代码混淆加密

    https://blog.csdn.net/zuiwuyuan/article/details/48552701# https://blog.csdn.net/chaoyu168/article/de ...

  8. 利用GIt命令上传项目到GitHub指定仓库

    1.建立GIt可管理的仓库 cd到本地项目根目录下,执行 git init 命令: git init 2.将项目的所有文件添加到仓库中(注意add后面有一个“ . ”) git add . 3.将上一 ...

  9. 【转】nginx如何设置防盗链

    转自博客园作者:howhy,文章地址:nginx如何设置防盗链.大佬写的甚好,在此备份一下 关于nginx防盗链的方法网上有很多教程,都可以用,但是我发现很多教程并不完整,所做的防盗链并不是真正的彻底 ...

  10. linux下用firefox打开csdn故障解决办法

    问题:浏览器打开csdn时博客浏览不全,没有了排版 解决办法: 1.下载一个安装包 命令:epel-release-7-11.noarch.rpm: epel-release-7-11.noarch ...