生物信息学

染色体可以据染色图谱判断染色体号码,1-22号染色体依次变短,它们影响机体发育,23号染色体决定性别。肿瘤是由于遗传密码变异造成的。因此,遗传密码的解读非常重要,但是因为遗传密码长度非常长,所以虽然已经全部测出来,但是破译它们依然存在很多难题。

生物信息学是一个学科领域,它的研究对象基因组,所以最初下定义是基因组信息学,主要内容是获取处理、存储、分配、分析和解释生物数据,即对生物信息的获取管理和信息挖掘。

破译具体而言是序列分析,对于编码序列看编码何种蛋白质,而对于非编码序列看起到何种作用。当今自然科学领域和技术科学领域中,生物信息学是结合三类问题的复合学科,包括基因组,信息结构和复杂性。

生物信息学:

1.Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。

2.生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。

3.生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今乃至下一世纪自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

随着human genomeproject完成,生物信息数据随之飞快增长,数据库种类逐渐变多,数据增长速度也逐渐变大。所以有以下四类数据库,DNA碱基数据库&expression sequence tag表达序列标签数据库,其中注释活细胞中正在实现功能的gene,这些gene覆盖人类基因组的90%。SNPs单核苷酸多态性数据库(single nucleotide polymorphisms),单独物种genome dataset。慢慢的,诞生了其他综合性数据库,就是二次数据库,包括Genbank;EMBL;DDBJ;这些数据库之间每天都在交互数据。

普遍研究流程是由Gene到primary sequence of protein,再到3D structure of protein,然后注释biological function,以前认为的junk gene现在部分转化为noncoding gene,并对其展开研究。

大基因组中的序列的拼接和注释主要依靠生物信息学方法。

在经过Sequencing,basecalling测碱基荧光,vector mark(通过碱基比对去除引物)这些物理方法之后,生物信息学应用于assembly,Assembly的难题在于片段多无法正确拼接,所以assembly主要思路是对相同数据的采用不同切割方法,这些方法产生的不同断面,可以帮助我们找到拼接gene组的线索,如今supercompute帮助更快凭借,覆盖率可以99%。即使这样,也存在未能finishing(补洞)上的部分,这是很大的难题。但是至此,大部分序碱基信息可以读取出来,然后再repeat mark +ORF prediction+Gene annotation破译更多信息,解决生物学问题。

basecalling|vector mark|Assembly的难题|的更多相关文章

  1. C# 使用SIMD向量类型加速浮点数组求和运算(1):使用Vector4、Vector<T>

    作者: 目录 一.缘由 二.使用向量类型 2.1 基本算法 2.2 使用大小固定的向量(如 Vector4) 2.2.1 介绍 2.2.2 用Vector4编写浮点数组求和函数 2.3 使用大小与硬件 ...

  2. [NOIP 2016D2T2/Luogu P1600] 天天爱跑步 (LCA+差分)

    待填坑 Code //Luogu P1600 天天爱跑步 //Apr,4th,2018 //树上差分+LCA #include<iostream> #include<cstdio&g ...

  3. 【洛谷P1379】八数码难题(广搜、A*)

    八数码难题 题目描述 一.广搜: 首先要考虑用什么存每一个状态 显然每个状态都用一个矩阵存是很麻烦的. 我们可以考虑将一个3*3的矩阵用一个字符串或long long 存. 每次扩展时再转化为矩阵. ...

  4. FZU 1686 神龙的难题 (重复覆盖)

    Problem 1686 神龙的难题 Accept: 397    Submit: 1258Time Limit: 1000 mSec    Memory Limit : 32768 KB  Prob ...

  5. How to upgrade workflow assembly in MOSS 2007

    This problem generally start when you are having an existing custom workflow and there are instances ...

  6. [转载] [Mark]分布式存储必读论文

    原文: http://50vip.com/423.html 分布式存储泛指存储存储和管理数据的系统, 与无状态的应用服务器不同, 如何处理各种故障以保证数据一致,数据不丢, 数据持续可用, 是分布式存 ...

  7. POJ 3096 Surprising Strings(STL map string set vector)

    题目:http://poj.org/problem?id=3096 题意:给定一个字符串S,从中找出所有有两个字符组成的子串,每当组成子串的字符之间隔着n字符时,如果没有相同的子串出现,则输出 &qu ...

  8. hdu 1251 统计难题 trie入门

    统计难题 Problem Description Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本 ...

  9. bzoj 2402: 陶陶的难题II 二分答案维护凸包

    2402: 陶陶的难题II Time Limit: 40 Sec  Memory Limit: 128 MBSec  Special JudgeSubmit: 68  Solved: 45[Submi ...

随机推荐

  1. JAVA初学者——逻辑运算符

    Hello!大家好,我是浩宇大熊猫~ 加油~充实每一天~ java里面的逻辑运算符有与(&).或(|).异或(^).非(!) 其实这些初高中数学课都学过哈,很简单~ public class ...

  2. ES6 find()

    Array.prototype.find() 返回数组中满足提供测试函数的第一个元素的值,否则返回undefined let b = blogs.find(function(e) => { re ...

  3. Spring核心实现篇

    一.Spring Framework的核心:IoC容器的实现 1.1Spring IoC的容器概述 1.1.1 IoC容器和控制反转模式 依赖控制反转的实现有很多种方式.在Spring中,IOC容器是 ...

  4. 基于JSP开发医院预约挂号系统 Java源码

    开发环境: Windows操作系统 开发工具: Eclipse+Jdk+Tomcat+MYSQL数据库 运行效果图: 源码及原文链接:http://javadao.xyz/forum.php?mod= ...

  5. poj1386单词连接(欧拉欧拉欧拉)

    ///单词连接,欧拉回路通路都可以(有向图) ///主要构图:比如possibilities就构造p->s的边////题目大意:给你若干个字符串,一个单词的尾部和一个单词的头部相同那么这两个单词 ...

  6. php 连接oracle插入多张图片的方法

    php连接oracle数据库的时候,其查询.更新.删除数据和MySQL类似,但是增加数据.特别是图片的时候就很不一样,这里面涉及到要创建一个blob对象,用blod对象去保存php图片,下面是当插入多 ...

  7. oracle_(第一课) 安装oracle数据库

    首先去官网下载两个架包链接如下:官网链接 第一步:将两个架包解压到同一个database目录下.如截图所示: 第二步:打开setup应用程序 打开后就到了下面这个页面 第三步:配置安全更新 环境变量配 ...

  8. 随机函数rand()的使用方法——C语言

    原理: 引用自百度百科: 所需包含的头文件: #include <stdlib.h> rand()函数是按指定的顺序来产生整数,因此每次执行上面的语句都打印相同的两个值,所以说C语言的随机 ...

  9. android 9.0 http无法访问问题

    在res/xml下新建network-security-config.xml <?xml version="1.0" encoding="utf-8"?& ...

  10. C段和旁注

    踩点常用手段有哪些 1.旁站注入:利用同一 主机上面不同网站的漏洞得到 webshell,从而利用主机上的程序或者是服务所暴露的 用户所在的物理路径进行入侵.网站共享主机漏洞是更为严谨的学术叫法 2. ...