背景:单倍型的推断,或沿着相同染色体的等位基因序列,是遗传学中的基本问题,并且是许多分析的关键组分,包括混合物图谱,通过下降和插补识别身份区域. 基于测序读数的单倍型定相引起了很多关注. 已经广泛研究了两种单倍型互补的二倍体单倍型定相. 在这项工作中,我们专注于多倍体单倍型定相,我们的目标是从测序数据同时分阶段超过两个单倍型. 随着搜索空间变得更大并且单倍型不再需要互补,问题要复杂得多. 结果:我们提出了两种算法, (1)Poly-Harsh,一种基于Gibbs采样的算法,它可以替代地对单倍型和…
现在GWAS已经属于比较古老的技术了,主要是碰到严重的瓶颈了,单纯的snp与表现的关联已经不够,需要具体的生物学解释,这些snp是如何具体导致疾病的发生的. 而且,大多数病找到的都不是个别显著的snp,大多数都找到了很多的snp,而且snp都落在非编码区了,这就导致对这些snp的解读非常的困难. 目前,已经有非常傻瓜式的GWAS pipeline了,比如:A tutorial on conducting genome‐wide association studies: Quality contr…
Abstract 本文提出了一种新的方法来寻找不相交k最优路径.最坏情况下计算复杂度为N3log(N).该方法比WVD算法(https://www.cnblogs.com/walker-lin/p/11051983.html)速度更快. Introduction WVD算法中,计算复杂度随着虚警(false alarms)的增加呈指数增加,这限制了算法适用更多的场景. 本文提出的算法are based on a transformation of the K-path trellis probl…
题目地址:http://coursera.cs.princeton.edu/algs4/assignments/kdtree.html 分析: Brute-force implementation. 蛮力实现的方法比较简单,就是逐个遍历每个point进行比较,实现下述API就可以了,没有什么难度. import java.util.ArrayList; import java.util.TreeSet; import edu.princeton.cs.algs4.Point2D; import…
题目来源http://coursera.cs.princeton.edu/algs4/assignments/percolation.html 作业分为两部分:建立模型和仿真实验. 最关键的部分就是建立模型对象.模型对象要求如下: The model.  We model a percolation system using an n-by-n grid of sites. Each site is either open or blocked. A full site is an open s…
摘要 分型是计算生物学的一个新兴领域,在临床决策和生物医学科学中有着重要的应用. 虽然机器学习技术在许多生物医学应用中显示出巨大的潜力,但它们在分型中的用途尚未完全理解. 在本文中,我们研究了基于聚类的多倍体生物的阶段化技术的发展,其中在所研究的生物的细胞中每个染色体存在两个以上的拷贝. 我们基于相关聚类的概念,开发了一个称为PolyCluster(多集群)的新框架,然后使用一个有效的聚类合并机制来最小化驻留在每个集群中的短读之间的不一致量. 我们首先引入一个图形模型来量化每对DNA读数之间的相…
HapMap五周年回顾 2011-01-12 | 作者: [关闭] 作者简介:曾长青,中国科学院北京基因组所研究员,博士生导师.CUSBEA奖学金.百人计划.杰出青年基金.首批新世纪百千万人才工程国家级人选获得者.作为“十五”重大攻关项目课题组长.国际HapMap计划Steering Committee Member和 “中华单体型图协作组”召集人,负责HapMap“中国卷”的实施.主要从事疾病相关基因定位.群体遗传学和基因组多态研究,部分成果在Nature,Nature Genetics, P…
1.人类基因组的HapMap和国际HapMap计划 (1)何谓HapMap HapMap是Haplotype Map 的简称,Haplo意为单一,在基因组中专指来自父母的一对染色体中的一条.Haplotype就是单条染色体中的一段,译作单体型(有人译作单倍型),是描述遗传差异的一种主要方式.DNA作为遗传物质,不但编码了物种间的差异,物种内不同个体之间的差异也含在其中,均表现为基因组之间的DNA序列差异,也就是基因组的多态性上. DNA由四种核苷酸单个连接而成,基因组最常见的多态就是单核苷酸多态…
单倍型,即单倍体基因型,概念很好理解. 单倍型分型的过程就称之Phasing,定相或基因分型. Phasing的意义,在人类疾病遗传和动植物群体遗传中非常重要.也是imputation的必经过程. vcf文件中,./.和.|.分别表示未定相和已定相. Phasing的方法: 家系定相,最准确,一般根据一家三口(Trio样本)推断,直接简单: LD定相,最常用,根据群体LD block和统计模型,计算量大,只对高频突变(如>5%): 物理定相,仅依赖测序数据,通过reads(来自同一单倍体)拼接,…
有很多概念需要明确区分: 人有23对染色体,其中22对常染色体autosome,另外一对为性染色体sex chromosome,XX为女,XY为男. 染色体区带命名:在标示一特定的带时需要包括4项:①染色体号:②臂的符号:③区号:④在该区内的带号. 1p22表示为1号染色体短臂2区2带. 等位基因其实是一个集合,在同一个locus出现得基因型互为等位基因.Aa不能叫等位基因,正确的逻辑是:A和a是一组等位基因.由等位基因可以定义纯合和杂合. 二倍体与多倍体细胞的某些染色体上,在同一基因座上有相同…