1、PED简介

PED文件格式是广泛使用的用于连锁系谱数据分析的格式,并用作plink程序的输入。PLINK是一个免费的,开源的全基因组关联分析工集,旨在以高计算效率的方式执行一系列基本的,大规模的分析。PED能够处理二倍体SNP数据。

空格(空格或制表符)分隔的文本文件*.ped
每一行对应一个individual
以下前6列是必须的(id是字母数字):
  o Family ID (Family ID用来表示家族,同一个家族用同一个family ID表示)
  o Individual ID (用来表示个体,family ID和Individual ID连起来必须能够唯一表示每个样本)
  o Paternal ID (表示父本ID,)
  o Maternal ID (母本ID,)
  o Sex (1代表male,2代表female, 其他数字表示unknown。)
  o Phenotype (代表表型,其中表型可以是离散型的(比如关联性状),也可以是连续型的(比如数量性状),plink会自动识别对应的类型。通过以上6个必须的字段,可以完整的映射到某一性状的家系图上。)
关联性状应该这样编码:
  o -9 missing
  o 0 missing
  o 1 unaffected
  o 2 affected
column 7 onwards: Genotypes (对于关联分析而言,除了表型相关信息,还需要基因型信息)
  any character (e.g.: 1,2,3,4 or A,C,G,T or anything else)
  missing genotype: 0
  所有的标记必须是双等位的(二倍体)。要么两个等位基因都缺失,要么两者都不缺失。单倍体数据:编码为二倍体纯合子。两个等位基因依次出现。
Comments: line starts with #

ped文件中,每个snp位点的基因型需要两列来表示,分别表示major allel 和 minor allel。在表示基因型时,既可以使用A,C,G,T字母的形式,也可以采用1,2数字编码的形式。默认情况下,用0来表示基因型的缺失。

2、MAP简介

MAP文件的每一行描述一个 single marker且必须包含4列:

chromosome (1-22, X, Y, MT or 0 if unplaced)   #染色体编号为数字, 未知为0
rs# or snp identifier #SNP名称为字符或数字, 可以从1编号, 注意要和bed文件SNP列一一对应
Genetic distance (morgans) (missing: 0) #遗传距离(摩尔)
SNP物理坐标

MAP必须包含与PED文件中一样多的markers。‘

PED文件中的标记不需要按照基因组顺序排列,但是MAP应该与PED文件maker顺序一致

PGDSpider软件中对于不同的文件格式有一个详细的说明。

http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml#ped

群体遗传之ped格式的更多相关文章

  1. plink:ped格式转换为bed格式

    命令行如下: plink --file FILENAME --make-bed --out FILENAME 第一个FILENAME的后缀为.ped和.map,生成的第二个FILENAME的后缀为.b ...

  2. 重测序(RADseq)做群体遗传分析套路

    实验材料 构建的群体,或自然群体,如各地方品种. RAD文库构建 提取DNA后,构建文库,简要步骤如下: ① 限制性内切酶TaqI酶切: ② 连接P1接头: ③ DNA随机打断片断化: ④ 目的片段回 ...

  3. 【转】群体研究套路:开心果denovo+重测序+转录组+群体进化+选择位点

    转自公众号Eric生信小班.学习群体遗传套路 中科院昆明动物园吴东东研究团队联合国外研究团队2019年在Genome Biology发表题为Whole genomes and transcriptom ...

  4. 用popart构建常染色体单倍型网络(Autosomal haplotypes network construction with popart)

    1)将vcf转化为plink格式,假定输入的vcf文件名为:17893893-17898893.vcf,也可以参考链接:将vcf文件转化为plink格式并且保持phasing状态 /vcftools ...

  5. Eigensoft-smartpca分析PCA报错:warning (mapfile): bad chrom: Segmentation fault

    目录 问题 解决 问题 一直以来用Eigensoft的smartpca来做群体遗传的PCA分析很顺畅,结果也比较靠谱. 但今天报错如下: $ ~/miniconda3/bin/smartpca -p ...

  6. 千人基因组计划数据库下载某段区域SNP

    进入http://browser.1000genomes.org/index.html网站 假定要寻找“6:133098746-133108745”这段距离的SNP数据,“6”表示6号染色体,后面的数 ...

  7. 遗传算法详解(LINGO及MatlabGA工具箱求解实现)

    遗传算法 1.前言 遗传算法是一种基于生物界自然群体遗传进化机制的自适应全局优化概率搜索算法.它与传统算法不同,不依赖梯度信息,而是通过模拟自然进化过程来搜索最优解. 例子:兔子的遗传进化 有人说,现 ...

  8. GWAS:拒绝假阳性之case和control数量比例严重失衡的解决方案(SAIGE模型的应用)

    一.为什么要校正case和control数量比例不平衡情况 试问作为生信届人员,最怕的是什么,当然是统计结果不靠谱.统计结果不靠谱包括两方面:一个是假阴性,一个是假阳性.假阴性可以理解为白天鹅被误当成 ...

  9. Python的浮点数损失精度问题

    本篇讨论的现象可以从下面这段脚本体现出来: >>> x = 0.0 >>> for i in range(10): x += 0.1 print(x) 0.1 0. ...

随机推荐

  1. Idea为类生成序列号(十一)

    新建一个测试的实体类Gradle,实现java.io.Serializable接口,选择类名,按Alt+Enter键,出现的提示框中没有生成serialVersionUID的提示,这个需要设置之后才会 ...

  2. 解决谷歌浏览器在F12情况下自动断点问题(Paused in debugger)

    解决谷歌浏览器在F12情况下自动断点问题(Paused in debugger) 最近在使用谷歌浏览器在调试js脚本的时候,每次按F12,再刷新页面,都会跳出如上图所示的图标,自动进入断点调试.如果不 ...

  3. python调用C++ DLL 传参技巧

    结构体传参:http://www.jb51.net/article/52513.htm 准备工作: C++文件(cpp):(注意在函数声明上加上extern "C" 的修饰) #i ...

  4. EF Core 3.0 Preview 9 的2个小坑

    之前我们的数据库服务器使用的是 SQL Server 2008 R2 ,由于从 EF Core 3.0 Preview 6 开始不支持 UseRowNumberForPaging ,只能停留在 EF ...

  5. C#中char[]与string之间的转换;byte[]与string之间的转化

    目录 1.char[]与string之间的转换 2.byte[]与string之间的转化 1.char[]与string之间的转换 //string 转换成 Char[] string str=&qu ...

  6. C语言程序设计100例之(9):生理周期

    例9    生理周期 问题描述 人生来就有三个生理周期,分别为体力.感情和智力周期,它们的周期长度为 23 天.28 天和33 天.每一个周期中有一天是高峰.在高峰这天,人会在相应的方面表现出色.例如 ...

  7. UTF-8和BOM的一些说明

    BOM的含义 BOM即Byte Order Mark字节序标记.BOM是为UTF-16和UTF-32准备的,用户标记字节序(byte order).拿UTF-16来举例,其是以两个字节为编码单元,在解 ...

  8. 常见跨域解决方案以及Ocelot 跨域配置

    常见跨域解决方案以及Ocelot 跨域配置 Intro 我们在使用前后端分离的模式进行开发的时候,如果前端项目和api项目不是一个域名下往往会有跨域问题.今天来介绍一下我们在Ocelot网关配置的跨域 ...

  9. PHP获取网址详情页的内容导出到WORD文件

    亲自测试效果一般, css的样式文件获取不到 如果没有特殊的样式  或者是内容里面包括样式的  直接输出有样式的内容 然后导出  这样还是可以的 class word { function start ...

  10. Solr java.sql.SQLException: null, message from server: "Host 'xxx' is not allowed to connect to this MySQL server

    在用solr从mysql导入数据的时候,因为linux和本机的数据库不在同一个ip段上, 又因为本地的mysql没有设置远程其它ip可以访问所以就报了如下错误 解决办法: 在mysql任意可以输入查询 ...