目录 需求 解决 方法一 方法二 需求 客户随手丢来一个基因型文件,类似于hapmap格式,只是少了中间多余的那几列,像这种类hapmap格式文件,往往是芯片数据. 这样的数据因为缺乏等位基因:参考碱基和变异碱基信息,对应在vcf文件中就是REF和ALT,导致后续一些分析没法进行. 那么,问题来了:怎么根据这个基因型文件来推断参考和变异等位基因? 样本量大的时候是否能通过计算等位基因频率来判断?推断出来的结果不一定准确,鬼知道你的变异多不多? 解决 在网上查了下,不能只通过基因型文件来推断,还需…