打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
plink PED 文件格式介绍

plink是进行全基因组关联分析常用的软件之一,该软件需要两种基本格式的输入文件,pedmap。本篇重点介绍一下ped格式。

对于ped格式而言,包含了以下几种信息

  1. 家系结构;

  2. 性别信息;

  3. 表型信息;

  4. snp calling信息;

ped格式是一个纯文本的文件,至少需要6列,每列有空格或者\t分隔。这6列
分别代表以下含义

  1. Family ID

  2. Individual ID

  3. Paternal ID

  4. Maternal ID

  5. Sex

  6. Phenotype

Family ID用来表示家族,同一个家族用同一个family ID表示;Individual ID用来表示个体,family IDIndividual ID连起来必须能够唯一表示每个样本;Paternal ID表示父本ID, Maternal ID表示母本ID, 通过以上4个属性,可以完全表征样本的家系结构信息。

Sex表示性别, 1代表male,2代表female, 其他数字表示unknown。

phenotype代表表型,其中表型可以是离散型的(比如质量性状),也可以是连续型的(比如数量性状),plink会自动识别对应的类型。通过以上6个必须的字段,可以完整的映射到某一性状的家系图上。

对于关联分析而言,除了表型相关信息,还需要基因型信息。在ped格式的文件中,剩余的列通常用来表示基因型信息。在ped文件中,每个snp位点的基因型需要两列来表示,分别表示major allel 和 minor allel。在表示基因型时,既可以使用A,C,G,T字母的形式,也可以采用1,2数字编码的形式。默认情况下,用0来表示基因型的缺失。

一个ped文件的示例如下

1 1 0 0 1  1  A A  G T2 1 0 0 1  1  A C  T G3 1 0 0 1  1  C C  G G4 1 0 0 1  2  A C  T T5 1 0 0 1  2  C C  G T6 1 0 0 1  2  C C  T T

在这个ped文件中,所有样本之间相互独立,没有亲缘关系,所以每个样本有一个唯一的family ID;对于样本而言,只需要family IDIndividual ID两个字段的信息连起来,能够唯一表示一个样本即可,由于family ID已经和样本是一一对应关系了,所以这里的Individual ID统一用1表示。

由于没有亲缘关系,Paternal IDMaternal ID也没有了意义,取值全都为0; 性别全部为1,表明所有样本都为男性;phenotype的取值有1和2两种,是离散型的。最后的4列信息代表2个SNP位点的基因型信息,每两列一个SNP位点。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
plink格式的ped和map文件及转化为012的方法
GWAS | 原理和流程 | 全基因组关联分析 曼哈顿图 Manhattan_plot | QQ p...
GWAS | 原理和流程 | 全基因组关联分析 | Linkage disequilibrium (LD)连锁不平衡 | 曼哈顿图 Manhattan
plink格式文件的介绍及相关转换
#软件工具#解密GWAS的利器--Plink 使用解析
笔记 | GWAS 操作流程2-1:缺失质控
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服