打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
统计遗传学:第七章,基因型数据格式介绍

大家好,我是邓飞,统计遗传学的第一部分理论,已经介绍过了,从本章开始,是实操部分,首先介绍一下基因型数据的格式、存储、获得和利用。想要领取本书的英文电子版和配套的数据代码,点击下面链接领取:书籍及配套代码领取--统计遗传分析导论

基因型数据格式介绍

主要内容


本章节包括:

  • 了解产生基因组数据的基因分型和测序技术
  • 了解与基因组数据相关的连锁不平衡和插补
  • 了解基因组数据成本的大幅下降和基因分型阵列的局限性,并获得对下一代测序的基本了解
  • 了解全基因组人类遗传学中最常用的数据关联研究发现和归档和分发这些数据的来源
  • 掌握计算机程序PLINK中基因组数据的不同格式
  • 介绍本书中使用的样本数据
  • 基本了解数据存储、传输、大小和所需的计算能力

介绍

主要应用的软件是R语言和plink软件。

自2005年以来,特别是自2015年左右以来,遗传数据的收集、可用性、技术和样本量都有了长足的进步。本章的目的是概述基因组数据。我们首先讨论了用于测量单个个体遗传变异的基因分型和测序阵列的惊人和快速发展。然后,我们简要概述了这一研究领域中一些最常用的人类遗传数据源,并简要解释了在哪里以及如何获取这些数据源。在第三节中,我们将更详细地描述您将遇到的不同类型的遗传数据格式。在本章中,我们将使用的基因组数据简单地称为“数据”“正如我们在之前的讨论中所指出的,该领域的研究人员经常使用“队列”一词“引用不同的数据集。我们不采用该术语,因为它可能会造成不必要的混淆,因为该术语通常在人口学和其他科学中用于表示出生或特定队列研究设计,在医学中更广泛地指代更一般意义上的人群。在本章中,读者还将遇到R和PLINK中的代码。请参阅附录1有关如何下载这些程序的信息,请参阅附录2,了解本书中使用的数据描述。

基因型数据检测技术

基因分型和测序技术

基因分型和测序技术收集基因组信息的典型方式是通过唾液或血液中的生物样本。然后使用生化方法从样本中提取DNA,并使用基因分型或测序平台进行分析。基因检测通常是指使用基因分型微阵列,这是一种在过去几十年中迅速发展的技术,用于测量一个人中几十万到数百万个基因变体。DMA微阵列(也称为SNP[单核苷酸多态性]微阵列)是一种实验室工具,具有显微镜载玻片的尺寸,在定义的位置上打印有数千个小斑点,每个斑点包含一个已知的短DNA片段(称为探针),该片段与给定SNP的不同等位基因互补。一旦DNA从血样或唾液中提取出来,就用生化方法将其分割成小片段。DNA片段与微阵列中的互补探针配对。

连锁和填充

第一个人类基因组的完成归因于最初广泛采用的桑格测序方法。这不允许进行群体全基因组测序。为了解决这个问题,研究人员利用了人类有许多LD块的事实,我们在第3章(第3.6节)中讨论了这一点。回想一下,由于LD,需要测量的遗传变异数量减少。结果是,一旦我们知道一个区域中几个SNP的等位基因,我们就可以高度置信地推断相邻的等位基因。这一过程称为插补,是遗传分析的基本部分(见方框7.2)。因此,通过使用参考面板(如单倍型图)中的信息对整个基因组中数十万个变体进行基因分型来评估常见的遗传变异(https://www.genome.gov/10001688/international-hapmap-project)[2] ,单倍型参考联盟(htp://www.haplotype-reference-consortium.org/),以及1000基因组项目(http://www.internationalgenome.org/)(见图7.1)[3]。

基因分型后,使用单倍型信息检查未分型位点[5]。HapMap项目或1000基因组项目等参考小组已被用于有效创建人类遗传变异图谱,用于推断未使用微阵列直接测量的“缺失基因型”。例如,基因HRS的ata(前面讨论过)可以使用插补扩展到2200万个遗传变异。插补并不总是完美的,尤其是在附近SNP不多的地区。或者在英国生物库对大约50万人的研究中。

阶段化和插补使可测试变体的数量增加了100多倍,达到约9600万个变体(见Bycroft等人2018年“进一步阅读和参考资料”一节)。因此,插补数据具有相关插补质量;这衡量了我们对缺失基因型是否真的是CC或TC的信心。我们将在本书后面的第二部分讨论插补质量的重要性,在那里我们将展示如何处理质量控制问题(见第8章,第8.5节)。

数据量不断的扩大

的进步和越来越大的样本量,作者经常参与研究同一表型的新迭代。2018年,马克·麦卡锡(Mark McCarthy)和阿努巴·马哈扬(Anubha Mahajan)写了一篇有趣的博客,概述了GWAS在2型糖尿病研究中的历程[9]。例如,DIAGRAM联盟对2型糖尿病进行了多项GWA研究。他们于2007年作为威康信托病例对照联盟的一部分进行了第一项研究,包括约5000名个体的500000个SNP,共25亿个基因型,2018年的一份出版物包括来自32个不同研究的近900000名欧洲人后裔[10]。仅仅十年后,它们就可以包含2700万个SNP和90万个个体,总计25万亿个基因型。最近的研究不仅增加了样本量,还使用了更详细的插补参考面板。2019年,研究经常使用单倍型参考联盟(HRC)小组,该小组结合多项研究的数据,在约65000个人类单倍型中使用了约30000个基因组。目前的研究使用了人权委员会的一个子小组,即1000基因组项目,该项目包含了数百个欧洲基因组的更多细节。想象这种变化的一种方法是思考数字摄影是如何随着时间的推移而改进的,从颗粒状像素到现在高度精细的像素。使用1000基因组项目小组提供了更可靠的分析,尤其允许检查低频等位基因的风险。在最近的研究中,该联合体检测到243个达到全基因组显著性的位点和另外160个二级信号,总共403个显著信号跨越243个位点。另一个关键区别是,他们能够在较低的等位基因频谱范围(即次要等位基因频率[MAF]<5?,其中包括罕见变体)检测到更多信号。然而,作者认为,大多数发现仍然存在于常见的共享变体中。

2018年的研究既增加了样本量,也使用了已知的因果变异精细定位,并通过整合组织特异性表观基因组信息扩展了精细定位。换言之,现在可以更详细地检查哪些变体正在“带头”并实际推动协会。由于全基因组遗传力解释了18种2型糖尿病风险,作者还强调了18种可归因于有效治疗靶点编码变体的基因。

检测成本不断降低


人类基因组数据分析

GWAS的数据量变化

据我们所知,截至2018年底,过去13年中所有GWAS中使用最广泛的数据的最全面概述可在Mills和Rahal(2019)[11]撰写的GWAS审查文章的随附补充材料中找到。这里我们列出了前2名。,从2005年到2018年10月,在最大的GWASs中使用了1000个数据源。读者可以在我们的GitHub网站上找到完整的列表,https://github.com/crahal/GWASReview/blob/master/tables/Manually-Curated-columns,csy,为了生成这个列表,我们手动提取了截至2018年8月29日最大的1250个GWAS中大多数最常用的数据,目的是对GWAS中使用的数据源的频率和识别进行首次系统估计。表7.1概述了前10个数据集,并描述了它们的一些关键区别特征。

表中显示,最常用的数据集有几个共同点,首先,正如我们在第4章中所阐述的,最常用的数据来自高收入国家(美国、英国、冰岛、荷兰、爱尔兰和德国),这些国家的疾病流行率和人口概况相似。

如前所述,大量的亚洲祖先数据来源主要来自日本。中国韩国,有记录的全球WAS中有近80%涉及日本参与者,占全球WAS参与者的14%以上(见方框4.3)。第二个相似之处是,表中大多数显著使用的数据源都参与了随机概率或总体抽样,以获得尽可能具有代表性的样本。我们应该注意的是,自2018年及以后GWA研究中出现的一些最大数据集来自英国生物银行[12]或直接面向消费者的基因公司,如23andMe[13]。这些研究代表性较低,包含更多健康、年龄较大、社会经济地位较高的个体。第三,使用最显著的数据源在许多性状上具有深刻和丰富的表型,这可能使它们更容易满足多种需求。还有许多针对特定疾病(如子宫内膜异位症、心血管疾病或罕见疾病)收集的数据来源。

第四,许多最重要的数据集是老年人群,其疾病诊断旨在揭示老年疾病和残疾的途径。在这方面,他们忽略了无症状年轻人群可能负担得起的疾病的长期发展和干预可能性(除了一些研究,如1958年英国出生队列或队列中的额外数据收集,如弗雷明翰心脏研究)。第五,它们都是前瞻性纵向数据集,在更长的时间内跟踪个体或出生队列,从而促进了生命过程方法的理解他会导致某些疾病、残疾、行为或死亡。第六令人惊讶的是,除了一个以外,所有这些队列都主要由女性参与者组成(从48岁到100岁不等?这种性别比例失衡很少得到解决,但性别二型或疾病中的性别差异被视为越来越相关,例如自闭症[14]或生殖特征[15]. 最后,虽然许多研究开始是以重点假设驱动的临床样本来研究一种疾病,但大多数已经扩展到包含广泛的表型,并且随着时间的推移,数据收集有增加新样本或世代的趋势。

尽管上述样本的选择性和人口多样性的缺乏在本研究中很少讨论和解决,但资助者和研究人员加强了祖先多样性的举措。2018年,美国国家卫生研究院(NIH)启动了一项名为“全民研究计划”的国家计划(https://allofus.nih.gov/). 目标是收集100万或更多志愿者来自18岁及以上,健康状况不同,背景不同。为了应对这一领域的多样性挑战,他们还旨在对代表性不足的社区进行抽样调查。其他倡议包括H3Africa consortium(非洲人类遗传与健康,https://h3africa.org/)由非洲科学家领导,包括48个以人口为基础的基因组研究非洲项目,以建设能力和加强以非洲为基础的研究。

归档和分发数据

正如我们在第4章前面提到的,GWASs中使用的大多数基因组数据来自美国和英国的样本,因此遵循这些国家的数据协议。最著名的大型档案是基于美国的dbGaP——基因型和表型数据库(https://www.ncbinlm.nih.gov/gap),负责管理和分发遗传数据。在dbGaP网站上,您可以找到有关如何访问dbGaP数据、可用资源和其他链接的信息。它包含的额外数据远远超出了本书的支持范围。首先,可以观看大量演示视频和概述,这些视频和概述描述了申请数据的过程,如何访问各个级别的数据,以及设置单独的帐户,例如eRA帐户。一开始可能会有点困惑,但上述网站上的信息包含详细的常见问题解答(FAQ)和教程。在这里,您还可以找到有关下载、解密和提取数据的更详细信息。由于这是一个非常详细的过程,在上述网站上有很好的记录和定期更新,我们在此不再重复。

目前,英国还有大量基因组数据可供世界各地的研究人员使用。许多英国纵向研究包含表型、基因型和“组学”数据,由国家研究委员会资助,因此开放科学运动要求允许访问。许多(但不是全部)属于称为METADAC的治理基础设施:管理数据访问中的Ethico社会、技术和行政问题,该基础设施由一个跨学科委员会管理。

数据共享和治理的过程在别处有记录[16],读者可以参考METADAC网站(https://www.METADAC.ac.uk/)。截至2020年初,最大的公开遗传数据是UKBiobank[17],它有自己的数据访问过程(https://www.ukbiobank.ac.uk/),通常伴随付款,以涵盖数据处理。

这里有许多未提及的其他数据集,在GitHub站点链接[1]上可以找到大约3000个不同数据集的完整列表。有些是我们公开的-您可以访问的基于基因组的数据包括重要数据,如健康和退休研究(HRS,http://hrsonline.isr.umich.edu/; 见方框7.1[1],添加健康:国家青少年到成人健康纵向研究[18],威斯康星州纵向研究(WLS,https://www.ssc.wisc.edu/wlsresearch/)[19]或荷兰生命线生物银行等其他机构(https://www.lifelines.nl/). 数据也通常由地方委员会或财团分发和发布,这些委员会或财团通过自己的网络应用程序直接收集数据。如GWAS审查文章[11]所述,负责获得资金和收集这些数据的主要研究人员通常被列为GWAS的合著者,并且是这些联合体的核心。由于数据发布供外部使用的方式多种多样,研究人员应针对每个单独的数据源进行调查。、

为了获取遗传数据,研究人员通常需要通过当地IRB(机构审查委员会或独立伦理委员会)提交研究计划,但通常也需要通过管理数据访问的委员会、小组或网站提交。在大多数情况下,你只需要为每一篇单独的文章或项目指定一小部分与你的研究问题直接相关的变量。这一领域的许多研究人员也越来越多地遇到期刊编辑在分享数据和代码时提出的问题。

几乎所有遗传数据都遵守国家数据共享政策,但由于遗传数据的敏感性质,访问非常有限,并受到严格管理。可以提供用于构建变量和数据分析的代码,然后将日志编辑器引用到相应数据集的数据访问协议。我们现在检查一下你将在本书的应用章节中遇到并使用的实际遗传数据。

获得GWAS的summary结果

WAS财团定期发布他们的全部结果列表,这实际上始终是发布该结果的杂志的要求。这允许其他研究人员调查特定变体的作用,或使用它们在独立基因型样本中构建多基因评分。总结结果应至少包括SNP列表,其中包含关联分析得出的rs数、染色体数、基因组位置、等位基因、β,或者关联结果的Z分数和p值。如果结果是通过荟萃分析得出的,则其他汇总统计通常包括其他信息,如平均等位基因频率和异质性统计。

我们在第4章中描述的NHGRI-EBI GWAS目录包含了许多已编目的GWAS的一些但不是全部(请参阅https://www.ebi.ac.uk/gwas/summary-统计数据)。NHGRI-EBI GWAS目录提供了一个一致、可搜索且免费可用的已发布SNP特征关联数据库。它可以用于搜索特定特征或检查遗传变异与可能特征之间的关联。在那里,您还可以找到一些大型财团的链接,这些财团将其汇总统计数据存储在自己的网页上:https://wwweb1.ac,uk/gwas/downloads/summarV statistics,正如我们在其他地方注意到的那样,尽管现在发布摘要统计数据几乎总是一种出版要求,但少数群体不发布这些统计数据,或者只是为了交换作者身份[11]。

还创建了基于eb的存储库,其中包含数千个公共可用GWA的详细信息。最近由荷兰的Danielle Posthuma领导的一项研究倡议创建了GWAS汇总统计图谱(http://atlas,ctglab。nl)[20],在撰写本书时,包含4000多个不同研究的总结统计数据。使用此网站,可以选择您感兴趣的表型并下载整个关联结果列表。数据是统一的,因此可以直接比较不同研究的结果,此外,他们还包括他们自己的GWAS结果,用于从英国生物库计算的许多性状。

由美国Benjamin Neale领导的研究小组还为英国生物库中可用的4203种表型创建了GWAS统计数据数据库。他们没有使用其他群体产生的GWAS结果,而是对英国生物库中可用的所有(或几乎所有)表型进行了新的GWAS。这可以说是研究人员可获得的基因组数据的最大资源。其优点是,经过仔细的质量控制(QC)程序后,对所有表型进行一致的GWAS分析。分析还包括20个主成分和协变量(例如,年龄、年龄2、性别、年龄*性别)(http://www.nealelab.is/uk-biobank/).他们还生成了性别特定的结果,并包含了他们在GitHub上运行分析时使用的所有代码(https://github.com/Nealelab/UK_Biobank_GWAS).

不同的基因型数据格式

基因型数据是大数据

对于那些习惯于使用流行病学或社会科学数据的人来说,基因组数据最初可能显得相当不寻常。大多数读者将熟悉矩形数据结构,其中数据存储在单个文件中。在这些类型的FLE中,每行通常包含单个参与者的信息,每列提供有关统计变量的信息(例如,性别、年龄、疾病状态)。这广泛用于统计程序,如SPSS、Stata或SAS。这个矩形结构的维数是N×K,其中Nis是观察值的数量,K是变量的数量。例如,如果我们在R中模拟一个矩形文件,如下所示,然后对其进行检查,您将看到第一列是person 1到4的“id”(标识)变量。第二列是二元协变量“性别”,值为1和2,还有两个附加变量,tl和sl。

基因组数据与许多研究人员可能熟悉的一些数据不同,主要区别在于我们通常拥有比观察更多的变量。例如,广泛使用的HRS基因组数据提供了来自约20000个个体的2200万个变量的信息(见方框7.1)。因此,变量的数量大大高于观察值的数量,使得矩形结构难以目视检查。例如,Excel限制为1048576行乘以16.384列。另一个限制是基因组数据的绝对文件大小。取决于数据是否只包含基因型数据或也包含插补数据,全基因组数据文件的大小可能非常大,通常在数GB左右,有时甚至是数TB。因此,基因组数据是真正的大数据。2015年,研究人员警告称,在10年内,当1亿到20亿人类基因组可能被测序时,数据存储需求将远远超过YouTube和Twitter的预计年存储量[21]。

考虑遗传数据的一种方法是观察值和变量,变量代表特定SNP的基因型。例如,如果SNP rs99305062有两个变体,T和C,我们可以观察所有受访者的基因型(可以是TT;TC或CC),并将此信息存储在文件中。然而,我们还需要存储单核苷酸多态性本身的信息,并将其映射到人类基因组上。事实上,rs9930506是一个SNP,根据一组预定义的坐标[Genome Reference Consortium Human Build 38 patch release 7],它可以在16号染色体53796553的位置找到。该信息需要与样本基因型同时存储在数据中。此外,vou通常还希望获得关于受访者的其他信息,包括性别、表型以及与其他受访者的家庭关系。遗传学早在DNA和分子生物学之前就存在了,它是以遗传研究为基础的。因此,在遗传研究中,家族关系历来非常重要,遗传性疾病家族的谱系被用于研究疾病的遗传传播。

plink文本格式的数据

目前的主流格式是plink1.9和plink2.0

plink文本格式:

2007年,由肖恩·普赛尔(Shaun Purcell)及其同事在波士顿哈佛大学和麻省理工学院设计的软件发布。它很快成为最流行的软件应用程序之一,用于处理越来越多的遗传数据,并执行(全基因组)基因型和表型之间的关联。该软件称为PLINK,经常更新。在本书中,我们使用PLINK 1.9和2.0(见附录1)。

PLINK可用于处理基因组文件、计算统计数据以及将数据转换为不同格式。我们使用这两个版本,因为在撰写本书时,该软件的2.0版本仍在开发中,一些分析仅在PLINK 1.9上可用。版本1.9仅对基因型数据进行分析,而版本2.0也可用于插补数据(见方框7.2)。我们将首先描述基因型数据的数据结构,然后将讨论扩展到PLINK 2.0格式。

图7.3概述了您在PLINK中最常用的各种类型的文件,在以下各节中进行了更详细的描述,因为读取文本文件非常耗时,所以最好使用二进制文件。您最经常使用的文件分为三种基本类型,如图7.3所示。两个文本格式PLINK FLE包含关于个体及其基因型(ped)和遗传标记(map)的信息。最常用的三个二进制PLINK文件是保存个人标识符及其基因型(bed)信息的文件和两个可读的二进制文本文件,其中包含个人(,fam)和遗传标记(bim)的材料。正如我们在后面的章节中所示,vou通常还包括协变量,这需要第四组文件。例如,如果您想研究2型糖尿病,bed文件包含所有个体的基因型结果(例如,如果使用病例对照研究,则包括所有患者和健康对照)。这个fam文件包含个人相关数据(例如,数据中家庭与其他个人的相关性、性别、2型糖尿病诊断)。这个bim文件允许您添加关于SNP实际物理位置的信息,最后一个文件中可以包含其他协变量。

基因组数据的原始PLINK 1.0文本格式由两个文件组成。第一个文件是所谓的谱系文件。谱系文件,在PLINK中使用后缀。ped包含样本信息(即基因型个体列表)。每一行对应一个个体,前六列提供关于这个个体的信息。实际上,该文件不包含头或变量名,但为了便于解释,我们在这里显示了它们。前两列由族标识符(FID)和单个唯一标识符(ID)组成。其次,我们有关于父亲(F)和母亲(M)标识符的信息,可以用来重建家庭谱系。这些信息并不总是存在,而且通常仅是唯一的个人标识符。第五列和第六列包含感兴趣的性别和表型信息。其余列包含遗传信息。每个单核苷酸多态性由两列组成,指示单个基因型。例如,在下面的示例中,第一个个体(id NA18526)的基因型将GG作为第一个SNP,而第三个个体(id NA18529)的基因型为CG。A.因此,ped文件有大量列,正好是6+(K×2),其中K是SNP基因型的数量。A、 ped文件可以在任何文本编辑器中打开,尽管其尺寸和大量列可能会使读取变得困难。

.ped文件必须附带.map文件,以提供个体样本基因型的完整信息。A、 map fle提供了关于哪些SNP已被基因分型以及如何在基因组中定位它们的信息。第一列表示染色体(Chr)编号,第二列是SNP标识符(通常是rs编号),而第三列和第四列表示SNP的位置。第三个以厘米为单位,是基于重组概率的遗传距离度量,因此在整个基因组中不是恒定的。一个百分之一等于一个百分之一,即染色体上一个遗传位点上的标记由于单代杂交而与第二个位点上的标记分离。第四列测量碱基对坐标或碱基对中的遗传距离,即变体之间的分子数(字母)。一厘摩根相当于人类平均约100万个碱基对。每个染色体的百分位数基于人类参考基因组。需要注意的是,SNP的位置可以根据所使用的参考面板而改变。随着人类基因组绘图的进步,人类参考基因组的不同版本已经发布(请参阅“进一步阅读和参考资料”部分)。参考基因组是我们探索人类基因组的导航系统。它可以用于绘制人类DNA中SNP的位置,但需要更新到最新版本。人类参考基因组的当前版本称为GRCh38,由国家生物技术信息中心发布。3。映射文件的维度为K行(SNP数)和4列。

plink二进制格式的数据

plink二进制格式:

ped文件可以在普通的文本编辑器中打开,但在数据存储方面效率低下。如前所述,存储遗传数据的一种常见方式是二进制文件。特别是,PLINK二进制文件压缩包含在中的基因型信息。ped文件。

如图7.3所示,一组PLINK二进制文件由三个文件组成:

  • bed文件,在文本编辑器中不可读,并以压缩方式包含有关基因型的信息。
  • fam文件,指示个人信息的fam文件(相当于.ped文件的前六列,如图7.3所示)。
  • bim文件,指示SNP信息的bim文件(实际上相当于.map文件,但有等位基因和等位基因2列)

基因型数据填充

上述PLINK格式简单明了,但只能用于基因型数据,不适用于输入的基因组数据(见方框7.2)。插补将基因型SNP信息与参考小组(例如,1000基因组项目或单倍型参考联盟)的LD信息相结合。虽然插补可能非常精确,但确实存在一些不确定性。

插补基因型与插补概率(有时称为基因型调用)的测量值相关,这些测量值可以指示某个基因型基于参考面板信息的可能性。例如,基于插补,我们可以得出SNP rs27788的三种可能基因型的基因型概率,即28 C、52TC和21TT。一种可能的解决方案是忽略插补的不确定性,选择最可能的基因型(即概率最高的基因型)。这是一种合法的选择,通常用于计算多基因分数(见第10章)。另一种选择是使用能够处理插补概率的软件,我们现在要讨论这个问题。

plink2.0格式

2018年,PLINK的作者发布了新版本的软件,该软件更适合处理插补数据。该软件名为PLINK 2.0。有一种新的遗传数据数据格式,更新了PLINK 1.0的二进制格式。

一组PLINK 2.0二进制文件由三个文件组成:1。A.指示遗传标记信息的pvar文件(类似于bim fle)2。A.表明样本中个体信息的psam文件(类似于.fam样本文件)3。A、 以压缩方式包含基因型概率信息的pgen文件(在文本编辑器中不可读取)。

PLINK 2.0字段包含更多关于中包含的遗传变异的信息。psam文件。除了等位基因(参考和替代),还提供了插补质量的其他信息(QUAL和INFO列)。这个pgen文件是一个压缩的二进制文件,无法在文本编辑器中读取,但包含有关基因变体具有特定基因型的可能性的信息。有关插补质量和基因型概率的信息广泛用于质量控制程序和GWAS,以评估结果是由真实关联效应还是由数据异常驱动。

Oxford格式

另一种流行的基因组数据格式是牛津大学统计系统计基因组组和同样位于牛津的Wellcome人类遗传学信托中心设计的软件集合所使用的格式。该格式有时被称为Oxford文件格式,在软件GTOOL和SNPTEST中使用。基因组数据存储在两个文件中(类似于ped和.map-PLINK文件):基因型文件和样本文件。genotvpe文件以每SNP一行的格式包含关于基因型数据的信息,而列表示个体。这与钟声完全相反。ped文件,其中行表示个体,列表示基因型。牛津基因型文件格式示例如下所示。每个文件的前五列包含关于SNP标识符、SNP的碱基对位置、编码A的等位基因和编码B的等位基因的信息。行中的下三个数字给出了三种基因型AA的概率。对于队列中的第一个个体,单核苷酸多态性中的AB和BB。接下来的三个数字应该是队列中第二个个体的基因型概率。接下来的三个数字代表第三个人,依此类推。所有概率的总和必须为1。如果已直接测量SNP,则其基因型概率为(1,0,O)。

在上面的例子中,我们报告了两个人的五个假设SNP的基因型。第一个个体具有以下基因型(AA;GG;CC;CT:AG),而第二个个体具有以下基因型(AA;GT;CT;CT;GG)。该示例报告了基因型的精确测量(无小数点),表明这些SNP是直接测量的,但这种格式可以适应基因型的可能性,给出了具有特定基因型的可能性的指示。基因型文件的维度取决于受试者的数量和SNPsK的数量,因为该文件有Krows和(N×3)+5列。

示例文件由三部分组成:标题行详细说明文件中列的名称,行详细说明存储在每列中的变量类型,以及每个个体的行详细说明该个体的信息。文件的第二行详细说明了每列中包含的变量类型。前三个条目为零,如果变量是离散的,则其他列采用D;如果变量是连续的,则其他列采用C。连续变量的表型如果是二元的,则用P或B表示(病例对照研究)。

vcf格式

在生物信息学中非常常见的基因组数据的其他格式是变体调用格式(VCF)。这种格式可以存储基因分型、插补数据甚至测序数据的基因组信息。它非常灵活,因为可以存储各种信息。它可以由文本编辑器(尽管我们不建议对大文件使用)或从命令终端读取。VCF FLE在单个文件中包含所有遗传信息。

该文件包含大量元信息行(前缀为双##符号)、标题行(前缀为单#符号)和数据行,每个数据行包含有关基因组中位置的信息和每个位置样本的基因型信息。

VCF是大型基因组项目的格式,是用于发布1000基因组项目数据的格式(见图7.1)。VCF文件可用于存储任何类型的遗传变异,包括CNV、INDEL和多等位SNP。可以使用不同的软件读取,并使用asPLINK等软件将其转换为您喜欢的格式


数据我已经下载整理好了,可以领取:书籍及配套代码领取--统计遗传分析导论


本书中的分析主要基于两个数据集,这两个数据集在本书末尾的附录2中有更详细的描述,并可在本书的配套网站上获得:http://wwwintro统计遗传学。通用域名格式。在每章开始时,我们注意到将使用的数据,以便读者能够确保他们能够积极地遵循所有练习。对于本书第二部分中的实践练习,第8章、第9章和第10章使用了您可以下载的公开可用数据和我们为BMI的单个表型模拟的附加数据的组合(见附录2)。模拟是基于BMI的公开GWAS结果进行的。基于个体的基因型、GWAS结果的效应大小和任意遗传力水平,这些模拟产生了标准化的表型,根据我们使用的参数进行分析,我们使用GCTA软件进行模拟,基因型数据的质量控制、模拟语法和进一步的细节请参阅附录2。在本书的第一部分中,分析包括使用PLINK、GCTA和PRSice等软件包的分子遗传数据。您将学习如何清理数据,生成多基因分数,并运行一些基本分析。

在本书的第三部分,特别是第11章,我们转向更高级的应用,例如因果建模和使用多基因分数的回归分析。在这里,我们根据研究文献的真实发现,使用健康与退休研究(HRS)的公开数据,提供了几个实例(见方框7.1)。例如,跨代教育中的遗传混杂或出生队列与体重指数之间的G×E相互作用。我们在本书附录2中描述了如何获得HRS数据。

我们在第1l章中提供了所有详细信息以及直接在您的计算机上下载数据的R代码,该代码也可在本书的网站上获得。我们使用HRS数据,因为数据已经有现成的多基因评分,可以免费下载。

多基因评分是一种聚合测量,不如单个分子遗传信息敏感。有了本书第二部分的知识,包括如何使用数据,特别是第10章关于多基因分数的构建,你可以申请对基因型数据的初步访问并构建自己的分数。

这可能非常有用,因为分数的构建可能取决于研究兴趣(另见第10章)或可用分数。例如,一些可能已经过时,因为最近发表了一份关于感兴趣表型的新GWA。

数据存储和利用

数据存储

如果尚未在您的研究团队或大学内开发,您必须遵守严格的数据存储和共享协议,该协议也符合您的地方、国家或地区法规。有用的指南。例如,是美国国立卫生研究院(NIH)关于基因组数据共享的协议(见“进一步阅读和参考资料”部分)。这些准则确保了参与者的匿名性,并代表了遗传研究的更高标准。

虽然每个数据提供者通常都有合同约束的特定要求,但研究人员可以开发的基本协议应包括以下几点:1。所有数据都是匿名的,调查对象仅由身份代码识别。任何时候,研究人员都不得接触参与者姓名或身份信息。

这意味着删除以下材料:姓名、小于州/省或市的所有地理分区、日期的所有元素(年份除外)、电话或传真号码、电子邮件地址、任何识别社会保险或医疗记录号码、IP地址号码和生物识别符。

2.只有数字化数据才是数据(即硬拷贝/纸张上没有任何内容)。

3.数据以匿名方式存储在您机构的安全、受密码保护的机构服务器上,或者在某些情况下,如果达成协议,则存储在安全的云平台上。

4、数据定期备份在密码保护的硬盘上,并安全存储在上锁的文件柜中。

5,您组织的任何其他成员、学生或外部用户都无权访问数据。在某些情况下,一些数据提供者将允许有限的权限将小样本数据用作教学模块的一部分。

数据库管理员的详细清单见Ekong等人(2018)在我们的“进一步阅读和资源”部分中的文件。在使用特定类型或方法分析遗传数据时,需要遵循附加协议。来自GWAS财团的数据。例如,通常存储在安全的存储库中,在进行研究时,该论文的作者之间只共享元分析关联结果。通常只有关于SNP关联结果的信息可用(标记名、位置、参考等位基因和其他等位基因、GWASβ、SE、单倍型图或1000基因组等位基因频率)。为了确保更大的匿名性,在某些情况下,次要等位基因频率由HapMap或1000基因组(或任何其他最终参考面板)等位基因频率替代。

数据分享

数据共享的国家法规存在显著差异,在许多不同的国家都有所不同,包括机构审查委员会(IRB)的立场和法规。正如我们在第14章“伦理”中更详细地讨论的那样,所有研究人员(包括学生)在从事研究之前,都需要获得当地IRB的批准。

这类研究通常固有的是数据共享和使用多个数据源以复制结果。虽然在特定的研究领域有一些更发达的基因组数据共享模型,例如国际癌症基因组联盟,但在其他领域并不总是如此。事实上,最近对多国基因组数据共享的评估揭示了复杂性、矛盾性和混乱[22]。例如,由于数据法规重叠或复杂,向中国以外的第三国传输数据通常被禁止或非常困难。美国还有一个分散的数据保护制度,由IRB和数据访问委员会监督[23]。2018年5月,欧洲最近推出了《通用数据保护条例》(GDPR),带来了与跨境数据传输相关的新限制,并因其他独特的国家和机构特定解释而变得复杂[24]。有各种机构致力于根据其国家和地方背景对GDPR规则进行解释。一个相对较少受到关注的领域是与基于云的存储提供商相关的监管保护和跨境数据共享。许多研究人员在这些基于云的存储提供商上存储或共享他们的数据。然而,云提供商通常在通知或监督有限的情况下跨地理位置转移数据,因此寻求法律和技术建议以避免问题[25]很重要。

数据计算

我们之前提到,基因组数据是真正的大数据,在未来几年里,它只会变得更大。与使用几千个个体的表型数据进行标准分析相比,统计遗传分析的计算需求可能非常高。需求取决于所使用的遗传数据(基因型、插补数据、序列数据)、数据中的个体数量和应用的统计模型。在本书中,我们对许多示例使用了较小的样式化数据文件。一个简单的经验法则是,如果你直接处理包含1000多人信息的基因数据,你的笔记本电脑和台式电脑可能无法处理它。如果是这种情况,您很可能需要在群集计算机上工作。大多数大学和研究机构都有这些类型的集群。正如我们在下一章中所展示的那样,您将需要获得一些额外的技能,例如如何使用命令行,以及如何使用作业提交和管理系统。由于每个系统都不同,我们在本书中没有广泛介绍这一点。有许多在线视频和教程,读者可以参考,也可以在自己的学校学习[26]。

为了给出可能获得的数据量的一般指示,请考虑目前最大的公开数据集之一:英国生物库。如果您存储完整的英国生物库,截至2018年,未插补的数据为92GB,插补的数据为2.1TB。然后,这会随着SNP和个体的数量呈线性扩展[27]。很难准确估计处理时间,因为它在很大程度上取决于您正在进行的分析。为了提供一个总体指示,在大数据规模上运行QC分析(在下一章中讨论),如英国生物银行,运行可能需要几天或几周。对于关联分析,运行标准BOLT-LMM关联(https://data.broadinstitute.org/alkesgroup/BOLT-LMM/)如果有8个处理器可供使用,整个英国生物库将需要大约100GB的RAM和几天的运行时间。该BOLT-LMM算法使用线性混合模型计算统计数据,以测试表型和基因型之间的相关性[28,29]。

另一个例子是使用全基因组复杂性状分析(GCTA)软件估计SNP遗传力(定义见第1章,应用见第9章)。对于这种分析,首先需要计算成对遗传相关性矩阵。它是其原始版本,这需要大约5GB的内存,对于一个仅包含约300000个SNP和约4000个个体的数据集(AMD Opteron 2.8GHz)[30]。这些方法经常结合计算效率更高的算法进行调整。例如,使用Haseman-Elston回归进行遗传力分析,GCTA中120000个个体需要少于2 GB的内存。我们估计约35000人的遗传相关矩阵大小超过30GB[31]。

结论

在这本书的许多章节中,我们认识到我们只能揭示与基因组数据的多个方面有关的冰山一角。读者应该基本掌握这些数据的来源以及相关的基因分型测序技术、LD和插补。鉴于这一领域的快速发展,特别是在外显子组测序和计算机程序(如PLINK)的更新方面,我们预计,即使在本教科书印刷期间,也会有许多新的发展。

我们希望您能对在哪里以及如何获得这些数据有一个概述,我们的目标是在本书附带的网页上尽可能多地更新这些数据。由于使用基因组数据可能与您过去使用的一些数据有根本不同,我们还试图概述不同二进制文件的链接方式。使用本书中的样本数据,您将能够基本了解如何进行这些类型的分析。然后,您可以使用更大、更多样的遗传源来扩展和应用这些知识,同时牢记经常需要的数据存储和计算能力要求。下一章以我们现在所学到的知识为基础,积极使用和处理这些基因组文件。

练习


相关软件

BEAGLE 5.0: https://faculty.washington.edu/browning/beagle/beagle.html.

IMPUTE4:https://jmarchini.org/impute-4/.

MACH:http://csg.sph.umich.edu/abecasis/mach/tour/imputation.html.

Minimac4:https://genome.sph.umich.edu/wiki/Minimac4.

本书其它章节介绍

分割线


大家好,我是邓飞,一个持续分享的数据分析师,这里我将自己公众号的干货内容挑重点罗列一下,方便大家阅读和使用。

1,快来领取 | 飞哥的GWAS分析教程

2,飞哥汇总 | 入门数据分析资源推荐

3,数量遗传学,分享几本书的电子版

4,学习R语言这几本电子书就够了!

5,书籍及配套代码领取--统计遗传分析导论

为了更好答疑,使得问题及答案能够保存下来,我开通了知识星球。

对于刚入门的小白,我会提供职业发展、技能发展方面的答疑,少走弯路。

对于资深的分析人员,针对复杂的模型和编程语言,我也会提供一些思路和解决方案。

星球内涉及的领域有:生物统计,数量遗传,混合线模型,生物信息,R,Python,GWAS,GS相关方法现在已经积累了54个精华帖,涉及到:育种模型、GWAS、GS和编程语言。

总之,我相信加入星球都会有所收获。欢迎扫码加入,知无不言,言无不尽。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
GWAS | 原理和流程 | 全基因组关联分析 | Linkage disequilibrium (LD)连锁不平衡 | 曼哈顿图 Manhattan
GWAS | 原理和流程 | 全基因组关联分析 曼哈顿图 Manhattan_plot | QQ p...
【转】使用metaCCA进行单/多个SNP与多表型的典型相关性分析
#软件工具#解密GWAS的利器--Plink 使用解析
笔记 | GWAS 操作流程2-1:缺失质控
电子病历助阵全基因组关联分析
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服