全基因组关联分析

全基因组关联分析Genome-wide association study, GWA study, GWAS)是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的SNPs。 全基因组关联分析研究通常侧重于单核苷酸多态性(SNP)与人类重大疾病等性状之间的关联,但也同样适用于任何其他遗传变异和任何其他生物。

An illustration of a Manhattan plot depicting several strongly associated risk loci. Each dot represents a SNP, with the X-axis showing genomic location and Y-axis showing association level. This example is taken from a GWA study investigating microcirculation, so the tops indicates genetic variants that more often are found in individuals with constrictions in small blood vessels.[1]

当应用于人类数据时,GWA 研究会比较特定性状或疾病的不同表型参与者的 DNA。这些参与者可能是患有某种疾病的人(病例)和没有这种疾病的类似的人(对照组),也可能是某种特质(如血压)具有不同表型的人。这种方法被称为 "表型优先"(phenotype-first),即首先根据参与者的临床表现进行分类,而不是"基因型优先"(genotype-first)。每个人提供一份 DNA 样本,使用 SNP 阵列从中读取数百万个基因变异。如果有重要的统计证据表明,一种变异类型(一种等位基因)在疾病患者中更为常见,那么这种变异就被认为与疾病相关。然后,相关的 SNPs 就被认为是人类基因组中可能影响疾病风险的区域的标记。

GWAS研究调查的是整个基因组,而不是专门测试少量预先指定基因区域的方法。因此,GWAS 是一种非候选基因驱动(non-candidate-driven)的方法,与基因特异性候选基因驱动的研究(gene-specific candidate-driven studies)不同。GWA 研究能确定 DNA 中与疾病相关的 SNPs 和其他变异,但它们本身并不能确定哪些基因是致病基因[2][3][4]

首个成功的 GWAS 研究于 2002 年发表,研究对象为心肌梗死。 [5] 随后,这一研究设计被应用于具有里程碑意义的 GWA 2005 研究中,该研究调查了患有年龄相关性黄斑变性的患者,发现与健康对照组相比,两个 SNP 的等位基因频率发生显著改变。 [6] 截至2017年 (2017-Missing required parameter 1=month!),已有 3,000 多项人类 GWA 研究检查了 1,800 多种疾病和特征,发现了数千个 SNP 关联。 [7] 除罕见遗传病外,这些关联都非常弱,尽管每个单独的关联可能无法解释太多风险,但它们提供了对关键基因和途径的洞察,从总体上看具有重要意义。

研究历史

应用前景

GWAS为人们打开了一扇通往研究复杂疾病的大门,将在患者全基因组范围内检测出的SNP位点与对照组进行比较,找出所有的变异等位基因频率,从而避免了像候选基因策略一样需要预先假设致病基因。同时,GWAS研究让我们找到了许多从前未曾发现的基因以及染色体区域,为复杂疾病的发病机制提供了更多的线索。

统计分析原理

基于无关个体的关联分析

  • 病例对照研究设计:主要用来研究质量性状,即是否患病。
  • 基于随机人群的关联分析:主要用来研究数量性状。

基于家系的关联研究

在研究基于家系的样本时,采用传递不平衡检验(TDT)[17]分析遗传标记与疾病数量表型和质量表型的关联可以排除人群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同样本量的病例对照研究有效。

FBAT是运用十分广泛的基于家系的统计分析工具,能够分析质量性状及数量性状、调整混杂因素、分析基因-环境相互作用、分析单倍型、调整多重比较等。

单体型分析研究的必要性[18]

  1. 多位点单体型分析能够发现单体型-疾病表型之间的关联,这种关联要明显强于单个位点-疾病表型之间的关联。
  2. 单体型分析能够发现非TagSNPs与疾病之间的因果关系。

研究设计表型选择

  1. 选择遗传度较高的疾病或者表型进行检测能够提升遗传学关联研究的把握度[19]
  2. 由于有时病症很难测量或是多种病症混杂在一起造成疾病状态的分辨困难,研究疾病相关的数量表型要优于研究疾病状态。
  3. 由于测量数量表型的难易程度和该表型的遗传度相关,通过控制测量误差、噪音和总体变异能够加强数量表型变异与遗传因素的比例关系,因此一般选择测量简单准确并且遗传度相对较高的数量表型。

研究设计类型

单个阶段研究

单个阶段研究即在有了足够大的病例和对照样本数量后,一次性地对其所有选中的SNP进行基因分型,然后分析每个SNP与疾病的关联,计算其关联强度和OR值。由于样本数量需求量大,单阶段研究基因分型一般耗资巨大。

两个或多个阶段研究

采用小样本数量进行第一阶段的全基因组范围SNP基因分型,统计分析过后一般能够筛选少量阳性SNPs,之后的第二阶段再在更大数量的样本中对这些阳性SNPs进行基因分型,最后整合两个阶段的结果进行分析。研究证明DNA pool和微阵列试剂盒均能够降低基因分型的工作量,能够进行低成本高效益的SNP筛选。

多重假设检验调整

研究的重复

由于GWAS研究的各种研究设计方法以及遗传统计方法无法从根本上消除人群混杂、多重比较造成的假阳性,我们需要通过重复研究来保证遗传标记与疾病间的真关联[20]

  1. 通过增大样本数量来提高检验效率,增加与疾病相关联的SNPs的概率。
  2. 在两个人群中分别对样本中所有的SNP进行基因分型,之后再交换重复测量对方得到的阳性SNPs。这样做首先保证了低假阴性率,随后在较大样本中重复阳性结果又最大程度地避免了假阳性的产生。

临床应用和实例

未来成功的 GWA 研究面临的一个挑战是如何应用研究结果,加快药物诊断方法的开发,包括将基因研究更好地融入药物开发过程,以及关注基因变异在维持健康方面的作用,以此作为设计新药和诊断方法的蓝图。有几项研究探讨了使用风险 SNP 标记作为直接提高预后准确性的手段。一些研究发现预后准确性有所提高,[21] 而另一些研究报告称,这种使用方法只带来很小的好处。[22] 通常,这种直接方法的一个问题是观察到的效果很小。小的效果最终会导致病例和对照之间的区分不充分,因此预后准确性只会得到很小的改善。因此,另一种应用是 GWA 研究阐明病理生理学的潜力。[23]

C型肝炎治疗

其中一项成功案例与识别与抗C型肝炎病毒治疗反应相关的遗传变异有关。对于用Pegylated interferon alfa-2a 或Pegylated interferon alfa-2b 联合利巴韦林(英语:Ribavirin,俗称'病毒唑')治疗的 1 型C型肝炎,GWA 的一项研究[24]表明,编码干扰素 lambda 3 的人类 IL28B 基因附近的 SNP 与治疗反应的显著差异有关。后来的一份报告表明,相同的遗传变异也与 1 型C型肝炎病毒的自然清除有关。[25]这些重大发现促进了个性化医疗的发展,并允许医生根据患者的基因型定制医疗决策。[26]

心房颤动

例如,2018 年完成的一项元分析揭示了与心房颤动相关的 70 个新位点。已鉴定出与转录因子编码基因相关的不同变体,例如 TBX3 和 TBX5、NKX2-5 或 PITX2,这些基因参与心脏传导调节、离子通道调节和心脏发育。还鉴定出与心动过速 (CASQ2) 或与心肌细胞通讯改变 (PKP2) 相关的新基因。[27]

精神分裂症

使用高精度蛋白质相互作用预测 (HiPPIP) 计算模型进行的研究发现了 504 种与精神分裂症相关基因相关的新蛋白质-蛋白质相互作用 (PPI)。[28][29][30] 虽然支持精神分裂症遗传基础的证据并无争议,但一项研究发现,从 GWAS 发现的 25 种候选精神分裂症基因与精神分裂症几乎没有关联,这表明仅靠 GWAS 可能不足以识别候选基因。[31]

保育应用

种群水平的 GWA 研究可用于识别适应性基因,以帮助评估物种在全球气候变暖的情况下适应不断变化的环境条件的能力。[32] 这可能有助于确定物种的灭绝风险,因此可能成为保育规划的重要工具。利用 GWA 研究确定适应性基因有助于阐明中性和适应性遗传多样性之间的关系。

农业应用

植物生长阶段和产量构成

GWAS 研究是植物育种的重要工具。通过大量的基因分型和表型数据,GWAS 能够有效分析作为重要产量构成因素的性状的复杂遗传模式,例如每穗粒数、每粒重量和植物结构。在一项关于春小麦 GWAS 的研究中,GWAS 揭示了谷物产量与抽穗数据、生物量和每穗粒数之间存在很强的相关性。[33] GWAS 研究在研究水稻复杂性状的遗传结构方面也取得了成功。[34]

植物病原体

植物病原体的出现对植物健康和生物多样性构成了严重威胁。考虑到这一点,鉴定对某些病原体具有天然抗性的野生型可能至关重要。此外,我们需要预测哪些等位基因与抗性有关。GWA 研究是检测某些变异与植物病原体抗性关系的有力工具,有利于开发新的抗病原体品种。[35]

2007 年,Abasht 和 Lamont [36] 首次对鸡进行了 GWA 研究。该 GWA 用于研究之前发现的 F2 群体的肥胖性状。在 10 条染色体上发现了显著相关的 SNP(1、2、3、4、7、8、10、12、15 和 27)。

存在的问题

  1. 人群混杂(Population Stratification)是在大样本研究中导致假阳性、假阴性结果出现的重要原因之一[37]。使用分层分数法(Stratification-score approach)控制人群分层、运用统计分析手段控制人群混杂的影响、采用基于家系的关联研究均能够避免人群混杂对关联结果分析的影响。
  2. 解释基因-变异-环境因素之间的相互作用关系需要使用GWAS对更多微效的与疾病关联的基因变异进行研究。
  3. 数据共享是使用GWAS得到遗传标记与疾病确切关联的必要手段,尽管难度很大,但是在研究复杂疾病的遗传变异中能够发挥重要的作用。

参看

参考文献

  1. ^ Ikram MK, Sim X, Xueling S; et al. McCarthy, Mark I , 编. Four novel Loci (19q13, 6q24, 12q24, and 5q14) influence the microcirculation in vivo. PLoS Genet. October 2010, 6 (10): e1001184. PMC 2965750 . PMID 21060863. doi:10.1371/journal.pgen.1001184. 
  2. ^ Manolio TA. Genomewide association studies and assessment of the risk of disease. The New England Journal of Medicine. July 2010, 363 (2): 166–76. PMID 20647212. doi:10.1056/NEJMra0905980 . 
  3. ^ Pearson TA, Manolio TA. How to interpret a genome-wide association study. JAMA. March 2008, 299 (11): 1335–44. PMID 18349094. doi:10.1001/jama.299.11.1335. 
  4. ^ Genome-Wide Association Studies. National Human Genome Research Institute. 
  5. ^ Ozaki K, Ohnishi Y, Iida A, Sekine A, Yamada R, Tsunoda T, et al. Functional SNPs in the lymphotoxin-alpha gene that are associated with susceptibility to myocardial infarction. Nature Genetics. December 2002, 32 (4): 650–4. PMID 12426569. S2CID 21414260. doi:10.1038/ng1047. 
  6. ^ Klein RJ, Zeiss C, Chew EY, Tsai JY, Sackler RS, Haynes C, et al. Complement factor H polymorphism in age-related macular degeneration. Science. April 2005, 308 (5720): 385–9. Bibcode:2005Sci...308..385K. PMC 1512523 . PMID 15761122. doi:10.1126/science.1109557. 
  7. ^ GWAS Catalog: The NHGRI-EBI Catalog of published genome-wide association studies. European Molecular Biology Laboratory. [2017-04-18]. 
  8. ^ Klein RJ, Zeiss C, Chew EY,ect. Complement factor H polymorphism in age-related macular degeneration. Science, 2005, 308(5720): 385−389.
  9. ^ Samani NJ, Erdmann J, Hall AS, ect. Genomewide associationanalysis of coronary artery disease. N Engl J Med, 2007,357(5): 443−453.
  10. ^ 10.0 10.1 Herbert A, Gerry NP, McQueen MB, ect. A common geneticvariant is associated with adult and childhood obesity.Science, 2006, 312(5771): 279−283.
  11. ^ 11.0 11.1 Rosskopf D, Bornhorst A, Rimmbach C, ect. Comment on “A common genetic variant is associatedwith adult and childhood obesity”. Science, 2007,315(5809): 187: author reply 187.
  12. ^ 12.0 12.1 Frayling TM, Timpson NJ, Weedon MN, ect. A common variant in the FTO gene is associated with body mass index and predisposes to childhood and adult obesity. Science, 2007,316(5826): 889−894.
  13. ^ Saxena R, Voight BF, Lyssenko V, ect. Genome-wide association analysis identifies loci for type 2 diabetes and triglyceride levels. Science, 2007, 316(5829): 1331−1336.
  14. ^ Ubeda M, Rukstalis JM, Habener JF. Inhibition of cyclindependent kinase 5 activity protects pancreatic beta cells from glucotoxicity. J Biol Chem, 2006, 281(39): 28858−28864.
  15. ^ Foley AC, Mercola M. Heart induction by Wnt antagonists depends on the homeodomain transcription factor Hex. Genes Dev, 2005, 19(3): 387−396.
  16. ^ Samani NJ, Erdmann J, Hall AS, Hengstenberg C,ect. Genomewide association analysis of coronary artery disease. N Engl J Med, 2007, 357(5): 443−453.
  17. ^ Spielman RS, McGinnis RE, Ewens WJ. Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM). Am J Hum Genet, 1993, 52(3): 506−516.
  18. ^ Newton-Cheh C, Hirschhorn JN. Genetic association studies of complex traits: design and analysis issues. Mutat Res, 2005, 573(1-2): 54−69.
  19. ^ Sham PC, Cherny SS, Purcell S, Hewitt JK. Power of linkage versus association analysis of quantitative traits, by use of variance-components models, for sibship data. Am J Hum Genet, 2000, 66(5): 1616−1630.
  20. ^ Chanock SJ, Manolio T, Boehnke M, ect. Replicating genotype-phenotype associations. Nature, 2007, 447(7145): 655−660.
  21. ^ Muehlschlegel JD, Liu KY, Perry TE, Fox AA, Collard CD, Shernan SK, Body SC. Chromosome 9p21 variant predicts mortality after coronary artery bypass graft surgery. Circulation. September 2010, 122 (11 Suppl): S60–5. PMC 2943860 . PMID 20837927. doi:10.1161/CIRCULATIONAHA.109.924233. 
  22. ^ Paynter NP, Chasman DI, Paré G, Buring JE, Cook NR, Miletich JP, Ridker PM. Association between a literature-based genetic risk score and cardiovascular events in women. JAMA. February 2010, 303 (7): 631–7. PMC 2845522 . PMID 20159871. doi:10.1001/jama.2010.119. 
  23. ^ Couzin-Frankel J. Major heart disease genes prove elusive. Science. June 2010, 328 (5983): 1220–1. Bibcode:2010Sci...328.1220C. PMID 20522751. doi:10.1126/science.328.5983.1220.  
  24. ^ Ge D, Fellay J, Thompson AJ, Simon JS, Shianna KV, Urban TJ, Heinzen EL, Qiu P, Bertelsen AH, Muir AJ, Sulkowski M, McHutchison JG, Goldstein DB. Genetic variation in IL28B predicts hepatitis C treatment-induced viral clearance. Nature. September 2009, 461 (7262): 399–401. Bibcode:2009Natur.461..399G. PMID 19684573. S2CID 1707096. doi:10.1038/nature08309. 
  25. ^ Thomas DL, Thio CL, Martin MP, Qi Y, Ge D, O'Huigin C, Kidd J, Kidd K, Khakoo SI, Alexander G, Goedert JJ, Kirk GD, Donfield SM, Rosen HR, Tobler LH, Busch MP, McHutchison JG, Goldstein DB, Carrington M. Genetic variation in IL28B and spontaneous clearance of hepatitis C virus. Nature. October 2009, 461 (7265): 798–801. Bibcode:2009Natur.461..798T. PMC 3172006 . PMID 19759533. doi:10.1038/nature08463. 
  26. ^ Lu YF, Goldstein DB, Angrist M, Cavalleri G. Personalized medicine and human genetic diversity. Cold Spring Harbor Perspectives in Medicine. July 2014, 4 (9): a008581. PMC 4143101 . PMID 25059740. doi:10.1101/cshperspect.a008581. 
  27. ^ Roselli C, Chafin M, Weng L. Multi-ethnic genome-wide association study for atrial fibrillation.. Nature Genetics. 2018, 50 (9): 1225–1233. PMC 6136836 . PMID 29892015. doi:10.1038/s41588-018-0133-9. 
  28. ^ Ganapathiraju MK, Thahir M, Handen A, Sarkar SN, Sweet RA, Nimgaonkar VL, Loscher CE, Bauer EM, Chaparala S. Schizophrenia interactome with 504 novel protein-protein interactions. npj Schizophrenia. 2016-04-27, 2: 16012. PMC 4898894 . PMID 27336055. doi:10.1038/npjschz.2016.12. 
  29. ^ New Schizophrenia Study Focuses on Protein-Protein Interactions. psychcentral.com. May 3, 2016 [April 22, 2023]. (原始内容存档于January 11, 2020). 
  30. ^ Ganapathiraju M, Chaparala S, Lo C. F200. Elucidating The Role of Cilia in Neuropsychiatric Diseases Through Interactome Analysis.. Schizophrenia Bulletin. April 2018, 44 (suppl_1): S298–9. PMC 5887623 . doi:10.1093/schbul/sby017.731. 
  31. ^ Johnson EC, Border R, Melroy-Greif WE, de Leeuw CA, Ehringer MA, Keller MC. No Evidence That Schizophrenia Candidate Genes Are More Associated With Schizophrenia Than Noncandidate Genes. Biological Psychiatry. November 2017, 82 (10): 702–708. PMC 5643230 . PMID 28823710. doi:10.1016/j.biopsych.2017.06.033. 
  32. ^ Willi Y, Kristensen TN, Sgrò CM, Weeks AR, Ørsted M, Hoffmann AA. Conservation genetics as a management tool: The five best-supported paradigms to assist the management of threatened species. Proceedings of the National Academy of Sciences of the United States of America. January 2022, 119 (1): e2105076119. Bibcode:2022PNAS..11905076W. PMC 8740573 . PMID 34930821. doi:10.1073/pnas.2105076119 . 
  33. ^ Turuspekov Y, Baibulatova A, Yermekbayev K, Tokhetova L, Chudinov V, Sereda G, et al. GWAS for plant growth stages and yield components in spring wheat (Triticum aestivum L.) harvested in three regions of Kazakhstan. BMC Plant Biology. November 2017, 17 (Suppl 1): 190. PMC 5688510 . PMID 29143598. doi:10.1186/s12870-017-1131-2 . 
  34. ^ Zhao K, Tung CW, Eizenga GC, Wright MH, Ali ML, Price AH, et al. Genome-wide association mapping reveals a rich genetic architecture of complex traits in Oryza sativa. Nature Communications. September 2011, 2 (1): 467. Bibcode:2011NatCo...2..467Z. PMC 3195253 . PMID 21915109. doi:10.1038/ncomms1467. 
  35. ^ Bartoli C, Roux F. Genome-Wide Association Studies In Plant Pathosystems: Toward an Ecological Genomics Approach. Frontiers in Plant Science. 2017, 8: 763. PMC 5441063 . PMID 28588588. doi:10.3389/fpls.2017.00763  (英语). 
  36. ^ Abasht B, Lamont SJ. Genome-wide association analysis reveals cryptic alleles as an important factor in heterosis for fatness in chicken F2 population. Animal Genetics. October 2007, 38 (5): 491–498. PMID 17894563. doi:10.1111/j.1365-2052.2007.01642.x. 
  37. ^ YAN Wei-Li, GU Dong-Feng. Issues on association studies on complex disease. Acta Genetica Sinica, 2004, 31(5): 533−537.