七年前,千人基因组计划(1kGP)发布了一项开放获取资源,该资源主要基于来自世界五个大陆地区的26个人口的2,504名个体的低覆盖全基因组测序(WGS)数据,使其成为第一个大型规模WGS努力提供人类遗传变异目录。
现在,纽约基因组中心(NYGC)的研究人员与马萨诸塞州总医院、耶鲁大学和人类基因组结构变异联盟(HGSVC)的小组合作,扩展了1kGP资源,以包括几乎所有的亲子三人组。该集合与原始样本一起,并使用IlluminaNovaSeq仪器对它们进行了高覆盖率的测序。该研究发表在Cell上,对扩展的1kGP队列中的高覆盖率WGS数据进行了全面分析,该队列现在由3,202个样本组成,其中包括602个三重奏。
“1000基因组计划队列是如此宝贵的资源,我们认为使用最新版本的短读长技术更新测序,同时增加先前遗漏的家庭样本的丰富性,这对社区很有用,”NYGC计算生物学科学主任、该研究的资深作者MichaelZody博士解释说。
NYGC的研究人员使用最先进的方法和算法,对来自扩展队列的淋巴母细胞系(LCL;即外周血中的永生化人类B细胞)衍生的DNA进行测序,达到30倍基因组覆盖的目标深度。接下来,该小组执行了单核苷酸变异(SNV)和短插入和缺失(INDEL)调用,其中包括从与人类基因组参考相关的序列数据中识别变异位点,并对队列中所有样本中发现的变异位点进行基因分型.
此外,哈佛医学院、布罗德研究所和马萨诸塞州总医院的MichaelTalkowski博士小组与耶鲁大学和华盛顿大学医学院的IraHall博士小组以及HGSVC合作,发现并通过整合多种分析方法,对3,202个1kGP样本中的一组全面的结构变体(SV)进行基因分型。
总体而言,该研究显示变异调用的发现能力和精度都有显着提高,特别是在罕见的SNV以及跨越频谱的INDEL和SV中,这些都是以前通过低覆盖测序无法访问的。
原始1kGP资源的一个重要方面是它用作变异插补的参考面板,即基于从参考学习的群体中通常一起遗传的变异分组,对稀疏、基于阵列的样本中未观察到的基因型进行统计推断小组,促进了许多全基因组关联研究(GWAS)。现在,随着原始资源的扩展,该团队升级了参考插补面板,以包括通过高覆盖率WGS和trio家族发现的更多变体。
“新的插补面板包括更多位点,尤其是更多常见的INDEL和SV,从而扩大了GWAS可访问的变体数量,鉴于非SNV变异的影响大小,很可能能够发现新的遗传关联,帮助查明致病变异,”NYGC高级生物信息学科学家、该研究的共同第一作者MartaByrska-Bishop博士解释说。
所有原始序列数据和变异调用集在测序完成后立即通过几个基因组数据存储库向公众发布,包括由欧洲分子生物学实验室欧洲生物信息学研究所的合著者维护的国际基因组样本资源(IGSR)(EMBL-EBI)。
“我们的目标是让这一公共资源成为未来人口遗传学研究和方法开发的基准,”马萨诸塞州总医院基因组医学中心博士后研究员赵雪芳博士补充道,该研究的共同第一作者。
这些数据已经引起了遗传学和基因组学界的兴趣。由于1kGP样本的完全开放获取性质,这种情况可能会持续数年,与大多数新兴的WGS工作不同,这些样本已获准在没有访问或使用限制的情况下公开分发遗传数据。