2022-04-01 完整人类基因组首次被破译
自 2000 年首次发布以来,人类参考基因组仅涵盖基因组的常染色质部分,而重要的异染色质区域尚未完成。
2022年3月31日,端粒到端粒 (T2T) 联盟在
Science
在线发表题为“ The complete sequence of a human genome
总之,与过去 20 年的任何基因组参考版本相比,T2T-CHM13 组装增加了五个完整的染色体臂和更多的额外序列。这 8% 的基因组并没有因为缺乏重要性而被忽视,而是因为技术限制。高精度长读长测序终于消除了这一技术障碍,能够对整个人类基因组的基因组变异进行全面研究,预计这将推动人类基因组健康和疾病的未来发现。
另外,2022年4月1日,约翰霍普金斯大学Sergey Aganezov等人在
Science
在线发表题为“ A complete reference genome improves analysis of human genetic variation
2022年4月1日,华盛顿大学Mitchell R. Vollger等人在
Science
在线发表题为“ Segmental duplications and their variation in a complete human genome
2022年4月1日,加州大学伯克利分校Nicolas Altemose等人在
Science
在线发表题为“ Complete genomic and epigenetic maps of human centromeres
2022年4月1日,康涅狄格大学Savannah J. Hoyt等人在
Science
在线发表题为“ From telomere to telomere: The transcriptional and epigenetic state of human repeat elements
2022年4月1日,约翰霍普金斯大学Ariel Gershman等人在
Science
在线发表题为“ Epigenetic patterns in a complete human genome
当前的人类参考基因组由基因组参考联盟 (GRC) 于 2013 年发布,最近一次修补是在 2019 年 (GRCh38.p13)。该参考基因组可追溯到人类基因组计划 ,并且在过去的二十年中不断改进。与竞争的 Celera 和大多数基于“猎枪”序列组装的现代测序项目不同,GRC 组装是由通过辐射沿人类基因组排序和定向的测序细菌人工染色体 (BAC) 构建的杂交、遗传连锁和指纹图谱。然而,BAC 克隆的局限性导致重复序列的代表性不足,并且来自多个个体的 BAC 的机会性组装导致了单倍型的镶嵌。结果, 几个 GRC 组装间隙由于其侧面不兼容的结构多态性而无法解决,并白熊资讯网且许多其他重复和多态性区域未完成或组装不正确。
GRCh38 参考组装包含 151 兆碱基对 (Mbp) 的未知序列,分布在整个基因组中,包括着丝粒周围和亚端粒区域、扩增基因阵列和核糖体 DNA (rDNA) 阵列,所有这些都是基本基因组细胞过程所必需的。一些最大的参考缺口包括人类卫星(HSat)重复阵列和所有五个近端着丝粒染色体的短臂,它们在 GRCh38 中表示为未知碱基的多兆碱基延伸。 尽管人类基因组计划和 GRC 都完成了提高参考质量的努力,但在随后的几年中缩小剩余差距的进展有限。
长读长鸟枪法测序克服了基于 BAC 的组装的局限性,绕过了基因组之间结构多态性的挑战。PacBio 的多千碱基单分子读取被证明能够解决 GRCh38中的复杂结构变异和间隙,而 Oxford Nanopore 的 >100-kbp “超长”读数能够完整组装人类着丝粒(染色体 Y),然后是组装整个染色体(染色体 X)。然而,这些技术的高错误率 (>5%) 对长的、几乎相同的重复阵列的组装提出了挑战。PacBio 最新的“HiFi”循环共有测序提供了 20-kbp 读取长度的折衷方案,错误率为 0.1%。
测序覆盖率和组装验证(图源自
Science
)
为了完成基因组的最后剩余区域,该研究利用 PacBio HiFi 和 Oxford Nanopore 超长读长测序的互补方面来组装一致的纯合 CHM13hTERT 细胞系(以下简称 CHM13)。由此产生的 T2T-CHM13 参考组装消除了一个 20 年前的屏障,该屏障隐藏了基于序列的分析的 8% 的基因组,包括所有着丝粒区域和五个人类染色体的整个短臂。在这里,该研究描述了一个真正完整的人类参考基因组的构建、验证和初步分析,并讨论了它对该领域的潜在影响。
该研究针对剩余 8% 的基因组,提供了人类基因组的完整 30.55 亿碱基对序列 T2T-CHM13,其中包括除 Y 之外的所有染色体的无间隙装配,纠正了之前的参考序列,并介绍了近 2 亿个碱基对序列,其中包含 1956 个基因预测,其中 99 个预测为蛋白质编码。 完成的区域包括所有着丝粒卫星阵列、最近的节段重复和所有五个近端着丝粒染色体的短臂。
总之,与过去 20 年的任何基因组参考版本相比,T2T-CHM13 组装增加了五个完整的染色体臂和更多的额外序列。这 8% 的基因组并没有因为缺乏重要性而被忽视,而是因为技术限制。高精度长读长测序终于消除了这一技术障碍,能够对整个人类基因组的基因组变异进行全面研究,预计这将推动人类基因组健康和疾病的未来发现。
参考消息:
https://www.science.org/doi/10.1126/science.abj6987
https://www.science.org/doi/10.1126/science.abl3533
https://www.science.org/doi/10.1126/science.abj6965
https://www.science.org/doi/1HTaZm0.1126/science.abl4178
https://www.science.org/doi/10.1126/science.abk3112
https://www.science.org/doi/10.1126/science.abj5089
温馨提示:本文转自“iNature”,文章转载只为学术传播,无商业用途,版权归原作者所有,如涉及侵权问题,请联系我们,我们将及时修改或删除。
TOPSCI-拓普思由世界知名大学博士团队加HTaZm盟打造的科研学术分享,SCI论文编辑/SCI期刊解析/SCI论文写作技巧指导/科研工具运用/科研成果转化等。
内容版权声明:除非注明原创否则皆为转载,再次转载请注明出处。
文章标题: 2022-04-01 完整人类基因组首次被破译