首页   

Nature Plants | 浙江大学樊龙江团队开展植物基因组测序与组装技术分析并建立N3数据库

生信宝典  ·  · 1 月前


植物基因组学研究为植物基因功能、群体遗传、进化和育种研究提供了重要基因组数据资源。近日,浙江大学樊龙江教授课题组在国际知名期刊Nature Plants发表了题为“Technology-enabled great leap in deciphering plant genomes”文章,开展了植物基因组测序与组装技术分析,并建立了N3数据库。

Xie, L., Gong, X., Yang, K. et al. Technology-enabled great leap in deciphering plant genomes. Nat. Plants (2024). https://doi.org/10.1038/s41477-024-01655-6

该研究系统收集并分析了自2000年(第一个植物基因组发表)以来测序组装完成的高质量植物基因组,合计包括来自1,575个物种的3,517个基因组。这些测序完成的基因组中,2/3的基因组(2,373个)和1/2的植物物种(793个)是在最近三年(2021-2023)完成的,相比于前20年(2000-2020)呈现出了一个巨大飞跃(图1)。该研究系统分析了完成这些基因组的测序技术和组装算法及其变迁。测序和拼接技术的进步推进了近期植物基因组学研究的快速发展。为了更全面地展示测序物种信息,并提供有关测序技术和组装算法应用情况,他们搭建了N3数据库(N3: plants, genomes, technologies),提供了现有3,517个植物基因组的详细信息,包括测序平台、组装质量、组装工具、可用基因组及其注释文件的下载链接等。该数据库为植物基因组学研究提供了重要资源和支撑。

图 1 | 植物基因组测序拼接和组装质量情况

近三年来,除了测序基因组数量的激增,植物基因组的组装质量也在迅速提高。拼接达到染色体水平的基因组比例从前20年的47.3%增长为近三年的73.2%,平均contig N50大小从1.44 Mb增长到11.92 Mb。近三年组装的2,373个基因组涵盖了植物界物种的主要分支(目),同时大量研究致力于更高质量基因组的组装,例如单倍型基因组,泛基因组和端粒到端粒(T2T)基因组(图2)。目前已有63个植物基因组达到T2T高质量组装。植物基因组学研究离不开世界各国科学家的共同努力,其中来自中国和美国的科学家完成测序组装的基因组最多,中国贡献比例从前20年的35.3%上升到近三年的61.8%,在基因组学领域再次体现了中国力量。

图 2 | 植物系统发育及其各主要分支(目)基因组测序物种数量及其相关拼接质量指标。红色表示该目物种为最近三年内才被测定,灰色表示该分支内尚无物种被测序。

测序技术平台的发展,其在读长、通量、准确性和成本方面的提升都显著促进了高质量、高复杂度植物基因组的获得。在近三年组装的基因组中,94.0%的基因组均利用了三代测序(TGS)技术,已占据主导地位,6.0%的基因组仅使用二代测序(NGS)数据进行拼接。其中三代HiFi数据在2022年的使用比例激增,2023年已达到35.1%。组装算法的创新也为获得更完整的复杂基因组提供了机会。算法革新促进了基因组组装三个关键步骤(contig assembly、polishing和 scaffolding)相关软件工具的开发(图3)。文章详细分析了组装三个阶段的不同特点,统计分析了每个阶段最常使用的软件并详细阐述了其算法的迭代过程。例如基因组拼接步骤,其算法最初是基于测序读序重叠区联配延伸的OLC算法为主,NGS数据出现后德布鲁因图(de Bruijn graph)算法成为主流算法(如SOAPdenovo和Velvet),而随着TGS数据的出现,由于测序读序变长,OLC算法(如Canu)重新换发活力,同时串图(string graph)算法(Hifiasm,Falcon和NextDenovo)可以利用长读序优势,同样成为主流算法。

图 3 | 植物基因组组装三个阶段中最常使用的生物信息学工具/算法及其变迁

该研究搭建的N3数据库,提供了1,777篇植物基因组相关论文的元数据,涵盖来自1,575个物种的3,517个植物基因组的详细信息。N3数据库还从目前测序完成的91个目中选择了91个具有代表性物种基因组及其基因注释集,提供BLAST搜索和JBrowse基因组浏览等功能。该数据库目前包括五个模块(“Statistics”, “Search”, “Pan&T2T”, “Tools”和“Links”),为广大研究人员提供了一个及时跟踪获取已测序的植物基因组详细信息的综合平台。

图 4 | N3 数据库概览

植物界已知存在50万个不同物种,大多数物种的基因组具有高重复、高杂合和多倍体等复杂特征。虽然目前已测序完成了约1500个物种,但这仅仅是冰山一角,许多不同类型(目)植物甚至还没有一个参考基因组(图2),植物基因组学研究任重道远。但伴随着测序技术和组装算法的不断创新,更多类型更高质量更大更复杂的基因组将被测序,植物生物学研究必将迎来更大发展机遇。
浙江大学农业与生物技术学院和海南研究院博士生谢玲娟、硕士生龚晓娇为论文共同第一作者,樊龙江教授为通讯作者。澳大利亚CSIRO朱乾浩研究员参与了该研究。项目研究得到了浙江省科技厅和海南省科技厅的支持。
樊龙江教授团队长期在植物基因组及其演化和环境适应方面开展研究,近年来在植物基因组和泛基因组方面取得了系列成果,分别在Nature Ecology & Evolution、PNAS、Molecular Plant、Nature Communications、Genome Biology等刊物上发表相关论文。

NAR | 整合药用植物组学平台 IMP中文教程(基因组更新到 466 个植物)


高颜值免费 SCI 在线绘图(点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习



推荐文章
JavaScript  ·  来自BAT前端架构师的一封信  ·  5 年前  
LoneSchicksal  ·  吹着帝京的寒风~ 多想眼前的路没有终点 ...  ·  5 年前  
© 2022 51好读
删除内容请联系邮箱 2879853325@qq.com