正文
不同于单一物种的基因组研究,宏基因组研究以环境样品中全部微生物基因组为研究对象,其丰富的物种多样性成为宏基因组研究的难点。
16S rRNA基因扩增子测序方法
以分类学标记基因为基础,能够
鉴定样品中存在的微生物种类,研究微生物与疾病之间的关系。
其中,16S rRNA基因扩增子测序相关的研究表明,
肠道菌群失调可能是许多疾病的关键因素
。
然而,该方法产生的数据在低层次的物种分类水平上缺乏一定的分辨能力,加上其产生的数据缺乏功能水平的信息,此方法应用范围有限。
而随着2代测序技术的发展,
宏基因组鸟枪法测序技术
能够
对微生物群落中全部DNA序列进行描述
,
提供所有物种分类水平和功能通路上的基因丰度的信息
,为宏基因组学相关研究的开展提供了技术支持。
宏基因组研究中以基因谱、物种谱和功能谱来描述微生物组,下游分析均以此为基础展开。
如果想让不同样品的基因丰度具有可比性,一个统一且完整的参考基因集显得尤为重要。
2010年,以 MetaHIT 计划为背景,覃俊杰
2
等人
建立了第一个人体肠道菌群非冗余参考基因集
:从124个欧洲人肠道菌群中鉴定到3.3M个微生物基因,是人类基因集的300倍。
【非冗余基因集去除了不同菌种之间的冗余基因以及不同样品之间共有的冗余基因。】该基因集
包含了该人群队列中绝大多数的肠道微生物基因,并且大部分基因在人群中共有
;此外,该研究证实了在宏基因组研究中,短序列可以用于复杂环境中基因的鉴定;并通过对肠道宏基因组和肠细菌基因组进行功能分析,为宏基因组研究确定了基本的研究思路。
在此之后,大多数人类肠道微生物研究都基于参考基因集数据库进行。
但由于数据库构建方法以及样本来源的地域差异,不同的横向研究结果难以比较。2014年,李俊桦
3
等人根据来自三个大洲、共1267个人体肠道微生物样本,结合511个肠道相关的原核生物基因组信息,
构建了一个包含约9.9M个基因的高质量人类肠道微生物基因集数据库(Integrated genecatalog, IGC)
(图1)。
该数据库包含了绝大多数肠道微生物的基因。
以此数据库为基础,该团队发现中国和丹麦人群样本的肠道菌群在物种组成和功能组成上均存在显著差异,
表明地域差异可能造成肠道菌群特征的差异。
2016年,谢海亮
4
等人
对已有的9.9M IGC基因集进行了进一步更新。
他们通过对250名英国成年双胞胎进行粪便菌群宏基因组测序,鉴定到约5.9M个非冗余基因,与9.9M IGC 基因集整合后建立了综合性的肠道菌群参考基因集,发现约11.4M个基因。
非冗余参考基因集的构建和完善为大规模宏基因组研究的开展奠定了基础。
图1 9.9M非冗余参考基因集构建流程