正文
denovo
:其实我的专业准确的说是统计遗传学,属于生物统计学的一个小分支。我们主要是对于遗传学,尤其是人类遗传学的数据,进行统计分析,来找出其中有意义的特点。同时也要针对遗传学的特性,开发新的统计方法。举个例子说吧,我现在分析的是人类基因组数据,主要是和疾病相关的。现在大家关注的焦点是复杂疾病,也就是非单基因引起的疾病,通常这些疾病的发生同时受到多种因素,包括不同基因和不同环境因素的影响。对于单基因遗传病来说,已经有一套成熟的遗传方法,在不清楚病理基础的情况下也可以从基因组里成千上万的基因中找出致病的位点,不过因为单基因遗传病有很大的选择压力(生病的个体容易被选择掉所以在人群中的比例会降低),所以病的种类不多,影响范围也么有那么大,现在能找到的单基因病都被解决掉啦,做单基因遗传病的最大难题已经不是方法,而是再找到一个罕见的疾病……
复杂疾病就不一样,因为有多个基因以及环境因素的参与,单个基因受到的选择压力比较小,所以发病几率高,解决的意义更大。但是也正因为有多个因素参与,每个因素和疾病之间的关系就不那么稳定,比较难找出致病基因——现在也不叫致病基因了,叫做“易感基因”(predisposing gene),就是你有某个基因型,会比没有的人有更高的得病几率。因此,我们需要更新,更强大,更敏锐的统计方法来分析实验数据,尽可能找出这些基因来。
从操作上讲,我们收集某种特定复杂疾病(糖尿病,阿尔兹海默氏症等等)的病人和对应的健康对照组,比较他们基因组的异同,通过统计的方法,找出在病人中比例显著高于在健康人中比例的那些基因型,为后续的生化研究提供备选基因。生化和分子生物学研究是最终确定性的环节,但是因为这些方法目前基本还处于比较小规模研究的阶段(时间,资金都有限制),不可能像遗传学一样进行超大规模筛选,所以我们如果能够提供可靠的备选基因,是非常有意义的。
我本科就学生物,毕业论文做的发育遗传学方向,当时觉得这个方向国内做的人很少,学院也没有这方面的课程,所以一门心思想读个研究生,纯洁地期待将来回学校开这门课,让学生们可以接触到这个有意思的方向,汗……
研究生我申请到了一个“遗传与发育生物学系”,结果第一年上课和尝试不同实验室后,又觉得遗传更有意思,就选了人类遗传的实验室——系里唯一一个……
做人类遗传的项目需要很多统计知识进行数据处理,所以我又去上统计课,并且接触到统计遗传学,博士论文算是半实验半理论的。现在人类遗传学的测序等方法都有很多企业在做,大多数时候其实可以把实验部分外包给公司,自己专心分析数据,提取出其中有用的信息,所以博士毕业后我就选择到了一个统计遗传学的实验室做博士后。
Melip
al
:俗套问题,今年在你这个领域内,比较重要的工作有哪些?
denovo
:从去年到今年,本领域最热门的话题都是“个人基因组”(personal genome)。去年,DNA双螺旋结构提出者之一,遗传学界的权威沃森(James D. Watson),以及short-gun测序方法的发明人,遗传学界的传奇叛逆人物文特(J. Craig Venter),先后获得了他们的全基因组序列并且向社会公开,任何人都可以使用这些序列资源做研究。今年11月的《自然》杂志上又同时发表了两篇论文,一篇是去年10月中国华大完成的“炎黄一号”,也就是第一个中国人的全基因组序列测量,另一篇则是今年2月Illumina公司完成的第一个非洲人的全基因组序列测量。测量一个全基因组的时间从沃森所耗费的几个月下降到非洲人的几个星期,资金投入也从几百万美金下降到10万美金左右(而且美元还在看跌!哦也)。所有人都在期待这个时间和资金进一步降低,让遗传学研究进入“全基因组时代”。
这十年来,因为新方法和技术的迅速发展,遗传学对人类全基因组的研究能力已经提高了几个数量级,从最开始采用300多个“微卫星标记”(microsatellite markers),到几百万个“单核苷酸多态性”(SNP),直到上面所说的全基因组测序,也就是直接测量人类基因组中的所有30亿个核苷酸。事实上,使用数百万“单核苷酸多态性”来研究人类全基因组的方法才开发几年,广泛应用在复杂疾病上并且产生研究成果——也就是发表的学术论文——不过才是今年的事,世界变化之快实在令人震惊。
全基因组测序与这个方法相比的优势主要有两点,一个是可以直接测量每个位点,提高统计功效,理论上来说更容易筛选出易感基因(不过实际操作有很多复杂之处);另一个就关系到这两年的另一个研究热点:结构异型(structural variation,我不确定这个翻译是否通用)。简单地说,以前我们主要是研究单个核苷酸或者一些比较小型的插入/删除位点,前两年有人发现,其实基因组中存在很多更大的插入/删除事件,并且可能重复发生,造成某段DNA序列在不同人体内有不同的数目,比如说你身上只有一个,我却有四五个。学界为此十分激动,因为这提供了一个全新的视角,引起疾病易感性的可能不是单纯的有/无某个基因型,也可能是多/少的差别。如果能够做全基因组测序,我们就不会错过任何一个结构异型。
Meli
pal
:与基因有关的疾病能在所有疾病中占多少比例?看你前几个问题的回答,是不是说以后如果基因测序可以普及,人们就可以了解自己有没有某些易感基因,然后针对某些疾病进行必要的防范?
denovo
:我不知道该怎么计算这个比例,这样吧,我举一些复杂遗传疾病的例子:哮喘、糖尿病、阿尔兹海默症、癌症、心脏病、高血压、肥胖症、自闭症、精神分裂症、抑郁症……这里要注意的是,说他们是遗传疾病并不需要知道其确切的易感基因,遗传学有一套比较完备的观察方法(家庭研究、孪生子研究以及领养研究)来确定某个疾病是否有遗传因素存在。
你后面这个问题,就是人们对我上面提到的“个人基因组”如此热衷的原因之一。理论上来说,如果全基因组测序得到普及,你就可以将自己的基因组与所有已知易感基因型比较,从而了解自己得某种疾病的风险,然后进行必要的防范,包括基因治疗和对于环境因素的控制。不过对于复杂疾病来说,基因治疗并不实际,控制环境因素更重要,比方说你知道自己得肺癌的几率较高,就一定要戒烟。
但是实现这个美好愿望有一个前提,那就是我们已经发现了大量易感基因。但事实上,在复杂疾病的研究上,我们目前都还是在摸索,并没有大的突破,只有少量疾病的少量易感基因已经被确切定位,比如说阿尔兹海默症(Alzheimer's disease,以前被称为老年痴呆症,现在因为这个名字政治不正确已经被改掉了)的ApoE。很多疾病的“易感基因”确实有一些研究支持,但是也还很有争议。美国已经有一家公司在开发躁狂型抑郁症(bipolar disorder)的遗传测试方法,这件事引发了一场不小的争论,研究者认为这是一种相当不负责任的行为,因为目前躁狂型抑郁症虽然有一堆“易感基因”被报道,却没有一个得到公认;然而病人家属和一些医生却坚持说,只要有可能的测试方法存在,不需要多么精确,就可以对他们有帮助。