正文
不只是解读生物密码,我们还可以利用这些生物密码自己写或者设计新的密码。
Jorge:工程学、生物学和计算机科学结合在一起时,可以将生物领域提升为“读/写”的整合范例。也就是说,我们不仅可以解读生物密码,还可以自己写或者设计新的密码,从基因组学着手;“读”生物密码已经在以前所未有的速度和规模发展。约10年前,我初入这一领域,新一代基因测序才刚开始流行。第一代利用“桑格测序法”将某一基因组或基因分离出来,放到特定区域,然后解读出其生物密码——A-C-G-T四个构成基因组的碱基。但是这种方法的效率非常低:因为人类基因组中有30亿个碱基!这就意味着我们需要处理成千上万的碱基序列。新一代基因测序平台的目的就是让我们能更精准的测序却不用花更多的钱。更重要的是,现在我们只需一天左右就能生成这些数据。这点肯定是科学不能比的。
a16z:所以,基因组学上的摩尔定律比起计算机上的速度甚至更快。我们以前谈到过这个现象,你现在是对它特别感兴趣吗?
Jorge:对我来说,创业者和创业公司最吸引人的地方是:我们已经从专注基因组学(DNA的A,C,T,G密码)的“单镜头”生物观转向了“多镜头”……也就是说,各种生物信号——DNA、RNA表达水平、蛋白质组——都将更为多维,处理率也更高。我们可以将所有镜头整合在一起,从疾病生物学的角度更清晰的展现出来。
我从中发现遗传学或者说基因组学是个非常迷人且朝阳的领域。如果你认为DNA是遗传“源代码”,“细胞程序”是不同细胞表达出来的基因序列,那么基因组学通常关注点在于如何将这些特定的的基因表达水平控制在不同细胞类型中——主要是特定细胞所仰赖的源代码具体组成部分。理解了这一点可以帮助我们在正常细胞的发育以及病变过程发现很多东西。不一定要破坏代码;也可以出于种种原因修改原细胞程序。
需要指出的另一点是,我们正开始以高分辨率来完成所有工作。这点非常重要,因为基因组学和很多其他组学应用的信号分辨率非常低,基本上相当于大海捞针。以无创产前检查为例,胎儿的细胞比母亲要少得多。肿瘤实际上是由一个异质性癌细胞群组构成,将其中每个细胞分离出来研究可以更清楚地看到一些东西。以前的我们其实不是在给某个基因组测序,只是在给从病人样本中提出的数百万基因组的平均值测序。
a16z:嗯,多种镜头,单个细胞。那机器学习用在哪儿呢?
Vijay:对于Jorge描述的那些“高分辨率”趋势,这里还有另外一个非常有趣的研究角度——机器学习现在已经能完美译出基因组了。那些分析二维图像的计算机?嗯,一个基因组就好比一张图片,只不过它是一个一维像素网格。而且,正如卷积神经网络并不反映图片里物体的位置(“平移不变性”),它也不反映DNA链的位置。但是机器学习却能帮你定位搜索。
Jorge:是的,如果应用这些为疾病生物学提供了新视角的新技术,我们其实可以“反卷积”很多我们以前做不到的事情。我们过去只是暂时没有从各种数据流中获得有用信息的分析能力;而且生物非常复杂,我们不可能真正看透它。
它具有深刻的现实意义:例如,在Syros工作期间,我们发现,对比观察一个正常细胞及其病变细胞,可以在以不同细胞类型表现出来的微分基因组中发现它们之间的差别。有时并没有引起疾病的突变基因——不仅是基因组出错——也是细胞运行了错误程序,遗传学在这里再次派上了用场。疾病生成时,基因不只像电灯的开关,它更像一个调光器,亮度可高可低。那又是什么导致健康细胞发展成病变细胞且不受控制地增殖,或者休眠免疫细胞突然激活自身免疫性疾病呢?了解细胞内基因组如何排列或调节成了帮我们为特定病人寻找合适药物,并制定适当剂量和最佳服用时间的新途径。