专栏名称: 知识分子
《知识分子》是由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,致力于关注科学、人文、思想。我们将兼容并包,时刻为渴望知识、独立思考的人努力,共享人类知识、共析现代思想、共建智趣中国。欢迎关注。
目录
相关文章推荐
科学世界  ·  又一年!北京国际图书博览会 ·  5 小时前  
科普中国  ·  下潜到6000米的深海,能看到什么? ·  2 天前  
混沌巡洋舰  ·  《智能简史- 进化、AI与人脑的突破》的20个金句 ·  2 天前  
51好读  ›  专栏  ›  知识分子

要警惕精确医学的“白象”陷阱 | 吴家睿专栏

知识分子  · 公众号  · 科学  · 2017-03-09 06:59

正文

请到「今天看啥」查看全文



在美国“精确医学先导专项”的研究方案中,不仅计划对这些个体进行基因组序列分析,而且还计划开展转录组、蛋白质组和代谢组等各种类型生物分子的分析。需要强调的是,不同于恒定不变的基因组DNA序列、RNA和蛋白质及代谢小分子在体内不同组织或者不同条件下发生着不同的变化。即使研究者只限于对个体的血液样本中这些不同种类分子进行组学分析,其组学分析的费用肯定不会比测序便宜,1000美元是不够的。由于该先导专项预定对这百万人群至少要进行10年的追踪。即使每年对每一个体只进行一次各种组学的检测,10年下来1百亿美元都明显不够用。更何况一年一次的检测不能称为精确,最少也应该半年检测一次。此外,“精确医学先导专项”还计划采用可穿戴设备检测个体的生理变化和体能活动,并研究环境暴露是如何影响个体的健康。 因此,不仅仅生物学方面的组学检测需要花费很大,在个体的行为分析和环境分析等方面也需要很大的投入。


美国政府计划花多少钱来开展这个“精确医学先导专项”?目前关于专项10年所需要的总经费还没有一个明确的说法。根据该专项2015年发布的工作报告,2016财政年度将由4个政府部门提供2.15亿美元的研究经费,其中NIH提供1.3亿,国立癌症研究所 (NCI) 提供7千万,美国食品药品管理局提供1千万,国家项目协调办公室提供5百万 [3] 。笔者注意到,这些钱不仅用来支持百万人群队列研究,还用来支持了其它非队列的研究,如NIH的一部分经费和NCI的经费将被用来开展肿瘤治疗方面的研究 [3] 。显然,用这样的一点小钱来做这样一个宏伟的研究计划肯定是不够的。 事实上,针对招募百万志愿者作为研究队列这样一个“精确医学先导专项”的核心任务,项目的设计者就已经在想节约费用的招数了,比如在在招募志愿者时优先挑选已经拥有电子健康档案的美国人;这些人将主要来自保健服务组织 (Healthcare Provider Organizations,HPOs) 如凯萨医疗机构的健康研究项目和退伍军人健康管理局的百万老兵项目等 [3] 。可以说,美国的精确医学计划目前只是处在一个“雷声大、雨点小”的阶段。



大数据需要大设施


人类基因组计划最初设定的核心目标只是要认识人体基因组全部30亿个碱基序列的排列顺序。为此,研究者花了30亿美元和近15年的时间才完成了该计划。但是,目前的测序技术已今非昔比,当今世界最高通量的测序仪 (Illumina公司的HiSeq X 10) 1年可以完成超过1.8万人的基因组测序工作,而每个基因组的花费只不过是区区1000美元。在这样发达的测序技术支撑下,人类基因组计划进入到了个体基因组测序阶段,要揭示人群中不同个体的基因组序列差别。美国2008年牵头启动了“千人基因组计划”,英国2014年也启动了“十万人基因组计划”。在不到10年的时间里,生物学数据库储存的个人基因组序列已达到百万人级的规模。一个人的基因组有30亿个碱基对,对应于一个3GB (1 GB = 10 9 Byte) 的数据集;因此,基因组测序工作的快速发展使得基因组数据量近几年以指数级的速度在增长;在2015年之后,基因组数据每7个月就能翻一番。


基因因组序列数据只是组学数据的一部分,转录组、蛋白质组和代谢组等各种组学研究都会产生大量的数据;例如,在一篇人类蛋白质组研究论文中,作者专门指出,该项研究需要用2 TB (1 TB = 10 12 Byte) 的内存和50 TB的硬盘作为数据分析的基本配置 [4] 。美国斯坦福大学科学家M.Snyder对自己进行了连续14个月的表型监测和血液样本分析,获得了表型组谱、基因组序列、转录组表达谱、蛋白质组表达谱和代谢组表达谱等单一个体的“多组学”数据,其数据量就已经达到了50 GB [5] 。按照美国“精确医学先导专项”设计者的构想,该专项的核心任务就是收集1百万人群队列的生物学、行为学和社会学方面的数据;大家可以想像一下该项目的数据量将会有多大。事实上,仅仅2015年一年时间,生物医学研究产出的数据估计就已经高达500 PB (1 PB = 10 15 Byte)


生物学大数据的获取只是“万里长征迈出的第一步”;大数据的存储、管理、分析和共享等依然面临着诸多的挑战。 “癌症基因组图集” (The Cancer Genome Atlas,TCGA) 是NIH在2006年牵头启动国际癌症基因组项目,针对50种不同类型的肿瘤,每种肿瘤采集500份样品进行基因组测序研究。TCGA项目在2014年底宣告完成,共产生了20PB的肿瘤基因组数据。这个肿瘤基因组数据库如此之大,只有那些具有超级计算能力的研究机构才有可能“玩得转”。即使是具备了强大的计算能力的科研单位,仅仅下载这些数据就需要花上4个月的时间;而按照美国一所普通大学的网络能力,则需要15个月以上的时间才能够下载完这些数据。


早在1988年决定要启动人类基因组计划之际,美国政府就已经意识到,需要建立保存和处理生物学大数据的大科学设施,于是以NIH的基因库 (GenBank) 为基础建立了美国国家生物技术信息中心 (NCBI) ;欧盟随后于1992年也在英国组建了欧洲生物信息研究所 (EBI), 它们与 在此之前日本建立的DNA数据库 (DDBJ) ,形成了三大国际生物学大数据中心,负责保存各国产生的相关数据并进行共享。随着生物学大数据的迅猛增长,原有的大数据设施已明显不够用,各发达国家正在计划建设新的生物学大数据设施;例如,欧盟2010年发表的《科学研究设施战略规划报告》提出,计划在5年时间内投入6亿欧元,建设一个欧洲生命科学研究生物信息基础设施 (European Life-Science Infrastructure for Biological Information,ELIXIR)


把生物学大数据的获取作为主要任务的“精确医学先导队列专项”,需要考虑如何处理海量的生物学大数据。 2015年发布的该专项实施计划书共有100多页,其中近三分之一的篇幅专门讨论了数据管理方面的内容,提出了源于所有队列参与者“核心数据集”的概念以及建立存储这些核心数据集的协调中心 (Coordinating Center) [3] 。需要强调的是,该专项的设计者在报告中提出,“协调中心”不是一个实体,而是一个独特的单一数据使用界面;具体的数据存储和管理可以考虑采用“云计算环境” (Cloud Computing Environments)







请到「今天看啥」查看全文