专栏名称: 基因检测与解读
介绍基因检测新进展,探讨基因数据分析流程与方法,分享罕见病故事,科普基因知识,个人基因检测报告解读
目录
相关文章推荐
51好读  ›  专栏  ›  基因检测与解读

低深度全基因组分析CNV高效并优于基因芯片

基因检测与解读  · 公众号  ·  · 2018-05-24 07:37

正文

请到「今天看啥」查看全文


) (Run ID: NextSeq 500 v2: TruSeq  Nano350, (NA12878)_H3GYCBGXX) 上获得。 NA16595 的短插入 (350 bp) 双端测序及 NA12878 的双端测序则在 Illumina NextSeq 500 platform (2X151bp) 进行。测序后的数据均经过质控、去重等,并与人类基因组 hg19 进行比对。比对后 BAM 文件则使用 Samtools (version 1.2) 依照测序深度 1X,3X,5X 分为不同的样本亚组( Alignment BAM files were sub-sampled to coverage depths of 1X, 3X, and 5X using Samtools (version 1.2) )。

CNV 的分析方法有两种:一、测序深度法:此种方法通过 CNVnator (version 0.2.7) 来实现,算法过程中大小为 5000bp 的二进制文件用于生成柱状图及统计分析等,产出的 CNV 数据将与从 UCSC 下载的人类参考基因组 hg19 进行比对,接着会滤过大于 300kb 且与基因间隙区重叠超过 50% 的数据及 X 染色体上的主要组织相容性复合物区。 二、不一致配对分析法: 此种方法通过 LUMPY (version 0.6.11) 来实现。节段性的重复及参考基因组中的跳转区被去除,仅调出的缺失及重复的 CNV 被用于数据分析。大于 150kb CNV 也被滤除。

CNV 分析标准

经测序深度法检出的 CNV 距离 不一致的配对 reads 检出的 CNV 最终合并在一起。如果测序深度法检出的 CNV 与不一致配对分析法检出的 CNV 有至少 50% 的重叠区,则由不一致配对分析法测出的数据代替。与 Haraksingh 等描述的方法一致,合并后的 CNV 将与由 NA12878 基因组数据设定的金标准 CNV 进行比较,结果共分两类:( 1 )有大于或等于 50% 的相应重叠区;( 2 )有大于或等于 10% 却小于 50% 的相应重叠区。合并后的 CNV 依照银标准也可划分为两组:( 1 )有大于 50% 的相应重叠区;( 2 )有小于 50% 的相应重叠区。不同方法检出的 CNV 的敏感性通过计算得出:即检测到的 金标准 CNV 大于 50% 重叠 的个数除以先前已鉴定的所有金标准的 CNV 个数。

Array 数据的分析

所有样本的 array 测序数据获得后, 仅信号 >10 的连续探针及最大 Log BAF > 10 CNV 数据被用于分析。

结果

我们按照 Haraksingh 的方法获得了 NA12878 的金标准 CNV GS-CNV ),这些 GS-CNV 是由高可信度的 CNV 算法得到的,且已经过实验验证。

数据分析方法总体概览如 Figure1a 示。测序深度法通过 CNVnator 软件最高可达到 5kb 的分辨率,不一致配对分析法则通过 LUMPY 软件实现。各方法得到的数据经滤过后合并到一起,与 GS-CNVs Haraksingh 等人得到的 array 数据结果进行比较。在测序深度分别为 1X 3X 5X 的结果中,短插入文库构建法分别检测到了 182 405 535 个常染色体 CNVs (补充表 1 Figure1b ), 3kb 文库构建 WGS 法则分别检测到了 452 689 、和







请到「今天看啥」查看全文