正文
)
(Run ID: NextSeq 500 v2: TruSeq Nano350, (NA12878)_H3GYCBGXX)
上获得。
NA16595
的短插入
(350 bp)
双端测序及
NA12878
的双端测序则在
Illumina NextSeq 500 platform (2X151bp)
进行。测序后的数据均经过质控、去重等,并与人类基因组
hg19
进行比对。比对后
BAM
文件则使用
Samtools (version 1.2)
依照测序深度
1X,3X,5X
分为不同的样本亚组(
Alignment BAM files were sub-sampled to coverage depths of 1X, 3X, and 5X using Samtools (version 1.2)
)。
CNV
的分析方法有两种:一、测序深度法:此种方法通过
CNVnator (version 0.2.7)
来实现,算法过程中大小为
5000bp
的二进制文件用于生成柱状图及统计分析等,产出的
CNV
数据将与从
UCSC
下载的人类参考基因组
hg19
进行比对,接着会滤过大于
300kb
且与基因间隙区重叠超过
50%
的数据及
X
染色体上的主要组织相容性复合物区。
二、不一致配对分析法:
此种方法通过
LUMPY (version 0.6.11)
来实现。节段性的重复及参考基因组中的跳转区被去除,仅调出的缺失及重复的
CNV
被用于数据分析。大于
150kb
的
CNV
也被滤除。
CNV
分析标准
:
经测序深度法检出的
CNV
及
距离
不一致的配对
reads
检出的
CNV
最终合并在一起。如果测序深度法检出的
CNV
与不一致配对分析法检出的
CNV
有至少
50%
的重叠区,则由不一致配对分析法测出的数据代替。与
Haraksingh
等描述的方法一致,合并后的
CNV
将与由
NA12878
基因组数据设定的金标准
CNV
进行比较,结果共分两类:(
1
)有大于或等于
50%
的相应重叠区;(
2
)有大于或等于
10%
却小于
50%
的相应重叠区。合并后的
CNV
依照银标准也可划分为两组:(
1
)有大于
50%
的相应重叠区;(
2
)有小于
50%
的相应重叠区。不同方法检出的
CNV
的敏感性通过计算得出:即检测到的
与
金标准
CNV
大于
50%
重叠
的个数除以先前已鉴定的所有金标准的
CNV
个数。
Array
数据的分析
:
所有样本的
array
测序数据获得后,
仅信号
>10
的连续探针及最大
Log BAF > 10
的
CNV
数据被用于分析。
结果
:
我们按照
Haraksingh
的方法获得了
NA12878
的金标准
CNV
(
GS-CNV
),这些
GS-CNV
是由高可信度的
CNV
算法得到的,且已经过实验验证。
数据分析方法总体概览如
Figure1a
示。测序深度法通过
CNVnator
软件最高可达到
5kb
的分辨率,不一致配对分析法则通过
LUMPY
软件实现。各方法得到的数据经滤过后合并到一起,与
GS-CNVs
及
Haraksingh
等人得到的
array
数据结果进行比较。在测序深度分别为
1X
,
3X
及
5X
的结果中,短插入文库构建法分别检测到了
182
、
405
、
535
个常染色体
CNVs
(补充表
1
及
Figure1b
),
3kb
文库构建
WGS
法则分别检测到了
452
、
689
、和