专栏名称: 生物探索
探索生物科技价值的新媒体
目录
相关文章推荐
生信宝典  ·  连载 | 基因组如何进化?(8) 非编码保守DNA ·  2 天前  
51好读  ›  专栏  ›  生物探索

Nature Methods | 长读长测序“去伪存真”:SAVANA如何颠覆癌症基因组分析的传统认...

生物探索  · 公众号  · 生物  · 2025-06-04 16:35

正文

请到「今天看啥」查看全文


在没有正常细胞浸润的肿瘤中,失去杂合性(loss of heterozygosity, LOH)区域的B等位基因频率应为0或1,而正常细胞的浸润会导致BAF值向0.5偏移,偏移程度与正常浸润程度成比例。这种巧妙的算法设计,使得SAVANA能够通过分析患者特异性的杂合SNPs或群体多态性SNPs来推断肿瘤纯度。
为了进一步提高灵敏度,SAVANA还会利用拷贝数信息来“挽救”那些由于读段比对阈值未达标而未能被判定的断点。如果这些断点与拷贝数变化点(copy number changepoints)一致,它们将被重新纳入考量。最后,SAVANA会根据估算的肿瘤纯度,确定最能解释观察到的测序读段深度和BAF数据的肿瘤倍性(ploidy)和等位基因特异性拷贝数(allele-specific copy number)图谱。
值得一提的是,SAVANA还引入了蒙德里安共形预测(Mondrian conformal prediction, MCP)这一数学上严谨的方法来评估每个SV调用的可靠性。与传统质量分数(quality scores)不同,MCP能提供数学保证,确保预测结果的错误率不会超过预设的阈值,即使在处理高度不平衡的数据集(如真实体细胞SV是少数类别)时也能保持高可靠性。MCP将预测结果分为四类:“真阳性”(somatic SV)、“噪音”(noisy region prone to artifacts or germline SV)、“空”(null)和“两者皆是”(both)。“空”类别表示模型认为该SV与训练数据差异过大,无法做出可靠预测,可能是一个离群值。“两者皆是”类别则表示该SV与训练数据中的真实SV和噪音事件都相似,模型无法做出单一决策。这种透明且可靠的预测,为科学家们提供了前所未有的信心。

严苛考验:SAVANA的“硬核”训练营
一项优秀的算法,离不开严谨的测试和高质量的数据。为了全面评估SAVANA的性能并建立一套公正的基准测试标准,研究团队进行了一系列大规模的实验,其严谨程度堪称算法的“硬核训练营”。

大规模数据集:绘制人类肿瘤基因组的广阔图景
这项研究的严谨性,首先体现在其庞大的样本量和高质量的数据集上。研究团队对99个肿瘤-正常配对样本进行了深度测序,其中包括57例多样化的软组织肉瘤、28例骨肉瘤和14例胶质母细胞瘤。这些样本的DNA分别通过长读长纳米孔全基因组测序(nanopore WGS)和短读长Illumina全基因组测序进行。
具体来说,肿瘤样本的纳米孔测序中位深度达到了51倍,正常样本为34倍;而Illumina测序的肿瘤样本中位深度高达118倍,正常样本为41倍。在长读长数据质量方面,肿瘤和正常纳米孔测序读段的中位N50(表示一半测序碱基长度所对应的最短读段长度)分别达到了15千碱基对(kbp)和21 kbp。经过严格的质量控制,最终有92个肿瘤样本被纳入了后续的深入分析。这种大规模、多平台、高质量的数据集,为SAVANA的训练和验证提供了坚实的基础。

构建“真理”数据集:机器如何学习区分真伪?
为了给机器学习模型提供高质量的“训练数据”,从而使其能够区分真实体细胞结构变异(“真阳性”)和测序或比对错误导致的“伪影”(“假阳性”),研究团队首先利用临床级别的短读长全基因组测序数据,作为识别SV的“金标准”。具体做法是,如果SAVANA在长读长数据中检测到的SV,同时也被短读长数据分析管线(经过临床验证)所检测到,那么该SV就被标记为“真实体细胞SV”。反之,如果长读长数据中检测到的SV未在短读长数据中被发现,则被标记为“假阳性”。
在这样的标注体系下,SAVANA在长读长数据中,共检测到约52,464个被确认为真实体细胞SV的事件,而同时也有高达14,282,014个事件被标记为假阳性。为了避免将那些只在长读长测序中才能检测到的、但实际存在的真阳性SV误判为假阳性,研究团队在构建训练集时,特别排除了那些在长读长数据中具有高支持质量,但在短读长数据中未被发现的SV。这种严谨的策略,确保了训练集的纯度。
随后,研究团队采用了“留一肿瘤交叉验证”(leave-one-tumor-out)的方法,利用随机森林(random forest, RF)分类器训练模型。这意味着,在对某个特定肿瘤进行SV分类时,模型会使用队列中所有其他肿瘤的SV数据进行训练。这种训练方式有效地评估了SAVANA模型在不同肿瘤类型之间的泛化能力。结果显示,RF模型的性能表现出色,平均曲线下面积(AUC)高达0.98,范围介于0.97-0.98之间,这表明模型具有很高的区分能力。
那么,哪些特征对于模型区分真伪最具预测性呢?研究发现,最重要的协变量包括: 肿瘤样本和匹配正常样本中支持性比对(supporting alignments)的数量、SV的长度、支持断点的未定相(unphased)比对数量,以及在正常样本中支持任意断点方向的读段簇数量 。这些生物学和测序特性的巧妙结合,使得SAVANA的机器学习模型能够高效地学习和识别真正的体细胞SV。
如前所述,SAVANA还引入了蒙德里安共形预测(MCP)来评估个体预测的可靠性。与仅仅提供一个质量分数不同,MCP能够数学上保证预测错误率不会超过用户设定的阈值,这对于处理高度不平衡的数据集(如真实体细胞SV是少数类别)尤其重要。它不仅提高了模型性能,也为临床应用提供了更可信的判断依据。

巅峰对决:SAVANA力压群雄的性能秘密
在确定了SAVANA的训练方法和数据基础后,真正的“巅峰对决”开始了。研究团队将SAVANA与现有专门用于长读长数据SV检测的算法进行了全面比较,包括Sniffles2、cuteSV、SVIM等广受使用的工具,以及NanomonSV、Severus和SVision-pro等为匹配肿瘤-正常数据设计的算法。结果表明,SAVANA在多方面展现出压倒性性优势。

真理的较量——COLO829细胞系
在第一轮测试中,研究团队使用了黑色素瘤细胞系COLO829及其匹配的正常细胞系COLO829BL的数据集,该数据集拥有经过PCR和捕获测序验证的68个体细胞SV作为“真理集”。结果清晰地显示,与现有算法相比,SAVANA在长读长测序平台和流式细胞版本上均展现出显著更高的召回率(recall)和特异性(specificity),其P值远小于0.0001。这意味着SAVANA不仅能更全面地发现真实的SV,还能显著减少误报的假阳性。

复制实验——揭示算法的“稳定性”与“假阳性陷阱”
为了更全面、无偏地评估算法性能,研究团队创新性地引入了“复制实验”策略。其核心思想是:将每个肿瘤样本的测序读段随机分成两个独立的二进制比对映射(BAM)文件,形成两个“模拟复制品”,然后分别对每个复制品独立运行SV检测算法。理论上,真实的体细胞SV应该在所有复制品中都被检测到,而由文库制备或测序错误导致的假阳性则只会在一个复制品中出现。这种方法不仅能够有效评估算法的灵敏度(sensitivity)和特异性,还能避免因测序产量不均等因素对结果造成干扰。
通过这种严苛的复制实验,研究团队发现,现有算法检测到的体细胞SV数量差异巨大,最高可达两个数量级。例如,某些算法在一个复制品中检测到的体细胞SV数量变化高达两个数量级。相比之下,SAVANA在不同肿瘤类型中,跨复制实验的一致性显著更高,P值小于0.001。无论是在不同肿瘤类型、不同克隆水平(clonality levels)、各种SV类型还是重复序列类别中,SAVANA都展现出更高且更均匀的一致性。这种在低等位基因频率(low-AF)范围内的较高一致性,有力地证明了SAVANA同时具备更高的特异性(specificity)和灵敏度。






请到「今天看啥」查看全文