可扩展的方法用于生成、验证和整合高通量功能测定的数据以改进临床变异分类

基因检测与解读 · 公众号 · 大数据科技自媒体 · 2024-11-04 07:01

主要观点总结

本文主要介绍了变异效应多重测定（MAVEs）在临床胚系遗传测试中的应用，通过机器学习平台控制模型质量，并将通过验证的模型纳入临床变异分类。文章介绍了MAVE数据评估框架、机器学习平台的应用、变异重新分类以及影响等方面内容。

关键观点总结

关键观点1: 变异效应多重测定（MAVEs）是系统表征遗传变异功能效应的一种技术，被用于临床胚系遗传测试中变异的分类。

MAVEs技术能够在单一混合实验中同时表征许多DNA变异，对于临床变异分类具有重大意义。

关键观点2: 文章采用机器学习平台对MAVE数据构建的模型进行质量评估和控制，将经过严格验证的模型纳入临床变异分类。

机器学习平台的使用提高了模型的质量，使得变异的分类更加准确和可靠。

关键观点3: 文章对44个与疾病相关的基因执行了MAVE实验，生成了新功能数据，整合了24个细胞模型到临床变异分类中，为超过57,000个个体中的超过4,000个变异提供了额外的分类证据。

这些实验数据将有助于更准确地分类遗传变异，为诊断确认和治疗决策提供更可靠的依据。

关键观点4: 传统的遗传测试实验室获取功能实验数据的方式存在分散、评估不标准、定性且易受主观影响等问题。而MAVE技术的出现为遗传测试实验室提供了新的机会，能够系统地评估并整合功能证据到变异分类中。

MAVE技术的应用将有助于提高遗传测试的准确性和可靠性，为患者提供更加精准的诊断和治疗方案。

正文

请到「今天看啥」查看全文

材料与方法（略）

结果

评估MAVE数据的框架

为了生成、评估和整合各种类型的机器学习模型，我们开发了一个单一的证据建模平台（还未发表）。在基于MAVE的模型的背景下，该平台使用来自细胞研究的实验特征的监督机器学习，开发用于预测变异致病性的基因特异性模型（图1）。在区分已知致病和良性变异方面表现出色的模型（AUROC≥0.8）被认为是有效的。这些经过验证的模型的输出，即定量变异致病性得分，从0（良性）到1（致病）的范围，通过使用已知的致病和良性变异计算阴性预测值（NPV）和阳性预测值（PPV）进一步校准。基于NPV和PPV阈值的证据权重（即Sherloc中的分数）被用于变异致病性得分。为了确定最终分类，具有这种类型功能证据的变异将由临床基因组科学家和持证实验室主任进行完整的变异分类过程。

我们的机器学习平台评估了来自66个基因的实验数据集。这些数据集要么是在我们功能性基因组学实验室内生成的（44个基因），要么是通过外部团体的文章获得的（22个基因）。评估每个MAVE数据集是至关重要的，因为由此产生的预测模型的性能差异很大（补充图1）。在我们实验室使用单细胞RNA测序产生的44个数据集中，有19个产生了一个预测模型，这些模型不仅达到了AUROC≥0.8的性能阈值，而且被选为整合到Sherloc中（补充表1）。与通过scRNA-seq轮廓的无监督聚类来识别细胞类型不同，携带致病或良性变异的细胞通常是混合在一起的，尽管在变异水平上的类似聚类突出了机器学习模型用于准确分类变异的信号（补充图2）。对于多个生物学途径和失去功能及获得功能疾病机制的基因，都实现了表现良好的模型（图2）。在评估的22个外部MAVE数据集中，有5个预测模型（针对BRCA1、BRCA2、MSH2、SCN5A和TP53）每个都达到了AUROC≥0.8的性能阈值（图3，补充表2）。其余未整合的数据集大多数要么没有足够的已知致病和良性变异来允许评估，要么显示出不足以区分良性和致病变异的能力（AUROC<0.8），因此被排除在本文的进一步评估之外。