正文
一种用于分类InDels的新框架
Para_01
-
与替换类似,结合周围序列特征可能会增强InDel目录在特征分析中的区分能力。
-
我们首先根据InDel是插入、缺失还是复杂InDel(同时发生插入和缺失)进行分类(图2a)。
-
在插入和缺失中,InDel按基序大小(1 bp与≥2 bp)进行亚分类。
-
对于1 bp的InDel,我们考虑了核苷酸组成(C/G与A/T基序)、5′和3′侧翼碱基以及同聚体区的长度。
-
对于≥2 bp的InDel,我们识别了InDel内部的最大重复基序,并在3′序列中考虑了其重复长度(补充说明1)。
-
对于在InDel连接处具有微同源性的缺失,我们考虑了缺失基序长度(L)和微同源长度(M)。
-
这种全面的分类方法产生了476个非重叠的InDel子类别(通道;补充表7和补充说明)。
Fig. 2: Redefined InDel taxonomy improves discriminatory power and reveals differential InDel patterns associated with PRR gene edits.
- 图片说明
◉ a,提出的InDel分类方案和一个ΔMSH2亚克隆的89通道InDel图谱。b,区分编辑亚克隆的89通道InDel图谱与背景对照组。浅蓝色误差条表示未编辑对照组n=100次自举的InDel图谱与背景图谱之间余弦相似性的均值±3个标准差(扩展数据图5b),这些数据来自n=7个未编辑亚克隆。x轴显示的是InDel数量的对数刻度。c,编辑亚克隆和自举对照组在COSMIC-83 InDel图谱中与89通道InDel图谱的余弦相似性。双尾Wilcoxon符号秩检验,P = 1.917 × 10−7)。d,经过背景减除后与PRRd基因编辑相关的89通道InDel突变特征(补充表4;https://signal.mutationalsignatures.com/explore/main/experimental/experiments?study=7)。Ins,插入;Del,缺失。
◉ 这是 Sentence_02 的中文翻译
◉ 这是 Sentence_03 的中文翻译
◉ 这是 Sentence_04 的中文翻译
◉ 这是 Sentence_05 的中文翻译
◉ 这是 Sentence_06 的中文翻译
Para_02
-
-
通过分析来自国际癌症基因组联盟(ICGC)/癌症基因组数据库(TCGA)33、Hartwig34以及基因组英国(GEL)10万基因组项目35(扩展数据图3e)的18,522个肿瘤中所有通道的InDel分布,我们确定了无信息量的通道(即没有信号的通道),并将信号较弱的通道合并,从而将InDel通道总数减少到89个(图2a、扩展数据图3f和补充表8)。
-
总体而言,与COSMIC-83相比,89通道分类系统扩展了具有大部分信号的通道,这里是指1 bp A/T InDel,将其扩展为更广泛的通道,并将较长的InDel和/或在基因组中不常见的基因组基序(信号稀少或不存在)归并为更少的InDel子类别(扩展数据图4)。
-
尽管两种分类系统最终的数字差异不大,但我们的数据驱动方法,结合序列背景并增强单核苷酸/多核苷酸重复区的信号分布到额外的通道,为突变特征提取和分配过程提供了替代信息,可能增加检测新的生物学上有意义特征的可能性。
Para_03
-
为了验证这一点,我们将新的89通道InDel分类方法应用于我们的真实基因编辑数据集(补充表4)。
-
与COSMIC-83相比,实验性InDel图谱与对照之间的余弦相似度在89通道格式下要低得多(图2b,c和扩展数据图5a,b),这表明新的分类方法提高了基因编辑与背景的分离效果(89通道的平均余弦相似度为0.68 ± 0.08,COSMIC-83为0.89 ± 0.11;双尾Wilcoxon符号秩检验,P = 1.917 × 10−7)。
-
随后,我们使用89通道格式确定了与每种基因编辑相关的特征。
-
所得特征在整个89通道图谱中表现出更均匀分布的信号(图1d、2d和扩展数据图5c)。
-
基因编辑特征之间也更容易区分(89通道的平均特征对间余弦相似度为0.57 ± 0.25,COSMIC-83为0.64 ± 0.3;双尾Wilcoxon符号秩检验,P = 1.483 × 10−5;扩展数据图5d,e)。
-
值得注意的是,MMRd/聚合酶突变体的InDel特征并不是各个突变过程的简单叠加,这可能反映了Pol ε和Pol δ与MMR在抑制重复DNA复制过程中InDel形成时的生物学相互作用。
Para_04
-
有趣的是,我们注意到虽然MMR缺陷在较长的同源多聚体中尤其被放大(8–9 bp > 5–7 bp > 0–4 bp),但聚合酶突变体在较短的同源多聚体中表现出明显不同的插入突变分布(5–7 bp > 8–9 bp > 0–4 bp;图2d)。
-
由Pol ε和Pol δ的校对功能缺陷导致的较短同源多聚体中InDel率的提高,可能反映了它们与聚合酶活性位点上游双链DNA相互作用的距离。
-
事实上,Pol ε和Pol δ的晶体结构显示,在聚合酶活性位点附近5–7 bp范围内与双链DNA有大量接触,实验模型也支持这一最佳距离,解释了为何校对可能对活性位点上游这一‘足迹’以外的插入缺失提供较少保护(即活性位点更上游的未配对碱基;在较长的重复序列中MMR起着更关键的作用)。
-
这些独特的见解仅因新的89通道格式而变得明显,该格式能够更好地捕捉生物变异。
Para_05
-
为了比较两种分类系统的鉴别能力,我们还在我们的真实实验数据集(n = 37;扩展数据图6a)上进行了从头开始的特征提取。
-
使用COSMIC-83,仅提取了两个从头开始的特征——一个以多聚-T5+区域的T插入为主(ID83A),另一个以多聚-T6+区域的T缺失为主(ID83B;扩展数据图6b)。
-
相比之下,89通道格式产生了四个特征,与我们对主要由缺失驱动的MMRd特征的预期相匹配(InD89B),一个主要由插入驱动的聚合酶特征(InD89D),以及两个具有不同InDel比例的独立特征(InD89A和InD89C),可能反映了聚合酶/MMRd表型的组合(扩展数据图6c)。
-
Para_06
-
最后,为了确定这种通道信息内容与特征提取之间的关系是否适用于其他数据集和工作流程,我们使用三种不同的算法对来自ICGC33的52个无关结直肠WGS样本进行了处理。
-
所有三种算法都无法使用COSMIC-83识别所有可用的特征,达到五种的区分极限,产生的特征信号密度高度集中在两个通道中。
-
相反,89通道格式在所有使用的算法中都能持续检测到更多新的特征。
-
提取的特征也显示在更多通道上有信号,突显了89通道分类在揭示额外的真实突变过程方面的优越性能。
New InDel signatures (InDs) in seven cancer types
七种癌症类型的新型插入缺失特征(InDs)
Para_01
-
为了探索我们的新型InDel分类体系在人类癌症中对PRRd表型以外的特征发现的影响,我们分析了七种肿瘤类型(n = 4,775),这些肿瘤类型由于各种异常(例如,MMRd、环境紫外线(UV)辐射、APOBEC相关诱变)表现出临床上相关的高肿瘤突变负荷(TMB)——来自GEL 100,000 Genomes Project35的数据(图3a)
Fig. 3: De novo signature extraction using redefined InDel taxonomy uncovers 37 InDS in seven cancer types in the GEL cohort.
- 图片说明
◉ 七种癌症类型(n = 4,775;左图)中插入缺失的负担以及每种插入缺失对GEL肿瘤的突变数量的贡献。每个点的大小表示每种肿瘤类型中显示该突变特征的样本比例。每个点的颜色表示显示该特征的样本中该特征的中位突变负担(每Mb)。
◉ b,从七个GEL癌症队列中提取并整理的37个共识插入缺失突变特征(InDS)的特征图谱(补充表10;https://signal.mutationalsignatures.com/explore/main/cancer/signatures?mutationType=3&study=7)。左上角的菱形框提供了可能的病因。N-Slip,新生链滑动;T-Slip,模板链滑动;NHEJ,非同源末端连接。
Para_02
-
我们按照之前描述的方法对每种肿瘤类型进行了突变特征分析(图3a、扩展数据图7和补充表9–11;方法)。
-
我们鉴定了37个共识插入缺失特征,称为InDS(以区别于COSMIC IDS;图3b)。
-
其中10个特征具有可映射到已知IDS的特征(InD1、InD2a、InD3a/InD3b、InD4a、InD6、InD8、InD9a、InD13和InD18)。
-
Para_03
-
外源性暴露是五种InDS的基础。InD3a和InD3b在有吸烟暴露的肺癌中经常同时发生。
-
InD3a/InD3b与由苯并(a)芘及其代谢产物苯并(a)芘二醇环氧物诱导的实验特征聚集在一起(扩展数据图8和9),支持了这些特征代表了与吸烟相关的DNA损伤的调节版本的观点。
-
InD13以TT二核苷酸处的T缺失为特征,与紫外线损伤有关,而InD18仅在结直肠样本中发现,是由于大肠杆菌素暴露。
-
InD32在曾接触铂的样本中被识别,并与一种新的铂相关特征SBS112相关。
Para_04
-
Twenty InDS具有可能的内源性起源(扩展数据图9)。
-
其中一些已经被描述过,包括InD1和InD2a,分别与正常DNA复制过程中新生链和模板链滑动相关的错误有关。
-
InD1和InD2a在所有肿瘤类型中普遍存在,除了中枢神经系统和皮肤癌,这些癌症表现出一种组织特异性的变体InD2b(图3a)。
-
-
InD6以微同源介导的缺失为特征,与同源重组修复缺陷有关。
-
InD8具有删除区域几乎没有或没有微同源性的缺失,很可能反映了非同源末端连接活动和/或放疗的痕迹。
Para_05
-
InD9a与SBS2和SBS13的超突变相关,特征是在TCT和TCA处出现1个碱基的C删除(突变碱基下划线),与SBS2/SBS13的可变基序相同,特别是在短的多T片段中。
-
它可能是由APOBEC引起的(扩展数据图8c),并通过APOBEC过表达的DT40模型实验证据得到证实。
-
我们提出了一种突变机制,即APOBEC在TCT处对C进行脱氨作用后,UNG移除尿嘧啶会留下一个无信息的脱嘌呤位点。随后,模板链可以在这一短重复的T片段上滑动,导致C的删除(扩展数据图8d)。
-
由于目前尚不清楚的原因,我们也发现了类似的以C删除为主的InD9b/InD9c,尽管它们类似于InD9a,但没有对前导T的偏好,并可能是由另一种机制引起的。
Para_06
-
有趣的是,我们提取了八个基因特异性的MMRd和Pol-dys InDS。
-
-
InD7以1 bp和2 bp缺失的预期过剩为特征,尤其是在较长的单核苷酸/二核苷酸重复区域。
-
InD7与ΔMLH1、ΔMSH2和ΔMSH6的实验特征聚集在一起(扩展数据图9)。
-
我们还鉴定出InD19(由于PMS2缺陷),InD14(与POLD1外切酶突变相关),InD15(与POLE外切酶突变相关),InD16a和16b(由于POLE校对功能和MMR的同时丧失),InD21(与POLD1校对缺陷和MMRd相结合相关)以及InD20,我们通过实验研究发现它是由在POLE功能障碍背景下的MMRd引起的。
Para_07
-
-
其中5个可能是人工产物——InD27和InD28经常同时出现,导致数千个插入缺失,并与SBS57相关,可能是扩增或测序的人工产物。
-
InD28m很可能是InD28和InD4的混合特征,需要更大的队列来解决。
-
Para_08
-
虽然C的插入在聚-C区段后跟随一个3′A时主导了InD26和InD30,但InD30的C插入在同源重复CCC和CCCC中引发了数千次插入,而InD26的C插入主要发生在更长的CCCCC中,并且与超突变无关。
Para_09
-
三个InD(InD31、InD24和InD12)与其他类别的特征表现出显著的相关性。
-
InD31在短同源序列(<5 bp)中显示出独特的C缺失,随后在短同源序列(<5 bp)中出现3′G和T缺失,随后是3′A。
-
它仅在具有新型罕见SBS105的样本中被报道,且通常与InD8同时出现。
-
InD24的缺失在GTA和GTG处显著峰值,并与DBS8高度相关,该特征显示在同一基序(TGTG > TAGG/TTGG)中出现双重替换。
-
InD12在二核苷酸AA和AT之间显示出C缺失,并与DBS25有关,该特征在TT二核苷酸处有显著峰值。
-
-
InD4b 和 InD29 分别与 InD4a 和 InD8 具有共同特征。
-
它们是否代表组织特异性变异、是混合的还是由不同机制引起的,需要进一步研究。
-
InD11 似乎与 InD1 相关,可能是高 InDel 负荷样本中经常富集的过度分割特征,例如那些具有 MMRd 和 Pol-dys 的样本。
-
在膀胱癌和结直肠癌中发现的 InD23 展现出非重复区域插入长度(≥5 bp)的显著模式。
-
-
InD33 在一种接受替莫唑胺治疗的 CNS 肿瘤中最明显;然而,其病因仍不清楚。
-
总之,5个InDS可能是外源性的(InD3a、InD3b、InD13、InD18和InD32),20个是内源性的(InD1、InD2a、InD2b、InD4a、InD4b、InD6、InD7、InD8、InD9a、InD9b、InD9c、InD11、InD14、InD15、InD16a、InD16b、InD19、InD20、InD21和InD29),12个来源不确定(InD5、InD10、InD12、InD23、InD24、InD26、InD27、InD28、InD28m、InD30、InD31和InD33)。
A signature-based classifier of PRR dysfunction
基于签名的PRR功能障碍分类器
Para_01
-
PRRd亚型,以MSI为特征,临床上具有可操作性,可能对免疫治疗有选择性敏感性。