正文
Doc2Vec方法的分类准确率为76.2%(标准差,1.9%)。因此,通过迁移学习增强的我们微调的语言模型,通过更高的诊断分类准确性实现了优于传统NLP方法的泛化能力(详见图2B中的详细混淆矩阵)。
对于可解释性而言,关键在于我们的模型能够区分出临床确认的自闭症病例和疑似但排除的自闭症病例,而不是原始的自闭症检测率。
其他基于变压器的模型,包括Longformer、Llama 3.1 8B和Gemma 7B,在类似分类性能方面也观察到了相似的表现(详见图S1和表S1中的扩展基准测试)。
因此,我们的微调语言模型能够有效地从非结构化的临床笔记中提取相关信息,从而也使得临床思维过程中的某些方面得以实现可靠的自闭症诊断检测。
图片说明
◉ 图2。预训练语言模型能够从医疗专业人员报告中实现稳健的自闭症诊断分类准确性(A)来自非结构化医疗专业人员报告的自闭症诊断预测准确性,使用传统和更先进的自然语言处理算法。条形高度表示5次交叉验证后的平均分数,须须表示模型预测性能在通过5次交叉验证拟合每个模型后的变异性(一个标准差)。实心色条对应原始分类准确性,而带有斜纹的条对应F1得分。我们的模型用绿色表示。所有模型都在同一份报告语料库上进行训练,并使用相同的5次交叉验证方案进行评估。我们的单句预训练RoBERTa基模型,在我们的文本报告语料库上进行了微调,显示出比传统NLP方法更高的平均分类准确性,此外还允许更大的可解释性。有关其他基准,请参见图S1和表S1。BOW,词袋。(B)我们单句RoBERTa基模型预测的混淆矩阵。纵轴对应实际临床指定的自闭症诊断,而横轴表示我们模型对诊断标签的预测,每份报告一份。 (C)我们的微调语言模型在单句粒度下跨越了一个具有自闭症意识的嵌入空间。由我们的语言模型生成的句子级嵌入的PCA分解揭示了来自临床确认的自闭症病例与非自闭症病例的句子之间的分离。PCA图中的每个点对应于一个单句,并根据最终诊断标签进行着色:自闭症指的是临床确认的自闭症病例,"非自闭症"指的是疑似但被临床排除的病例。我们的转换器语言模型学习到的基础嵌入空间允许直接比较和对比任何两个自然语言句子,无论来源如何,关于自闭症诊断的信息价值。另见图S1。
◉ ,
◉ ,
图片说明
◉ 图 S1. 在对医疗专业人员报告进行微调后,Transformer 语言模型在自闭症诊断分类中的性能有所提高,与图 2 相关。从非结构化的医疗专业人员报告中预测自闭症诊断的样本外基准测试。
◉ 条形图高度表示平均预测性能(准确率或 F1 分数),而须表示该指标在五个不同交叉验证折中独立拟合模型后的变异性(一个标准差)。
◉ 实色条对应分类准确率,而对角线条纹条对应同一模型的 F1 分数。
◉ 基于 Transformer 的语言模型用黑色勾勒,我们定制的可解释句子语言模型涂成绿色。
◉ 正如正文图 2A 所示,传统 NLP 方法(词袋 [BOW]、Doc2Vec)与各种领先的 Transformer 模型架构进行了比较。
◉ 这些现代语言模型在一个零样本设置中进行了评估(原始嵌入后跟一个拟合的线性分类器),以及在我们的文本报告语料库上进行微调之后(使用低秩适应 [LoRA])。
Unpacking language model internals at sentence-level granularity
在句子级别解析语言模型内部
Para_01
-
在确定我们的模型能够正确预测自闭症诊断后,强调了其语义表示空间与该疾病的相关性,我们利用句子级策略打开了一个窗口,窥探通常被认为是不可穿透的黑箱内部。
-
我们的目标是进行初步的验证评估,确认语言模型的内部句子级表示确实捕捉到了与自闭症特征相关的方面。
-
我们提取了语料库中每个句子的所有隐藏维度的句子嵌入的主要变化因子(使用主成分分析[PCA]),将其转化为更紧凑的二维表示(图2C)。
-
因此,我们有效地将模型展开的内部语义表示空间的重要方面带到了表面。
-
PCA分析中的每个数据点(散点图中的点,图2C)对应一个单独的句子,根据每个句子来源的报告所关联的诊断结果进行事后着色。
-
通过这种潜在空间探索,可以看出,在我们对自闭症报告集合进行微调后,语言模型展开了有意义的自闭症感知嵌入空间:与自闭症诊断相关的信息句子与传达对自闭症诊断无帮助的语义元素的句子被分开。
-
此外,这种针对自闭症敏感的语义表示涵盖了所有可能的自然语言输入,意味着它允许基于句子对于自闭症分类的相关性,比较任何两个句子,无论它们的来源如何(参见下文)。
Para_02
-
为了从另一个互补的角度剖析这个多层次深度学习架构,我们旨在追踪语言模型内部逻辑的特性,随着文本报告信息通过模型的每一层被转换和传递。
-
对神经网络的每个报告在12层中的每一层进行单个句子嵌入的平均池化处理后,我们使用这种基于报告的嵌入作为基础,在关联诊断标签上训练了一个预测线性分类器(逻辑回归)。
-
我们发现,随着报告中的信息越来越深入地进入模型,自闭症分类性能稳步提高(图3A和3B):从第1层开始,平均曲线下面积(AUC)为0.746(标准差,0.014),在中间的第6层,平均AUC为0.866(标准差,0.014),最终在第12层达到最大性能,平均AUC为0.968(标准差,0.008),跨验证折叠平均计算。
-
因此,这些分析证实了随着模型逐层变换句子嵌入,它们变得越来越与诊断相关,因为模型提取并重新组合了每份报告中最关键的信息以完成诊断分类任务。
-
实际上,正是这一高度信息性的蒸馏过程来自第12层,直接输入到我们的单句注意力模块中,在该模块中自动识别出最重要的句子用于诊断,并优先加权。
-
因此,我们设计的单句注意力模块有助于精炼预训练语言模型从整个报告内容中读取的信息,以便人类理解。
图片说明
◉ 图3。从报告嵌入中逐层预测自闭症诊断反映了语言模型内部如何做出决策(A)来自我们微调模型每一层的汇总报告嵌入的诊断预测任务的接收者操作特征(ROC)曲线。随着信息流经我们的模型架构的处理层,汇总的报告嵌入在预测诊断方面变得越来越有用。随着模型在每一层从报告的各个部分提取和结合更多相关信息,汇总的嵌入在区分已诊断自闭症患者与非自闭症受试者方面变得越来越有用。所选预训练模型的深度对于准确分类诊断似乎至关重要。有可能提取出与分类任务越来越相关的内部语言模型特征。每层的每个曲线都是基于5次交叉验证的平均值。(B)类似于(A),但展示了逐层的自闭症预测模型的预测性能(平均曲线下面积[AUC]),误差棒表示5次交叉验证的标准差。
Para_02
-
在我们的语言模型内部使用单头注意力模块作为可训练的过滤器,允许自然地解释每个报告中的句子与诊断预测相关的相对重要性。
-
被认为最重要的句子在汇总报告嵌入中被赋予了更大的权重。
-
因此,这些对语言模型来说非常显著的句子,从定义上讲,是最终自闭症诊断分类中最重要的一些句子。
-
图4A给出了特定报告中每句话的注意力模式示例,以及在每个报告中关注度最高的句子中提到的关键方面的总结。
-
我们专门的注意力机制明显识别出包含传统上与自闭症诊断相关特定主题的句子。
-
值得注意的是,语言模型如何分配注意力预算的模式往往集中在少数几个非常重要的句子上,这表明模型确定了通常少量的、非常重要的句子,以便在当前报告中突出显示,以完成分类任务。
图片说明
◉ 图4。语言模型-注意力机制检测出与自闭症最相关的句子(A)我们的单头注意力模块能够自动识别给定报告中最关键的句子,以便最终进行自闭症诊断分类。每个注意力权重矩阵的列/行对应于报告中的一个句子,其中注意力矩阵中的每个单元格对应于一个句子与其他句子之间的语义联系。颜色越深表示注意力权重越大,也就是说,对LLM内部处理的相关性越大。高亮的列表示每个示例报告中关注度最高的句子。这些分类驱动的句子突出了各种各样的自闭症相关行为和发展史,总结起来是为了保护患者的隐私。这些示例报告中的每一个都被正确地分类为与临床确诊的自闭症诊断相关。(B)对于自闭症受试者,每份报告中关注度最高的句子包含许多关于重复行为和刻板行为(如拍打、‘习惯性动作’和回声语)的引用,特殊兴趣(例如书面材料:字母、数字和字母表)以及言语/语言自闭症特征(发声)。y轴表示在已诊断自闭症队列的报告中,给定词语在关注度最高句子中出现的频率比未被诊断出自闭症队列的报告中出现的频率高出多少倍。这种按词级的分解提供了我们关注突出的自闭症相关句子内容的概览。
Para_02
-
在从更广泛的角度检查最突出的句子后,我们确定了所有报告中最常出现在最受关注的句子中的单词。
-
我们通过计算某个词在自闭症诊断报告中受关注度最高的句子中的出现次数与未被诊断为自闭症的报告中受关注度较高的句子中的出现次数之比来量化这一点。
-
临床医生用来描述最终被诊断为自闭症的患者与未被诊断为自闭症的患者的最常用词汇涉及重复性动作和言语、特殊兴趣以及基于感觉处理和感知的行为的概念。
-
例如,"挥动"一词在自闭症诊断患者的报告中出现了21.5倍于没有被诊断为自闭症的儿童的报告。
-
同样,"回声言语"和"发声"这两个词分别在后来证实为自闭症病例的报告中出现了14.1倍和12.2倍。
-
关于特殊兴趣,‘字母’、‘数字’和‘字母表’这些词在自闭症病例的报告中分别出现了24.1倍、16.8倍和14.0倍。
-
这些见解表明,我们的单句神经网络方法使我们能够成功地识别出对自闭症诊断最重要的句子,并量化它们相对于每份报告中所有其他句子的重要性。
-
这些高度加权的句子包含已知与自闭症相关的精确术语(图4A和4B)。
Transfer learning based on the language model’s semantic space allows revisiting the incumbent DSM criteria
基于语言模型语义空间的迁移学习允许重新审视现有的DSM标准
Para_01
-
为了更好地理解临床直觉在评估疑似自闭症个体时的作用,我们开发了一种建模策略,该策略有助于将DSM-5目录中的已确立诊断标准纳入到我们的语言模型的嵌入空间中。
-
简而言之,DSM-5目录包含七个不同的自闭症诊断标准,分为A和B两部分。
-
-
例如,A1表示"社交情感交流中的缺陷",A2表示"用于社交互动的非言语交流行为的缺陷",A3表示"在发展、维持和理解关系方面的缺陷"。
-
-
特别是,B1表示"刻板或重复的运动动作、使用物体或言语",B2表示"对相同事物的坚持、僵化的例行公事或仪式化的言语或非言语行为模式",
-
B3表示"高度受限、专注的兴趣,其强度或焦点异常",B4表示"对感官输入的过度或低反应性,或者对环境感官方面的异常兴趣"。
-
详见表S2以获取DSM-5 A和B部分自闭症标志的完整复制品。
-
请注意,每个DSM-5标准的存在与否并未在报告中明确列出。
Para_02
-
尽管如此,我们设计了一种方案,根据这些在临床实践中广泛使用的诊断维度对每篇报告中的句子进行‘评分’。
-
事实上,我们基于句子特定的语言模型的方法(参见Bzdok等人的研究,第20项)的一个主要优势在于,它能够通过将外部描述定位在我们的自闭症感知语义嵌入空间中来对其进行定量和客观的评估和比较(图5A)。
-
因此,我们努力评估每个单独的DSM-5自闭症标准在我们报告语料库所构建的语义空间中用于自闭症诊断的有用程度。
-
我们将所有七个DSM-5标准描述输入到我们的模型中,为每个标准生成了嵌入。
-
A1-A3和B2标准都位于嵌入空间的一个紧密区域中,该区域主要由被怀疑但临床上排除了自闭症诊断的受试者的句子占据。
-
相比之下,B1、B3和B4标准则更为分散,并且位于一个高度富集了与自闭症相关的句子的区域。
-
这些发现与我们在词频分析中观察到的宏观趋势一致:临床医生通常使用与刻板动作和言语、特殊兴趣以及对感官输入的反应有关的表达来描述确诊自闭症的受试者,而没有强调社交沟通或互动方面的缺陷。
-
这些关于嵌入相似性的发现验证了最具影响力的模型识别句子的整体语义含义直接对应于DSM-5标准中关于刻板或重复行为及感觉反应的标准。
图片说明
◉ 图5。语言模型语义嵌入可以与外部DSM-5自闭症诊断标准进行比较(A)使用我们微调的语言模型,我们可以为任何外部自然语言输入句子生成有意义的句子嵌入。在这种情况下,我们为七个DSM-5自闭症标准生成了嵌入——我们的医疗专业人员实际上并未评估参与者的任何这些标准。每个标准可以在由我们的语言模型展开的二维PCA表示空间中可视化。
◉ B1、B3和B4更接近于嵌入空间中自闭症主导的部分,而A1、A2、A3和B2则聚集得更紧密,并且位于非自闭症主导部分附近。
◉ (B)通过我们的模型处理每个DSM-5自闭症标准(A1-B4)并获得句子级嵌入后,我们计算每个标准嵌入与每个报告中最受关注句子之间的余弦相似度。
◉ 这种分布由密度图以及相应的箱线图表示,该箱线图对应于DSM-5标准与每个报告中最受关注和自闭症关键句子之间余弦相似度的四分位范围。
◉ 这些分布根据每个报告的最终诊断(自闭症与非自闭症)进行划分。
◉ 对于某些标准,该标准与最受关注句子之间的相似度在自闭症和非自闭症诊断受试者之间表现出非常不同的分布。
◉ 这表明DSM-5标准嵌入与我们模型中高度关注句子之间的相似性可以区分自闭症和非自闭症受试者。
◉ (C)ROC曲线显示了基于DSM-5标准和每个报告中最受关注句子的余弦相似度训练的LDA模型的样本外分类性能(紫色线)。
◉ 当将每个DSM-5标准和每个报告中的随机句子的余弦相似度作为LDA模型的特征时,分类性能显著下降(蓝绿色线)。
◉ DSM-5标准与每个报告中顶级关注句子之间的衍生相似性和不相似性指数可以被另一个机器学习模型(LDA)成功地用来区分自闭症和非自闭症组。
◉ (D)展示了LDA变换分数与DSM-5标准余弦相似度的相关性,每种五折交叉验证中每项都有展示。
◉ 每个点代表一个单独的交叉验证折,从每个标准的样本外相关性测量中得出,测量每个报告的最关注句子与DSM-5诊断标准的相似程度。
◉ LDA分数代表最大化区分自闭症和非自闭症受试者的数据维度。
◉ 相关性指示每个标准的区分能力:接近+1的值表明与自闭症相关,而接近−1的值表明与非自闭症相关。
◉ 特别是,在我们的样本中,B1、B3和B4总体上对自闭症更具区分性。
◉ 参见图S2和S3。
Para_02
-
在将每个外部DSM项目嵌入到我们的语言模型空间后,我们测量了每份报告中每个DSM-5标准与主要自闭症相关句子之间的意义距离(余弦相似度)。
-
这一分析流程为每份报告产生了七个不同的余弦相似度:余弦相似度是衡量任意两个句子嵌入之间语义相似性的公认指标。
-
余弦相似度为+1、0或−1分别表示给定的两个句子具有相同的、没有的或相反的语义含义。
-
余弦相似度分布组显示,DSM-5标准B1、B3和B4与区分实际病例与疑似病例的顶级句子的语义表征最为相似。
-
相比之下,A1-A3和B2标准与诊断自闭症报告中的顶级句子表现出略有差异的意义内容(图5B)。
-
此外,除了B1标准外,大多数来自疑似但临床排除的自闭症报告的顶级句子与DSM-5标准的余弦相似度接近于0,通过了一项严格的测试,表明基于DSM-5黄金标准的外部验证方法是合理的。
图片说明
◉ 图 S2。在我们原始的变压器模型中预测随机结果会产生随机结果,与图 5 相关(A)从我们的随机标签微调语言模型为每份报告生成句子级嵌入后,对这些嵌入进行的主成分分析没有显示出明显的结构。PCA 图中的每个点对应一个句子,并根据随机的"诊断"标签进行着色。(B)与(B)所示相同的句子级嵌入的 PCA 图,现在每个句子嵌入根据实际的自闭症诊断进行着色(参见正文图 2C)。在这种标记之后没有进一步的结构被揭示。(C)通过我们的随机标签微调模型处理每条 DSM-5 自闭症标准描述(A1-B4),并为每条标准获得句子级嵌入表示后,我们获得了每条标准的嵌入与我们每份报告中最受关注句子之间的余弦相似度分布。该分布由密度图以及表示每份报告中 DSM-5 标准与最受关注句子之间四分位范围的箱形图表示。这些分布基于每份报告的最终诊断(自闭症与非自闭症)进行划分。(D)ROC 曲线显示了 LDA 模型在外样本分类性能上在未见过的报告上的表现,该模型是在每份报告中 DSM-5 标准和最受关注句子之间的余弦相似度上训练的。这些最关注句子的余弦相似度(紫色线)在这个诊断分类任务上的表现与每份报告中随机句子的余弦相似度(蓝绿色线)一样差。这表明这些余弦相似度在自闭症诊断分类中并没有有意义的相关性。
图片说明
◉ 图 S3。在我们的原始变压器模型中预测年龄差异会产生与自闭症无关的结果,与图 5 相关(A)从我们针对年龄组微调的语言模型为每份报告生成句子级嵌入后,对这些嵌入进行主成分分析分解显示了一些明显的年龄特定结构。每个主成分图中的点对应一个单独的句子,并根据年龄组标签上色。(B)与(B)中所示的句子级嵌入相同的主成分图,现在通过自闭症诊断对每个句子嵌入上色(参见正文图 2C)。虽然在这个嵌入空间中可能存在年龄特定的结构,但这个生成的嵌入空间似乎与自闭症无关。(C)在通过我们的针对年龄组敏感的模型处理每个 DSM-5 自闭症标准描述(A1-B4)后,并为每个标准获得句子级嵌入表示,我们获得了每个标准的嵌入与我们每份报告中最受关注和与年龄相关的句子之间的余弦相似度分布。该分布由密度图以及对应于 DSM-5 标准与每份报告中最受关注句子之间余弦相似度四分位范围的箱形图表示。这些分布基于每份报告的最终诊断(自闭症与非自闭症)进行划分。(D)ROC 曲线展示了使用基于每个 DSM-5 标准和每份报告中最受关注句子的余弦相似度训练的 LDA 模型在未见过的报告上的样本外分类性能。这些最受关注句子的余弦相似度(紫色线)在这项诊断分类任务上的表现与每个报告中随机句子的余弦相似度(蓝绿色线)一样差。在此控制分析中,因此余弦相似度对于自闭症诊断分类没有实际意义。
◉ 图 S3。在我们的原始变压器模型中预测年龄差异会产生与自闭症无关的结果,与图 5 相关(A)从我们针对年龄组微调的语言模型为每份报告生成句子级嵌入后,对这些嵌入进行主成分分析分解显示了一些明显的年龄特定结构。每个主成分图中的点对应一个单独的句子,并根据年龄组标签上色。(B)与(B)中所示的句子级嵌入相同的主成分图,现在通过自闭症诊断对每个句子嵌入上色(参见正文图 2C)。虽然在这个嵌入空间中可能存在年龄特定的结构,但这个生成的嵌入空间似乎与自闭症无关。(C)在通过我们的针对年龄组敏感的模型处理每个 DSM-5 自闭症标准描述(A1-B4)后,并为每个标准获得句子级嵌入表示,我们获得了每个标准的嵌入与我们每份报告中最受关注和与年龄相关的句子之间的余弦相似度分布。该分布由密度图以及对应于 DSM-5 标准与每份报告中最受关注句子之间余弦相似度四分位范围的箱形图表示。这些分布基于每份报告的最终诊断(自闭症与非自闭症)进行划分。(D)ROC 曲线展示了使用基于每个 DSM-5 标准和每份报告中最受关注句子的余弦相似度训练的 LDA 模型在未见过的报告上的样本外分类性能。这些最受关注句子的余弦相似度(紫色线)在这项诊断分类任务上的表现与每个报告中随机句子的余弦相似度(蓝绿色线)一样差。在此控制分析中,因此余弦相似度对于自闭症诊断分类没有实际意义。
◉ 图 S3。在我们的原始变压器模型中预测年龄差异会产生与自闭症无关的结果,与图 5 相关(A)从我们针对年龄组微调的语言模型为每份报告生成句子级嵌入后,对这些嵌入进行主成分分析分解显示了一些明显的年龄特定结构。每个主成分图中的点对应一个单独的句子,并根据年龄组标签上色。(B)与(B)中所示的句子级嵌入相同的主成分图,现在通过自闭症诊断对每个句子嵌入上色(参见正文图 2C)。虽然在这个嵌入空间中可能存在年龄特定的结构,但这个生成的嵌入空间似乎与自闭症无关。(C)在通过我们的针对年龄组敏感的模型处理每个 DSM-5 自闭症标准描述(A1-B4)后,并为每个标准获得句子级嵌入表示,我们获得了每个标准的嵌入与我们每份报告中最受关注和与年龄相关的句子之间的余弦相似度分布。该分布由密度图以及对应于 DSM-5 标准与每份报告中最受关注句子之间余弦相似度四分位范围的箱形图表示。这些分布基于每份报告的最终诊断(自闭症与非自闭症)进行划分。(D)ROC 曲线展示了使用基于每个 DSM-5 标准和每份报告中最受关注句子的余弦相似度训练的 LDA 模型在未见过的报告上的样本外分类性能。这些最受关注句子的余弦相似度(紫色线)在这项诊断分类任务上的表现与每个报告中随机句子的余弦相似度(蓝绿色线)一样差。在此控制分析中,因此余弦相似度对于自闭症诊断分类没有实际意义。
◉ 图 S3。在我们的原始变压器模型中预测年龄差异会产生与自闭症无关的结果,与图 5 相关(A)从我们针对年龄组微调的语言模型为每份报告生成句子级嵌入后,对这些嵌入进行主成分分析分解显示了一些明显的年龄特定结构。每个主成分图中的点对应一个单独的句子,并根据年龄组标签上色。(B)与(B)中所示的句子级嵌入相同的主成分图,现在通过自闭症诊断对每个句子嵌入上色(参见正文图 2C)。虽然在这个嵌入空间中可能存在年龄特定的结构,但这个生成的嵌入空间似乎与自闭症无关。(C)在通过我们的针对年龄组敏感的模型处理每个 DSM-5 自闭症标准描述(A1-B4)后,并为每个标准获得句子级嵌入表示,我们获得了每个标准的嵌入与我们每份报告中最受关注和与年龄相关的句子之间的余弦相似度分布。该分布由密度图以及对应于 DSM-5 标准与每份报告中最受关注句子之间余弦相似度四分位范围的箱形图表示。这些分布基于每份报告的最终诊断(自闭症与非自闭症)进行划分。(D)ROC 曲线展示了使用基于每个 DSM-5 标准和每份报告中最受关注句子的余弦相似度训练的 LDA 模型在未见过的报告上的样本外分类性能。这些最受关注句子的余弦相似度(紫色线)在这项诊断分类任务上的表现与每个报告中随机句子的余弦相似度(蓝绿色线)一样差。在此控制分析中,因此余弦相似度对于自闭症诊断分类没有实际意义。
Para_03
-
最后,我们通过将余弦距离作为线性判别分析(LDA)分类器的输入特征来测试它们在临床意义上是否具有意义,这些余弦距离源自外部诊断规则。
-
我们的目标是仅基于每份报告的首句与七项DSM-5标准之间的语义相似性来检测已确诊的自闭症诊断。
-
也就是说,每份报告不是以其原始文本内容进行索引,而是仅通过七个不同的余弦相似度来索引,表示每份报告在语义上与每个DSM-5标准的相关程度。
-
我们再次能够预测以前未被LDA模型见过的报告中的诊断,在新的未见过的患者的新报告中,平均交叉验证折数下的AUC达到了0.905(标准差0.013)。
-
这一观察表明,这些相似度得分确实传达了在自闭症诊断背景下有用的信息(图5C)。
-
此外,通过检查获得的LDA模型,我们试图确认B1、B3和B4标准特别有助于预测自闭症的方向。
-
LDA旨在计算一个输入特征的线性组合,使我们能够在两个组之间进行区分。
-
我们发现,对于每份报告预测自闭症诊断最有帮助的DSM句子相似度确实是B1、B3和B4。
Para_04
-
为了进一步确认我们的单句语言模型-注意力方法能够识别出自闭症分类中最关键的句子,我们在每个报告中随机选择的一句话与DSM-5自闭症标准中的每一项之间的余弦相似度上拟合了一个额外的LDA分类器。
-
我们发现诊断分类性能出现了显著下降,平均AUC仅为0.676(标准差,0.021)(图5C)。
-
因此,我们证实了语言模型识别出的影响性句子与DSM-5标准之间的语义一致性确实能够在疑似和确诊的自闭症病例之间进行区分,即使是在未见过的报告中也是如此。
-
相应地,我们的模式学习分类器验证了B1、B3和B4标准,这些标准涉及刻板或重复行为、特殊兴趣以及感觉反应性,再次证明它们是确诊自闭症的直接预测因素。
Discussion
Para_01
-
一些科学家可能会辩称,精神健康领域的脑成像和常见变异遗传学既昂贵又与临床诊断和干预无关。
-
这些技术在揭示导致自闭症等主要神经发育障碍的生物机制方面也提供了稀缺的信息。
-
我们认为,一直在与自闭症患者一起工作的医疗专业人员长期积累的经验和专业知识是解开自闭症本质的一个丰富资源。
-
在无法依赖生物学检测方法的领域,分解和分析潜意识的临床思维和决策过程可能有助于阐明自闭症表型的晦涩方面。
-
特别是,第一手的临床观察提供了未经过滤的真实自闭症关键特征和行为的画像。
-
在我们的研究中,我们因此旨在将医疗专业人员的临床直觉置于显微镜下。
-
为此,我们在超过4,000份健康记录中构建并部署了一个定制的语言模型框架,涉及超过1,000名疑似自闭症儿童,该框架专为单句可解释性而设计,以便直接由人类解读。
-
通过这些先进的NLP解决方案,我们能够更公正地探究和剖析诊断过程中那些本质上与自闭症相关的方面。
Para_02
-
数十年来,自闭症的"特异性"这一概念一直是争论的中心,有时甚至是令人困扰的话题。
-
根据DSM-5标准描述和诊断,没有单一的临床自闭症标准是特异性的。
-
根据DSM-5标准,许多不同的症状组合可以导致相同的诊断。
-
一些相同症状的不同组合甚至可能通过另一种诊断更好地解释。
-
本研究面对这一挑战,以数据驱动的方式定义自闭症:我们的方法揭示了行为、行动和日常生活中最能反映自闭症的独特方面,与许多可能导致医疗专业人员最初怀疑自闭症案例的情况和背景相比。
-
得益于语言模型能力的近期创新加速,结合我们的一手临床观察数据资源,我们能够解构数千次临床检查中一致存在的不可或缺特征,直接质疑先前关于自闭症特有特征的概念化,正如在金标准诊断手册(如DSM-5)中所规定的那样。
Para_03
-
鉴于不断积累的证据,迫切需要重新审视我们在精神健康机构日常使用的诊断标准。
-
值得注意的是,"自闭症"这一术语是在变化的基础上建立起来的。
-
Bleuler 在20世纪初首次使用"自闭症"一词来描述严重的精神分裂症病例,特别强调回避现实和过度幻想。
-
到了1970年代,自闭症的定义发生了逆转,转而指缺乏内在幻想以及——至关重要的是——无法发展社会关系。
-
基于这些观念,Wing 和 Gould 引入了一种分类系统,将自闭症定义为儿童期的社会交往障碍,这使得自闭症作为主要的社会交往障碍的概念成为主流自闭症研究的前沿。