正文
Data enrichment
数据增强
Para_01
这一HRA处理步骤确保了HRA DOs的质量高、可用且对表1中列出的用户故事和其他应用有用。
规范化确保原始数据结构良好,并以可通过LinkML(https://linkml.io)轻松转换为知识图谱的格式呈现。
在富集过程中,使用OWL推理使某些隐含关系变得明确(例如,使传递关系如子类和‘部分’变得明确);通过API从本体中添加外部元数据以增强图谱的实用性(例如,通过查询scicrunch API查找OMAP抗体信息);使用查询添加来自相关图谱的数据(例如,从流行的生物医学本体如Uberon和Cell Ontology中提取与解剖结构、细胞类型和生物标志物相关的附加元数据和层次结构);并最终将LinkML转换为知识图谱(例如,将所有内容转换并组合成Turtle格式的RDF格式图谱)。
Data publication
数据发布
Para_01
一个新修订和扩展版本的HRA DOs以及更新后的用户界面和API每六个月通过HRA门户(https://humanatlas.io)发布。
三个HRA核心本体(样本、生物结构和空间本体)7作为FAIR、版本化的LOD共享在https://lod.humanatlas.io。
部分数据也以关系数据库和逗号分隔值(CSV)文件的形式提供。
RUI数据通过HuBMAP、SenNet、GUDMAP、GTEx和其他门户发布。
例如,HRA API通过查询HuBMAP搜索API来从HuBMAP数据生成数据集图。
包含所有捐赠者、组织块、组织切片、RUI数据和实验数据集信息的公共图形可以通过HRA数据集图在https://lod.humanatlas.io/ds-graph访问。
Para_02
HRA DO处理器(https://github.com/hubmapconsortium/hra-do-processor)支持HRA数据的自动化处理,包括数据规范化、验证、图形转换、丰富化和发布。
最终产品是HRA知识图谱(https://github.com/hubmapconsortium/hra-kg)和一套适合托管所有数据作为LOD的平面文件。
HRA基础设施针对部署到Amazon S3、Amazon Web Services (AWS) AppRunner和AWS CloudFront进行了优化,但也可以适应其他文件托管平台。
Para_03
HRA 来源图谱跟踪所有 HRA DO(使用 DCAT(https://www.w3.org/TR/vocab-dcat)标准术语组织数据目录和 W3C-Prov(https://www.w3.org/TR/prov-overview)描述特定数据的来源)以及代码版本(通过 GitHub),以便可以访问 HRA 知识图谱的来源,并且每六个月可以重新计算一次 HRA 知识图谱。
Para_04
补充表 2 列出了 HuBMAP 数据门户(H)、HRA 数据门户(A)和演示预览(P)中使用的所有数据。
请注意,HRA 数据由欧洲生物信息学研究所(EBI)的本体查找服务(OLS)、斯坦福大学的 NCBO 生物门户和密歇根大学医学院的 Ontobee 镜像。
通过广泛使用的生物医学本体存储库发布 HRA 使其变得 FAIR;用户可以在线浏览 HRA 数据或通过 API 程序化访问它。
Usage and extension of ontologies
本体的使用和扩展
Para_01
数据和工作流程尽可能地与现有的本体论链接(表2)。
HRA v.2.0的第六版使用生物结构本体论Uberon 2023-10-27(参考文献9)和FMA v.5.0.0(参考文献10,11)来表示解剖结构;
细胞类型使用细胞本体论(CL)v.2023-10-19(参考文献12)和PCL 2023-02-27(参考文献13)(https://www.ebi.ac.uk/ols4/ontologies/pcl);
生物标志物使用HGNC v.2023-09-18(参考文献33),Ensembl发布版111(参考文献34),GeneCards v.5.19:2024年1月15日(参考文献35,36)以及UniProt发布版2024_1(参考文献37)。
Human Genome HGNC v.2023-09-18用于FTU探索者。
空间数据使用Dublin核心术语(DCTERMS)v.2020-01-20(https://www.dublincore.org)进行注释。
样本数据使用LOINC v.2022-07-11(v.2022AB)38来标准化表示性别、种族和族裔数据。
元本体论如DCTERMS和关系本体论39(RO)用于捕捉HRA数据内部概念之间的关系。
分析类型名称来自生物分析本体论(BAO)v.2023-01-31(参考文献40)和实验因素本体论(EFO)v.2023-02-15(参考文献41)。
鼓励使用这些本体论以保持ASCT+B表格、Azimuth和其他CTann工具以及OMAP数据之间的一致性,支持图集的构建和使用。
Table 2 Ontologies used and extended 表2 使用和扩展的本体
Para_02
跨联盟HRA工作的一个重要贡献是扩展了跨物种本体论,如Uberon和CL,以涵盖健康人类术语。
从2021年到2024年10月,Uberon中增加了125个解剖结构术语,Cell Ontology中增加了141个细胞类型。
截至2024年10月,PCL中增加了468个细胞类型,其中461个是针对人脑的(支持HRA的构建和使用)。
PCL使用来自NS-Forest的计算得出的标记基因来定义基于sc/snRNA-seq的脑细胞类型。
这461个人脑细胞类型被添加到了ASCT+B表格中。
所有PCL细胞类型的术语都通过本体中的has_characterizing_markerset关系与生物标记基因相关联。
在HRA的第六次发布中,有962个解剖结构术语要么缺失于Uberon,要么尚未在ASCT+B表格中交叉映射到Uberon术语。
大多数缺失的术语是关于血液和淋巴血管系统、骨骼或骨骼肌系统的,并且通常比目前在Uberon中表示的更具体(例如,‘手第五指背侧分支外侧正掌数字动脉’)。
正在进行改进映射的工作(最近添加了约100个映射,并将在第七次HRA发布中公布)。
总共有119个细胞类型未映射或尚未在CL或PCL中(初步评估表明有60个),其中70%对于CL来说是全新的术语。
这387个生物标记物具有Ensembl ID或GeneCards ID,或者尚未映射到HGNC ID(所有这些术语都有ASCTB-TEMP ID)。
存在GitHub问题,旨在将新术语添加到现有本体中,以便正确表示ASCT+B表格中的数据,包括请求在Uberon中增加128个解剖结构。
现在有一套正式的操作程序,通过Minimal Information Reporting About a CelL (MIRACL)表单将新的细胞类型纳入CL。
表2的最后一列列出了添加到Uberon、CL和PCL的本体关系数量。
Unified processing workflows
统一处理工作流程
Para_01
HRA SOPs45 详细说明了构建HRA所需的人类专家和算法步骤以及如何正确使用它。
在protocols.io和其他地方发布的协议用于以可重复的方式编译实验数据。
截至2024年1月,已有235个HuBMAP协议46(其中许多记录了生成用于HRA构建的数据所需的可重复工作流程)。
图1和图2概述了构建HRA和将新的实验数据映射到HRA上所需的众多步骤。
Fig. 2: Mapping experimental data to the HRA.
- 图片说明
◉ 一个组织块使用RUI或millitome(i)进行3D空间注册和语义注释。一个较小的部分组织块可能用于sc/snRNA-seq分析(未显示)或切成组织切片(ii)。组织切片使用一种或多种测定类型进行分析(iii)。例如,单细胞转录组学(例如,sc/snRNA-seq),OMAP对齐的空间蛋白质组学(例如,CODEX和Cell DIVE)以及高分辨率苏木精和伊红(H&E)染色的组织学图像。不同测定类型的组织切片进行空间对齐并不简单(iv)。H&E数据被用来通过训练的机器学习模型分割FTU(v)。通过计算将来自多个连续组织切片的数据进行对齐,完成组织体积的3D重建(vi),然后进行3D分割和注释(vii)。二维或三维数据被分析以识别不同类型细胞到血管的距离(VCCF可视化),作为一个多尺度CCF,在此距离内没有其他细胞非常遥远(viii)。
◉ 单细胞/细胞核数据(sc/snRNA-seq)存储为细胞-基因矩阵;细胞类型使用Azimuth或其他细胞类型注释工具进行注释;结果汇总为细胞类型-基因生物标志物表达值矩阵,这些矩阵与ASCT+B表格对齐;并在各种HRA用户界面(例如,EUI和FTU探索器)中使用。
◉ 使用经过验证的抗体面板链接到AVRs生成的OMAP对齐的空间数据被分析,以计算蛋白质生物标志物表达值矩阵,该矩阵通过半自动化工作流程与ASCT+B表格对齐。
◉ EUI为供体(性别、年龄和身体质量指数)、数据提供者(上传日期、联系人姓名和隶属关系)、组织块和切片(尺寸、数量、日期和RUI注册的联系信息)以及数据集(测定类型)提供完整的来源,并链接到HuBMAP数据门户、其他数据门户或出版物中的原始数据。
◉ CWL工作流详细说明了哪些工具(黄色)运行在哪些输入/输出数据(蓝色)上。显示的是Azimuth细胞类型注释工作流。
Para_02
HuBMAP 联盟为多种数据类型开发了统一的计算处理管道:单细胞(sc)/单核(sn)RNA测序、sc/snATAC测序、基于多重抗体的空间蛋白质组学(CODEX(最近更名为PhenoCycler)和Cell DIVE)、多重离子束成像(MIBI)、Slide-seq和Visium测序空间转录组学以及荧光原位杂交空间转录组学等。
HuBMAP 计算管道全部是开源的,并在GitHub上作为CWL工作流发布,包装了Docker镜像中的工具(也可以通过Singularity执行),补充数据(基因组索引/注释和深度学习模型)被构建到发布的Docker镜像中,以实现便携性和可重复性。
Para_03
HuBMAP单细胞/单核RNA测序流程(https://github.com/hubmapconsortium/salmon-rnaseq,也用于空间转录组学测序如Slide-seq和Visium)基于Salmon准映射方法,并对内含子和外显子序列进行基因表达定量,后续分析使用Scanpy进行,并通过scVelo计算RNA速度。
sc/snRNA-seq流程的输出使用Azimuth细胞类型注释工具的自动化版本进行注释;这些目前包括心脏、肺和肾脏,随着新的Azimuth参考集成到HuBMAP处理基础设施中,还将计算附加注释。
Para_04
HuBMAP 成像管道(方法)是端到端的分析方法,接受原始图像,必要时执行照明校正、背景减除和拼图缝合,然后进行细胞和细胞核分割,并将表达和分割掩膜图像写入多通道 OME-TIFF 文件。
通过空间过程和关系建模(SPRM)进一步处理表达和掩膜图像,该过程使用 CellSegmentationEvaluator 工具计算图像和分割质量指标,创建细胞相邻性映射,为每个细胞和细胞核计算特征。
对细胞、细胞核和图像像素进行无监督聚类,计算每种聚类类型区分一个簇与其他簇的生物标志物,并将结果写入 CSV 和 HDF5 格式供终端用户和 HuBMAP 数据门户使用。
Para_05
为了构建HRApop(图1g),我们整合了来自HuBMAP的445个公共数据集,SenNet的两个数据集,CZ CELLxGENE的两个集合中的91个健康数据集(包括‘成人心脏细胞’和‘LungMAP——来自广泛年龄健康捐赠者的数据’)以及GTEx的15个单细胞数据集(方法部分)。结果,基于单细胞转录组学(例如sc/snRNA-seq)和OMAP对齐的空间蛋白质组学(例如CODEX和Cell DIVE),我们获得了23个器官中40个解剖结构的细胞类型群体数据,涉及13个独特的Uberon ID。
三个器官(大肠、小肠和皮肤)的数据是通过转录组学和蛋白质组学数据计算得到的细胞类型群体。
Para_06
对于 HRAlit32(图1h),映射到了HRA中的DOs的专家有583,117人,出版物有7,103,180篇,资助项目有896,680个,实验数据集有1,816个(方法)。
User interfaces
用户界面
Para_01
HuBMAP门户(https://hubmapconsortium.org;补充图2)介绍了HuBMAP的目标,并链接到实验和图谱数据、工具和培训材料。
HuBMAP数据门户(https://portal.hubmapconsortium.org)支持实验数据的摄入、搜索、探索和下载。
HRA门户(https://humanatlas.io;补充图3)支持HRA数据的构建、访问、探索、使用和下载。
Para_02
ASCT+B 报告器 3(https://humanatlas.io/asctb-reporter;补充图 4)支持人体器官专家编写和审查 ASCT+B 表格和 OMAP。
存在详细的操作流程(SOPs)45 和视频教程59,60,超过 170 位独特的专家通过使用此工具作为作者和/或审稿人,根据第六版 HRA 相关 DO 中列出的独特 ORCID ID 数量,为 HRA 做出了贡献。
Para_03
Azimuth14 (https://azimuth.hubmapconsortium.org; 补充图5) 是由 HuBMAP 开发的,用于自动化处理、分析和解释 sc/snRNA-seq 和 ATAC-seq 数据。
它的基于参考的映射管道读取细胞-基因矩阵,并执行标准化、可视化、细胞注释和差异表达(生物标志物发现)分析(图1f和图2b)。
在 HuBMAP 中,Azimuth 以生产模式使用,以自动注释 sc/snRNA-seq 数据集。
存在跨表来关联 Azimuth 细胞类型与 ASCT+B 表术语和本体 ID。
Para_04
RUI60(https://apps.humanatlas.io/rui;补充图6和SOP61)支持将人体组织块注册到3D CCF,并自动分配基于表面网格级别碰撞事件与Uberon和FMA本体论相关的解剖结构注释。
解剖结构注释与ASCT+B表和实验数据相结合,使得预测通常存在于解剖结构和碰撞组织块中的细胞类型成为可能。
RUI以JSON格式输出记录注册数据(例如,组织块通用唯一标识符(UUID)和三维大小、位置和旋转以及基于边界框的解剖结构注释)以及来源数据(例如,操作员姓名和日期)。
RUI作为一个独立工具可供任何人使用,以贡献与HRA对齐的空间数据。
它已完全集成在HuBMAP、SenNet和GUDMAP数据摄取门户中,但需要身份验证。
Para_05
探索用户界面(EUI)(https://apps.humanatlas.io/eui;补充图7)支持全身器官、组织和细胞水平上的组织样本和元数据的可视化浏览(表1,美国3号)。
2024年1月,来自351名捐赠者和19个财团/研究的901个人体组织切片和4,221个数据集被RUI注册到HRA 3D CCF。
用户可以根据捐赠者人口统计信息(例如性别和年龄)或数据来源(例如财团/研究和技术)进行筛选。
他们可以搜索特定的解剖结构、细胞类型或生物标志物来探索与解剖结构相碰撞的组织切片数量,以及位于这些解剖结构中的细胞类型或其特征性生物标志物(根据ASCT+B表格)。
用户还可以使用可调节的探测球运行三维空间搜索,在右侧按需探索详细信息,并链接到Vitessce62,63可视化工具在HuBMAP数据门户中,以及链接到其他数据门户中的数据和工具。
包含所有HRA数据的EUI作为一个独立工具可用,支持探索已映射到HRA的所有实验数据。
EUI针对HuBMAP、SenNet和GTEx数据门户进行了定制、品牌化和完全集成,以支持财团特定数据的探索(补充图8)。
Para_06
Vitessce62,63(http://vitessce.io)是一个用于可视化探索实验数据的工具,Azimuth 参考(补充图 5),HRA 分割和注释或细胞间距离分布可视化(补充图 9),参见大图使用部分的预览。
see previews in the Atlas usage section.
Para_07
交互式FTU探索者64(https://apps.humanatlas.io/ftu-explorer;补充图10)支持在它们的二维空间环境中探索细胞类型以及平均生物标志物表达矩阵(表1,US 4)。例如,组织数据(包括细胞类型群体和基因或蛋白质表达水平的数据)可以与健康的HRA参考数据进行比较,以确定细胞数量、细胞类型或平均生物标志物表达值的差异,从而为临床决策提供信息。
这有助于确定细胞数量、细胞类型或平均生物标志物表达值的差异,从而为临床决策提供信息。
Para_08
HRA Organ Gallery65,66(https://github.com/cns-iu/hra-organ-gallery-in-vr; 补充图11)支持对HRA 2.0的65个三维参考对象中的1,192个解剖结构进行多尺度探索。
使用Meta Quest VR设备,用户可以选择男性或女性参考身体;然后他们可以选取特定器官并用双手进行探索。
为了实现每秒60帧的视图更新率,使用了从原始HRA 3D参考对象派生的较低细节层次的模型。
Para_09
HRA API(https://humanatlas.io/api/;补充图12-14)支持对所有HRA DOs以及实验性HRApop数据进行编程访问。
用户首先选择一个API服务器和路由,输入查询参数,然后查看查询响应,请参阅方法部分以获取详细信息。
HRA 仪表板(https://apps.humanatlas.io/dashboard)将 HRA、出版物和实验数据与世界人口数据进行比较。