主要观点总结
文章介绍了在癌症组学领域的新进展,特别是CRAVAT、反相蛋白质微阵列(RPPA)技术等对癌症研究的重要推动。文章还着重介绍了德克萨斯大学MD安德森癌症中心梁晗团队开发的DrBioRight 2.0平台,该平台利用先进的大语言模型(LLMs)驱动,用户可通过自然语言探索以蛋白质为中心的癌症组学数据。该平台包含RPPA500数据集和DrBioRight 2.0系统架构,具备多种功能,如自动生成交互式热图、进行相关性分析和生存分析等。研究团队通过独立测试集对多个平台进行了性能评估,结果显示DrBioRight 2.0具有显著优势。
关键观点总结
关键观点1: CRAVAT和RPPA技术显著推动了癌症组学的发展,特别是在肿瘤DNA和RNA层面。
过去十年间,得益于癌症基因组图谱(TCGA)和癌细胞系百科全书(CCLE)等计划的推动,CRAVAT已经生成了大量数据。反相蛋白质微阵列(RPPA)技术为癌症研究提供了重要见解,有助于发现新型生物标志物和治疗靶点。
关键观点2: DrBioRight 2.0平台的开发及其功能
DrBioRight 2.0是一个由LLM驱动的生物信息学平台,用于探索和分析大规模的癌症功能蛋白质组学数据。该平台包含RPPA500数据集和DrBioRight 2.0系统架构,具备自然语言处理功能,用户可通过自然语言探索、分析和可视化上述RPPA数据。
关键观点3: DrBioRight 2.0的优势
DrBioRight 2.0平台拥有多项先进功能,如自动生成交互式热图、进行相关性分析和生存分析等。与传统平台相比,它具有自然语言理解能力、透明度、可重复性以及用户友好性等功能。研究团队通过独立测试集对多个平台进行了性能评估,结果显示DrBioRight 2.0具有显著优势。
正文
。
RPPA500
蛋白质
panel
全面覆盖了
50
个标志性基因集;相较其他蛋白质
panel
,总蛋白数量增加
115%
,
PTM
蛋白数量增加
67%
,极大提升人们从蛋白质层面理解癌症生物学的能力。
图
1. DrBioRight 2.0
中的数据集成工作流程和关键创新概述
同时,
研究团队还开发了一个基于
LLM
的新型聊天机器人
DrBioRight 2.0
,其具备自然语言处理功能,使用户能够直观、智能地探索、分析和可视化上述
RPPA
数据
。具体而言,研究团队首先生成了一个统一多组学数据集,对患者临床、分子层面、蛋白质层面及细胞系表型数据进行标准化、归一化处理,将超
10
亿数据值以
HDF5
格式在云服务器非关系型数据库中整理、重构;然后重新审查了蛋白质标志物,通过交叉对比在不同层面对其进行详细注释,以利于用户分析。
与传统平台相比,
DrBioRight 2.0
拥有自然语言理解能力、透明度、可重复性以及用户友好性等功能,这些特殊功能由以下几项关键的前沿技术提供支持
:
①
聊天界面:基于会话的实时聊天界面;
②
提示词:高度可定制的面向
LLM
的特定领域知识提示;
③
LLM
:由
LLM
赋能的生成式
AI
:
④
代码生成:无缝的代码生成与校正循环;
⑤
插件:深度嵌套的交互式插件增强了数据的有效可视化和分析。
使用
DrBioRight
2.0
时,
用户输入相关指令,
便
可生成交互式热图、
自动化
进行相关性分析和生存分析等,且分析结果支持下载和本地复现。
图
2. DrBioRight 2.0
平台概述
DrBioRight 2.0的系统架构由No-SQL数据库
、
LLM驱动的后端分析模块
和
交互式聊天界面
等
三个核心
部分
组成
。
DrBioRight 2.0