在蛋白质组学和代谢组学实验中,液相色谱通常与质谱结合使用,以分离和检测复杂样品。但不同样品内相同成分的保留时间(retention time, RT)通常会因多种原因而发生变化。因此,对于涉及多个样本的实验,在定量比较或统计分析之前必须先匹配(对齐)相同的成分。在蛋白质组学数据分析流程中,传统做法是根据二级谱图鉴定结果进行对齐,如MaxQuant中的Match Between Runs(MBR)策略。然而,在数据依赖采集(data dependent acquisition, DDA)模式下产出的质谱数据中,只有15%-25%的母离子有机会产生对应的二级谱图,再加上谱图解析率有限,依赖二级谱图【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.鉴定结果进行对齐的方法在大样本间对齐时的效果并不理想。
即便是数据非依赖采集(data independent acquisition, DIA)模式的质谱数据,由于其二级谱图解析难度较高,仍存在不少无法识别的母离子(潜在肽段)。与传统流程相比,不依赖二级谱图鉴定(ID-free)的分析流程在鉴定之前可先通过对齐算法匹配不同样本中相同成分对应的谱图特征(MS features),然后对所有对齐后的谱图特征进行后续分析(如差异筛选等),最后通过靶向质谱方法验证分析中发现的重要谱图特征。ID-free的分析流程可以找到传统数据分析流程中不易鉴定到的差异特征,更加灵敏地发现潜在标志物。
2023年12月【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.11日,国家蛋白质科学中心(北京)常乘/贺福初团队与朱云平团队,在学术期刊Nature Communications(《自然-通讯》)在线发表题为DeepRTAlign: toward accurate retention time alignment for large cohort mass spectrometry data analysis(《DeepRTAlign:面向大队列质谱数据的保留时间精准对齐算法》)的论文。该研究发展了一种基于深度学习的保留时间对齐算法DeepRTAlign,可兼容所有能够提取三维特征(RT,m/z和intensity)的软件结果进行谱图特征对齐。本算法一方【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.面可以作为传统分析流程的补充,降低多样本间定量结果的缺失值比例(效果优于MBR);另一方面则可作为ID-free流程的主要步骤之一,不依赖鉴定结果即可对齐不同样本中的谱图特征。
图1:DeepRTAlign算法的训练流程(a)和对齐流程(b)示意图。
研究人员在十多个蛋白质组学和代谢组学数据集以及相应的模拟数据集上与当前最先进的对齐方法进行了对比,结果表明DeepRTAlign可以在不影响定量准确性的情况下提高鉴定灵敏度。此外,使用DeepRTAlign对齐的母离子特征,该研究训练了一个包含15个特征的分类器来预测肝细胞癌的早期复发,进一步使用PRM靶向蛋白质组学方法(平行反应监测技术,paral【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.lel reaction monitoring)在独立队列中验证了这些特征具有不错的预测早晚复发能力(AUC为0.833)。另外,PRM数据给出并验证了所有15个特征的肽段信息,其中7个序列是原始DDA数据中没有鉴定到的,并且纠正了一个DDA数据鉴定序列。综上,DeepRTAlign为大队列质谱数据分析的关键步骤——RT对齐提供了很好的解决方案,ID-free策略可以发现更合适的标志物组合,将有助于蛋白质组学在临床应用中发挥更大的作用。
图2:基于DeepRTAlign对齐谱图特征的肝细胞癌早期复发分类器的构建与验证。
本工作得到了中国科技部重点研发计划和国家自然科学基金委的支持。常乘副研究员和朱【我.爱.线.报.网.】52xbw .cn 每日持.续更新.可.实操.的副.业.云平研究员为本文共同通讯作者。国家蛋白质科学中心刘祎博士和广东智慧医学国际研究院杨云博士为共同第一作者。
文章链接:
https://www.nature.com/articles/s41467-023-43909-5
来源:iNature
推荐阅读
友情提醒: 请尽量登录购买,防止付款了不发货!
QQ交流群:226333560 站长微信:qgzmt2