- 主题:Nat. Commun. | 人工智能计算方法CGMega解析癌症基因模块
Nat. Commun. | 李昊等开发人工智能计算方法CGMega解析癌症基因模块
近期,针对癌症基因模块识别问题中面临的多模态信息融合、小样本学习、子图搜索等计算挑战,军事医学研究院伯晓晨、陈河兵团队联合上海交通大学杨旸团队提出基于可解释图注意力机制的计算框架CGMega(图2),实现了癌症基因模块的辨识与解析。CGMega是一个基于Transformer的图注意力网络模型,其任务性质为半监督的图节点分类学习。输入是由蛋白质互作、基因组、表观基因组以及三维基因组等多组学信息融合的图,该图以基因为节点,以蛋白质互作关系为相应节点的边,将预处理后的染色质结构信息、变异信息、拷贝数信息、染色质开放信息以及组蛋白修饰信息分配到各个基因作为节点特征。CGMega的输出是对于每个基因的癌基因预测概率。最后,CGMega采用并改进GNNExplainer可解释工具来进行癌症基因模块的挖掘,通过掩蔽的方法确认子图结构以及节点特征对于关键癌基因的贡献程度。
发自「今日水木 on 23013RK75C」
--
FROM 119.34.160.*
团队在乳腺癌MCF7细胞系对CGMega进行了性能测试,预测结果为AUPRC=0.9140,AUROC=0.9630。团队对CGMega与其他方法进行了比较,包括4种通用模型GCN, GAT, MLP, SVM以及3种针对癌基因预测的领域模型如MTGCN、EMOGI和MODIG。结果显示,无论在AUPRC、AUROC,还是准确率Accuracy以及F1分数方面,CGMega的表现均优于其他方法(图3)。此外,准确预测癌基因通常需要大量标注信息,然而这类信息在罕见癌症研究中往往极为稀缺。因此,如何充分利用已知癌基因的相关知识对于罕见病研究至关重要。基于此,团队采用预训练和微调的策略,使CGMega在MCF7细胞系上所学到的知识可以较好地迁移到其他癌种,尤其是在有标签基因的数据少于200个时,预训练策略具有明显优势。
【 在 purplesoul 的大作中提到: 】
: Nat. Commun. | 李昊等开发人工智能计算方法CGMega解析癌症基因模块
:
: 近期,针对癌症基因模块识别问题中面临的多模态信息融合、小样本学习、子图搜索等计算挑战,军事医学研究院伯晓晨、陈河兵团队联合上海交通大学杨旸团队提出基于可解释图注意力机制的计算框架CGMega(图2)
: ..................
发自「今日水木 on 23013RK75C」
--
FROM 119.34.160.*
与此同时,关于多组学数据的整合方式,尤其关于染色质结构信息,团队进行了全面探索(图4)。一种策略是将染色质结构信息转化为图的拓扑结构,根据与蛋白质互作图的结合方式,可进一步分为三种方式:1)仅使用染色质结构信息;2)染色质结构图与蛋白质互作图分别经过独立的GAT编码,而后再对隐空间表示予以合并;3)染色质结构图与蛋白质互作图先融合,而后再经过统一的GAT编码。在上述三种方式中,图的节点特征相同,均由表观信息、变异信息和染色质开放信息等构成。另一种策略是仅使用蛋白质互作图作为拓扑结构,而将染色质结构信息转化为图的节点特征。根据对于Hi-C数据是否进行ICE校正、后续降维方法(如SVD、Node2Vec、LLE等)及具体维度的选择,团队对不同方法组合进行了大量测试,最终得出性能最优的整合策略是:使用蛋白质互作图作为拓扑结构,对于Hi-C数据先进行ICE校正,而后采用SVD降维到5维,然后使用这5维染色质信息和其他组学信息共同作为节点特征,对应的最优性能为AUPRC=0.9140。
【 在 purplesoul 的大作中提到: 】
: Nat. Commun. | 李昊等开发人工智能计算方法CGMega解析癌症基因模块
:
: 近期,针对癌症基因模块识别问题中面临的多模态信息融合、小样本学习、子图搜索等计算挑战,军事医学研究院伯晓晨、陈河兵团队联合上海交通大学杨旸团队提出基于可解释图注意力机制的计算框架CGMega(图2)
: ..................
发自「今日水木 on 23013RK75C」
--
FROM 119.34.160.*