与此同时,关于多组学数据的整合方式,尤其关于染色质结构信息,团队进行了全面探索(图4)。一种策略是将染色质结构信息转化为图的拓扑结构,根据与蛋白质互作图的结合方式,可进一步分为三种方式:1)仅使用染色质结构信息;2)染色质结构图与蛋白质互作图分别经过独立的GAT编码,而后再对隐空间表示予以合并;3)染色质结构图与蛋白质互作图先融合,而后再经过统一的GAT编码。在上述三种方式中,图的节点特征相同,均由表观信息、变异信息和染色质开放信息等构成。另一种策略是仅使用蛋白质互作图作为拓扑结构,而将染色质结构信息转化为图的节点特征。根据对于Hi-C数据是否进行ICE校正、后续降维方法(如SVD、Node2Vec、LLE等)及具体维度的选择,团队对不同方法组合进行了大量测试,最终得出性能最优的整合策略是:使用蛋白质互作图作为拓扑结构,对于Hi-C数据先进行ICE校正,而后采用SVD降维到5维,然后使用这5维染色质信息和其他组学信息共同作为节点特征,对应的最优性能为AUPRC=0.9140。
【 在 purplesoul 的大作中提到: 】
: Nat. Commun. | 李昊等开发人工智能计算方法CGMega解析癌症基因模块
:
: 近期,针对癌症基因模块识别问题中面临的多模态信息融合、小样本学习、子图搜索等计算挑战,军事医学研究院伯晓晨、陈河兵团队联合上海交通大学杨旸团队提出基于可解释图注意力机制的计算框架CGMega(图2)
: ..................
发自「今日水木 on 23013RK75C」
--
FROM 119.34.160.*