发布日期:2019-05-28 来源:仪器信息网 作者:Mr liao
单细胞检测技术的发展为我们理解复杂生命体中细胞的组成与各自功能及变化过程提供了强有力的工具。基于单细胞基因表达谱数据,我们可以窥探发育过程中细胞内的调控变化,发现肿瘤微环境中的各类细胞及它们的细胞间交流,理解器官组织中复杂多样的细胞类型。现有单细胞研究是一个从整体到个体,再由个体特征重建整体的过程。在这个过程中,有一些非常有意思的问题是我们希望通过单细胞数据加以理解的,比如,某个组织中,某类细胞的发育生成过程;在不同条件下,细胞的改变过程和命运等等。因此,我们需要通过特定的分析手段实现对数据的分类和还原,并通过数据来勾画出细胞间的变化过程。在这样的背景下,拟时间序列分析(Pseudotime分析)为我们提供了来解决该问题的工具。
拟时间序列分析(Pseudotime分析)的字面意思是通过构建细胞间的变化轨迹来重塑细胞随着时间的变化过程。从具体的分类分析和复杂程度来说,可以分为细胞轨迹分析和细胞谱系分析。
细胞轨迹分析指的是简单模型的细胞变化轨迹分析,通常指的是细胞沿着某个过程有特定化的变化终点,轨迹具有简单树状结构,一端是 根 ,另一端是 叶 ;细胞谱系分析通常指的是某类祖源细胞,在特定条件下,有多个发育轨迹和命运,变化过程类似复杂树状分支变化过程。因此,简单细胞轨迹分析和细胞谱系分析原理上类似,复杂程度有所区别,当然,基于此的分析手法和方式也会有所不同。
近期单细胞检测技术的发展也激起了基于单细胞数据分析技术的爆发。从现有发表研究来看,已有不同类型的分析方法用于拟时间序列分析。我们对现有常用的分析策略整理如下图:
以下我们以Monocle软件的拟时间分析为例,以简单模型来了解下通过该分析我们能拿到什么样的结果。
拟时间序列分析包括基因选择,数据降维和在拟时间内排列细胞三个基本步骤:
1.选择基因
推断单细胞轨迹是一个机器学习问题。第一步是选择机器学习方法输入的基因。这叫做特征选择,它对轨迹的形状有很大的影响。算法通过检查这些基因在细胞群中的表达模式来对细胞进行排序。寻找以 有趣 即不只是嘈杂方式变化的基因,并利用这些基因来构造数据。这些基因将产生一个健壮、准确和具有生物学意义的轨迹。
2.数据降维
一旦细胞有序排列,我们就可以在降维空间中可视化轨迹,所以首先选择用于细胞排序的基因,然后使用反向图嵌入算法对数据进行降维。
3.在拟时间内排列细胞
通过将表达数据投射到更低的维度空间,通过机器学习描述细胞如何从一种状态过渡到另一种状态的轨迹。假设轨迹具有树状结构,一端是 根 ,另一端是 叶 。尽可能地将最佳树与数据匹配起来。这项任务被称为 歧管学习 ,在生物过程的开始阶段,细胞从根部开始,沿着主干前进,直到到达第一个分支如果有的话。然后,细胞必须选择一条路径,沿着树走得越来越远,直到到达一片叶子。一个细胞的伪时间值是它回到根的距离。
通过该过程,我们就能得到以不同分类细胞为分类的细胞轨迹图:
从上述的轨迹图中,我们基本可以把这些细胞的轨迹途径分为5个不同的阶段(State),因此,可以用阶段(State)对轨迹图进行绘制,以明确轨迹过程阶段:
当然,通过以上的分析结果,我们无法判断出来轨迹的开始,因此无法确定轨迹路线。所以,我们需要结合已有认知,通过函数识别包含时间为零的大多数细胞的状态,绘制拟时间轨迹图: 图4 拟时间轨迹图 得到上述拟时间轨迹图后,我们就可以根据不同的阶段分类,分别进行分类绘制,得到以下结果:
有了基本轨迹图之后,我们可以用细胞差异基因排序得到的轨迹进行验证。可以看到,差异基因排序产生的轨迹与以非监督方法得到的轨迹非常相似,但它更 干净一些 。 图6 差异基因轨迹图及非监督聚类轨迹图
接下来,根据不同细胞状态,把不同的基因沿着不同的State分类进行作图,以展示基因变化过程。 图7差异基因各 State 表达散点图 此外,根据细胞类型分类,我们也可以将差异基因沿着拟时间轨迹绘制不同类型细胞基因表达散点图:
最后,根据拟时间序列轨迹,我们把特征差异基因表达变化进行聚类,以热图形式展示基因的变化过程:
--
FROM 59.41.66.*