系统发生树
此条目需要精通或熟悉相关主题的编者参与及协助编辑。 (2020年3月14日) |
此条目应避免有陈列杂项、琐碎资料的部分。 (2020年3月14日) |
系统发生树(英语:phylogenetic tree)又称为种系发生树、亲缘关系树,或演化树(英语:evolutionary tree),是一种呈现不同物种或是同物种不同族群的个体之间亲缘关系的树状图。分析个体亲缘关系的学术领域称为系统发生学(phylogenetics),可应用于多个领域的研究,如支序分类学(cladistics)、流行病学(epidemiology),以及生态学(ecology)。地球上所有生命都是一个系统发生树的一部分,表明有共同的祖先。
组成
演化树由“节点”和“线段”组成。
节点
位置
节点可分为“叶”和“中途点”。叶是演化树中最末端的节点,是确定存在而且被拿来分析的资料。通常是物种或是同物种的不同样本。而中途点则是在演化树中除了叶以外的节点,这些点以演化来说是这些叶在演化过程中共同起源的祖先,它们是在推算演化树时假设存在过的个体。有些演化树中还有另一种节点“根”,是除了前述的中途点以外用来表示万物起源的点;更正确地说,它呈现出的是演化树中所有个体最接近当代的源头。根是演化树中一切节点的上游,它的上游没有起源。最常用的决定根的位置的方法是使用一个或多个无可争议的同源物种作为“外群”(outgroup),这个外群要足够近,但又不能太近以至于和树中的种类相混。下方会讨论有根和无根演化树之间的差异。
分支数量
这里所称的分支指的是每个节点所连接到的线段。演化树中的叶位在最外端,只会被一根线段连接。然而,中途点的分支数量则有较多可能。以有根树来说,具有一个亲源以及恰好两个子点的中途点称做二分点 (bifurcating nodes),而如果有超过两个子点的话则称为多分点 (multifurcating nodes)。因为无根演化树即为去除根的有根演化树,所以无根树中的二分点有三个分支,也就是在有根的情况下一个亲源加上两个子点的数量,而超过三个的那些便相当于是多分点。
线段
方向性
不管是叶或是中途点都被“线段”所连接。当树有方向性的时候,一根线段的两个端点中位于演化上游的点称作亲源 (parental node) ,下游的点则称为子点 (child node)。连接各个节点的线段不一定会有单位。当一个演化树的线段没有长度单位时,意味的是这个演化树只呈现个体之间的亲疏远近,但亲疏远近的程度则不是重点。如果这些线段有了单位,那么个体之间的差异就也在演化树中被呈现出来。单位有可能是差异多寡或是演化时间。
长度单位
线段所表示的分隔程度以其长度呈现。长度越大意味着线段两端的两个点(两个祖先或是从祖先到叶)之间差异越大。诚如前述,长度单位可以是差异的多寡或是时间的长短,而且两者是可以互相转化的。假设一段演化过程中差异出现的速度是 而且累积了 个差异,那么其时间长度 。这个变换的过程称为定年 (tree dating)。
分类
以“根”为依据
树可分为有根树和无根树两类。“根”是呈现出的是演化树中所有个体最接近当代的源头。因此,有根树呈现出了演化的方向,也就是从根往叶演化。右图即是一个有根树,表示了三域系统(Woese 1998)。另一方面,无根树则顾名思义是没有包含“根”的演化树。即便个体之间的差异在演化树中没有改变,无根树因为不呈现起源,因此无法呈现出演化的方向,每条线段的两个演化方向都有可能。
以“分支”为依据
如前所述,中途点可能为二分或是多分,而当中途点不是二分的时候就意味着不知道谁的祖先先出现在演化历程中,或者可以说多分点代表了演化树的不确定性 (uncertainty)。比方说,当病原体同时感染多名患者时,从不同患者体内取样本再计算演化树,其结果很可能就会是没有分层、只有单一亲源多重分支到数个叶的“星型树”(star tree),呈现著未知的感染顺序。如果没有那么极端,在演化树中有些中途点是二分而有些是多分,则为局部解明树 (partially resolved tree)。如果全部的中途点都是二分,则为完全解明树 (fully resolved tree or resolved tree)或称二分树 (bifurcating tree)。
运算
算一颗演化树指得是决定出手上的样本的演化先后顺序,甚至计算演化过程所累积的变异数量或是所耗时间。或者简单的说,是要分析手中样本的祖先出现顺序以及彼此之间的差异。
矩阵法
近邻结合法 neighbor-joining (NJ)
简约法
最大简约法 maximum parsimony (MP)
最大似然法
最大似然估计 maximum likelihood (ML)
后验概率法
贝叶斯法 Bayesian
演化树定年
定年 (tree dating) 指的是把树的各个线段从差异数量换算成时间。虽然在前方已经提过
,
但是速率 通常是无从得知的,它有可能在演化过程中一直都一样,也可能因为环境压力使得变异速率每历经一代就越来越高,也有可能一直都是随机的忽快忽慢。所以时钟的数学模型 (clock models) 便是为了此困难而存在。
运算工具
- RAxML (maximum likelihood) (页面存档备份,存于互联网档案馆)
- Phylip (maximum likelihood) (页面存档备份,存于互联网档案馆)
- ARB (页面存档备份,存于互联网档案馆)
- MrBayes (页面存档备份,存于互联网档案馆)
- BAMBE (页面存档备份,存于互联网档案馆)
- BEAST2 (Bayesian)
软件[3]
参考文献
- ^ Letunic, I; Bork, P. Interactive Tree Of Life (iTOL): an online tool for phylogenetic tree display and annotation.. Bioinformatics (Pubmed) . 2007, 23 (1): 127–8. PMID 17050570. doi:10.1093/bioinformatics/btl529.
- ^ Ciccarelli, FD; Doerks, T; Von Mering, C; Creevey, CJ; Snel, B; Bork, P. Toward automatic reconstruction of a highly resolved tree of life. Science (Pubmed) . 2006, 311 (5765): 1283–7. Bibcode:2006Sci...311.1283C. PMID 16513982. doi:10.1126/science.1123061.
- ^ 软件列表 (页面存档备份,存于互联网档案馆)