编辑: 牛牛小龙人 | 2019-07-04 |
2 1
2 ? ? ? ? ? ? Bioinformatics, 2019, HUST 系统发育树的构建 ? 系统发育树:分子进化树/分子进化分析 ? 通过进化树的构建,分析分子之间的起源 关系,预测分子的功能 ? 建树方法: ?最大简约法 (Maximum Parsimony) ?距离法 (Distance-based methods) ?最大似然性法 (Maximum Likelihood) ?贝叶斯方法 (Bayesian method) Bioinformatics, 2019, HUST 根节点 内部节点/分歧点,该 分支可能的祖先结点 分支/世系 叶节点 A B C D E 代表最终分 类,可以是 物种,群体 ,或者蛋白 质、DNA、 RNA分子等 系统发育树: 术语 Bioinformatics, 2019, HUST Taxon A Taxon B Taxon C Taxon D
1 1
6 遗传变化 Taxon A Taxon B Taxon C Taxon D 时间 Taxon A Taxon B Taxon C Taxon D 无意义 分支图 进化树 时间度量树 以上三种类型的系统发育树表示相同的分支状 况,相同的进化关系 系统发育树:三种类型 Bioinformatics, 2019, HUST A B C D E? F G F G C D E? A B 树只代表分支的拓扑结构 Bioinformatics, 2019, HUST archaea archaea eukaryote eukaryote eukaryote eukaryote 通过外围支 来确定树根 archaea bacteria outgroup 根eukaryote eukaryote eukaryote eukaryote 无根树 archaea archaea archaea 有根树 外围支 无根树,有根树,外围支 Bioinformatics, 2019, HUST 无根树和有根树:潜在的数目 #Taxa 无根树 有根树
3 1
3 4
3 15
5 15
105 6
105 945
7 945 10,395 …
30 ~3.58X1036 ~2.04X1038 Taxa增多,计算量急剧增加,因此,目前算法都为 优化算法,不能保证最优解 Bioinformatics, 2019, HUST 多序列比对(自动比对,手工校正) 选择建树方法以及替代模型 建立进化树 进化树评估 系统发育树重建分析步骤 Bioinformatics, 2019, HUST ? 最大简约法 (maximum parsimony, MP) ? 距离法 (distance) ? 最大似然法 (maximum likelihood, ML) ? 贝叶斯方法 (Bayesian method) 系统发育树重建的基本方法 Bioinformatics, 2019, HUST 最大简约法 (MP) ? 理论基础为奥卡姆剃刀 (Ockham)原则:计算所需替 代数最小的那个拓扑结构,作为最优树 ? 在分析的序列位点上没有回复突变或平行突变,且 被检验的序列位点数很大的时候,最大简约法能够 推导获得一个很好的进化树 ? 优点:不需要在处理核苷酸或者氨基酸替代的时候 引入假设 (替代模型) ? 缺点:分析序列上存在较多的回复突变或平行突变, 而被检验的序列位点数又比较少的时候,可能会给 出一个不合理的或者错误的进化树推导结果 Bioinformatics, 2019, HUST ? 信息位点,必须在至少2个taxa中具有相同 的序列性状 ? 信息位点是指那些至少存在2个不同碱基/ 氨基酸且每个不同碱基/氨基酸至少出现两 次的位点 信息位点 (Sites are informative) Bioinformatics, 2019, HUST Bioinformatics, 2019, HUST 上例 ? Position 5, 7, 9为信息位点 ? 基于position 5的三个MP树: ?Tree 1长度1,Tree
2 &
3长度2 ? Tree 1更为简约:总长:4 ? Tree 2长5;
Tree 3长6 ? 计算结果:MP tree的最优结果为tree
1 Bioinformatics, 2019, HUST 距离法 ? 又称距离矩阵法,首先通过各个物种之间 的比较,根据一定的假设(进化距离模型) 推导得出分类群之间的进化距离,构建一 个进化距离矩阵.进化树的构建则是基于 这个矩阵中的进化距离关系 Bioinformatics, 2019, HUST 简单的距离矩阵 Bioinformatics, 2019, HUST ? 由进化距离构建进化树的方法有很多,常见有: ?Fitch-Margoliash Method (FM法): 对短支长非 常有效 ?Neighbor-Joining Method (NJ法/邻接法):求最 短支长,最通用的距离方法 ?Unweighted Pair Group Method (UPGMA法) 通过距离矩阵建树的方法 Bioinformatics, 2019, HUST Fitch-Margoliash方法 (FM法) Bioinformatics, 2019, HUST D和E最接近! 分成三组:D, E, 以及ABC Bioinformatics, 2019, HUST DE距离=d+e (1) D到ABC间的平均距离=d+m (2) E到ABC间的平均距离=e+m (3) (2)-(3)+(1) d=4,e=6 Bioinformatics, 2019, HUST C最接近DE! 分成三组:C, DE, 以及AB Bioinformatics, 2019, HUST c+g+(e+d)/2=19 (1) c+f+(a+b)/2=40 (2) (e+d)/2+(a+b)/2+f+g=41 (2) (1)+(2)-(3) 得:c=9 Bioinformatics, 2019, HUST c+g+(e+d)/2=19 (e+d)/2=5,c=9,则g=5 Bioinformatics, 2019, HUST 由:(a+b)/2+f+g+(d+e)/2=41 得:f=20 由:a+f+c=39 得:a=10,则b=12 Bioinformatics, 2019, HUST NJ/邻接法 ? 与FM方法非常类似 ? 保证总的支长最短 ? 总支长:a+b+c+d+e=314/4=78.5 Bioinformatics, 2019, HUST 找到距离最近的两个点 ? 任意两个节点选为相邻序列的总支长计算公式: ? 计算SAB, SBC, SCD, SDE…等数值 ? 该例中, SAB最小 Bioinformatics, 2019, HUST 把A、B看成一个新的复合序 列,构建一个新的距离表,重复 以上过程 计算A, B的分支长度 Bioinformatics, 2019, HUST d=e=10/2=5 UPGMA法Bioinformatics, 2019, HUST c=19/2=9.5 g=c-d=9.5-5=4.5 Bioinformatics, 2019, HUST a=b=22/2=11 A B (CDE) A -