编辑: 牛牛小龙人 | 2019-07-04 |
22 39.5 B - - 41.5 (CDE) - - - Bioinformatics, 2019, HUST (AB) (CDE) (AB) - 40.5 (CDE) - - f1+a=f2+c=40.5/2=20.25 f1=9.25 , f2=11.75 Bioinformatics, 2019, HUST 基于似然性 (likelihood) 的推断 ? 硬币两个面,正面 (H),背面 (T) ? 六次投掷后:HHHHTT ? 正面出现的概率p,背面出现的概率1-p ? 当p=0.67时,概率函数达到最大值 ? 因此,正面出现的概率可能是0.67 模式出现的概率函数 f(p)= p4(1-p)2 Bioinformatics, 2019, HUST 最大似然法 (ML) ? 考虑一个进化模型M,例如Jukes-Cantor ? 已知根节点上每个位点的先验分布 ? 所有的位点在进化中是独立且等同的 (independently and identically, i.i.d.) ? p(x?y | t) 即在分支t上x被替代成y的概率 ? 在Jukes-Cantor模型中,替代速率3α= γ Bioinformatics, 2019, HUST 如何估算αt? ? 因为: ? 所以: 给定三条序列 S1: TGG S2: AGG S3: AGC Bioinformatics, 2019, HUST 最大似然法 (ML) ? 寻找树 H包含k个叶节点,从而最大化条件概率 ? L=Pr[Data | H, M] ? L即为在模型M下的似然性 (likelihood) ? 由于位点进化独立且等同,L等于比对结果中第i列 的似然性Li 的乘积 ? 其中Li=Pr[Data(i) | H, M] Bioinformatics, 2019, HUST 似然性的计算 ? 假设第i列的位点,三条序列的字符为T, A, A, 对于其 中一个可能的树H: ? 根节点R有四种可能: A, G, C, T ? 内部节点I 也有四种可能: A, G, C, T ? 对于每一对特定状态,例如: R=A, I=G, 进化概率为 p[R=A] p(A?A| x) p(A?G| y) p(G?T| z) p(G?A| w) ? 考虑所有的概率,则似然性Li为Bioinformatics, 2019, HUST 例如,给定三条序列 S1: TGG S2: AGG S3: AGC 需要考虑三种拓扑结构 对于每一个树(例如最左边的树),基于Jukes-Cantor模型计 算似然性Pr[Data | H, M] = L1* L2 *L3 Bioinformatics, 2019, HUST 最大似然法 (ML) ? 对于每个树,我们需要确定4个分支的长度 ? 最大化似然性Pr[ Data |H, M] , 该函数包含16 x
16 x
16 项, 每一项是5个概率的乘积 ? 最大似然法非常耗费时间 ? NP-hard问题:太多树需要考虑 Bioinformatics, 2019, HUST 贝叶斯方法 (Bayesian Method) ? 考虑我们有一个比对A (data),包含k条序列S1, S2, … Sk ? 假设我们知道所有树的概率分布,即先验概率分布 (prior probability distribution),需要独立于数据本身 ,例如: Bioinformatics, 2019, HUST 贝叶斯方法 (Bayesian Method) ? 对于数据A,利用贝叶斯理论对给定树T计算概率 ? Pr[T|Data]是根据给定数据所观测到该树的概率,称 为树的后验概率 (posterior probability) Bioinformatics, 2019, HUST 贝叶斯方法 (Bayesian Method) ? 如何确定先验概率分布? ? Markov Chain Monte Carlo (MCMC) ? 数据采样,建立先验的概率分布 ? 如果先验概率是均匀分布,则贝叶斯方法等同于最大 似然性方法 ? 计算时间比最大似然性方法更久 Bioinformatics, 2019, HUST 建树方法总结 Neighbor-Joining UPGMA Parsimony Method Maximum Likelihood Bayesian Method 快慢不够准........