编辑: yyy888555 | 2019-07-04 |
7 个数字组成,例如 GO:0072669);
每类 ontology 的term 通过它们之间的联系(is_a, part_of, regulate)构成一个有向无环的拓扑结构.详见 http://www.geneontology.org/. CDS:编码区,指的是转录本中真正编码蛋白质的区域,一般首为起始密码子,终为终止密码子. Mapping:序列比对,将测序的短序列与参考序列比较,找出短序列在参考序列中的准确位置. 均一化分析:均一化分析是用于评估转录组测序建库时对 mRNA 的打断是否随机,若不随机则可能对 后续的分析会产生较大偏好性. 测序饱和度曲线:测序饱和度曲线用于反映基因表达水平定量对数据量的要求.表达量越高的基因,就 越容易被准确定量;
反之,表达量低的基因,需要较大的测序数据量才能被准确定量.当曲线达到饱和, 说明测序数据量已满足定量要求. FPKM:FPKM(Fragment Per Kilo bases per Million mapped Reads)是每百万 reads 中来自某一基 因每千碱基长度的 reads 数目,FPKM 同时考虑了测序深度和基因长度对 reads 计数的影响,FPKM 用于评估基因的表达量. 样品间相关性分析:衡量样本间相关性,相关系数越接近 1,表明样品之间表达模式的相似度越高.若 样品中有生物学重复,通常生物重复间相关系数要求较高. 热图:通过颜色深浅来可视化数据大小,每一个颜色块表示一个数值,一般颜色越深说明数值越大. 密度曲线:用来衡量数据的分布,数据在某个区域越集中,则该区域的面积越大. PCA 分析:PCA 分析(Principal Component Analysis)是一种研究数据相似性和差异性的可视化方法. 进过一系列的计算之后,选择主要的,排在前几位的特征值,对样本之间的关系进行描述. 韦恩图:又叫文氏图,用于反映不同数据集合的共性及特异性. SNP/Indel:SNP 为单碱基核酸突变,Indel 表示插入和缺失. Pvalue:统计学检验的 P 值,P 值越小说明样本间差异越大 FDR:多重假设检验校正后的 P 值,在做多次检验的时候为控制假阳性率需对 P 值再做校正,一般 P 值越小,FDR 值也越小. Foldchange:表达量差异倍数,一般差异倍数越大,说明表达差异越大. 火山图:火山图(Volcano Plot)在一张图中显示了两个重要的指标(Fold change/p-Value),可以非常 直观且合理地筛选出在两样本间发生差异表达的基因. MA 图:横坐标 X 轴表示 log 均值,即(log2(A)+log2(B))/2, 纵坐标为代表 log(Foldchange),即log2(B/ A), 据此图可看出差异基因分布在高表达基因或者低表达基因. 表达模式聚类:对所有的差异基因进行聚类分析,该分析可以将表达模式相近的基因聚到一起,筛选出 特定表达模式的基因类. 功能富集分析:对差异基因做检验,看差异基因在不同功能类下的分布,通过此分析可推断差异基因主 要的功能及生物学意义. 共表达网络:基因共表达网络分析(Gene Co-expression Network Analysis)是根据基因表达信号值的 动态变化,计算基因间的共表达关系,来建立基因转录调控模型,得到基因间的表达调控关系及调控方 向,从而寻找一个或多个物种在不同发育阶段,或者不同组织在不同条件或处理下的全部基因表达调控 网络模型以及关键基因,从而系统的研究生物体复杂的生命现象. 蛋白互作网络:蛋白间存在相互作用,对差异基因构建蛋白互作网络,可筛选出候选的关键差异基因. 2. 相关软件及数据库 2.1 软件 FastQC:http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/,版本 0.11.5. cutadapt:https://pypi.python.org/pypi/cutadapt/1.2.1,版本 1.2.1. Prinseq:http://prinseq.sourceforge.net/,版本 0.19.5. blast+ : http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&