【PDF】生工生物 - 资源下载

编辑：

yyy888555

2019-07-04

7 个数字组成,例如 GO:0072669);

每类 ontology 的term 通过它们之间的联系(is_a, part_of, regulate)构成一个有向无环的拓扑结构.详见 http://www.geneontology.org/. CDS:编码区,指的是转录本中真正编码蛋白质的区域,一般首为起始密码子,终为终止密码子. Mapping:序列比对,将测序的短序列与参考序列比较,找出短序列在参考序列中的准确位置. 均一化分析:均一化分析是用于评估转录组测序建库时对 mRNA 的打断是否随机,若不随机则可能对后续的分析会产生较大偏好性. 测序饱和度曲线:测序饱和度曲线用于反映基因表达水平定量对数据量的要求.表达量越高的基因,就越容易被准确定量;

反之,表达量低的基因,需要较大的测序数据量才能被准确定量.当曲线达到饱和, 说明测序数据量已满足定量要求. FPKM:FPKM(Fragment Per Kilo bases per Million mapped Reads)是每百万 reads 中来自某一基因每千碱基长度的 reads 数目,FPKM 同时考虑了测序深度和基因长度对 reads 计数的影响,FPKM 用于评估基因的表达量. 样品间相关性分析:衡量样本间相关性,相关系数越接近 1,表明样品之间表达模式的相似度越高.若样品中有生物学重复,通常生物重复间相关系数要求较高. 热图:通过颜色深浅来可视化数据大小,每一个颜色块表示一个数值,一般颜色越深说明数值越大. 密度曲线:用来衡量数据的分布,数据在某个区域越集中,则该区域的面积越大. PCA 分析:PCA 分析(Principal Component Analysis)是一种研究数据相似性和差异性的可视化方法. 进过一系列的计算之后,选择主要的,排在前几位的特征值,对样本之间的关系进行描述. 韦恩图:又叫文氏图,用于反映不同数据集合的共性及特异性. SNP/Indel:SNP 为单碱基核酸突变,Indel 表示插入和缺失. Pvalue:统计学检验的 P 值,P 值越小说明样本间差异越大 FDR:多重假设检验校正后的 P 值,在做多次检验的时候为控制假阳性率需对 P 值再做校正,一般 P 值越小,FDR 值也越小. Foldchange:表达量差异倍数,一般差异倍数越大,说明表达差异越大. 火山图:火山图(Volcano Plot)在一张图中显示了两个重要的指标(Fold change/p-Value),可以非常直观且合理地筛选出在两样本间发生差异表达的基因. MA 图:横坐标 X 轴表示 log 均值,即(log2(A)+log2(B))/2, 纵坐标为代表 log(Foldchange),即log2(B/ A), 据此图可看出差异基因分布在高表达基因或者低表达基因. 表达模式聚类:对所有的差异基因进行聚类分析,该分析可以将表达模式相近的基因聚到一起,筛选出特定表达模式的基因类. 功能富集分析:对差异基因做检验,看差异基因在不同功能类下的分布,通过此分析可推断差异基因主要的功能及生物学意义. 共表达网络:基因共表达网络分析(Gene Co-expression Network Analysis)是根据基因表达信号值的动态变化,计算基因间的共表达关系,来建立基因转录调控模型,得到基因间的表达调控关系及调控方向,从而寻找一个或多个物种在不同发育阶段,或者不同组织在不同条件或处理下的全部基因表达调控网络模型以及关键基因,从而系统的研究生物体复杂的生命现象. 蛋白互作网络:蛋白间存在相互作用,对差异基因构建蛋白互作网络,可筛选出候选的关键差异基因. 2. 相关软件及数据库 2.1 软件 FastQC:http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/,版本 0.11.5. cutadapt:https://pypi.python.org/pypi/cutadapt/1.2.1,版本 1.2.1. Prinseq:http://prinseq.sourceforge.net/,版本 0.19.5. blast+ : http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&

注：以上内容是本站开源项目的机器提供的预览内容，更完整和更好的阅读体验请直接免费下载资源后阅读

下载（注：源文件不在本站服务器，都将跳转到源网站下载）

备用下载

PDF《生工生物》