编辑: yyy888555 | 2019-07-04 |
目录 1. 名词解释
4 2. 相关软件及数据库.7 2.1 软件
7 2.2 数据库.8 3. 实验流程
8 4. 分析流程
9 4.1 分析流程图
9 4.2 详细分析内容列举
9 4.3 分析步骤及方法简介.10 5. 分析结果展示.12 5.1 测序质量评估及质控.12 5.1.1 测序质量评估.12 5.1.2 数据质控.15 5.2 蛋白注释
17 5.2.1 各数据库比对.17 5.2.2 COG、KOG 注释
21 5.2.3 GO 注释.22 5.2.4 KEGG 注释.23 5.3 RNASeq 测序评估.24 5.3.1 Mapping 结果统计.24 5.3.2 均一化分析.25 5.3.3 基因覆盖度分析.28 5.3.4 测序饱和度分析.29 5.4 表达量统计及样本间聚类分析.31 5.4.1 表达量统计及绘图
31 5.4.2 样本聚类分析.33 5.4.3 样本间相关性分析
34 5.4.4 样本间共同表达基因韦恩图.35 5.4.5 PCA 分析.36 5.5 SNP 分析.37 5.5.1 方法说明.37 5.5.2 结果展示.37 5.6 差异表达分析.39 5.6.1 方法说明.39 5.6.2 结果展示.39 5.7 差异基因表达模式聚类分析.43 5.7.1 方法说明.43 5.7.2 结果展示.43 5.8 差异基因 GO 富集分析.46 5.8.1 方法说明.46 5.8.2 结果展示.46 5.9 差异基因 KEGG 富集分析.50 5.9.1 方法说明.50 5.9.2 结果展示.51 6. 结果说明
54 7. 参考文献
61 1. 名词解释 Bp:base-pair,碱基对,读长的单位,每一个 bp 指一对互补的碱基. Read:序列,测序数据中每一条序列就是一个 read. Raw_reads: 原始数据. Clean_reads:QC 之后的数据. Fastq: 序列数据存储的标准格式之一,每4行为一条 read 的信息.包含测序 read 名,序列,正反 链标示,序列质量值. Pair-end 测序:双端测序,两端均测序,随后合并成一条 read. Single-end 测序:单端测序,只测一端,即为一条 read. 质量评分:指的是一个碱基的错误概率的对数值,即质量评分越高,错误概率越小. QC:Quality control,即质量控制. 滑窗法:检测一个窗口内的碱基质量值,如果满足条件则向前移动一个单位继续检测,如果不满足条件 即做删除处理,随后继续移动到下一个单位进行检测,直到检测完所有的数据. 测序接头: 序列在上机测序的时候需要在两端各加上一段人工序列, 当序列片段比实际测序读长短时, 3'
端会测到接头序列,该段序列在分析之前需要去除掉. N: 表示未知碱基, 在测序的时候, 当某个碱基无法确定为某个碱基时, 该位判定为 N, 某条序列中 N 越 多说明该序列质量越低,一般该种序列需要剔除掉. Isoform:单条转录本,同transcript,每条 isoform 可以编码一种蛋白. Unigene: 同基因, 对拼接的 isoform 进行聚类, 序列类似的 isoform 聚类一类, 该类称为 Unigene 基因,一条 Unigene 可编码几条 Isoform. N50:将transcript 从长到短排序,依次累加 transcript 碱基数,当累计碱基数达到 transcript 总碱基 数的 50%时的 transcript 的长度. N90:将transcript 从长到短排序,依次累加 transcript 碱基数,当累计碱基数达到 transcript 总碱基 数的 90%时的 transcript 的长度. 可变剪切:可变剪切(或选择性剪切)是一个过程,即主要基因或者 mRNA 前体转录所产生的 RNA 的 外显子以多种方式通过 RNA 剪切进行重连,由此产生的不同的 mRNA 可能被翻译成不同的蛋白质构 体,因此,一个基因可能编码多种蛋白质. Novel 转录本:新的转录本,相较于与已知转录本而言. SSR:短片段重复序列,该类序列在物种的种群中有很高的多样性,该类序列可用作分子标记. NR 数据库:NR (NCBI non-redundant protein sequences) 是NCBI 官方的蛋白序列数据库,它包括 了GenBank 基因的蛋白编码序列,PDB(Protein DataBank)蛋白数据库、SwissProt 蛋白序列及来自 PIR(Protein Information Resource)和PRF(Protein Research Foundation)等数据库的蛋白序列. NT 数据库:NT(NCBI nucleotide sequences) 是NCBI 官方的核酸序列数据库,包括了 GenBank, EMBL 和DDBJ(但不包括 EST,STS,GSS,WGS,TSA,PAT,HTG 序列)的核酸序列. PFAM 数据库:Pfam (Protein family)是最全面的蛋白结构域注释的分类系统.蛋白质是由一个个结构域 组成的,而每个特定结构域的蛋白序列具有一定保守性. KOG/COG: COG 是Clusters of Orthologous Groups of proteins 的简称,KOG 为euKaryotic Ortholog Groups.这两个注释系统都是 NCBI 的基于基因直系同源关系,其中 COG 针对原核生物, KOG 针对真核生物. Swiss-Prot:(A manually annotated and reviewed protein sequence database)搜集了经过有经验的 生物学家整理及研究的蛋白序列.详见 http://www.ebi.ac.uk/uniprot/. KEGG:KEGG 是Kyoto Encyclopedia of Genes and Genomes 的简称,是系统分析基因产物和化合 物在细胞中的代谢途径以及这些基因产物的功能的数据库.它整合了基因组、化学分子和生化系统等方 面的数据,包括代谢通路(KEGG PATHWAY)、药物(KEGG DRUG)、疾病(KEGG DISEASE)、功 能模型(KEGG MODULE)、基因序列(KEGG GENES)及基因组(KEGG GENOME)等等.详见 http://www.genome.jp/kegg/. GO:(Gene Ontology)是一套国际标准化的基因功能描述的分类系统.GO 分为三大类 ontology:生物 过程(Biological Process)、分子功能(Molecular Function)和细胞组分(Cellular Component),分别 用来描述基因编码的产物所参与的生物过程、所具有的分子功能及所处的细胞环境.GO 的基本单元是 term,每个 term 有一个唯一的标示符(由 GO: 加上