编辑: 棉鞋 | 2019-07-08 |
7 User'
s Manual by Dr. Richard Simon Biometrics Research Branch National Cancer Institute and Amy Peng Lam The EMMES Corporation November,
2008 Translated by Yujian Dec,
2008 目录 目录
2 绪论
4 软件目的
4 软件功能概览
4 单通道实验须知
7 软件安装
7 系统需求
7 安装软件
7 加载到Excel 整理数据
8 整理过程概览
8 整理过程中的数据输入
9 使用整理对话框
14 整理步骤的输出
22 筛选数据
24 点样筛选
24 数据转化
25 基因筛选
27 基因子集
27 注释数据
28 使用基因列表定义基因注释
28 自动导入基因注释
30 Gene Ontology
30 数据分析
32 散点图工具
32 层次聚类分析工具
33 样本的多维尺度化
37 使用分类预测工具
37 分类比较分析
38 分类预测分析
43 生存分析
49 数量性状分析
50 预测分析、生存分析和数量性状分析工具中的某些可用选项
51 随机方差模型
51 用于控制假阳性比例和个数的多元置换检验
51 指定重复实验和配对样本
53 GO数据库的观测值与期望值分析
54 ArrayTools中的可编程插件
55 已预装的插件
55 更多帮助
56 一些小技巧
56 安装问题答疑
59 汇报问题
61 参考文献
62 感谢
63 写在最后
64 绪论 软件目的 BRB-ArrayTools是一款为了DNA基因芯片数据分析而设计的集成软件包,由Dr.Richard Simon所领导的生物识别小组所开发(隶属于美国国家癌症研究所癌症治疗与诊断分部).BRB-ArrayTool能够处理来自多种实验的表达谱数据,包括可视化、多维尺度、聚类基因和样本、分类预测样本等等.BRB-ArrayTools可以通过匹配DNA芯片的CloneID、GenBank号、UniGene编号连接NCBI数据库,或者通过芯片的ProbesetID连接Affy公司的NetAffy站点获取探针的详细信息.BRB-ArrayTools可以被用来分析单、双通道的基因芯片数据.该软件便携易用,表现为不受任何特定芯片平台、扫描仪器、图像分析软件或数据库的限制.ArrayTools以Excel加载宏的形式呈现,所以用户界面对于生物学家来说非常熟悉.具体的计算由Excel外部的复杂且强大的分析工具负责,对于用户则不可见.现有的工具组件会随着分析方法的发展而不断更新. 软件功能概览 BRB-ArrayTools可执行以下功能: 整理数据 向程序导入用户数据并且比对整理来自不同实验的基因.软件可以载入无限多的基因,而在实验方面,之前最多导入249个的限制已在3.4版本中移除,当然,具体数目肯定会受限于计算机内存.所有探针可以只来自于一张芯片,或者最多(重复)分布在5张芯片,用户可以选择是否对每个重复分布的基因取均值,且单(例如Affymetrix)双通道芯片均适用.数据导入向导会提示输入数据的详细格式,或者使用为NCI或Affymetrix芯片特制的用户界面.一般数据应为以 tab分隔符 格式存储的文本文件(译注:NCI和Affymetrix当然可以例外).Excel工作簿格式的数据也可以使用,但会在导入时被ArrayTools自动转换为 tab分隔符 的文本格式. 基因标注 数据可以通过识别号被Affymetrix或Source数据库自动标注,标注内容会随着分析输出结果一同呈现,并且Gene Ontology(GO)的分类名称可被用于分类比较分析、分类预测、生存分析和数量性状分析.GO的结构文件可以从GO站点自动更新. 筛选,标准化和取基因子集 ArrayTools可以基于通道的信号强度对点样/探针组进行筛选(通过排除某些点或设定信号强度阈值)并进行标记.Affymetrix数据可以通过所谓的 探测认定 (Detection Call)进行筛选.对于双通道实验,芯片的标准化通过芯片间取中位数中心化进行,具体方法是或减去基于LOWESS平滑的红、绿两通道对数均值(subtracting out a lowess-smoother based on the average of the red and green log-intensities),或指定一系列对数比值的中位数为0的管家基因.对于单通道实验,芯片通过一参照芯片进行标准化,使得其它芯片上所有基因(或仅指定部分管家基因)对于该参照芯片差值的中位数为0.参照芯片可由用户指定,或自动选择一中位数芯片(即该芯片对数比值的中位数为所有其它芯片对数比值中位数的中位数).每张芯片的标准化单独进行.异常值可以被截断(译注:即通过设定阈值进行筛选,见后文筛选数据一节).基因可以通过人为设定阈值进行筛选,比如其表达量位于所有芯片表达量中位数两侧的某个比例外,某个差值外,或缺失值在所有芯片中大于某一比例,或Affy芯片中被认定为缺失的大于某一比例.此外,基因还可通过字符串标识进行筛选(如排除所有在描述字段中包含 Empty 的基因),最后,还可以通过自定义基因列表进行筛选. 绘制 实验对实验 散点图 对双通道数据,ArrayTools可以使用红、绿二通道的对数、平均对数或者对数比值绘制任意两实验间(甚至相同实验间)的可点击散点图.对于 M-A散点图 (译注:M:Minus,M=log2(Green)-log2(Red);