编辑: 紫甘兰 2019-07-10

7 ] 、 Ngs _ backbone[

8 ] 和Bcbio?nextgen[

9 ] 四款集成分析软件, 可以运用自带的工具对 SNP 进行比对、注释、分析 等. 但是,由于部分软件集成某些专用工具,比如 Bcbio?nextgen 软件专有的比对工具 NovoAlign[

10 ] , 不是对所有研究人员免费开放. 四款集成分析软件 相比,SeqMule 软件结合了

5 种SNP 比对工具和

5 种SNP 分析工具,其余三款分析软件只有一种或两 种SNP 比对工具和 SNP 分析工具. 除此之外,只有 SeqMule 软件拥有可选且开源的 SNP 比对工具,具 有更高的灵活性和可用性. SeqMule 软件是以人类遗传病研究为背景,专 门针对外显子组或全基因组序列分析设计的. 它采 用高度灵活的各种调用格式对 SNP 进行完全自动 化的分析和注释,支持 Sun Grid Engine 并行处理, 可以进行测序质量的检测、孟德尔错误率检测、一致 性评 估, 生成最终的HTML 报告. 相比之下, SeqMule 是上述解决方案中较好的一款软件,推荐 生物信息学人员使用.

1 SeqMule 软件 1.1 基本介绍 对测序数据进行分析的时候,除了测序平台的 差异[11] ,仍要考虑算法间的差异. 例如,5 种生物信息 学算 法(SOAP、 BWA?GATK、 BWA?SNVer、 GNUMAP、 BWA?SAMtools)分析 SNV(Single Nucleotide Variants) 的一致性只有 57.4%,而每种计算途径间的变异数 为0.5% ~ 5.1%[12] . 在不同的测序错误率和 indel 标记下,校准也存在差异[13] . 目前,公开发表的计 算方法几乎没有提供两种或更多的比对和 SNP 分 析方法. 分析软件的安装和配置是首要问题,而且这个 问题的重要性已经被许多试图去使用它的人所证 实, 像Bioconductor、 Bioperl 和Web?based 三款软件[14-16] . 理论上,来自一个程序的输出结果很难被 输入另一个和它类似的程序中. 例如,GATK 不能 接受来自 SOAP2 的输出. 此外,软件的不同步更 新,可能导致软件的不兼容. 虚拟机和虚拟化技术 为用户解决了该问题[17-19] ,然而,虚拟机系统不可 避免地限制了客户系统可用的计算资源,减少了软 件工具的灵活性. 因此,对于没有计算机背景的普 通用户来说,部署软件成为了一个很大的难题. 针 对普通用户,迫切需要一种易于执行和整合多种工 具的分析途径. 在不影响易用性、高效性和重复性的前提下,由 南加州大学的王凯实验室开发了一个全能的解决方 案― ― ―SeqMule,能够执行一系列自动化的命令来分 析高通量测序数据. 它结合了

5 种比对工具:BWA ( 包括BWA?backtrack 和BWA?MEM )、 Bowtie、 Bowtie

2、SOAP

2、SNAP [20-24] ,5 种不同 SNP 分析工 具:GATK( 包括 GATKLite 和version 3)、SAMtools、 VarScan

2、Freebayes、SOAPsnp[25-28] 和一些配件程 序:FastQC、Picard、tabix、VCFtools 30,而且可以通过 修饰配置文件来获得多种组合. 通过不同工具结合 而设置变量形成交叉,从而获得更高的准确性、敏感 性和特异性. SeqMule 能提供建立在不同调用者之 上的并行功能,还能够更好地分析高通量测序数据, 提升分析的一致性和准确性. 针对目前主流服务器 (CPU:2 Intel Xeon X5650, 内存 48GB),只需

24 小时,SeqMule 可从设置好的全基因组数据生成带注 释的 VCF 文件. SeqMule 的工作流程如图

1 所示,分析过程中 有很多可利用的工具. 其中,先使用 FastQC 进行质 量控制,再采用 BWA?backtrack、BWA?MEM、Bowtie 等工具进行初始校准,校准后可使用 Picard Tools 对质量控制进行评估, 再使用GATK、 SAMtools、 SOAPsnp、VarScan 工具进行突变调用和过滤,最后 采用 GATK CombineVariants 交叉或合并. 1.2 SeqMule 安装方法 SeqMule 可在如下网址下载: http:/ / seqmule. openbioinformatics.org. 1)笔者使用的是 CentOS

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题