编辑: 紫甘兰 | 2019-07-10 |
14 No.3 Sep.
2016 收稿日期:2016-04-05;
修回日期:2016-06-12. 作者简介:李鑫,男,本科生,研究方向:二代测序技术;
E-mail: 281528209@ qq.com;
李凯,男,硕士研究生,研究方向:生物信息学;
E-mail: 553234748@ qq.com. ?通信作者:李一佳,男,博士,研究方向:干细胞和基因临床转化;
E-mail: yijia.tsinghua@ gmail.com. doi:10.3969 / j.issn.1672-5565.03.10 一站式全基因组和外显子组测序数据 自动分析软件(SeqMule) 李鑫1 ,李凯2 ,李一佳1? ,马磊2 (1.云南舜喜再生医学工程有限公司,昆明 650000;
2.昆明理工大学信息工程与自动化学院,昆明 650500) 摘要:SeqMule 可根据调用的人类基因组和外显子组数据自动调节变量,对所有测序数据的单核苷酸多态性(Single nucleo? tide polymorphism,SNP)进行分析和注释. 目的:通过对两名痛风患者的实验数据进行分析,详细地为生物信息学研究人员介 绍了 SeqMule 软件,以期为全基因组和外显子组测序数据提供一站式的分析途径. 方法:基于 SeqMule 内置的 BWA(Burrows? Wheeler Aligner)、GATK(The Genome Analysis Toolkit)、SAMtools、Freebayes 比对和分析工具,以两名痛风患者的 DNA 测序数据 分析为例,本文详细地论述了 SeqMule 的特点及操作,并对两名患者的外显子测序数据进行了自动化比对与 SNP 分析. 发现 SeqMule 优化了很多分析软件存在的一些问题,可以对外显子组和全基因组测序数据实现全面、灵活、高效地自动化分析,能 更好地分析高通量测序数据,最终提升数据分析的一致性和准确性. 关键词:基因;
测序;
SeqMule;
外显子;
SNP 中图分类号:Q343.1 文献标志码:A 文章编号:1672-5565(2016)03-188-07 A one?stop analytic software for sequencing data of whole genome and exome: SeqMule LI Xin
1 , LI Kai
2 , LI Yijia 1? , MA Lei
2 (1.Stem Cell And Regenerative Medicine Research Center,Yunnan Suns Regenerative Medicine Engineering Co. Kunming 650000, China;
2.School of Information Engineering and Automation,Kunming University of Science and Technology, Kunming 650500, China) Abstract:SeqMule can adjust variables automatically according to the data of the invoked human genomes and the exomes, and also can analyze and annotate SNPs ( Single Nucleotide Polymorphism). Objectives: This paper introduces SeqMule software to researchers on bioinformatics in detail by analyzing the experimental data of two patients with gout, with the hope of providing a one?stop analytical approach for the whole genomes and exomes. Methods: This paper discusses the features and operations of the SeqMule taking the analysis of DNA data of two patients with gout using the BLAST and analysis softwares such as BWA, GATK, SAMtools, Freebayes embedded in SeqMule, and also we have carried out BLASTs for the their exomes automatically and analyzed SNPs for them. Conclusions: SeqMule has resolved some questions present in many softwares. It also can analyze the data from the whole genomes and the exomes automatically in a comprehensive, flexible and efficient way, better analyze the data from high throughput sequencing, and finally improve the consistency and accuracy of the data analysis. Keywords:Gene;
Sequencing;
SeqMule;
Exome;
SNP 随着人类基因组计划的胜利完成和后基因组时 代的来临[1] ,DNA 测序技术已成为人类探索生命秘 密的重要手段之一, 对生物、生命科学、医学等领域 的技术发展起到了巨大的推动作用[2] . 经过三十 多年的努力,DNA 测序技术已经取得巨大的进展, 在第一代和第二代测序技术的基础上,以单分子测 序为特点的第三代测序技术已经诞生. 第三代测序 技术虽然解决了第二代测序技术读长短、速度慢等 缺点,但由于其成本和错误率偏高、通量低,目前最 常用的依然是以 Illumina 公司的 Solexa 技术[3] 为标 志的第二代测序技术. 第二代测序技术拥有相当高的测序通量,覆盖 度高. 得到的 reads 不仅长度短,数量又极为巨大, 这给序列拼接带来了巨大的挑战,而基因组测序中 的一个关键的步骤就是序列拼接[4] . 拼接后,还需 要对所有的 SNP 进行分析和注释. 针对 SNP 的分析,目前有一些基于云端的高通 量测序数据分析平台,比如 Galaxy[5] . Galaxy 等现 行的生物信息学平台,使大量的生物信息学工具易 于操作,用户上传数据后可立即开始分析. 但是,当 用户拥有超大数据量时,存储限制了数据的传输速 度,较长的工作排队时间使其变得不切实际. 除了 平台解决方案,还有其他独立途径可进行 SNP 的多 样分析. 例如SeqMule[6] 、 HugeSeq[