编辑: 645135144 2016-02-17

5 分钟. ? 处理危机情况:针对大规模停电,确保黑启动能力.

2 基因组测序(NGS) 人类 DNA 由大约

30 亿个碱基对组成,一个人的基因组数据量约为 100GB, 相当于 100k 张照片[5] .公共基因数据集 SRA(Sequence Read Archive)现在拥有 大约 14PB(数百亿碱基对)数据,并且每 10-20 个月大小翻倍.从2012 年7月到2017 年3月,SRA 中基因组数据的大小翻了四倍,如图

2 所示[7] . 图2SRA 中NGS 数据增量图(Langmead B, Nellore A. Cloud computing for genomic data analysis and collaboration[J]. Nature Reviews Genetics, 2018, 19(4)) [7] 自从世纪之交人类基因组计划完成以来,基因组序列数据出现了前所未有的 激增,随着基因组测序的成本越来越低,测序频率越来越高,这些数据集呈指数 增长.表1是人类基因组计划(HGP,Human Genome Project)的发展成果.其 中下一代基因组测序技术(NGS,Next Generation Sequencing)在单次检测运行 中会产生高达 1PB(即250 )字节的数据[3] ,这些数据需要在不同的位置之间高效 地进行传输,生物学家依靠云计算及相关服务来交换、处理和分析这些数据,但 由于数据量很大, 通过传统网络传输数据通常需要大量的时间, 不同测序数据类 型与耗时评估如表

2 所示[7] . 表1人类基因组计划(HGP)发展成果 基因测序

1990 年2003 年2014 年 测序成本

10 亿美元 1-5 千万美元 3-5 千美元 测序耗时 6-8 年3-4 月1-2 天表2不同测序数据类型与耗时评估[7] NGS 技术 总碱基对压缩字节 当量 分析

100 个样本的 时间(小时) 单细胞 RNA 测序7.25 亿300MB

50 首MP3 歌曲20 批量 RNA 测序

40 亿2GB

2 张光盘

100 全外显子组测 序95 亿4.5GB

1 部DVD 电影

4000 人类 DNA 全基 因组测序

750 亿25GB

1 部蓝光电影

30000 当前的网络传输协议依赖于传输控制协议 (TCP) 或用户数据报协议 (UDP) , 默认的 TCP 缓冲区大小和拥塞避免算法均没有对于远距离高带宽网络(通常称 为长肥网络) 进行个性化设计, TCP 的保守拥塞控制机制会由于不能充分利用大 带宽延迟积而严重降低吞吐量, 需要在终端上使用大量的缓冲区来消除带宽延迟 积(TCP 最大缓冲区大小,对于大多数 10Gbps 路径建议为 16MB,对于非常长 的RTT,10Gps 或40Gps 的路径建议为 32MB) .另外,TCP 通过 ACK 和重传来 提供可靠性, 包恢复的延迟至少是一个往返时延 (RTT) , 不适用于长延迟链路. 应用层的 HTTP 协议被设计用于各种不同的数据类型, 但是对基因数据不是特别 有效[4] . 以美国大陆高速网络为例, 其RTT 范围在 40ms 到100ms, 带宽范围在 1Gbps 到40Gbps,跳数为

5 到15 跳[4] .在76.59Mb/s 的下载速度和 103Mb/s 的上传速 度情况下,HTTP 传输 10GB 数据需要约 1880973ms(31.35 分钟)[3] ,其延迟用 于传输基因组数据还需进一步优化. 未来的基因测序发展将在很大程度上取决于 我们处理和分析大型基因组数据集的能力, 生物信息研究人员亟待一种快速传输 大型数据集以进行协作的方法,通过基因测序来进行疾病的研究. 此外,基因测序数据传输的安全和隐私保护也非常重要.基因测序数据直接 关系到个人隐私,必须确保数据在传输过程中不会泄漏个人隐私,不会被篡改. 综上,基因组测序的海量数据传输对于未来网络的需求如下: ? 设计支持长肥网络的传输协议,对于长肥网络的传输效率提高到 80%以上;

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题