基因组学领域的进步为认识人类疾病开辟了新道路,并且越来越多地用于制定创新的精准治疗计划。要获得这些发现和成果,需要对不断增加的基因组测序数据进行处理、存储和分析。2015 年,全球的年测序存储容量接近 1 PB,并且每七个月增加一倍1,2。照此速度,在未来五年内,基因组测序每年将产生数百 PB 的数据,到 2025 年,每年可能需要近 1 ZB 的存储容量1, 2。
麻省理工学院-哈佛大学博德研究所 (broadinstitute.org) 是全球最大的人类基因组数据生产组织之一,每天会产生约 24 TB 的新数据。目前,博德研究所管理着超过 50 PB 的数据。研究人员需要工具来及时分析这些海量数据,从而深入了解疾病和可行的治疗方法。他们需要类似基因组分析工具包 (GATK) 的工具,这是一套由博德研究所创建的先进软件方法,获得了全球大多数基因组学研究中心的认可。
博德研究所已发布全新主版本 GATK 4.2,并为所有用户(包括用于商业目的用户)提供开源许可。开源许可让更多的科学家和研究人员能够使用 GATK,有助于加快发展全球基因组分析。
英特尔-博德基因组数据工程中心将科学和技术相结合,优化数据分析和工作流程。
图片来源:摄影师 Erik Jacobs,由博德研究所提供
英特尔-博德基因组数据工程中心
英特尔与博德研究所在计算基础设施和软件优化领域已经合作多年。2017 年,双方达成了一项为期五年的新合作——英特尔-博德基因组数据工程中心,旨在使用 GATK、Burrow-Wheeler Aligner (BWA)、Cromwell、英特尔® 基因组学内核库(英特尔® GKL)、GenomicsDB 及其他工具和技术,简化并加快基因组学工作流程。博德研究所与英特尔的专家共同构建、优化并广泛分享工具与基础设施,帮助科学家整合并处理基因组数据。最终,在基于英特尔® 架构的平台上,产出了一系列经过优化的基因组分析硬件和软件最佳实践。这些最佳实践可应用于存储在私有数据中心年内的研究数据集,并扩展到私有云、公有云和混合云。
随着基因组数据量大幅增加,此次合作将利用技术来实现大规模基因组分析。面向基因组分析的英特尔® 精选解决方案便是成果之一,这是一套经过优化的软件。此外还包括用于实现一站式配置、搭建和部署的参考架构,以运行符合 GATK 流水线、Cromwell 和 GenomicsDB 的基因组分析。
面向基因组分析的英特尔® 精选解决方案
英特尔-博德基因组数据工程中心致力于利用英特尔® 架构和技术优化 GATK,并为基因组分析制定参考架构。
于是,便产生了面向基因组分析的英特尔® 精选解决方案,由英特尔和博德研究所合作开发,并由英特尔解决方案提供商交付。与之前的基因组学软件相比,该解决方案将 GATK 4.0 的整体运行性能提高了 5 倍,并缩短了基础设施的部署时间,加快了基因组学工作流程3。性能的提升也包括使用英特尔® 固态盘后 BWA 速度提升 75%3。这些经验证的性能和质量结果已通过博德研究所的认证。
高性能数据分析计算集群和基因组分析优化工作流程是复杂的硬件和软件系统。面向基因组分析的英特尔® 精选解决方案是经过优化的端到端硬件和开源软件配置,专为加速基因组分析而设计,包括系统部署以及系统上运行的软件,可为这些复杂基因组流水线搭建与配置提供经过验证的堆栈解决方案。
面向基因组分析的英特尔® 精选解决方案旨在从小型超级计算机集群扩展到极大规模的超级计算机集群。定制系统可根据具体需求快速、动态地配置。企业和机构可以随着工作负载增加进行扩展。面向基因组分析的英特尔® 精选解决方案还提供一些工具,允许您通过功能强大且基于应用编程接口 (API) 的现代软件发现、组合并监控资源。
图 1. 解决方案配置概述
什么是英特尔® 精选解决方案?
英特尔® 精选解决方案是一系列经过验证的硬件与软件堆栈,针对特定的软件工作负载进行了计算、存储和网络方面的优化。这些解决方案的开发源于英特尔与行业解决方案提供商的深入合作,以及与全球领先数据中心和服务提供商的广泛协作。
要符合英特尔® 精选解决方案的条件,提供商必须:
1. 遵循英特尔规定的软件与硬件堆栈要求
2. 达到或超越英特尔参考基准性能阈值
3. 发布解决方案内容,以方便客户部署
解决方案提供商可以自行开发优化功能,为解决方案增加更多价值。
英特尔® 至强® 可扩展处理器
英特尔® 至强® 可扩展处理器:
• 为企业数据中心提供高可扩展性
• 与上一代处理器相比,可为虚拟化基础设施提供更强的性能
• 实现出色的资源利用效率和敏捷性
• 针对数据中心解决方案,提高数据和工作负载的完整性,确保监管合规性
该系列包括英特尔® 至强® 铜牌处理器、英特尔® 至强® 银牌处理器、英特尔® 至强® 金牌处理器和英特尔® 至强® 铂金处理器。
表 1. 面向基因组分析的英特尔® 精选解决方案的配置
组件 | 面向基因组分析的英特尔® 精选解决方案 |
---|---|
1 x 应用节点 | |
处理器 | 2 x 英特尔® 至强® 金牌 6252 处理器(或更高型号)(必需) |
内存 | 12 x 16 GB DDR4 2,933 MHz 1DC(总容量 192 GB 或更高)(必需) |
存储(引导) | 2 x 480 GB 英特尔® 固态盘 D3-S4510 或更高(镜像操作系统)(推荐) |
数据网络 | 1 x 英特尔® 以太网连接 X722,带英特尔® 以太网融合网络连接 X527-DA2/DA4 或英特尔® 以太网融合网络适配器 X710,万兆位以太网 (GbE) 或更高(推荐) |
4 x 计算节点 | |
处理器 | 2 x 英特尔® 至强® 金牌 6252 处理器(或更高型号)(必需) |
内存 | 每个节点 12 x 32 GB DDR4 2,933 MHz 1DC(总容量 384 GB 或更高)(必需) |
存储(引导) | 2 x 480 GB 英特尔® 固态盘 D3-S4510 或更高(镜像操作系统)(推荐) |
存储(容量) | 1 x 1.6 TB 英特尔® 固态盘 DC P4610(2.5 英寸 PCIe 3.1 x4,3D2,TLC)或更高型号(必需) |
数据网络 | 1 x 英特尔® 以太网连接 X722,带英特尔® 以太网融合网络连接 X527-DA2/DA4 或英特尔® 以太网融合网络适配器 X710,10 GbE 或更高(推荐) |
网络基础设施 | |
管理网络 | 1 x 10 Gbps 24x 端口交换机或更高型号 |
存储基础设施 | |
文件系统 | 推荐,非必需: • 带宽 - 每个客户端 200 MB/s • 容量 - 每个基因组需要 500 GB 的容量,用于处理和存储基因组数据(每个计算节点 120 TB,可存储 30 天的样本) 对于 4-8 个节点以上的系统,推荐使用并行文件系统(例如 Lustre) |
软件 | |
必需软件: • 针对英特尔® 技术优化的 GATK、BWA 和 GATK 工作流程 • 经过优化的 Cromwell 工作流程 • 带优化例程的英特尔® GKL,用于加速开发人员代码 • 用于运行集群分析作业的 SJob 调度工具(例如 Slurm) |
可选软件: • Docker,用于运行集群内隔离容器中的多个作业 • Apache Spark,用于大数据分析处理 • 开源并行文件系统 Lustre,用于高性能存储 • GenomicsDB,专用于大规模变体分析 |
软件、固件和技术配置
面向基因组分析的英特尔® 精选解决方案充分利用英特尔® 架构的高性能特性,包括英特尔® 至强® 可扩展处理器,以及英特尔® 固态盘。表 1 显示了面向基因组分析的英特尔® 精选解决方案的硬件和软件。对于英特尔® 精选解决方案,服务器供应商或数据中心解决方案提供商必须使用如表 1 所示或更高的配置。可使用 2、4、16、24、36 或 48 台指定计算设备及本地和共享存储设备(适用时)对这些解决方案进行定制,以满足不同环境的需求。
面向基因组分析的英特尔® 精选解决方案的技术选择
除了用于面向基因组分析的英特尔® 精选解决方案的英特尔® 硬件基础,英特尔® 至强® 可扩展处理器中还集成了以下英特尔® 技术,可进一步提高性能与可靠性:
• 英特尔® 高级矢量扩展 512 技术(英特尔® AVX-512)。提高性能,满足苛刻的计算工作负载需求。与上一代英特尔® 处理器相比,每时钟周期的每秒浮点运算速度 (FLOPS) 提高多达一倍4。
• 英特尔® Cluster Checker。可检查 100 多项与集群运行状况有关的特性。英特尔® Cluster Checker 在节点和集群两个层面上检查系统,确保所有组件协同工作以实现出色性能。它可评估固件、内核、存储和网络设置。它还支持通过英特尔® MPI 库基准测试、STREAM、高性能 LINPACK (HPL) 基准测试、高性能共轭梯度 (HPCG) 基准测试等对节点和网络性能进行高级别测试。英特尔® Cluster Checker 可进行扩展以纳入自定义测试,其功能可嵌入到其它软件中。
对我们而言,在面向基因组分析的英特尔® 精选解决方案 1.0 版本上运行 GATK 4 可使性能立即提高 5 倍。我们与英特尔合作,希望在更大规模下更快地运行 GATK 最佳实践流水线,并简化部署,造福全球基因组研究。” — 博德研究所外联与通信总监 Geraldine Van der Auwera
图片来源:摄影师 Erik Jacobs,由博德研究所提供
英特尔与博德研究所合作带来的优势 英特尔与博德研究所的工作为基因组学领域及支持该领域 科学家可获得以下优势: IT 部门可获得以下优势: 企业所有者可获得以下优势: |
• 英特尔® Cluster Runtimes。为每个集群提供所需的关键软件运行时元素,确保为应用提供优化性能路径。包括英特尔® 数学核心函数库(英特尔® MKL)和英特尔® MPI 库在内的英特尔® 运行时性能库可为基于英特尔® 架构的集群提供优化后的出色性能。
• 集群管理软件堆栈。提供部署和管理 Linux 高性能计算集群所需的软件堆栈。该软件堆栈中包含配置工具、资源管理、I/O 客户端、开发工具及科学库。诸如 Bright Cluster Manager、Warewulf 和 xCAT 等资源管理工具为软件堆栈提供支持。
通过英特尔® 基因组学内核库(英特尔® GKL)简化代码开发
英特尔® GKL 提供了基因组学所使用的代码,该代码针对英特尔® 架构进行了优化。内核包括 Smith Waterman 和 PairHMM 的英特尔® AVX-512 实现,这是两种常用的 GATK 算法。英特尔® GKL 是一款直接由 GATK 调用的分布式开源软件。通过英特尔® GKL,开发人员可以专注于代码的功能与操作(无须关注具体的优化工作),同时也让英特尔® GKL 可以利用英特尔® 架构的能力。
通过 GenomicsDB 提高可扩展性
GenomicsDB 是特别的变体存储数据库,能够支持成千上万的基因组变体数据。该平台由英特尔实验室率先开发,并针对博德研究所的用例进行了定制。
GenomicsDB 与 GATK 4.2 打包在一起,能够大幅加快联合基因分型工作流程的速度。例如,如果不使用GenomicsDB,博德研究所需要六周时间才能从 2,300 条全基因组中生成数据库。而有了 GenomicsDB,即使信息量增加五倍,也只需两周时间便能生成数据库5。这一优势促成了由博德研究所领导的基因组聚合数据库 (gnomAD) 项目,该项目包括 15,000 条全基因组,是世界上最大的基因组数据聚合项目之一5。除了集成到 GATK 4.2 中之外,GenomicsDB 还可以通过 Omics Data Automation 开源提供。
持续开发
世界各地的大型基因组数据库能够为全球的研究工作带来巨大益处。英特尔-博德基因组数据工程中心仍将继续开发面向基因组分析的英特尔® 精选解决方案,以便高效访问这些数据库进行分析。未来,整合后的技术将在云和共享环境中提供基因组学所需的连接、性能、隐私与安全性。
OEM 合作伙伴 — 简化基因组分析集群部署
面向基因组分析的英特尔® 精选解决方案,不仅使运行基因组学工作负载变得更加轻松,还可以加快部署专为基因组分析设计的可预测集群。因此,许多高性能系统集成商已同英特尔达成合作关系,为基因组学领域客户提供满足他们需求的解决方案设计与部署。
高访问性能、可扩展且易于部署,帮助实现基因组分析
基因组学的工作对于认识疾病、创建诊断工具、制定安全有效的治疗方法至关重要。研究人员利用技术建立庞大的基因组数据存储库,并逐步了解了数据的力量,让基因组学数据和分析取得迅速发展。博德研究所是世界上对基因组数据贡献最大的机构之一,其 GATK 软件是全球领先的基因组分析工具,可用于分析和变体识别研究。英特尔-博德基因组数据工程中心将科学与技术相结合,对基因组分析代码和工作流程加以优化,并对优化后的基础设施进行了定义(即面向基因组分析的英特尔® 精选解决方案),以运行这些工作负载。最终的结果是:分析速度加快,部署基因组分析定制的硬件解决方案所需的时间缩短。多个系统集成商已开始提供此类系统的安装服务,并将继续探索更多基因组学发现。
详细了解此解决方案以及其他英特尔® 精选解决方案,
请访问:intel.cn/selectsolutions。
了解更多 英特尔—博德基因组数据工程中心:intel.cn/content/www/cn/zh/healthcare-it/solutions/genomics-broad-data.html “大数据基因组学和优化的基因组代码”:intel.com/content/www/us/en/healthcare-it/solutions/genomicscode.html 英特尔® 至强® 可扩展处理器:intel.cn/xeonscalable 在云中部署基因组学工作流程:oreilly.com/library/view/genomics-in-the/9781491975183/ 如何购买:intel.cn/content/www/cn/zh/products/docs/select-solutions/where-to-buy |