Hadoop+至强——Hold 住医学领域的大数据

DOIT

    可以说,没有大规模数据处理的能力,就没有当今生物医学研究的飞速发展。

    在发现新基因的研究中,需要基于群体,找到个性化的不同。这需要对大规模的基因数据进行数据处理和分析。

    当人体的好几百种微生物群落的比例失调时,我们就会得病,到底是哪种微生物引起的疾病?这需要把所有的样本跟人的基因组比对,不断筛选,最后筛到很少的量,来判断疾病的原因。这也需要大规模的数据处理。

    据介绍,一个高增量测试仪产生一天的数据就可以达到数百个 GB

    ……

    从上述例子和数据,我们不难得出一个结论——随着新一代医学技术的出现,医学研究已经进入了“大数据”时代。麦肯锡报告指出,排除体制障碍,大数据分析可以帮助美国的医疗服务业一年创造 3000 亿美元的附加价值。那么,如何这些数据进行快速处理?如何通过对大数据的分析和处理来拯救千千万万的生命?如何借助大数据分析来为医疗服务业创造附加值?这已经成为当前医学研究领域的一大热点课题。

Hadoop——开源云计算框架的最佳选择

    “传统数据工具一方面存在一定的弱点,另一方面,大家都建立大规模数据分析处理中心,成本也是一个问题。因此,如何使用云计算的技术或者直接在云端处理这些数据是现在研究的热点。”军事医学科学院网络信息中心及解放军 CDC 数据中心主任、研究员赵东升表示。

    赵东升谈道,Hadoop 已经被证明是比较好的开源云计算框架:一方面,Hadoop 对于建设内部的数据分析是很好的,因为它把 Google 所有的商业技术基本上按照它的理念重新实现,可以实现在大量集群上的分布式的数据存储和处理,并且不需要十分高端的存储。

    另一方面,很多云计算服务提供商也都支持 Hadoop,比如亚马逊的 EC2 弹性计算服务。这让用户可以根据自身的应用需求进行选择,到底是搭建私有的 Hadoop 集群,还是借助公有的云服务(如 EC2)进行 Hadoop 集群的搭建。比如在做药物研发的时候,就应该选择搭建私有的 Hadoop 平台,因为如果把敏感的药物数据放到云端的亚马逊 EC2 上,一旦被别人窃取掉了数据,可能会造成高达几十亿美金的损失。

    同时,在使用 Hadoop 框架进行数据处理时,用户只需要通过 Map Reduce 并行编程模型进行编程,通过数据的分割或者任务的分割规约机制实现并行计算,这个并行计算的过程有点像过去中间件的概念,不需要了解并行计算的细节,只需要了解任务分割。

    当然,活跃的社区也是推动 Hadoop 在生物医学研究领域发展的重要原因。赵东升指出,如果一个开源平台的用户很少,支持的厂商也很少,用户就会产生质疑,这个平台能否存活下去? 反之,就会有越来越多的用户开始研究并加入到其中。

至强+ Hadoop——生物医学大数据处理平台的完美搭档

    生物医学研究领域,大数据处理的速度有时候直接关系到生死存亡。例如,在一些新型的传染病爆发时,如何快速发现病因,并控制疾病的传染,这时,数据处理的速度将直接关系着无数生命的存亡。

    为提升 Hadoop 的实时数据处理能力,在开源领域一向十分活跃的英特尔,今年上半年推出了英特尔 Hadoop 发行版。英特尔 Hadoop 发行版充分利用英特尔平台硬件的新技术进行优化,并对 HBase 进行优化和创新,加强了 Hadoop 的实时数据处理能力,也为生物医学研究带来了福音。

图 英特尔 Hadoop 发行版

图 英特尔 Hadoop 发行版

    硬件层面,英特尔至强 E5 平台每个处理器最多可集成 8 个内核,最大支持 768GB 的系统内存,并采用了第二代 Turbo Boost2.0 睿频加速技术,与上一代的至强 5600 系列相比,其性能提高了 80%。并且,英特尔在其 Romley 平台上还直接集成了 PCI Express 3.0 连接,这让 PCI-E SSD 的超高的速度终于有了用武之地。传统上,SSD 都是通过 SATA 接口连接,限制了 PCI-E SSD 的发挥, PCI-E 接口的固态硬盘可以实现更快速的文件读写速度。

    软件层面,英特尔 Hadoop 发行版充分利用了英特尔平台硬件的新技术进行优化,并对 HBase 进行优化和创新,加强了 Hadoop 的实时数据处理能力。由于 Hadoop 开源版在配置、安装、报表的监控和管理上都没有很好的工具,这会导致 Hadoop 的部署很不方便,不适合企业和具体的行业应用。为此,英特尔开发了 Intel Hadoop Manager2.0,方便了用户进行 Hadoop 的安装、部署、监控、警告和访问控制。

    可以说,“英特尔至强 E5 平台”与“英特尔 Hadoop 发行版”的完美结合,大大提升了 Hadoop 数据处理的速度。据介绍,以至强处理器构建的高效 IT 基础设施为基石,英特尔还计划在其上的数据组织与管理层,针对大数据的分发和管理需求提供针对英特尔平台优化的 Hadoop 产品和服务;在分析与发现层,提供针对客户端与服务器端算法开发的支持,以满足大数据计算所需的性能与规模要求;在决策支持与 IT 服务层,则将联合生态系统内的合作伙伴,提供更为优化的可视化应用体验。英特尔所有与这些规划相关的具体策略,将随着大数据技术、应用和市场的发展逐步深化、细化。

    除了数据的处理速度之外,在医疗服务领域,数据的安全性也是一个不容忽视的问题。赵东升表示,在某些医学研究的应用中,为了降低成本,也可以使用公共云服务(如亚马逊的 EC2)搭建 Hadoop 集群。这时,也会带来另一个不可忽视的问题——数据的安全性。

    因此,在采用公共云服务搭建 Hadoop 集群时,为了提升数据的安全性,往往会涉及到加密解密的步骤。在 E5 平台之前的处理器产品中,数据加密并不支持所有工作负载,这对服务器的安全性来说是致命的打击。E5 平台支持通过拥有 AES-NI 指令来对数据进行加密和解密,而不会对性能造成损害。并且,不管数据处于静止还是流通的状态,都可以进行加密处理。

    生命美好而短暂,正如许巍在歌曲《完美生活》中所唱,完美的生活就是去体会生活中的欢乐和孤独,而体会这一切的首要前提则是拥有健康的体魄。英特尔至强 E5 平台与 Hadoop 开源框架的完美结合,为生物医学研究和医疗服务的发展注入了新的动力,也为我们的完美生活创造了必要条件。

    在性能测试中使用的软件及其负载可能为英特尔微处理器的性能进行了优化。诸如 SYSmark和MobileMark 等测试均系基于特定计算机系统、硬件、软件、操作系统及功能,上述任何要素的变动都有可能导致测试结果的变化。请参考其他信息及性能测试(包括结合其他产品使用时的运行性能)以对目标产品进行全面评估。1

产品和性能信息

open

1. 媒体文章均为第三方观点,仅供参考, 不代表英特尔官方观点。