惠普:英特尔平台为 AppSystem for Hadoop 提供性能保证

ZDnet

    面对日新月异的 IT 需求,每家顶级的 IT 厂商都会提出自己一套的全方位战略与理念,并长期贯彻与执行。当云时代离我们越来越近时,清晰的基础设施、应用平台与应用软件三层定义也让厂商在相应的领域有了自己的方针与主张。对于如何应对未来挑战与需要,每个厂商都有自己的想法。比如在基础设施方面,已经开始从传统的服务器、存储、网络的不同搭配组合,开始向整合化与集成化的方向演变,这方面惠普的融合基础设施 (CI,Converged Infrastructure) 就是这一方向上的最早也是最彻底的实践。

    随着新一代基于英特尔至强 E5 处理器的 ProLiant Gen8 服务器的推出,赋予了 CI 更高的能量,并带动相关的系统级与方案级产品迈向新的台阶,这其中,HP AppSystem for Hadoop 即是典型的代表。

HP AppSystem for Hadoop 的前生今世

    作为最早提出融合理念的厂商,惠普在 2009 年就致力于服务器、存储与网络的底层互联与互操作性,并形成整体的融合基础设施理念。不过那时 CI 更多的给人是一种硬件的“形象”,但硬件是为了承载应用而设计的,用户购买 CI 产品,最终也是要部署应用。所以,在 2011 年,惠普在 CI 的基础上,为了给用户提供更好的“整装”服务,推出了新的三大系统——虚拟系统 (Virtual System)、应用系统 (AppSystem) 和云系统 (CloudSystem),你可以将它们看作是在 CI 基础上,有针对性的部署和优化相关应用的产物。

    三大系统与 CI 的关系,惠普认为,基于 CI 则提供的三大系统将会为用户带来统一的架构、最佳的应用与技术、开放的生态系统与标准以及一站式的交钥匙的便利性和对原有投资的保护性。

    在这三个集成系统中,VirtualSystem 只提供最简单的虚拟化基础设施平台(惠普认为未来的基础设施基本上都将向虚拟化方面发展,因此相对于物理的基础设施,虚拟化是一个必要的升级),而 CloudSystem 则是在其基础加入了云部署、管理和应用模板、自动化协同组件的产物,它们都是基于惠普的 BladeSystem 刀片服务器架构。可以从原始的 BladeSystem 上逐步升级而来,在保护用户投资的同时,为其带来了一条渐进式的登云之路。

    应用系统是惠普选择几家典型的企业应用厂商,将它们的典型应用结合自己的 CI 系统进行优化,再为用户提供出来的整合式的系统,它可以基于虚拟化平台,也可以基于物理平台,相对于虚拟系统来说,它已经是一个应用服务解决方案,相关的应用,用户买来就可使用。

    不过,在当前的 IT 环境中,云并不是唯一的选择,很多传统的应用仍然有旺盛的生命力,并且很多应用从性能的角度,似乎还不适用于虚拟化环境。对于这类的传统 IT 环境的演进,惠普也推出了相应的应用 + CI 的集成化系统,这就是 AppSystem。惠普在系统出厂前,即将相关应用与基础设施进行整合,能够在出厂前就进行预集成和配置让客户解决方案的部署更加快捷、简便。当客户收到解决方案之后,开箱就会发现所有的硬件已经预集成了,软件配置也已完成。客户只需插上电源,连接网线,系统就可以运行了。当然客户还需要做一些必要操作,比如点击授权许可,接受相关条款,不过惠普在 AppSystem 上提供的是一套综合的许可,只需一次接受即可使用所有的功功能组件。当然从安全的角度,客户还须输入用户名,经过身份验证等。总之,部署 AppSystem 与原来的方式相比,原来需要数周的工作量在几分钟内就可完成,风险也得到降低。

惠普公司企业集团系统及解决方案副总裁 Martin Whittaker

惠普公司企业集团系统及解决方案副总裁 Martin Whittaker

    惠普公司企业集团系统及解决方案副总裁 Martin Whittaker 表示,惠普在集成化应用系统方面有两种交付模式,一种是面向 CloudSystem 的应用模板,即云地图 (CloudMap),它对典型的应用 (如 ERP、CRM、Exchange) 提供了预编写好的配置脚本,帮助用户在 CloudSystem 自动化部署相应的应用。另一种则面向传统 IT 的 AppSystem,也就是所谓的软硬一体的“Appliance”,也就是俗称的集成系统或一体机。目前,CloudMap 已经有上百种,而 AppSystem 也会随着市场需求而推出新的产品,比如最新的 AppSystem for Hadoop。

    从 AppSystem 的组成来看,面向数据分析与管理的应用占绝大多数,包括来自微软的企业与商业数仓库和数据库整合方案(前两者是基于物理平台,后者是基于 Hyper-V 虚拟化平台)、消息系统以及和刚刚被惠普收购的 VERTICA 商业智能与分析系统。此外,AppSystem 还推出了 SAP HANA 的版本,突出内存计算与分析能力,从这一点可以看出,AppSystem 与当前大数据的趋势还是很相符的。

    惠普收购 VERTICA 后,推出的基于 VERTICA 商业智能软件的 VERTICA 实时分析应用系统 (VERTICA Real-Time Analytics System),将使原来需要几个月的分析工作,在几分钟内完成,从而帮助企业迅速提高决策效率,而它也是惠普最先融入 Hadoop 技术的 AppSystem。

    AppSystem for Hadoop 是惠普面向大数据分析领域的最新解决方案,其基于现有的 VERTICA 实时分析应用系统(已升级至 6.0 版本),在原有的关系型数据分析能力基础上,借助 Hadoop 集群与 Autonomy IDOL 10 分析引擎的集成,极大增强了其面对非关系型数据的处理能力。惠普公司企业集团融合应用系统产品管理总监 Manoj Suvarna 强调,HP AppSystem for Hadoop 是业界第一个企业级 Hadoop 解决方案,率先为用户提供了基于 Hadoop 架构的大数据分析平台。

惠普公司企业集团融合应用系统产品管理总监 Manoj Suvarna

惠普公司企业集团融合应用系统产品管理总监 Manoj Suvarna

AppSystem for Hadoop 的根本保障:英特尔平台+惠普最佳实践

    AppSystem for Hadoop 目前支持主流的三大 Hadoop 版本:Cloudera、Hortonworks、MapR,用于可以根据自己的需要来部署相应的版本,而惠普也针对性的推出了相应的集成方案,无一例外的,全部都基于英特尔至强平台。

    惠普的 AppSystem for Hadoop 将开源的 Hadoop 平台以一个完整的企业级解决方案交给用户,在这其中加入了很多惠普的自有技术。比如为了方便集群的管理与大规模部署,集成了原来用于高性能计算集群部署的,非常成熟的 HP Insight Cluster Management Utility(CMU) 管理组件,与 Hadoop 集群相得益彰——30 分钟内可部署超过 800 个节点。

    Martin Whittaker 表示,数据分析是一种对计算能力需求非常强烈的应用,所以在做系统架构时,突出的需求就是要快、更快,可以说对速度的追求是无止境的,这一点很像高性能计算。因此,英特尔至强平台是显而易见的选择。AppSystem for Hadoop 采用的是最新至强 E5-2600 处理器平台,以期获得最佳的性能表现。Manoj Suvarna 补充到,在 AppSystem for HANA 的集成系统中,也是全面采用英特尔至强 E7 处理器平台 (ProLiant DL580 G7),它为我们提供了最高的内存计算的性能。

    AppSystem for Hadoop 的 Cloudera 部署版本,采用的是 HP ProLiant 360p Gen8 (上)与 380p Gen8 服务器,配备 E5-2600 处理器,这是当前最强大的双插槽处理器平台。

    AppSystem for Hadoop 的 Cloudera 部署版本的基本构成,它采用两台 DL360p Gen8 作为 NameNode,DL380p Gen8 为 WorkNode (负责 DataNode 与 TaskTracker 处理器),一个单机柜的标配为 18 台 DL380p Gen8 与 3 台 DL360p Gen8。

    Martin Whittaker 始终强调惠普的研发重点之一是性能,而基于至强 E5-2600 的平台也不负众望。AppSystem for Hadoop 的 Cloudera 部署版本单机柜 18 节点,在 Terasort 基准测试中,每节点的性能比 2010 年的 Terasort 冠军(采用 16 个至强 X5670 服务器的集群)快了 3.8 倍,比 2011 年的冠军(20 个至强有 E5630 服务器节点)快了的 2.6 倍,并且测试时的处理数据量从 100GB 提高了 10TB。

    具体来说,18 节点的 DL380p Gen8(测试配置如上图)的 10TB 数据排序用时为 5128 秒(约 1 个半小时),合 1.99GB/s,对于 100GB 数据量,排序时间为 55 秒,合 1.82GB/s。而 16 节点至强 X5670 服务器集群的 100GB 排序速度是 236.3 秒,合 433.3 MB/s,20 节点至强 E5650 服务器集群的 100GB 数据排序速度为 130 秒,合 787.7MB/s。由此可见,基于新一代至强 E5-2600 平台的 Hadoop 集群的威力。

    HP AppSystem for Hadoop 的 Cloudera 部署版本 Scale Out 方案,借助HP Insight CMU 可实现快速的扩展部署。由于已经有 NameNode、Management Node,所以新的机柜全部是 WorkNode,共 19 台 ProLiant DL380p Gen8 服务器——228 个核心、1216GB 内存、304TB 存储容量

    Martin Whittaker 指出,除了在性能方面的领先,惠普的解决方案在成本和空间的节约上也非常高效。惠普多年来一直致力于打造融合基础设施,所以在服务器、存储和网络等都是一体化设计,当然前提是保持高性能。而且惠普 Hadoop 解决方案用的都是以太网,速度非常快,成本也低,是非常成熟的数据中心连接。而有的厂商采用 InfiniBand 连接,使用少,成本较高。并且他还强调,惠普在高性能计算里的成熟经验与最佳实践,也使其在 Hadoop 集群部署与管理方面得心应手,比如前文提到的 Insight CMU,就是惠普独有的优势。

    对于英特尔针对至强平台优化的 Hadoop 发行版本,Martin Whittaker 表示对 AppSystem for Hadoop 没有影响。“我们与英特尔有着广泛与深入的合作,在 Hadoop 方面,就像我们与 SAP 的 HANA,如果客户有需求,我们会积极的将英特尔版本的 Hadoop 带给用户,一切都看用户的需求。”

    毫无疑问,HP AppSystem for Hadoop 将成为惠普面向大数据时代的基础平台,是对当前 AppSystem 产品家族面向数据分析的强有力补充。而伴随着微软 SQL Server 2012 数据管理平台的推出以及微软版本 Hadoop 的诞生,我们可以想像面向 SQL Server 2012 的惠普 Hadoop 方案也必将出现(在 SQL Server 2012 体系下,微软将数据分成了关系型、非关系型与流式数据三种,Hadoop 将用于非关系型数据的处理),但相信其背后仍然以英特尔至强平台与惠普的最佳实践为坚实的保障。

    在性能测试中使用的软件及其负载可能为英特尔微处理器的性能进行了优化。诸如 SYSmark 和 MobileMark 等测试均系基于特定计算机系统、硬件、软件、操作系统及功能,上述任何要素的变动都有可能导致测试结果的变化。请参考其他信息及性能测试(包括结合其他产品使用时的运行性能)以对目标产品进行全面评估。1

产品和性能信息

open

1. 媒体文章均为第三方观点,仅供参考, 不代表英特尔官方观点。