助力企业用户化解“数据之重”——详解英特尔 Hadoop 发行版

CNW

记者/周源

    在当前时兴的“大数据”解决方案中,由 Apache 基金会开发的 Hadoop 绝对是最闪亮和最为人所推崇的。毕竟,谷歌、雅虎、亚马逊、Facebook,以及国内的淘宝、百度等这一连串互联网巨头都采用了 Hadoop 技术来处理海量数据。

    那么,什么是 Hadoop? 简单地说,Hadoop 就是一个分布式系统基础架构,主要由 HDFS、MapReduce 和 Hbase 组成,让用户可以在不了解分布式底层细节的情况下开发分布式程序。

    Hadoop 尽管千好万好,但它和其他开源技术一样,有着开源软件容易有的弊端。例如,开源 Hadoop 缺乏管理工具,为其部署与管理带来诸多不便;其次,它没有优化程序,企业用户只能请专业 Hadoop 专家在运行环境中手写输入代码;此外,作为开源软件,它自然谈不上有什么支持服务,企业用户在使用过程中出了任何问题,都只能耐心等待开源论坛里热心人的帮助。显然,如果一个企业用户手下没有强大的技术团队,自己部署开源 Hadoop 将很可能是件费时费力,效果还难以预期的事。这也是为什么英特尔等厂商要推出 Hadoop 特别发行版的理由所在。

    “所谓 Hadoop 发行版,意味着这是一个可靠、可管理的、稳定的 Hadoop 版本。因为,我们在开源 Hadoop 之上开发了管理工具和监控工具,可简化 Hadoop 集群的部署与管理,同时对开源 Hadoop 进行了大量的优化,使其适用于企业用户来解决大数据问题。”来自英特尔的大数据解决方案经理王晓栋说。

    具体来说,与开源 Hadoop 和其他厂商推出的 Hadoop 发行版相比,它主要有以下重要改进:

  • 1.    高可靠性增强,包括 HDFS 的目录服务器 (NameNode) 的高可用性和 Map/Reduce 的任务调度器 (JobTracker) 的高可用性。
  • 2.   增强了 HDFS 扩展性。改进了 HDFS 数据的分布和读取算法,移除了读海量文件时的扩展性瓶颈,使得集群的整体性能不再受限于某些较慢的服务器节点。改进后集群的 I/O 吞吐量能够随节点数量增加而线性扩展。
  • 3.   根据 HDFS 数据的热点程度,在硬盘容量允许的情况下,动态调整数据复制策略,可提高热点数据的并发访问能力,从而提高 HDFS 系统吞吐量。
  • 4.   改进 Map/Reduce 的调度算法。支持公平调度原则,兼顾短任务和长任务的调度,并能很好处理短的 Map 任务的并行调度,避免开源 Hadoop 版本出现的并行任务退化成串行任务。
  • 5.   增加对 Hadoop 集群的监控管理。
  • 6.   实现“配置的版本化”。实际工作中,有些计算任务重 I/O,有些重计算,那么就需要根据不同的计算任务对集群中的服务器进行调整。而“配置的版本化”支持在管理工具上设置每个机器的配置情况,进行版本化的调整。配置完成之后,就能保证在完成一个计算任务之后,快速切换到下一个任务,从而使整个集群动态地适合不同计算任务的需要。
  • 7.   支持在多个异地数据中心上创建统一的 Hbase 大表,提高扩展性和可用性。
  • 8.   支持 Hbase 大表跨数据中心远程复制,支持单向、双向、一对多复制,适合异地灾备。

    正因为英特尔 Hadoop 发行版有种种优点,一经推出便迅速“虏获”多个大中型用户的心。

    例如,中国联通已经采用英特尔 Hadoop 发行版部署了一个大的 Hadoop 集群。中国联通研究院副院长黄文良表示,由于此前难以向用户提供上网记录查询服务,中国联通曾一度为 3G 服务客户数据流量所引发的计费争议所困扰,而通过采用基于至强平台及英特尔发行版 Hadoop 的大数据解决方案,中国联通目前已在移动通信用户上网记录集中查询与分析支撑系统的建设上获得了重要进展。这也是电信行业首次将 Hadoop/HBase 引入商用电信服务系统建设中。

    又例如,2011 年夺得全世界视频监控产品市场份额第一,并在全球安防领域内拥有最大规模研发中心的海康威视,已经开发了基于至强平台和英特尔 Hadoop 发行版的大数据处理方案,以满足平安城市和智能交通应用对海量非结构化数据进行高效处理的要求。

    “英特尔硬件部门的强大实力已经毋庸置疑,我们又有 Hadoop 发行版,因此,我们为用户提供的是端到端的‘大数据’解决方案。”英特尔亚太研发有限公司总经理,软件与服务事业部中国区总经理何京翔博士说。

    应该说,“大数据”不过是近两年才流行起来的概念,整个业界还处于热炒概念的阶段,而英特尔已经拥有了典型的“大数据”落地案例,彰显出该公司在大数据的研发与推广方面已经领先一步。我们也期待英特尔大数据解决方案助更多的企业用户化解“数据之重”,变挑战为商机。1

产品和性能信息

open

1. 媒体文章均为第三方观点,仅供参考, 不代表英特尔官方观点。