大数据来袭 传统 IT 厂商紧握 Hadoop 机遇

IT168

    大数据时代已经来临,并悄悄的影响着我们的生活。根据 IDC 最近一项研究显示,在 Facebook 上每 20分钟就有 100 万个新链接被分享,1000 万条用户评论被发布。Facebook 和其他所有互联网网站、互联网应用,已经逐渐变成了整个数据采集、分析、处理、增值的数据架构。

    在中国,社交网络同样如火如荼。新浪副总裁王高飞就曾表示,新浪微博的注册用户已超过 3 亿,用户平均每天发布超过 1 亿条微博内容,相当于每 10 个中国人里面,就会有一人每天发布一条微博。每位用户的平均在线时长为 60 分钟,活跃用户中有 60% 通过移动终端登录,所有来自移动终端的原创内容中,有 40% 的微博分享照片。在社交网络的影响下,用户通过移动设备能够在任何时间、任何地点、任何状态下消费和创造数据。

    社交网络和移动互联网的发展催生出大量的非结构化数据,这是一种有别于传统结构化的一种数据类型,常见的图像、视频、音乐、办公文档、Web 页面、微博、即时通信和传感器产生的数据等都属于非结构化数据。据英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔博士介绍,当前每 48 小时产生的数据量相当于人类文明到 2003 年产生的数据量总和,未来随着物联网和智能城市的发展,这一数字将更加惊人,且多为传感器等数据采集装置所产生的非结构化数据。

    除此之外,传统企业同样面临大数据的挑战。据 Gartner 预测,企业数据将在五年内增加 800%,其中 80% 是非结构化的。来自团体、社区,以及社交网络的非业务数据会成为这种趋势中的大部分。非结构化数据的爆炸式增长,使传统数据库面临巨大挑战,Hadoop 逐渐成为全球 IT 产业的宠儿。

    Hadoop 是一个 100% 的分布式文件系统,被称为继 Linux 以来最成功的开源软件,其最大的优势就是存储和计算非结构化数据。Hadoop 可以利用高性价比的 X86 服务器组成高性能集群,当数据量增加到无法负荷的时候,只需增加相应节点即可满足计算需求,价格低廉的存储和计算是大数据的推动力。

传统数据库的 Hadoop 梦想

    与 Hadoop 不同,数据库自诞生之日起,就承载了企业中结构化数据的日常管理。数据库的发展经历了人工管理、文件系统和数据库系统三个阶段,在市场趋势的影响下,数据库朝着新的方向不断变革。据 IDC 统计,2011 年全球数据总量已经达到了 1.8ZB,2020 年将达到 35ZB,这意味着全球数据将进入大爆炸的时代。传统数据库厂商纷纷推出各自的大数据解决方案,这些解决方案有一个共同的关键词——Hadoop。

    Hadoop 分布式系统基础架构,主要由 HDFS、MapReduce 和 HBase 组成,是一个能够便捷的开发和运行处理大数据的软件平台。Hadoop 不等于数据库,它们之间最大的区别就在于,数据库擅长处理结构化数据,而 Hadoop 擅长处理非结构化数据,数据类型多样化则是大数据的特征之一。Hadoop 对数据库厂商而言,既是威胁,也是机遇,如果能够让 Hadoop 为数据库所用,将为数据库打造一片新的天空。下面笔者将对支持 Hadoop 的数据库进行盘点,并对其大数据策略简要分析。

    ·Oracle:甲骨文公司在数据库领域一直处于领先地位,其旗下的 Oracle 数据库是一款最受欢迎的关系型数据库产品。甲骨文公司全球副总裁、大中华区技术总经理喻思成曾表示,甲骨文公司更专注的是结构化的工具和 RDBMS 平台,但在过去的一年中,甲骨文公司也开始走进大数据时代。事实也的确如此,甲骨文公司意识到 Hadoop 在大数据处理方面的潜力,推出以 Hadoop 为基础的大数据机 (Big Data Application),其中包括开源 Apache Hadoop、Oracle NoSQL 数据库、Oracle 数据集成 Hadoop 应用适配器、Oracle Hadoop 装载器以及开源 R,并与 Cloudera 公司合作提供 Apache Hadoop 系列软件。

    ·IBM DB2:IBM 是关系型数据库的创造者,对数据库的诞生和发展举足轻重,然而处在大数据的新时期,老牌关系型数据库也需要不断创新、迎接挑战。IBM 中国研究院院士、首席技术官王云曾在 2012 中国数据库技术大会上表示,大数据不能用传统方法处理,传统关系型数据库起源于 OLTP 功能,能够保证数据准确记录;而大数据是新的应用,是 OLAP 的体现,这也是关系型数据库不能满足大数据的原因。IBM推出的大数据平台包括 Hadoop 和 Stream Computing 两个组件,通过新的路径解决大数据分析处理。

    ·SQL Server:微软作为全球知名的软件公司,在数据库领域的地位不容小觑。微软 SQL Server 2012 引入 Hadoop,帮助客户无缝存储和处理所有类型的数据,包括结构化、非结构化和实时数据。除此之外,微软还将同时在 Windows Azure 平台和 Windows Server 上提供  Hadoop,形成完整的大数据解决方案。正如微软亚太研发集团首席技术官孙博凯所说,微软与 Hadoop 是一个强强组合,能够把 Hadoop 的高性能、高可扩展与微软产品易用、易部署的传统优势融合到一起。

    ·SAP:SAP 公司是全球知名的企业管理软件供应商,自 2010 年 SAP 收购 Sybase 以来,开始成为数据库界一颗冉冉升起的新星。SAP 将数据库技术作为 2012 年重点发展领域之一,形成了以 SAP HANA 为核心,以 SAP Sybase 数据库为基础的大数据战略。在这一战略中,特别重要的一环就是 Hadoop。通过 SAP HANA 和 SAP Sybase IQ 与 Hadoop 的集成,增强对 Hadoop 等大数据源的获取能力,并提供深度集成的预处理基础架构。

    ·EMC Greenplum:EMC 是全球知名信息存储服务提供商,与 SAP 相似,在 2010 年收购了 Greenplum,开始发展其数据库市场。目前 Greenplum 的数据库产品包括传统的 Greenplum Database 和 Greenplum HD(Hadoop),前者用来应对企业结构化数据,后者可以将非结构化数据导入 Greenplum 中进行存储和分析。EMC 在中国的市场战略,以“大数据推动业务转型”为核心,EMC 数据计算产品部大中华区总经理刘伟光曾对笔者表示,EMC 之所以会推出 Greenplum Hadoop 版本,是对 Hadoop 的未来发展前景充满信心。

    除了以上提到的五款主流数据库,仍有越来越多的传统数据库厂商正在加入 Hadoop 阵营,这其中还包括 Teradata、Informatica、Pentaho、Talend 等数据库、数据仓库及商业智能服务提供商。此外,Hadoop 还是 NoSQL 数据库的主要架构之一。

Hadoop 从应用到系统架构

    从应用层面来看,不管是数据库还是商业智能厂商对 Hadoop 都相当重视。与此同时,传统硬件厂商也将 Hadoop 作为大数据战略至关重要的一环。近期,全球知名的半导体芯片制造商英特尔公司推出优化后的 Hadoop 发行版,希望通过英特尔的市场先机和技术优势,将 Hadoop 推广至全球市场,以应对大数据的挑战。

    英特尔的专长是做硬件,SAP、甲骨文等主流应用厂商的大数据产品都采用英特尔的至强处理器。但英特尔在软件行业也颇有建树,英特尔每年都有大量的开源技术专家参与开发开源项目,仅中国的上海研究院,做开源研究的就有 200 多人。比较知名的开源项目包括 TIZEN 项目和 Yocto 项目,其中 TIZEN 项目是以 MeeGo 为基础的开源项目;Yocto 项目,以 Linux 为基础,但它不是 Linux 的分销,而是提供一个自定义项目。

    在这些开源项目中,英特尔的 Hadoop 发行版也是其中的代表。这是一套完整的解决方案,针对不同行业客户进行系统整合,根据不同用户的需求实现个性化解决方案。Hadoop China 发起人查礼博士曾表示,开源 Hadoop 技术难度大,需要专业技术人员提供支持,且技术门槛高,一般企业没有技术实力使用开源版的 Hadoop。

    英特尔 Hadoop 发行版的出现,从硬件和软件层面分别对 Hadoop 进行优化,为企业大数据处理提高了稳定性和易用性。中国联通研究院就针对互联网用户的上网记录查询系统部署了英特尔 Hadoop 发行版, 黄文良院长表示,该查询系统设计之初也曾尝试使用 Hadoop 的开源版本,但与英特尔 Hadoop 发行版的性能相比,认为无论在监控能力还是稳定性上都有很大区别。

    此外,英特尔在 CPU、存储、内存等技术上不断创新,为 Hadoop 的发展提供硬件支持。英特尔基于 Hadoop 开源框架针对英特尔平台进行了一系列优化工作,使得在英特尔平台上实现 Hadoop 的处理能力达到“接近于实时”的处理效果。并通过和中国电信、智能城市、医疗等行业领域的合作,英特尔 Hadoop 发行版还针对中国市场的行业和应用特点做了更进一步的优化。

    英特尔这种软硬结合的策略能够比较彻底的解决大数据难题。英特尔作为硬件行业的领袖,已经率先发力大数据,相信未来会有更多的硬件厂商拥抱 Hadoop,布局大数据市场。

小结

    不管是从应用层面还是系统架构层面均可以看出,Hadoop 对大数据的影响巨大。就像 IDC 预测的那样,在未来两三年当中,Hadoop 会有一个很明显的商业化的过程,Hadoop 商业化的打包产品会不断地向市场推出。Hadoop 将同 Linux 一样,迎来发展的高潮期。对于传统 IT 厂商而言,这是利用 Hadoop,真正实现大数据的商业价值的一个机遇。1

产品和性能信息

open

1. 媒体文章均为第三方观点,仅供参考, 不代表英特尔官方观点。