选择 X86 平台构筑大数据平台的坚实基础

IT168

IT168/李隽

百度公司基于英特尔平台的大数据应用与处理方案分享

    数据,从来不是一个陌生和新鲜的词汇,然而,当我们日常生活中的点滴数据汇成“大数据”海洋时,我们发现,数据已然不仅仅只是数据,而在其中蕴含了大量的商业价值。今天的企业正驾驭着商业巨轮航行在数据的海洋中,伴随着传统的商业智能向纵深应用的拓展,商业决策已经越来越依赖于数据,只有对数据有效利用并充分驾驭,才能在未来的商业竞争中游刃有余。

挖掘数据宝藏的价值

    “百度开始接触 hadoop 是在 2007 年间,实际上百度开始数据分析的时间要更早……” 百度资深研发工程师马如悦告诉 IT168 编辑,而对于百度等搜索引擎或互联网公司来说,最常见的数据分析应用就是 Web 访问日志分析。

    Web 日志是用户访问网页后留下的行为足迹,每一条日志都代表着用户的一次访问行为。从 Web 日志中,我们可以得到大量的用户信息,例如访问者 IP、访问时长、目标网页、来源地址以及访客所使用的客户端的 UserAgent 信息等,甚至还可以在网页中嵌入 js 代码,主动发送请求,收集更多用户信息……

    毫无疑问,百度的 Web 日志中包含了大量人们——包括产品分析人员、决策者等感兴趣的信息。简单来说,我们可以获取网站不同页面的 PV 值 (PageView,页面访问量)、独立 IP 数(即去重之后的 IP 数量)等;稍复杂一些的情况,可以计算得出用户所检索的关键词排行榜、用户停留时间最高的页面等;更为复杂的,我们还可以应用 Web 日志分析结果构建广告点击模型、分析用户行为特征等等。

    用户的访问数据蕴含着重要的价值,并给百度带来了显而易见的回报,但百度的情况并非个案,数据挖掘也决非互联网公司的专利,在越来越多的行业与领域中,“大数据”的商业价值正日益凸显出来。

    中国东方航空股份有限公司总经理严振红告诉 IT168 编辑:通过对数据的挖掘与分析,提高用户体验,正成为东航转型过程中的重要一个环节。东方航空公司从 2010 年开始建立统一旅客的数据库,一些旅客的偏好信息都尽可能收集到统一旅客的数据库,目前该数据库的数据增长速度非常快。

    “未来,东航的目标是从你旅行计划开始,到旅行计划结束的综合服务商。所以对大数据的挖掘与分析会帮助东航更好的推进转型。”

Hadoop 与传统 BI 的对比

    新兴互联网公司百度,以及传统航空企业东航,都在大数据领域进行了深入尝试,同样在大数据领域同样乐此不疲的还有雅虎、中国移动、阿里巴巴等。这些企业都无一例外的认识到,数据已经成为企业的核心资产,如何充分利用这部分核心资产,并挖掘更多的商业价值,将关乎这些企业能否在大数据时代继续保持基业常青。

    今天,企业对数据价值的认同已经成为共识,然而如何从海量的数据信息中挖掘其中的价值却并不那么容易,幸运的是,百度找到了 hadoop 数据挖掘与分析工具。

    “当时的百度也有自己的几个分布式处理框架,但是在扩展性和容错方面尚有一些问题,并且都较为专用,缺乏较通用的计算模型。那时百度也启动了一系列较底层的基础框架方面的项目,同时也看到了 Google 关于 MapReduce 的论文,于是开始了基于自身需求的 Hadoop 定制化。”马如悦如是说。

    Hadoop 是一个开源的分布式系统基础架构,由 Apache 基金会开发,使得用户可以在不了解分布式底层细节的情况下,开发分布式应用程序,充分利用集群的威力实现高速运算和存储。Hadoop 尤其适合大数据的分析与挖掘,最为常见的应用就是 Web 数据分析。因为从本质上讲,Hadoop 提供了在大规模服务器集群中捕捉、组织、搜索、共享以及分析数据的模式,且可以支持多种数据源 (结构化、半结构化和非结构化),规模则能够从几十台服务器扩展到上千台服务器。

    随着越来越多的传统企业开始关注大数据的价值,Hadoop 也开始在传统企业的商业智能或数据分析系统中扮演重要角色。相比传统的基于数据库的商业智能解决方案,Hadoop 拥有无以比拟的灵活性优势和成本优势,这一点eBay自动化架构总监 Juhan Lee 深有体会:

    “从海量的非结构化数据中分析数据,并试图找出其中暗藏的规律时,我们往往需要构建一个数据分析的模型,并把这些非结构化数据进行结构化,生成一个分析型的数据库。” Juhan 解释说。

    “问题在于,你根据某种分析的需要将大批非结构化数据转化成结构化数据之后,一旦分析的需求发生变化,你需要把之前的工作重新做一遍。Hadoop 的内部数据存储能力是非常重要的,能在你不知道该如何处理数据的时候尽可能多的保存数据,Hadoop 系统允许你不断的尝试。在传统的数据分析系统中,你必须明确的知道你希望做什么,需要哪些数据。”

    而百度马如悦则告诉 IT168 编辑:MapReduce 现在在百度使用非常广泛,包括分布式网页索引的建立,各种日志的挖掘分析等。集群总机器数在万数量级,日均输入数据处理量在 20PB 左右。

    此外马如悦认为 Hadoop  并不适用于不涉及大量数据的实时处理、计算密集型任务。“一般而言,我们认为 MapReduce 较适合处理时效性要求在 5 分钟以上的业务。”

构建 hadoop 运算坚实的平台

    百度构建了超大规模的服务器集群来运行 Hadoop,其中日志处理与分析站到了全部 hadoop 集群的 80%,处理数据量从几个 G 到上 P,运行时间从几分钟到几十个小时。

    谈到 Hadoop 集群的硬件基础,马如悦告诉 IT168 编辑:“百度使用的服务器品牌较多,市面上主流的服务器品牌均有涉及,但绝大多数都基于英特尔 x86 平台,配置则大体上是 8 核 CPU (主要是英特尔至强 7400/7500 系列),32GB 内存,12TB 硬盘。此外我们也在尝试定制自己的服务器。”

    “选用什么样的服务器需要根据具体的应用而定。比如使用 hadoop 做日志存储和挖掘,可以参考百度上面的配置。如果是作为 HBase 的底层存储,并且有大量的随机查询,那么使用 SAS 硬盘,甚至 SSD 都是可以的。不同的业务需要不同类型的配置。即使同一个业务,也可能需要分层考虑。这样才能做到成本最低。”

    大体来说,hadoop 应用对系统的要求侧重计算、存储与网络性能的均衡,这一点则正好与英特尔 x86 平台不谋而合。英特尔至强 7400/7500 系列处理器已然为百度 Hadoop 集群奠定了坚实的硬件平台,今年英特尔发布的至强 E5 平台则无论在性能、吞吐能力和带宽方面都有均衡的提升。

    英特尔最新一代 E5 处理器相比前代至强 5600 性能提高了 80%,同时,英特尔 E5 芯片中的 DDIO 技术也大大提高整体 IO 性能,这一技术能把 IO 数据包指向处理缓存,跳过内存,从而能够大大减少延迟,增强系统总带宽,还消除了内存的功耗。英特尔集成 IO 把 IO 子系统移到了处理器芯片处下,同时得益于 PCI-E 3.0 的支持,可以把服务器平台的延迟减少多达 30%,带宽增加 2 倍。

英特尔的大数据野心

    基于英特尔处理器的x86平台在构建 hadoop 集群时拥有得天独厚的优势,然而英特尔在大数据市场中可发挥的空间远远不止于此。前面我们提到,hadoop 对基础架构的要求较为均衡,内存、处理器、吞吐和网络都不能成为瓶颈,如今,英特尔也在万兆以太网、SSD 等领域齐头并进。

    目前千兆网对于 HADOOP 这种分布式服务器和存储架构来说已经不够用,很容易成为系统的整体瓶颈。因此在分配大数据时,需要更高的网络带宽。如今,虚拟化和多网融合正驱动万兆以太网发展,英特尔也在积极推动万兆以太网应用与普及。

    英特尔  X540 是最新的万兆以太网控制器,也是业界第一块全集成 10GBASE-T 控制器,把 MAC 和 PHY 集成到了一个芯片上。据英特尔表示,X540 网络控制芯片适合搭配不久前正式发布的 Sandy Bridge-E 架构 Xeon E5 系列处理器使用。借助 Xeon E5 系列处理器的 I/O 连接界面,这个搭配可以发挥出更高的网络效率。

    存储方面,英特尔于今年春季 IDF 大会上发布了基于 PCI 接口的 910系 列闪存加速卡,它是一个半高半长的 PCIe gen 2 x8 卡,通过 25 纳米 MLC 闪存,分别提供 400GB 和 800GB 的存储容量,采用英特尔固件达到控制器功能。最高为 18 万次随机读取 IOPS(4K 块)和 7.5 万次随机写入。对于存在大量随机查询的 Hbase 底层应用来说,SSD 将大幅度提升整体系统性能。

    此外,英特尔日前还首次发布了英特尔 Hadoop 发行版。英特尔亚太研发有限公司总经理,软件与服务事业部中国区总经理何京翔博士介绍,英特尔 Hadoop 发行版的优势包括三点:首先,英特尔基于开源框架针对英特尔平台进行了一系列优化工作,使得在英特尔平台上实现 Hadoop,比非英特尔发行版获得性能的成倍增长,其处理能力达到“接近于实时”的处理效果。同时,英特尔 Hadoop manager 2.0 简化 Hadoop 的部署与管理工作;此外,通过和中国电信、智能城市、医疗等行业领域的合作,英特尔 Hadoop 发行版还针对中国市场的行业和应用特点做了更进一步的优化。

    “我们已经认识到,现在互联网、移动应用加物联网时代,要求我们必须更贴近客户,了解客户需求,使我们的产品和解决方案更加贴近于用户要求。不仅仅和硬件芯片相关,还涉及到软件应用水平、服务的水平,这也是我现在所在的软件及服务部门的宗旨之一,帮助英特尔在实现未来十年愿景上提高一个层次。” 何京翔博士表示。

后记:英特尔潜入数据深水区

    百度应用 hadoop 对其访问日志进行了多维度的分析,并以此作为决策依据,造就了中国互联网公司的典型代表。其中,英特尔 x86 平台为百度 hadoop 集群奠定了坚实的硬件基础。

    在很多人看来,大数据似乎与传统的半导体巨人英特尔毫无关系,并对英特尔是否有足够的能力抓住快速崛起的“大数据”机遇心生疑虑。然而,英特尔以实际的步调和行动向我们证明:英特尔不仅牢牢把控着传统的硅晶体世界,也有能力在未来的大数据蓝海中赢得竞争。在这个“大数据”时代,英特尔正在用一个与众不同的方式寻找自己在大数据生态圈中的位置和未来。英特尔正潜入“大数据”深水区。

    在性能测试中使用的软件及其负载可能为英特尔微处理器的性能进行了优化。诸如 SYSmark 和 MobileMark 等测试均系基于特定计算机系统、硬件、软件、操作系统及功能,上述任何要素的变动都有可能导致测试结果的变化。请参考其他信息及性能测试(包括结合其他产品使用时的运行性能)以对目标产品进行全面评估。1

产品和性能信息

open

1. 媒体文章均为第三方观点,仅供参考, 不代表英特尔官方观点。