大数据之Intel Inside®

CIW*

文章来源:中国计算机行业网

    伴随着“大数据时代已经降临”的宣言,全世界都为大数据而痴狂——大数据除了公认的 3V(Volume、Variety、Velocity)特点外,还具备需要做相关性分析、需要实时或准实时流式采集、需要长时间存储的特点。以探讨全球性热点问题或趋势性问题而闻名的达沃斯世界经济论坛在 2012 年把大数据作为了一个重要的议题。论坛上,一份题为《大数据,大影响》(Big Data, Big Impact)的报告指出,数据已经成为一种新的经济资产类别,和货币、黄金一样。

    正在举办的第 30 届奥运会也用上了大数据——世界最大的摩天轮之一“伦敦眼”依据 Twitter 上人们评论奥运会时所表现出的兴奋度,统计出“积极能量指数”,以此指数控制“伦敦眼”的灯光亮度。

    在大数据时代,数据量排山倒海,形式纷繁,大数据的收集、存储、分析、处理等环节环环相扣。中国的大数据市场有什么特点,能为相关企业提供什么用武之地?曾通过推动个人计算普及和为企业提供高性价比计算平台,从而带领商业和个人生活步入数字化时代的英特尔,如何看待大数据的趋势,又能在新的大数据时代做出什么贡献?

大数据在中国

 

    英特尔中国区总裁杨叙曾这样调侃中国市场——什么技术,在中国要么没听说过,要么一回过神来,已经上亿人在谈甚至在用了。的确,作为典型的新兴国家,中国对新技术和新概念的开放度和接纳度都是极高的,在大数据上也不例外。

    在中国,永远不用担心的是大数据的量——仅以互联网领域为例,中国互联网用户已近 6 亿;截至 2011 年年底,中国互联网行业持有的数据总量已达到1.9EB,IDC 预计这一数字到 2015 年将增长到 8.2EB 以上。

    中国的大数据绝非只是量大。在赛迪顾问软件与信息服务业研究中心研究总监胡晓鹏看来,中国大数据市场在金融、电信、互联网等行业已有少数应用案例出现,但国内企业在大数据领域的理解和实际动作,都还处于初级阶段,产品成熟度不高。用户对于大数据的认识仍然非常模糊,近2年内还属于培育期。随着行业用户对大数据价值的认可程度增加,市场需求将出现爆发时增长,面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。

    赛迪智库软件与信息服务业研究所研究员刘琼则认为,随着中国信息化普及程度和应用水平的提升,金融、交通、电信等重点行业和医保、社保、海关等重要领域已经实现或逐步实现了海量业务数据的集中。各个行业和大型企业都已在业务发展过程中积累了大量数据,并开始在不同程度上对大规模数据加以利用——银行间实现了金融信息的实时交互和金融服务的多途径提供,民航公司实现了机票的动态分配和全程管理,电信运营商实现了对数以亿计用户和各类增值服务的灵活支持,医保、社保初步实现了对居民医疗信息、保险信息的全面跟踪,海关实现了对所有进出口货物的详尽掌控。可以说,中国在大数据方面已具有了一定的应用基础。

    对于中国大数据市场,很多厂商都有自己的理解。英特尔认为中国将成为全球最重要的大数据市场之一。中国政府对物联网、云计算的重视会有力推进大数据在中国的落地和应用。随着云计算、物联网、移动互联网、社交网络等新技术和应用的兴起,大数据伴随这些应用不断增长,大数据中蕴含的巨大价值,带来对数据快速处理和分析的迫切需求,将引发数据挖掘、商业智能市场的空前繁荣。

大数据的硬性依托

 

    新的科技爆发点就意味着新的机会。大数据给 IT 领域的厂商带来了新的增长点。大数据的获益方涵盖了 IT 业界的整个产业链:软件公司利用适合大数据的新平台和新工具开发出多种应用,;业务公司面临着大量大数据分析和业务优化的需求;无论是服务器还是存储,大数据都对硬件公司有了更高的性能要求和更多的采购需求。

    在 IDC 对大数据的十大预测中,有一条与硬件厂商息息相关:大数据会显著推动基础架构横向扩展。大数据的存储和处理都需要采用分布式的方式,适合采用多节点和多核的架构。

    刘琼指出,大数据要求 CPU 的指令集更适合非结构化、半结构化数据的处理,内存速度更快,内存或主板的逻辑结构更适合进行内存计算等高速计算以及更强烈浸入感的显示设备。

    这些都在强调传统硬件厂商的重要性。英特尔就明确表示:“只有硬件平台发展到一定程度,才能提供对大数据进行存储、分析、价值挖掘的可能性。”

    英特尔中国行业合作与解决方案部中国区总监凌琦谈到,大数据的分析和处理,需要大规模的数据中心,需要可扩展性的数据存储结构,需要高性能的数据分析处理器,这正是英特尔作为“计算能力提供商”的优势所在。

    CAP 定理指出了“一个分布式系统不可能满足数据一致性、系统高可用性和容忍网络隔离这三个需求,最多只能同时满足两个”的残酷现实。在大数据领域,容忍网络隔离是必须的,这就意味着系统横向扩展性必须增强。

    要实现大数据存储和处理基础架构的横向扩展,就不得不提 X86 架构的天然横向可扩展性。英特尔在计算领域的成功经验可以在存储领域沿用——英特尔一直推进数据中心标准化和开放云计算平台,并已经初步形成了基于开放架构的云计算产业创新体系。此外, X86 节点提供了较高的计算密度、较低的成本和功耗、以及简单灵活的管理,因此,基于 X86 平台的集群存储在大规模存储大数据时具备不可比拟的成本优势。处理器性能是根本。英特尔至强处理器为大数据的分析、处理提供源动力。数据的读取速度是瓶颈。英特尔数据直接 I/O 技术(DDIO)可显著提升平台总体 I/O 性能。存储的成本限制了数据的规模。英特尔 SATA接口的固态硬盘(SSD)为原始存储提供高性能、高吞吐率的支持。提供足够的传输带宽和减少传输延迟则是信息流动的前提。英特尔万兆位以太网高速、低延迟特性使得替代光纤网络通道(FcoE)和以太网小型计算机系统接口(iSCSI)构建数据中心统一网络成为可能。此外,英特尔将安全性内嵌于硬件中,可有效保护分布式基础设施并加快数据加密速度,有效提高性能并加强数据保护。

Intel Hadoop 行动

 

    大数据离不开 Hadoop。Hadoop 是继 Linux 之后的又一开源软件高峰,它成功解决了大数据分布式存储、并发式访问等问题。Facebook 和 eBay 等互联网公司都在使用 Hadoop 软件分析大量的数据,IBM、微软、甲骨文等都推出了基于Hadoop的大数据处理工具。

    英特尔自然不会落后。针对中国市场,英特尔推出 Hadoop 发行版,满足具有代表性的中国客户和市场需求,然后在全球范围内推广。

    胡小鹏和刘琼都认为,大数据涉及到采集、存储、读写、运算、分析等多个环节,对每个环节的专业性要求都很高。另外,用户更关心大数据分析的结果,而对大数据处理的过程关注度并不高,用户希望能够快速部署大数据处理分析环境,所以用户对大数据整体解决方案的需求巨大。因此,大数据领域的软硬件集成显得重要。通过软硬集成的整体方案,可以使软硬件性能得到更好的优化,保证存储、服务器以及数据分析软件之间的兼容性、一致性和可扩展性,从而保障用户的数据安全与数据分析效率。

    Hadoop 的开源特性,决定了每家有志于大数据领域的企业都可以在其上发挥所长。作为一个对硬件有着深刻理解力的企业,英特尔的软硬件综合优化能力自有独到之处。Intel Hadoop Manager 就充分体现了这种能力。

    在 HDFS(分布式文件系统)中,Intel 版本独有高级均衡算法,可提高系统扩展性,适合不同配置服务器组成的集群。在 HBase 分布式数据库中,Intel 版本可根据位置和表数量智能地进行负载均衡,获得更高的读写性能。Intel 版本独创了跨数据中心大表(Cross-site Big Table)让多个分中心可以位于不同地理位置,而接入任何一个分中心可访问全局数据,这就是分布式聚合计算。

    英特尔对 Hadoop 性能的优化可以用测试结果来证明——在由 6 台服务器(配置为 E5-2680 8 核 CPU、64GB 内存、8 块 7200rpm SATA 硬盘)组成的小规模集群上,每秒查询次数开源 HBase 是 700 次,优化HDFS I/O 是 3500 次;开源 HBase 每秒插入数据 25000 条,经过区域平衡后,每秒可插入数据 82000 条。以 HBase 作为数据存储,每秒每个服务器平均可插入 10000 条大小为 1KB 的记录,读盘时以小于 1 秒的延时进行每秒每服务器多余 400 次的查询。

    英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔强调,以基于至强处理器构建的高效 IT 基础设施为基石,英特尔计划在其上的数据组织与管理层,针对大数据的分发和管理需求提供针对英特尔平台优化的 Hadoop 产品和服务;在分析与发现层,提供针对客户端与服务器端算法开发的支持;在决策支持与 IT 服务层,联合生态系统内的合作伙伴,提供更为优化的可视化应用体验。

    值得一提的是,5 月 30 日,英特尔宣布将在美国麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)建立大数据科学技术中心(ISTC),力求加速科学与医药发明、企业与行业计算,并着重推动在新的数据密集型应用领域的最终用户体验的设计创新,发掘出新的共享、存储和操作大数据的计算解决方案。

产品和性能信息

open

. * 媒体文章均为第三方观点,仅供参考,不代表英特尔官方观点。