Apache Hadoop* 软件的英特尔® 分发版增强功能

Apache Hadoop* 软件的英特尔® 分发版增强功能 – HBase 高速即时分析

 

功能描述

    实现了基于 HBase 的高效率复杂查询和统计汇总功能,使得传统上以高性能读写为特色的 HBase 也可以支持复杂的数据处理。实现了基于 HBase 内数据的 HiveQL 前端功能,可以使用 HiveQL 语言实时查询统计 HBase 中的数据,使其更加符合企业复杂数据处理的需要,比原来基于 MapReduce 的 HBase 统计有几十倍的性能提升。

功能特点

  • 分布式汇总功能:实现基于 HBase 的分布式汇总(Sum, Average, Count等),比 Map/Reduce 方式快 2 到 10 倍
  • 并行扫描功能:高效地同步扫描和过滤在不同 Region 和不同 Region Server上的数据
  • 快速数据扫描过滤功能:使用多重复杂条件组合来分布式扫描和过滤纪律
  • 快速 Group-By 聚合功能:支持使用主键和数据列的某部分及它们的组合作为聚合主键
  • SELECT 命令直接调用高性能 HBase 查询汇总引擎
  • 自动使用 MapReduce 实现无法实时运行的功能

适用场景

 

  • 数据统计类应用移植
  • 高效数据仓库应用
  • 电信行业日志和点击分析应用

Apache Hadoop* 软件的英特尔® 分发版增强功能 – HBase 全文检索和准实时查询

 

功能描述

    提供了基于 HBase 表内的数据建立全文索引,提供准实时的全文检索功能和模糊查询功能,扩充了 HBase 支持复杂查询的能力。

功能特点

  • 增量式地建立全文索引,当数据插入或更新时即更新索引,对索引无需定时重建
  • 可以针对半结构化数据、字符串和数字建立索引
  • 查询时针对最新的数据,每次数据插入和更新都可以立即被查到

适用场景

  • 文档中心类应用
  • 电子医疗档案应用
  • 电信行业日志和点击分析应用

Apache Hadoop* 软件的英特尔® 分发版增强功能 – 跨数据中心 HBase 大表

 

功能描述

    跨数据中心 HBase 大表功能提供了一个基于 HBase 的跨数据中心部署的虚拟大表功能,用户可以适用 HBase 标准接口透明地读写访问虚拟大表的数据,系统会自动将数据按指定的逻辑分布至相应的数据中心的 HBase 集群中。

功能特点

  • 使用标准 HBase 接口,应用无需修改即可实现数据分中心部署
  • 访问存放在本地数据中心中的数据时,无任何跨数据中心数据交换,性能不受影响
  • 跨数据中心高可靠性,数据可在分中心之间热备,源中心故障时可从备份中心读取数据
  • 分布式统计算法,可实现高效全局数据统计汇总

适用场景

  • 大规模智能交通应用
  • 跨区域政府和企业应用

Apache Hadoop* 软件的英特尔® 分发版增强功能 – 分布式 R 语言支持

 

功能描述

    通过 R 语言的 RHadoop 的扩展,可以利用 R 丰富的统计分析库来分析 Hadoop 中存储的数据。其中包含了三个扩展:rhdfs,rhbase 和 rmr。

功能特点

  • RHadoop 提供了用 R 访问 hdfs 和 hbase 的接口
  • rmr 提供了一套基于 R 的 MapReduce 框架,用户可以简单、高效地开发 MapReuce 应用;
  • rmr 能同时支持 hdfs,hbase 作为输入/输出
  • 可以利用 R 丰富的数据挖掘应用库

适用场景

  • 大数据统计分析应用
  • 大数据数据挖掘应用
  • 金融、电信行业的统计分析应用