Apache Hadoop* 软件的英特尔® 分发版增强功能 – HBase 高速即时分析
功能描述
实现了基于 HBase 的高效率复杂查询和统计汇总功能,使得传统上以高性能读写为特色的 HBase 也可以支持复杂的数据处理。实现了基于 HBase 内数据的 HiveQL 前端功能,可以使用 HiveQL 语言实时查询统计 HBase 中的数据,使其更加符合企业复杂数据处理的需要,比原来基于 MapReduce 的 HBase 统计有几十倍的性能提升。
功能特点
- 分布式汇总功能:实现基于 HBase 的分布式汇总(Sum, Average, Count等),比 Map/Reduce 方式快 2 到 10 倍
- 并行扫描功能:高效地同步扫描和过滤在不同 Region 和不同 Region Server上的数据
- 快速数据扫描过滤功能:使用多重复杂条件组合来分布式扫描和过滤纪律
- 快速 Group-By 聚合功能:支持使用主键和数据列的某部分及它们的组合作为聚合主键
- SELECT 命令直接调用高性能 HBase 查询汇总引擎
- 自动使用 MapReduce 实现无法实时运行的功能
适用场景
|
![]() |
Apache Hadoop* 软件的英特尔® 分发版增强功能 – HBase 全文检索和准实时查询
功能描述
提供了基于 HBase 表内的数据建立全文索引,提供准实时的全文检索功能和模糊查询功能,扩充了 HBase 支持复杂查询的能力。
功能特点
- 增量式地建立全文索引,当数据插入或更新时即更新索引,对索引无需定时重建
- 可以针对半结构化数据、字符串和数字建立索引
- 查询时针对最新的数据,每次数据插入和更新都可以立即被查到
适用场景
- 文档中心类应用
- 电子医疗档案应用
- 电信行业日志和点击分析应用
Apache Hadoop* 软件的英特尔® 分发版增强功能 – 跨数据中心 HBase 大表
功能描述
跨数据中心 HBase 大表功能提供了一个基于 HBase 的跨数据中心部署的虚拟大表功能,用户可以适用 HBase 标准接口透明地读写访问虚拟大表的数据,系统会自动将数据按指定的逻辑分布至相应的数据中心的 HBase 集群中。
功能特点
- 使用标准 HBase 接口,应用无需修改即可实现数据分中心部署
- 访问存放在本地数据中心中的数据时,无任何跨数据中心数据交换,性能不受影响
- 跨数据中心高可靠性,数据可在分中心之间热备,源中心故障时可从备份中心读取数据
- 分布式统计算法,可实现高效全局数据统计汇总
适用场景
- 大规模智能交通应用
- 跨区域政府和企业应用
Apache Hadoop* 软件的英特尔® 分发版增强功能 – 分布式 R 语言支持
功能描述
通过 R 语言的 RHadoop 的扩展,可以利用 R 丰富的统计分析库来分析 Hadoop 中存储的数据。其中包含了三个扩展:rhdfs,rhbase 和 rmr。
功能特点
- RHadoop 提供了用 R 访问 hdfs 和 hbase 的接口
- rmr 提供了一套基于 R 的 MapReduce 框架,用户可以简单、高效地开发 MapReuce 应用;
- rmr 能同时支持 hdfs,hbase 作为输入/输出
- 可以利用 R 丰富的数据挖掘应用库
适用场景
- 大数据统计分析应用
- 大数据数据挖掘应用
- 金融、电信行业的统计分析应用



