Intel英特尔SSD固态盘 Acronis 安克诺斯 浪潮服务器商城 腾保数据
首页 > Hadoop > 正文

Hadoop子项目介绍

2016-03-11 09:15来源:中国存储网
导读:HBase基于Hadoop Distributed File System,是一个开源的,基于列存储模型的分布式数据库。

Hadoop是Apache的一个开源分布式文件系统项目(http://hadoop.apache.org/),它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架。

目前,整个Hadoop家族由以下几个子项目组成:

Hadoop Common

Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。

Avro

Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。

Chukwa

Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。

HBase

基于Hadoop Distributed File System,是一个开源的,基于列存储模型的分布式数据库。

HDFS

分布式文件系统

Hive

hive类似CloudBase,也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。

MapReduce

实现了MapReduce编程框架

Pig

Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。

ZooKeeper

Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

关键词 :
Hadoop
相关阅读
  • 关于Hadoop十个认识误区

    本文总结Hadoop十个认识误区,帮助大家更好地理解和学习Hadoop。由于Hadoop本身是由并行运算架构(MapReduce)与分布式文件系统(HDFS)所组成,所以我们也看到很多

  • 数据太大?你该了解Hadoop分布式文件系统

    数据产生后,意味着数据的采集工作已经完成,那么数据的输入与有效输出问题怎么破解?

  • Hadoop2.6.0运行mapreduce之推断(speculative)执行(上)

    在mapreduce中设计了Speculator接口作为推断执行的统一规范,DefaultSpeculator作为一种服务在实现了Speculator的同时继承了AbstractService,DefaultSpeculator

  • hadoop是什么?怎么用hadoop?

    hadoop是什么?(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模

  • 实战Hadoop和HBase 4台Linux虚机环境下安装部署全过程

    本文注重实际安装配置,主要用于指导未使用的hadoop 的技术人员,部署Hadoop 和HBase 学习环境。本次测试采用4 台虚拟机,操作系统为RHEL 6.2。

  • 大数据与Hadoop之间的关系

    个人汇总:hadoop :Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是一种技术的实现大数据:资料:我们都听过这个预测:到2020年,电子数据存储量将在2009年的

编辑推荐
头条阅读
栏目热点

Copyright @ 2006-2015 ChinaStor.COM 版权所有 京ICP备14047533号

中国存储网

存储第一站,存储门户,存储在线交流平台