Hadoop教程

集群安装配置Hadoop详细图解

集群安装配置Hadoop集群节点:node4、node5、node6、node7、node8。具体架构:操作系统为:CentOS release 5.5 (Final)安装步骤一、创建Hadoop用户组。二、安装JDK。下载安装jdk。安装...

Hadoop教程 Hadoop

Hadoop 2.3.0解决了哪些问题

Hadoop 2.3.0已经发布了,其中最大的亮点就是集中式的缓存管理(HDFS centralized cache management)。这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助,本文从原理、架构和代码剖析三个角度来探讨这一功...

Hadoop教程 Hadoop

使用Linux和Hadoop进行分布式计算

人们每天都依赖搜索引擎以从 Internet 的海量数据中找到特定的内容,但您曾经想过这些搜索是如何执行的吗?一种方法是 Apache 的 Hadoop,它是一个能够对海量数据进行分布式处理的软件框架。Hadoop 的一个应用是并行索引 Internet We...

Hadoop教程 Hadoop

必读!大数据:Hadoop,业务分析及更多(2)

大数据处理和分析的新方法存在多种方法处理和分析大数据,但多数都有一些共同的特点。即他们利用硬件的优势,使用扩展的、并行的处理技术,采用非关系型数据存储处理非结构化和半结构化数据,并对大数据运用高级分析和数据可视化技术,向终端用户传达见解。Wi...

HPCC 和 Hadoop 的详细区别比较

硬件环境通常使用基于Intel或AMD CPU的刀片服务器来构建集群系统,为了降低成本可以使用已经停止销售的过时硬件。节点有本地内存和硬盘,通过高速交换机相连(通常为千兆交换机),如果 集群节点很多,也可以使用分层交换。集群内的节点是对等的(所有资源可以简...

Hadoop教程 Hadoop

网络环境的集成和优化 Hadoop助腾云驾雾

大数据时代,研究大数据的IT 厂商把研究重心放在优化大数据系统软件架构、优化业务逻辑、优化数据分析算法、优化节点性能等方向,而忽略了大数据环境基础设置中网络环节的评估和优化。本文介绍了思科公司在Hadoop 集群环境下的网络架构设计与优化经验。大数据...

Hadoop教程 Hadoop

Hadoop分布式文件系统架构部署

Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景...

大数据处理的开发经验

大数据已经不是什么新话题了,在实际的开发和架构过程中,如何为大数据处理做优化和调整,是一个重要的话题,最近,咨询师Fabiane Nardon和Fernando Babadopulos在“Java Magzine”电子期刊中发文分享了自...

大数据“流言”:解析Hadoop和大数据的七误解

对于Hadoop技术而言,可以说是开源领域的传奇,然而如今业界还伴随着一些流言,这些流言可能会导致IT高管们带着“有色”的观点去制定策略。如今,数据量在以惊人的速度增长,从IDC分析师报告中2013年数据存储上的增长速度将达到53....

优酷土豆Hadoop 平台开放之路(2)

优酷土豆Hadoop 平台开放之路(2)引入KerberosHadoop 在1.0 以后的版本中支持了Kerberos,我们将Kerberos 安全认证开启,上述描述的相关问题都能得到解决。下图所示为Kerberos 的主体结构图,包括Identity...

Hadoop 技术在电信运营商上网日志处理中的应用架构

Hadoop 技术在电信运营商上网日志处理中的应用架构方建国一、电信运营商上网日志处理的现状在移动互联网如此普及的今天,每天会产生大量的上网日志,这些上网日志由于数据量巨大,产生后只能被保留3 天,就因为存储空间等原因被丢弃。目前,电信运营商只能基...

Hadoop教程连载之二:Zookeeper分布式安装

1 概述Zookeeper分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。 ZooKeeper本身可以以Standalo...

2014年值得关注的10个开源项目

【编者按】如果你认为开源软件的优势是免费和拿来主义,那么你就错了,在当今的软件市场中开源项目越来越耀眼,选择开源软件的最大优势无非是风险低、产品透明、行业适应能力强等等,但是在开源项目领域真正有影响力的企业,绝对是那些为这个项目贡献代码最多...

英特尔放弃自家大数据处理软件Hadoop版本

3月28日消息,据国外媒体报道,科技博客网站VentureBeat获悉,英特尔将宣布停止发行自家开放源代码大数据处理软件Hadoop版本,转而支持快速增长的大数据公司Cloudera的Hadoop版本。知情人士向VentureBeat报料,英特尔旗下投资机...

Hadoop:不是选配而是发展趋势

就大数据的核心而言,Hadoop是一个用于有效存储和处理大数据的开源架构。多年来,开源初创公司Cloudera和Hortonworks在Hadoop市场一直占有绝对地位,诸如Oracle、微软以及其他一些公司也想在这个市场占有一席之地,但更多是通过与专业的Ha...

Hadoop从业者收入超过Oracle DBA

在我们上一次的数据库工程师薪酬调查报告中,Oracle DBA的平均收入是最高的,而这一情况在2013年出现了变化。伴随大数据时代的到来,包括Hadoop、NoSQL相关技术的从业人员收入大部分高于平均水平。根据本次调查显示,Hadoop从业者的平均年收入最高...

集成GemFire,Hadoop生态圈的又一把火

ivotal努力整合并改进其母公司买来的大数据技术,以应对大数据企业级应用所面临的挑战。Pivotal是由VMware的Cloud Foundry和EMC的Greenplum等业务分拆并重组而成新公司,其目的是为企业带来重新构建、严格测试过的Hadoop,...

Hadoop部署常用的小脚本

最近抛弃非ssh连接的Hadoop集群部署方式了,还是回到了用ssh key 验证的方式上了。这里面就有些麻烦,每台机器都要上传公钥。恰恰我又是个很懒的人,所以写几个小脚本完成,只要在一台机器上面就可以做公钥的分发了。首先是生成ssh key脚本:ss...

Hadoop教程 Hadoop

Hadoop选择:可供参考的几大因素

《企业网D1Net》3月18日讯Apache Hadoop的发展已经经历了很长一段时间,也经历也一段从初生到成熟之旅,在Apache Hadoop的起步阶段,主要支持类似搜索引擎的功能。如今,Hadoop已经被数十个行业采用,它们依靠大数据计算来提升业务处...

Hadoop系统如何应对实时任务避免延迟?

在Apache Hadoop的起步阶段,主要支持类似搜索引擎的功能。如今,Hadoop已经被数十个行业采用,它们依靠大数据计算来提升业务处理性能。政府、制造业、医疗保健、零售业和其他部门越来越多的从经济发展和Hadoop计算能力中受益,然而受到传统企业解决方案...

Hadoop教程 Hadoop