Hadoop实战

Hadoop峰会:Cloudera与Hortonworks谁能一骑绝尘?

今年Hadoop峰会上的最大讨论热点之一在于Cloudera与Hortonworks这对知名度极高的竞争对手之间的比拼与竞逐。目前随着市场的成熟,双方的对抗已经趋于白热化,而Cloudera最近获得由英特尔牵头的大笔资金援助的消息更是起到推波助澜的作用。不过这...

Hadoop实战 Hadoop

介绍Hadoop的元数据服务HCatalog

作为Hadoop的用户,对元数据目录的需求是明确的。HCatalog作为Hadoop集群的元数据服务,其价值可以媲美数据库管理系统 (DBMS)。虽然这一点目前还在研究中,但仍有必要说明,HCatalog相当于Hadoop连接企业应用生态系统的接口,十分重要。...

大数据来袭 传统数据库的Hadoop梦想

大数据时代已经来临,并悄悄的影响着我们的生活。根据IDC最近一项研究显示,在Facebook上每20分钟就有100万个新链接被分享,1000万条用户评论被发布。Facebook和其他所有互联网网站、互联网应用,已经逐渐变成了整个数据采集、分析、处理、增值的数据...

Hadoop实战 Hadoop

YARN为Hadoop赋予新的能力

近日,Hadoop 2 GA版发布,借助于YARN,Hadoop 2可以创建能在Hadoop中本地工作的数据处理应用。通过将集群资源管理这些关注点从数据处理中分离出来,YARN使得Hadoop能应用于Map-Reduce以外的数据处理中。因此,这样大量新项目就...

Hadoop实战 Hadoop

看完阿里云的Hadoop云梯集群设计思路有感

上次去Hadoop大会,听了互联网的专场,对于阿里的云梯这个主题颇有些印象,但是由于对Hadoop纯属概念党,所以听的也不是太懂,今天在网上查了下这个云梯,其实网关于这个上面的还是挺多的,所以特别看了下:背景:阿里的云梯集群是承载了阿里巴巴过去五年来的...

给刚学习Hadoop朋友的一些建议

说到大数据,很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了,我现在创业,遇到很多传统数据行业往Hadoop上面去转型的公司和个人,提了很多问题,大多数问题还都是差不多的。所以我想整理一些,也可能是很多人都关注的问题。关于Hadoop版...

Hadoop实战 Hadoop

探索Hadoop周边生态软件和简要工作原理(二)

Sqoop:sqoop在hadoop生态系统中也是应用率比较高的软件,主要是用来做ETL工具,由yadoo研发并提交给Apache。Hadoop整个生态圈里面,大部分的应用都是Yadoo研发的,贡献非常大。Yahoo里面出来两拨人,分别组建了Clouder...

Hadoop实战 Hadoop

怎么为大数据处理构建高性能Hadoop集群

越来越多的企业开始使用Hadoop来对大数据进行处理分析,但Hadoop集群的整体性能却取决于CPU、内存、网络以及存储之间的性能平衡。而在这篇文章中,我们将探讨如何为Hadoop集群构建高性能网络,这是对大数据进行处理分析的关键所在。关于Hadoop...

漫谈Hadoop中的文件压缩

bzip2压缩比gzip更有效,但是速度更慢。bzip2的解压速度比它的压缩速度要快。但是和其他压缩格式比又是最慢的,但是压缩效果明显是最好的。snappy和lz4的解压速度比lzo好很多。...

Erasure Code为Hadoop节省数据恢复带宽

大约十年前,业界开始采用 Reed Solomon code对数据分发两份或三份,替代传统的RAID5或RAID6。由于采用了廉价的磁盘替代昂贵的存储阵列,所以这种方法非常经济。Reed Solomon code和XOR都是Erasure Code的分支。其中,XOR只允许丢失一块数据,而Reed Solomon code可以容...

深入Hadoop磁盘部署的算法

首先来看Hadoop集群中的主节点。因为主节点需要更高的可靠性,一般会配置上vSphere的高可用性(High Availability)和容错(Fault Tolerance)特性,所以共享存储是必须的。下面是json格式的配置文件的片段,显示如何指定主节点组的存储。...

Cloudera将Spark划入Hadoop

Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性。“Spark记录着数据产生的每一个操作,能够可靠地将这些数据存储在内存之中,这使得它非常适用于第掩饰的计算和有效的迭代算法。”Cloudera表示。...

Spark 大数据领域的小清新

Spark的简约是针对Hadoop的Java API。在Hadoop中即使最简单你的案例也有不少代码。但是从概念上说,Hadoop是很简单的,因为它仅提供了两个基本的操作,并行的mao和一个reduce操作。如果在对一些类似的分布式集合以同样的方式表达,其实只有一个更小的接口(如Scalding的...

Hadoop MapReduce两种常见的容错场景分析

本文将分析Hadoop MapReduce(包括MRv1和MRv2)的两种常见的容错场景,第一种是,作业的某个任务阻塞了,长时间占用资源不释放,如何处理?另外一种是,作 业的Map Task全部运行完成后,在Reduce Task运行过程中,某个Map Tas...

刘刚:从互联网到传统行业 Hadoop发展迅猛!

刘刚表示,目前Hadoop的应用正在从互联网行业到传统行业快速的扩张,但是在传统行业中Hadoop还是要面临很多困难:Hadoop的安全性不能满足他们的需求;Hadoop的人才缺少;怎么把传统的业务迁移到Hadoop平台上来处理。-什么原因吸引你钻研Had...

Hadoop实战 Hadoop

数据分析不使用Hadoop的五大理由

作为Hadoop 曾经的超级粉丝,Joe Brightly承认自己在很多方面非常热爱Hadoop,比如“可以处理PB级别的数据;可以扩展到数千个处理大量计算工作的节点;可以用非常灵活的方式存储和加载数据……”...

Hadoop实战 Hadoop