Hadoop实战

Hunk助力全球组织实现便捷Hadoop分析(2)

全球媒介交付解决方案提供商Vantrix产品管理副总裁Mark Hopper表示:“对于服务与内容提供商而言,有效的媒体交付与流量管理需要综合平衡网络资源、终端用户体验与货币化机会。凭借简单但强大的用户界面,Hunk帮助Vantrix快速搜索、分析...

4种常用压缩格式在Hadoop中的应用

目前在Hadoop中用得比较多的有lzo,gzip,snappy,bzip2这4种压缩格式,笔者根据实践经验介绍一下这4种压缩格式的优缺点和应用场景,以便大家在实践中根据实际情况选择不同的压缩格式。1 gzip压缩优点:压缩率比较高,而且压缩/解压速度...

Hadoop实战 Hadoop

Hadoop技术一句话介绍

Hadoop 是一种分布式系统的平台,通过它可以很轻松的搭建一个高效、高质量的分布系统,而且它还有许多其它的相关子项目,也就是对它的功能的极大扩充,包括Zookeeper,Hive,Hbase等。 MapReduce是Google提出的一种算法,用于超大型数...

Hadoop实战 Hadoop

hadoop运行wordcount时的问题

我搭建好hadoop计算平台之后。(我觉得应该搭建好了,jps命令后显示的进程也是对的)master上jps:slave2上jps:slave1上jps:但是在我运行wordcount之后老是报如下错误:虽然这是我运行hadoop fl -...

Hadoop实战 Hadoop

了解关于Hadoop的12个事实

现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据“大数据”技术的头把交椅呢。...

Hadoop虚拟化的性能对比和调优经验

虚拟化为Hadoop注入了前所未有的活力,从IT生产管理的角度,表现为以下几点:·Hadoop和其他消耗不同类型资源的应用一起部署共享数据中心可以提高总体资源利用率;·灵活的虚拟机操作使得用户可以动态的根据数据中心资源创建、...

Hadoop实战 Hadoop

IBM发布最新Hadoop产品

现在全球移动电话数量已达到计算机的三倍,因此,对企业用户而言,拥有合适的IT基础架构,以帮助其提升交付移动及云服务的能力,是非常关键的。截止到2015年,世界上将有比2011年多20倍的内容、多15倍的应用程序和多3倍的移动交易量,因此今天很多企业会选择...

Hadoop存在巨大数据安全风险的十个理由

Hadoop存在巨大数据安全风险的十个理由:1、Hadoop不是专为企业数据而生像许多开拓性的IT技术(如TCP / IP或Unix)一样,,Hadoop的概念并非来自企业用户,企业安全更是无从谈起。使用Hadoop的最初目的是管理公开可用的信息,,如...

Hadoop虽大有裨益 但开源市场仍欠稳

一些金融分析师们对Teradata公司在IT市场上的持续发展能力提出了质疑。虽然这部分客户确实将Hadoop提上了议事日程,但如果拥有数十年历史的数据仓库供应商都认为难度很大、客户们往往只会选择放弃。“更重要的是破除炒作带来的误解而非在现实层面...

Hadoop实战 Hadoop

Hadoop技术:三大巨头领航

在大数据时代,Hadoop技术是最为常见的,随着Hadoop技术应用的逐渐深入,人们对Hadoop的关注也变得炙手可热。我们首先要介绍一点背景知识:Hadoop属于开源Apache项目,任何用户都可以免费下载其核心组件——其中包括H...

Hadoop连载系列之四:Hadoop分布式文件系统HDFS

当某个数据集大大小超出单个物理机的存储能力时,我们可以考虑使用集群。管理跨网络机器存储的文件系统叫做分布式文件系统(Distributed FileSystem)。随着多节点的引入,相应的问题也就出现了,例如其中最重要的一个问题就是如何保证在某个节点失败的情况...

Hadoop Streaming编程实例

Hadoop Streaming是Hadoop提供的多语言编程工具,通过该工具,用户可采用任何语言编写MapReduce程序,本文将介绍几个Hadoop Streaming编程实例,大家可重点从以下几个方面学习:(1)对于一种编写语言,应该怎么编写Mapper...

大数据处理利器:Hadoop具有五大优势

现在,如果你没有听说过Hadoop,那么你一定落伍了。作为一个全新的开源项目,Hadoop提供了一中新的方式用来存储和处理器数据。大型的互联网公司,如谷歌、Facebook都使用Hadoop来存储和管理它们庞大的数据集。Hadoop也通过在这些领域的应用证明了...

腾讯TDW项目:开源的分布式数据仓库

本期,我们采访的是腾讯TDW开源项目负责人、腾讯高级工程师赵伟。赵伟,腾讯数据平台部高级工程师,腾讯大数据平台分布式数据仓库(TDW)的技术负责人,开源软件爱好者,是腾讯内部Hive、Pig、PostgreSQL、ZFS等开源技术的引入和推广者。目前主要负...

六个超大规模Hadoop部署案例

据估计,到2015年,全世界一半以上的数据将涉及Hadoop--围绕这个开源平台的生态系统日益庞大,这有力地印证了这个惊人的数字。然而,有些人表示,虽然Hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹...

大数据新技能Hadoop有望高收入?

开源Apache Hadoop项目一直是个热门,这对于具备Hadoop及相关技能的IT求职者来说是个好消息。Matt Andrieux是旧金山Riviera Partners公司技术招聘部门负责人,他告诉我们对Hadoop及相关技能的需求在过去几年中呈直线...

利用Hadoop Streaming处理二进制格式文件

Hadoop Streaming是Hadoop提供的多语言编程工具,用户可以使用自己擅长的编程语言(比如python、php或C#等)编写Mapper和Reducer处理文本数据。Hadoop Streaming自带了一些配置参数可友好地支持多字段文本数据的处...

Hadoop实战 Hadoop

Hadoop的关键:小处开始大数据之旅

作为大数据技术的典范,Hadoop一直为采用大数据的企业祝福并诅咒着。Hadoop功能强大,却非常复杂,这使得很多企业都宁愿等待更容易的东西问世,再推出大数据项目。等待已经结束。Hadoop在稳步前进,来自诸如Hortonworks和Cloudera等厂商...