大数据

优酷土豆Hadoop 平台开放之路(1)

优酷土豆Hadoop 平台开放之路(1)

优酷土豆Hadoop 平台开放之路(1)傅杰背景早在2011 年之前,只有优酷网数据团队在使用Hadoop。两年间随着Hadoop 技术的推广以及大数据的影响,越来越多的领域都在使用Hadoop,公司的其他团队也在逐步引入Hadoop 技术。201...

Hadoop部署
如何利用Mahout和Hadoop处理大规模数据

如何利用Mahout和Hadoop处理大规模数据

利用Mahout和Hadoop处理大规模数据规模问题在机器学习算法中有什么现实意义?让我们考虑你可能需要部署Mahout来解决的几个问题的大小。据粗略估计,Picasa三年前就拥有了5亿张照片。 这意味着每天有百万级的新照片需要处理。一张照片的分析本身...

Hadoop安装
优酷土豆Hadoop 平台开放之路(2)

优酷土豆Hadoop 平台开放之路(2)

优酷土豆Hadoop 平台开放之路(2)引入KerberosHadoop 在1.0 以后的版本中支持了Kerberos,我们将Kerberos 安全认证开启,上述描述的相关问题都能得到解决。下图所示为Kerberos 的主体结构图,包括Identity...

Hadoop教程
Hadoop连载系列之六:数据收集分析系统Chukwa

Hadoop连载系列之六:数据收集分析系统Chukwa

系列几篇文章中介绍了分布式存储和计算系统Hadoop以及Hadoop集群的搭建、Zookeeper集群搭建、HBase分布式部署等。当Hadoop集群的数量达到1000+时,集群自身的信息将会大量增加。Apache开发出一个开源的数据收集和分析系统&mdash...

Hadoop教程
Hadoop技术:三大巨头领航

Hadoop技术:三大巨头领航

在大数据时代,Hadoop技术是最为常见的,随着Hadoop技术应用的逐渐深入,人们对Hadoop的关注也变得炙手可热。我们首先要介绍一点背景知识:Hadoop属于开源Apache项目,任何用户都可以免费下载其核心组件——其中包括H...

Hadoop实战
九家Hadoop技术企业最值得关注

九家Hadoop技术企业最值得关注

如果大家手中握有大量数据,那么接下来要做的就是选择一款理想的Hadoop发行版了。作为曾经仅仅为谷歌及雅虎等互联网帝国服务的旧日稀罕儿,如今这款大数据管理系统已经积累起极高的知名度与平民人气、并开始逐步走入寻常企业环境。促成这一现状的原因有二:其...

Hadoop安装
不得不用Hadoop进行大数据处理的五大理由

不得不用Hadoop进行大数据处理的五大理由

Joe Brightly身为Hadoop的超级粉丝,自己曾经在无数个场合承认自己热爱Hadoop来进行数据处理的理由,比如“可以处理PB级别的数据;可以扩展到数千个处理大量计算工作的节点;可以用非常灵活的方式存储和加载数据…&hell...

Hadoop安装
从火种到核心 浅析Hadoop大数据用户的演变

从火种到核心 浅析Hadoop大数据用户的演变

在Hadoop发展的8年时间里,我们看到一种“使用浪潮”——一代又一代用户在相同的时间和类似的环境下使用Hadoop。每一个在数据处理时使用了Hadoop的用户,都面临着类似的挑战,为了让一切正常运转,要么被迫协...

Hadoop安装
Hortonworks为Hadoop发行版新增企业级功能

Hortonworks为Hadoop发行版新增企业级功能

在近日结束的Hadoop欧洲地区峰会上,Hortonworks公布了Hortonworks Data Platform (HDP)2.1版本。这一Hadoop发行版的升级版本新增了数据治理、安全、流处理和搜索等新企业功能,代表着针对交互式SQL查询的Sting...

Hadoop部署
Hadoop Streaming编程实例

Hadoop Streaming编程实例

Hadoop Streaming是Hadoop提供的多语言编程工具,通过该工具,用户可采用任何语言编写MapReduce程序,本文将介绍几个Hadoop Streaming编程实例,大家可重点从以下几个方面学习:(1)对于一种编写语言,应该怎么编写Mapper...

Hadoop实战
2014年值得关注的10个开源项目

2014年值得关注的10个开源项目

【编者按】如果你认为开源软件的优势是免费和拿来主义,那么你就错了,在当今的软件市场中开源项目越来越耀眼,选择开源软件的最大优势无非是风险低、产品透明、行业适应能力强等等,但是在开源项目领域真正有影响力的企业,绝对是那些为这个项目贡献代码最多...

Hadoop教程
开源Hadoop发展迅猛 用户与厂商各取所需

开源Hadoop发展迅猛 用户与厂商各取所需

就大数据的核心而言,Hadoop是一个用于有效存储和处理大数据的开源架构。多年来,开源初创公司Cloudera和Hortonworks在 Hadoop市场一直占有绝对地位,诸如Oracle、微软以及其他一些公司也想在这个市场占有一席之地,但更多是通过与专业的H...

Hadoop安装
Hadoop的核心思想

Hadoop的核心思想

Hadoop包括两大核心,分布式存储系统和分布式计算系统。1.1.1.1. 分布式存储为什么数据需要存储在分布式的系统中哪,难道单一的计算机存储不了吗,难道现在的几个TB的硬盘装不下这些数据吗?事实上,确实装不下。比如,很多的电信通话记录就存储在很多台...

Hadoop安装
hadoop权威指南——IBM与AWS关键看啥?

hadoop权威指南——IBM与AWS关键看啥?

Hadoop:不是选配而是发展趋势就大数据的核心而言,Hadoop是一个用于有效存储和处理大数据的开源架构。多年来,开源初创公司Cloudera和Hortonworks在Hadoop市场一直占有绝对地位,诸如Oracle、微软以及其他一些公司也想在这个市场...

Hadoop安装 AWS
联网汽车、BI与Hadoop

联网汽车、BI与Hadoop

福特汽车公司一直走在汽车移动化的前端。这一汽车制造商力图打造最智能化的联网汽车,并把汽车移动化带到一个全新的高度。“我们应该如何把客户在移动设备上得到的体验移植到我们的汽车上?” Jim Buczkowski,福特汽车公司电子电气系统总...

Hadoop部署