2015-10-27 16:07:00
来 源
中存储网
Spark
继今年六月份IBM宣布对Spark提供三百万美金的投资,IBM现在推出ApacheSpark云服务,立志打造一个完全数据分析平台。

显然早在今年六月份的Spark Summit上,当IBM宣布对Spark提供三百万美金的投资--其中还包括3500名研究人员的投入和在San Francisco建立一个Spark技术中心,IBM就已经公开支持Apache Spark。在Las Vegas的IBM Insight 事件发生后的今天,IBM宣布了 IBM Analytics 在Apache Spark的可行性,Spark将为IBM Bluemix云的提供部分服务。

Spark和数据以及源代码

通过在 Bluemix 环境中提供Spark,IBM将其与自身的其他云数据和数据分析服务整合,其中包括Cloudant NoSQL 提供的数据和dashDB云数据存储服务。由于 Bluemix本质上是一个开发应用程序的云,IBM认为它在代码与数据库、大数据和分析的连接中处于一个很好的位置。并且,基于Apache Spark的IBM Analytics 同样支持使用用Python语言的Spark--Databricks Cloud Spark平台上同样支持该功能。

数据提供

根据IBM发布的新闻来看,随着Spark的加入,IBM推出了它所谓的Insight Cloud Services,其特点是“能从Twitter和天气公司那获得关于人、事件、地理位置和商业信息等外部数据”。很明显,IBM正尝试着提供一个完全数据分析平台,该平台能够利用外部数据来丰富用户自身的数据,然后平台利用Spark来分析这些丰富的数据。

在与Derek Schoettle(IBM的云数据服务总经理(CDS)和之前被IBM收购了Cloudant首席执行官)交谈过程中,他展露出了对 IBM's Spark的热情。Schoettle 解释道 Spark 不仅是一个平行的大数据处理平台,同样也可以用在处理机器学习、SQL访问查询、图形引擎和数据流分析上(尽管是微批量处理),IBM将Spark看为一个包罗万象的数据处理环境。

根据Schoettle描述,这个信念是如此之强,IBM已经在自身的某些商业和分析的产品上利用Spark更新迭代15次之多。他介绍到,以DataWorks产品为例,利用Spark降低了其源代码行数,从四千万行降低到五百万行。

IBM的Spark数据平台是粘合剂吗?

可以负责任的说在行业里没有任何一家功能像IBM在数据和分析范围内覆盖如此广泛。

要知道,IBM旗下平台可是囊括有DB2、Watson、Netezza、Cognos、TM1、SPSS、DataStage、Informix、Cloudant以及BigInsights Hadoop distribution。如果IBM 能够将这些平台与Apache Spark联合起来,并且在云中加以实现,这将是一个重要的、端到端的、Spark强大功能的具体示范和现在数据分析的生命线。

尽管IBM已经消减了工作量,但对几十年内自身技术大规模的重组和接受新的技术来说非常不容易和不安全。但如果IBM在此次投资建设中重新焕发新春的话,他们会将再次回到大家的视野之内。

原文链接:IBM launches Apache Spark cloud service(译者/刘崇鑫 审校/朱正贵 责编/仲浩)

译者简介:刘崇鑫,北京邮电大学研究生在读,专业光通信工程。

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。