2014-08-18 11:03:35
来 源
比特网
大数据
IBM 的社交大数据分析平台才能够利用机器自学习的方法和自然语言分析技术,对海量非结构化数据进行处理。其大致可以分为这样的几个步骤。

作为一名不大标准的球迷,如果问我今年2014巴西世界杯期间最令我印象深刻的事,不是哪位球星或球队,而是关于他们的数据真的开始“说话”了。今年,IBM与腾讯达成一项合作:利用大数据和云计算技术,针对海量社交媒体数据进行,洞察数据背后信息,为此次足球盛世报道服务,为腾讯网用户提供全新的观赛体验。

对于IBM来说,此次与腾讯的合作,是向公众展示大数据技术威力的一次机会,通过世界杯这样一个平台,让人们切实感受到大数据和云计算技术所带来的改变,大数据、云计算并不是冰冷、生硬的技术名词,而是与人们的生活、工作息息相关。让人们意识到,应用好大数据,就像体育赛事报道一样,将给观赛带来前所未有的体验和观赛角度。因此,此次合作也是对IBM技术能力和水平的一次集中检验。

对于这样具有明星示范作用的案例,作为技术支持方,IBM中国研究院非常重视,与腾讯世界杯报道团队进行了深入沟通,确定了以IBM社交大数据分析平台和SoftLayer香港数据中心公有云服务为核心的解决方案。通过实时抓取腾讯、新浪微博的文字数据,并利用文本分析、语义分析技术,结合性格测试模型,通过海量数据地精准分析,从而获得球迷最关注的话题,为腾讯编辑团队提供崭新分析视角和第一手的资料。

在世界杯比赛期间,球迷在社交媒体上对不同球队、球员支持率可以在腾讯网实时展现,这不同于传统统计数据,社交媒体数据能够随实时而改变,与时事的连接更加紧密,随时揭示和展示现实世界发展与变化,让腾讯的编辑对于变化中的世界多了一层洞察。大数据分析应用能够帮助腾讯编辑团队对角度,多维度了解不同时刻、不同地域、不同性别、年龄阶段球迷的关注点和兴趣变化。这种洞察力是前所未有的。

大数据对于社交数据的洞察并不局限在数据和关注度上,同时也能够揭示人的语义、情感和性格特征,也是基于这样的技术支持,腾讯针对不同球星的球迷团体制作了球迷画像,如C罗的球迷通常比较女王范,实际,懂得欣赏美,做事情有条理;而梅西的球迷通常比较敏感,玻璃心,容易紧张和害羞等;而喜欢内玛尔的球迷则是活泼阳光、爱热闹,爱找乐子,喜欢悠闲地生活。大数据分析这些定性的描述,让球迷团体的性格变得立体、形象,充满了乐趣,让我们对于事物的认知更加深刻。

从事后的结果来看,此次IBM和腾讯的合作取得了预想中成功,让人们领略了大数据应用的神奇魅力。但在这成功的背后,则是IBM多年来深厚的技术积累。从技术角度来看,此次IBM需要处理的是海量媒体数据,从事后的统计数据来看,全球几个著名的社交平台Twitter、Facebook、Instagram世界杯期间的数据量均创造了历史的新高,但他们加起来也仅仅相当于新浪微博一家的数据,全球其他的球迷发声量基本与与中国球迷持平,尽管中国没有进入此次世界杯决赛阶段比赛,但是中国球迷拿到了声量的全球冠军。

这样的发生量应该说说超出了我们的预料,尽管我们对世界杯期间的数据量迸发有所准备,但这个数据量还是超出了我们的预期。如果没有SoftLayer云服务平台作为支撑,那么这样的合作极有可能会夭折。无论是计算能力、存储能力和网络带宽,SoftLayer所提供的随需要扩展能力,很好满足了处理处理和计算的要求,这样系统具有弹性,令成本得到有效控制。

除了海量数据之外,非结构化数据的处理是该项目带来另一个挑战。

社交媒体数据是人产生的,不仅包括成文的句子,也包括网络用语、表情,甚至错别字等,对于机器来说,处理人的语言,特别是中文语境历来是一个很难课题,所谓自然语言理解,其中牵涉几个层面,一是字面的理解,二是理解字面后面的故事。以中文字面理解为例,古人说“句读之不知,惑之不解”,分词就是一个难题。如今,每天有很多新词出现,要让机器去理解这些词是非常困难的。即使知道了分词,要理解其背后的意思更是难上加难,自然语言理解始终是一件充满了艰巨的任务。

IBM在自然语言理解的研究上有近40年的积累,从技术层次方面分了很多子课题,我所在的信息分析研究部就是其中的一个重要的分支。正是基于这些技术积累,IBM 的社交大数据分析平台才能够利用机器自学习的方法和自然语言分析技术,对海量非结构化数据进行处理。其大致可以分为这样的几个步骤:

- 命名实体识别:在处理非结构化数据时,不管球迷通过任何设备录入信息,都有一些文字没有标点符号,不同的短语在中文里有着不同的含义,需要IBM利用技术把人名、球队名等识别出来,以便进一步的分析。

- 话题检测:该技术帮助识别网友讨论的话题。

- 语义情感分析:在理解球迷讨论的话题后,利用该技术可以判断球迷的立场是支持还是否定,从而获得球迷情感上的倾向。

- 网络关系抽取:社交平台上聚集了众多球迷,讨论各种类型的话题,利用网络关系抽取技术,对出球迷集中讨论的众多话题进行综合分析,IBM将话题间真正有价值、有分析意义的内容关联出来。

此次与腾讯的合作,对于IBM来说可说是小试牛刀。尽管如此,还是能够从中领略到大数据应用的风采。大数据、云计算对于人类的影响是非常深刻的,这样的一种革命已在全球范围内展开,如果不能够抓住这样的一个机会,就会导致落后,在全球化的今天,这是非常可怕的事情。一句话,不论你愿意不愿意,大数据、云计算的浪潮已经席卷而来,IBM中国研究院愿意和用户一起应对挑战。

作者:苏中,现任IBM中国研究院信息分析研究部研发总监

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。