基于Hadoop的海量电信数据云计算平台研究

研究与开发

研究与开发

基于Hadoop的海量电信数据云计算平台研究

黎宏剑,刘

恒,黄广文,卜

(中国移动通信集团广东有限公司中山分公司中山528403)

摘要

传统的数据分析方法面对海量电信数据存在管理和分析难的问题。Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域。本文在对云计算和

Hadoop进行分析和研究的基础上,提出了一种针对海量电信数据的分布式云计算方法,建立了基于Hadoop的海量电信数据云计算平台。实验证明,该平台能够有效完成海量数据的管理和分析任务,提

高海量数据分析的速度和效率。

关键词

云计算平台;Hadoop;MapReduce;海量数据;电信运营商

1引言

随着3G时代的来临,移动业务日益丰富,用户在使

术手段。Hadoop是一个在集群上运行大型数据库处理应用程序的开放式源代码框架,采用MapReduce编程模型对海量数据进行有效分割和合理分配,以实现高效并行处理,并行程序编写简单,节省时间。Hadoop分布式云计算平台对硬件配置要求不高,具有可伸缩性和高容错性,实施成本低。本文在研究云计算和Hadoop的基础上,设计并部分实现了基于Hadoop的海量电信数据云计算平台。

用移动业务过程中产生的各类数据以TB级速度增长。面对激烈的市场竞争,如何快捷、高效、安全地管理和分析海量的业务数据,深度挖掘业务特征,实行精确营销策略,成为电信运营商确保竞争优势的关键举措之一。

目前,面对海量的业务数据,电信运营商存在管理和分析难的问题。业务数据的管理要求高效存储、高效读取、高可用性及高扩展性架构,业务数据每天以TB级速度增长,基于传统关系型数据库的数据管理难以满足其要求,或需付出高昂的成本代价实现。对业务特征的挖掘分析,往往涉及网络域和业务支撑域的大数据以及这些大数据之间的关联。传统的关系型数据库对这些大数据的运算需要搭配高性能的机器,运算时间长,分析结果存在严重滞后性,直接导致错过了对相应行为采取有效措施的最佳时机。

2相关技术简介

云计算基于互联网相关服务的增加、使用和交付模

2.1云计算

式,是并行计算、分布式计算、网格计算综合发展的结果。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务,具有数据安全可靠、可共享、扩展性强、规模大、价格低廉等特点。按照提供服务的不同,云计算分为SaaS(softwareasa

service,软件即服务)、PaaS(platformasaservice,平台即服

务)和IaaS(infrastructureasaservice,基础设施即服务)

Hadoop分布式技术的发展为解决上述问题提供了技

80

基于Hadoop的海量电信数据云计算平台研究相关文档

最新文档

返回顶部