基于大数据的数据处理方法研究

基于大数据的数据处理方法研究

作者:许超超

来源:《电脑知识与技术》2014年第05期

基于大数据的数据处理方法研究

许超超

(浙江烟草公司 台州市公司,浙江 台州 318000)

摘要:针对大数据处理效率低问题,该文提出了新的处理办法。其基本思想是利用预处理方法和历史查询结果作为中间结果集,通过对中间集的匹配减少重复处理时间,提高处理效率。最后通过仿真实验对比分析,表明新方法能够一定程度上提高数据处理效率。 关键词:大数据;预处理;历史查询

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)05-0894-03 Data Processing Method Based on Large Date

XU Chao-chao

(Taizhou Company of Zhejiang Tobacco Company, Taizhou 318000,China)

Abstract: Due to the low efficiency in large data processing, this paper proposes a new approach, that basic idea is using preprocessing methods and historical query results as an

intermediate result set, matching by the middle set, to reduce the time on duplication processing and improve processing efficiency. Finally, simulation experiments comparative analysis shows that the new method can improve the efficiency of data processing.

Key words: big data; preprocessing; history query

1 概述

随着无纸化电脑办公的不断普及,越来越多的数据被个人、企业和机器所产生,以TB或PB级别保存于存储中,数据量直线上升。传统的数据处理主要是对数据库的直接操作,随着数据量的急剧增加,处理效率将急剧下降。与此同时,有效的数据,正确的数据结果已成为企业竞争的核心因素之一。因此,所有这些对大数据的处理能力和效率提出了更高的要求。 为了更好的处理这些大数据,许多机构与公司开发了相应的新技术和新架构,主流思想是基于并行编程框架,以并行处理来提高数据处理效率,如MapReduce[1]通过机器线性扩张线

基于大数据的数据处理方法研究相关文档

最新文档

返回顶部