文本挖掘研究进展

文本挖掘研究进展

第23卷 第2期

2003年 6月河北大学学报(自然科学版)JournalofHebeiUniversity(NaturalScienceEdition)Vol.23No.2Jun.2003

文本挖掘研究进展

湛 燕,陈 昊,袁 方,王丽娟

(河北大学数学与计算机科学学院,河北保定 071002)

  摘 要:数据挖掘是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要.由于存储信息最多的自然形式就是文本,因此文本挖掘具有重要的意义.结合笔者研究工作,主要介绍了文本挖掘的研究内容,挖掘过程,挖掘算法及应用前景.

关键词:文本挖掘;特征选取;文本分类;文本聚类

中图分类号:TP18   文献标识码:A   文章编号:1000-1565(2003)02-0221-06

1 文本挖掘的主要研究内容

存储信息使用最多的是文本,所以文本挖掘被认为比数据挖掘具有更高的商业潜力.当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本数据挖掘[1].事实上,最近研究表明公司信息有80%包含在文本文档中[2].

1.1 文本分类

文本分类指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别.这样用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更容易、快捷.目前,用于英文文本分类的分类方法较多,用于中文文本分类的方法较少,主要有朴素贝叶斯分类(NaiveBayes),向量空间模型(VectorSpaceModel)以及线性最小二乘LLSF(LinearLeastSquareFit)[3,4].

1.2 文本聚类

聚类与分类的不同之处在于,聚类没有预先定义好的主体类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小[5].

1.3 文本结构分析

其目的是为了更好地理解文本的主题思想,了解文本所表达的内容以及采用的方式.最终结果是建立文本的逻辑结构,即文本结构树,根结点是文本主题,依次为层次和段落[6].

1.4 Web文本数据挖掘

在Web迅猛发展的同时,不能忽视“信息爆炸”的问题,即信息极大丰富而知识相对匮乏.据估计,Web已经发展成为拥有3亿个页面的分布式信息空间,而且这个数字仍以每4~6个月翻1倍的速度增加.在这些大量、异质的Web信息资源中,蕴含着具有巨大潜在价值的知识.人们迫切需要能够从Web上快速、有效的发现资源和知识的工具[5].

文本挖掘目前面临的问题有挖掘算法的效率和可扩展性、遗漏及噪声数据的处理、私有数据的保护与数 收稿日期:2002-06-05

 基金项目:河北省教育厅科研计划项目(2001206)

 作者简介:湛 燕(1978-),女,河北定州人,河北大学在读硕士研究生.

你可能喜欢

  • 分类方法研究
  • 文本分类
  • 高中物理牛顿运动定律
  • 语义分析
  • 数据挖掘研究现状
  • 云计算学习
  • 生物医学
  • 知识发现

文本挖掘研究进展相关文档

最新文档

返回顶部