文本挖掘技术研究

2005年12月

第19卷第4期总62期北京联合大学学报(自然科学版)

JournalofBeijingUnionUniversity(NaturalSciences)Dec.2005

Vol.19No.4SumNo.62

文本挖掘技术研究

薛为民,陆玉昌

1,2

2

(11北京联合大学自动化学院,北京 100101;21清华大学计算机科学与技术系,北京 100084)

[摘 要] 文本挖掘是数据挖掘的重要内容之一,其应用十分广泛。对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望。[关键词] 文本挖掘;数据挖掘;Web文本挖掘;文本挖掘模型

[中图分类号] TP391 [文献标识码] A [文章编号] 1005-0310(2005)04-0059-05 文本挖掘是近几年来数据挖掘领域的一个新兴分支,在国际上,文本挖掘是一个非常活跃的研究领域。从技术上说,它实际是数据挖掘和信息检索两门学科的交叉。文本挖掘与传统数据挖掘的差别在于文本数据与一般数据的巨大差异。传统数据挖掘所处理的数据是结构化的,如关系的、事务的、数据仓库的数据,其特征数目通常不超过几百个,而文本数据没有结构,转换为特征矢量后特征数将达到几万甚至几十万。所以,文本挖掘既采用了很多传统数据挖掘的技术,又有自己的特性。

近年来随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,Internet已经发展为当今世界上最大的信息库。Internet上的信息,是以网页形式存放的,而网页的内容又多以文本方式来表示,传统的信息检索技术已不适应日益增长的大量文本数据处理的需要。如何快速、准确地从来自异构数据源的大规模的文本信息资源中提取符合需要的简洁、精炼、可理解的知识,这就涉及到文本知识挖掘。Internet的发展,极大地促进了文本挖掘的发展。

特征与偏差、时序模式发现、趋势分析等。

传统的数据挖掘技术,主要针对的是结构数据,如关系的、事务的、数据仓库的数据。随着数据处理工具、先进数据库技术以及网络技术迅速发展,大量的形式各异的复杂类型的数据(如结构化与半结构化数据、超文本与多媒体数据)不断涌现。因此数据挖掘面临的一个重要课题就是针对复杂数据类型的挖掘,这包括复杂对象、空间数据、多媒体数据、时间序列数据、文本数据和Web数据。112 文本挖掘

文本挖掘(TM,TextMining)是以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术,从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。它是一个从文本信息描述到选取提取模式,最终形成用户可理解的信息知识的过程。

Web文本挖掘就是从Web文档和Web活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息的过程。Web文本挖掘可以对Web文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。Web文本挖掘和通常的平面文本挖掘有类似之处,但是,Web文档中的标记给文档提供了额外的信息,可以借此提高Web文本挖掘的性能,Web文本挖掘是文本挖掘的主要研究内容。

113 文本挖掘种类

按照文本挖掘的对象可把文本挖掘分类为:基于单文档的数据挖掘和基于文档集的数据挖掘。

1 文本挖掘的基本概念

111 数据挖掘

数据挖掘(DM,DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中采掘出隐含的、先前未知的、对决策有潜在价值的知识和规则的过程,包括分类、聚类、关联规则挖掘、

[收稿日期] 2005-10-08

[基金项目] 国家自然科学基金重大项目(79990584);自然科学基金资助项目(60473115)

[作者简介] 薛为民(1968)),男,河北邯郸人,清华大学计算机系博士后,副教授,研究方向为数据挖掘、智能计算、人机交互;陆玉昌,男(1937)),清华大学计算机系教授,博士生导师,研究方向为数据挖掘、知识发现和机器学习。

你可能喜欢

  • C语言数据结构
  • 中医传承
  • 高中物理牛顿运动定律
  • 数据挖掘算法
  • 语义分析
  • 数据挖掘研究现状
  • 云计算学习
  • 生物医学

文本挖掘技术研究相关文档

最新文档

返回顶部