中文文本挖掘中的无词典分词的算法及其应用

本文介绍的是在没有字典的情况下,通过数据挖掘来进行对中文进行分词

 第23卷 第1期          吉 林 工 学 院 学 报          Vol.23 No.1   2002年3月        JOURNALOFJILININSTITUTEOFTECHNOLOGY        Mar.2002文章编号:100622939(2002)0120016203  

中文文本挖掘中的无词典分词的算法及其应用

胥桂仙, 苏筱蔚, 陈淑艳

(吉林工学院计算机科学与工程学院,吉林长春 130012)

Ξ

摘 要:对中文文本挖掘中的词汇处理技术进行了较深入的探讨,提出了针对汉语语言特点的无词典分词算法。该算法基于“找最长字共现”的原则,可以准确地将文本中的词汇切分出来。关键词:文本挖掘;中文分词;无词典分词中图分类号:TP31111   文献标识码:A

  随着信息技术的快速发展,人们已经从信息缺乏的时代过渡到了信息极大丰富的时代。文本信息是人们用于信息记载和信息传播的最重要的媒体之一[1],如何迅速、  [2]中文文本挖掘技术文中主要介绍如何在没有词典的情况下实现汉语文本的分词。这实际上是从文字信息中自动获取知识的一种方法。

1设一个文档集D={D1,D2,…,Dn},其中Di为一个文本,i=1,2,…,n。设一个文本Di可描述为Di=s1s2…sn,si为字符[1]。以四元组形式将文档集D存入数据库,四元组形式为(fi,pi,si,flag),其中fi为文档Di对应的文件标号,pi为字符si在文本中的位置,flag为产生长词标记,初值为0。11112 字共现  设串…sisi+1…si+msi+m+1…所产生的按字索引为{…(fi,pi,si,0),(fi,pi+1,si+1,0)…(fi,pi+m,si+m,0)(fi,pi+m+1,si+m+1,0)…}具有si=si+m,si+1=si+m+1,pi+1=pi+1,pi+m+1=pi+m+1,则

1 中文文本挖掘中无词典分词算法研究

  汉语语言文字的处理与西文相比,一个明显的不同是汉语没有词与词之间的显式分隔标记[3]。“什么是词?”“汉语究竟有多少个词?”等这样的许多问题,迄今还是语言学家争论不休的问题。  在中文文本挖掘的分词技术中,基于词库的算法目前使用较广,也较为成熟。这类算法分词的正确性很大程度上取决于所建的词库。一个词库应具有完备性和完全性两个方面。建立一个同时满足这两个要求的词库具有很大的难度[4]。所以对于中文文本挖掘来说,基于词库的分词技术可能会使某些具有重要意义的词汇被疏漏,从而导致挖掘的内容不是十分的准确。

  作者设计了一种发现文本中所有最长频繁序列的算法,其根本假设是“组成一个词的汉字经

Ξ

称sisi+1为2字符长度的2次共现[2]。

  依此类推,可以定义2字符长度的n次共现。进一步可定义:k长度的n次共现。字符串长度为n(以下简称为n序列)。11113 频繁域值  如果一个序列在一篇文档中至少出现σ次,

σ被称为频繁域则认为这个序列是频繁的。

值[5]。

11114 稀有词  这类词的特点是在文档中出现的频率很低,对文档的内容贡献也不大。因此,对于这类词应予以滤除[3]。

收稿日期:2001210229

作者简介:胥桂仙(1974-),女,吉林长春人,吉林工学院硕士研究生,主要从事数据挖掘与知识发现研究1

Word文档免费下载Word文档免费下载:中文文本挖掘中的无词典分词的算法及其应用 (共3页,当前第1页)

你可能喜欢

  • 中文分词技术
  • 文本挖掘
  • 统计方法
  • 中文词语
  • 信息的特征
  • 恶意代码
  • 毕业生就业
  • 向量空间模型

中文文本挖掘中的无词典分词的算法及其应用相关文档

最新文档

返回顶部