基于新偏最小二乘回归法的系列水文资料分析

在实际问题中,经常会碰到海量数据或者样本点较少,自变量较多的数据。对此可以利用递阶偏最小二乘回归来建立线性模型。但是一个直接的问题是如何对自变量进行分组。由此提出了基于聚类分析的递阶偏最小二乘回归方法,在对解释变量分组时引入聚类分析。通过对长江宜昌段水沙观测数据作实证分析后发现,基于聚类分析的递阶偏最小二乘回归方法是有效可行的,而且用该方法建立的回归模型

第 4l卷第 9期 2 0 10年 5月 文章编号:0 1 01—4 7 2 0J 9—0 9 1 9( 01 0 0 5—0 3

人民长江 Ya t e Ri e ng z vr

Vo . 1 41. . No 9

Ma y,

2 0 01

基于新偏最小二乘回归法的系列水文资料分析

周鑫,凡成 印 (河海大学理学院,苏南京 2 0 9 )江 10 8

摘要:实际问题中,常会碰到海量数据或者样本点较少,在经自变量较多的数据。对此可以利用递阶偏最小二 乘回归来建立线性模型。但是一个直接的问题是如何对自变量进行分组。由此提出了基于聚类分析的递阶偏最小二乘回归方法,对解释变量分组时引入聚类分析。通过对长江宜昌段水沙观测数据作实证分析后发在

现,于聚类分析的递阶偏最小二乘回归方法是有效可行的,基而且用该方法建立的回归模型比一般的偏最小 二乘回归模型拟合能力更强。

词:聚类分析;偏最小二乘回归;递阶偏最小二乘回归;自变量分组 文献标志码:A

中图法分类号:02 2. 1 4

l问题的提出 递阶偏最小二乘回归方法是以适用于海量数据的建模研究而著称的¨。在这里,量数据可理解为成 海百上千甚至成千上万的变量。尽管偏最小二乘方法在处理多变量建模问题中十分有效,当自变量太多时,但 得到的模型结果就会显得比较复杂,以分析和解释。难 为了解决这个困难,一种思路是在建模之前对自变量进行选择,将众多的自变量减少到几个较少的易于处理的变量。在偏最小二乘回归分析中,一种思路是另将自变量集合划分成若干具有相同或相似内涵的组, 例如,以按照空间、间或某些属性等进行划分。基可时于这种思路,伍德于 1 9 9 6年提出了递阶偏最小二乘回 归方法。在递阶偏最小二乘回归分析中,键是如关

型聚类,后者称为 R型聚类。由于是要对变量分组, 因

此选择 R型聚类。体聚类的方法有很多,具比如系统聚 类法,步聚类法,逐逐步分解法等等,以选择其中可 的一种方法来做。自变量进行型聚类后,对至于

具体分为几组合适,没有一个统一的标准,以从最后得到可

模型的预测能力并结合自变量的实际意义进行选择。

2基于聚类分析的递阶偏最小二乘回归方法 首先将数据做标准化处理。标准化处理后的数记 据矩阵为和 y设解释变量经 R型聚类后,。被分为 P个子块。,,,个子块含 P个自变量。,… 每: 然

后分别建立因变量 y与每个子块的偏最/ -乘回归 j - ̄ 模型,据交叉有效性,取相应的偏最小二乘成分根提 t t…, i 1…, ) m为提取的 x中的偏最小 t…(=, P,

何对自变量进行分块,一般的做法是凭借经验,使得所 分的每个子块中的变量具有相同或相似的含义,种这

二乘成分个数。再用 t t…, ( t i=1…, ) l , P与,进 行偏最小二乘回归,据交叉有效性,取偏最小二乘根提

做法缺少严密性,同的经验积累往往得出不同的结不

成分

,,最后可以得到 l关于 X (…£,,。 i= 1…,,

论。为此,文依据聚类分析的相关理论,自变量进本对 行分组,然后再进行递阶偏最小二乘回归建模。 聚类分析的内容十分丰富,以是对个体 (样可或 本 )也可以对变量 (指标 )行分类。前者称为 p,或进 收稿日期:0 9—1 20 2—2 0

P )的线性回归方程。上述建模过程可以看出,于从基 聚类分析的递阶偏最小二乘回归方法具有更强的信息综合能力和解释能力,在进行高维数据建模分析中,往往比普通的偏最/ z乘回归方法更有效和适用。 J . ̄

作者简介:周鑫,,士研究生,要从事应用数学研究。E—m i z1 83@ s atm女硕主 a:x94 8 i .o l n

基于新偏最小二乘回归法的系列水文资料分析

Word文档免费下载Word文档免费下载:基于新偏最小二乘回归法的系列水文资料分析 (共1页,当前第1页)

你可能喜欢

  • 最小截面的校验
  • 最小均方算法
  • 以下新增混凝土最小厚度说法正确
  • 最小元素法
  • 文件分配最小单位
  • 旋光仪最小分度值
  • 最大最小距离算法

基于新偏最小二乘回归法的系列水文资料分析相关文档

最新文档

返回顶部