《电子技术应用》
您所在的位置:首页 > 其他 > 设计应用 > 灰色线性回归模型在元规则挖掘中的应用研究
灰色线性回归模型在元规则挖掘中的应用研究
来源:微型机与应用2011年第1期
曾庆飞,张忠林,刘丛林,梅玲霞
(兰州交通大学 电子与信息工程学院,甘肃 兰州 730070)
摘要: 提出了一种利用灰色线性回归组合模型挖掘关联规则元规则的方法,并通过实例分析证实了方法的有效性。
Abstract:
Key words :

摘  要: 提出了一种利用灰色线性回归组合模型挖掘关联规则元规则的方法,并通过实例分析证实了方法的有效性。
关键词: 灰色线性回归;关联规则;元规则挖掘

 关联规则是数据挖掘领域应用非常广泛的挖掘方法,它主要用于发现事务数据集中项与项之间的关系,为决策者提供参考。基于经典关联规则的挖掘认为规则是永恒不变的,决策者只能利用这种静态规则信息进行分析和决策。实际上,规则并不一定永恒有效,例如:以某超市一年的销售数据库作为分析对象,有可能发现“顾客在购买香烟的同时也会购买礼品”这条规则,但通过分析数据库可知,支持这条规则的数据集大多集中在春节、圣诞节和国庆节前后,而在其他时间段规则支持度很小,并不具有全局指导作用。因此,利用基于静态宏观思想所挖掘出的规则进行决策存在一定的弊端。为了得到更加合理有效的决策信息,研究工作者提出了关联规则变化的挖掘。Abraham[1]首次提出了元挖掘的思想;荣冈等[2]提出了一种新的描述和评价关联规则的方法,从而为元规则定量预测分析提供了基础。本文将给出元规则形式化定义,并在参考文献[2]提出的支持度向量基础上利用灰色线性回归组合模型分析预测关联规则元规则。

 其中M为D中的事务数。
2 灰色线性回归组合模型建模方法
 元规则挖掘是针对单个规则的信息进行分析和预测,对每一条相同的规则根据不同的时间粒度划分数据库可以建立不同的数据序列。针对超市销售数据库、电信客户数据库等,以小时间粒度划分数据库进行分析的意义不是很大,一般按照年、月、周进行数据划分,因此数据建模序列通常并不是十分复杂,适合用灰色理论进行研究。目前提出建立元规则的方法主要有基于概率统计的方法[3]和基于模糊决策树的方法[4]。基于概率的方法主要采用主成份分析、回归分析等对规则的支持度进行曲线拟合,这在处理不确定数据上效果欠佳;而基于模糊决策树的方法由于需要较多的专家信息,明显无法满足要求。对于具备线性和指数趋势的小样本序列,灰色线性回归组合模型是一种很好的数据预测模型,其建模过程如下[6]:


3 实例分析
 本文以某通信公司2008年的客户数据库的业务记录为原始基础数据,按照月份将数据集划分为12个子数据集,并利用参考文献[2]提出的关联规则挖掘算法挖掘得到频繁项目集。分析由频繁2项集生成的一条关联规则“固定电话业务=>163拨号业务”(即客户在办理固定电话业务的前提下同时办理163拨号业务)的规则变化情况。该规则每月的支持度计数构成规则支持度向量SV=[72,85,90,103,117,126,155,168,193,224,265,308],选取规则前十个月的支持度数据作为建模原始数据,将11月和12月的数据作为模型有效性检验数据。下面分别用灰色线性回归组合模型[5]和线性回归模型[6]进行预测分析。
3.1 线性回归模型
 (1)当对事务数据库引入时间因素后,规则支持度计数和时间就存在了密切关系,设规则支持度计数为因变量Yi,月份为自变量Xi,根据前十个月统计资料做散点图如图1所示。


3.3模型拟合及预测结果比较
 依据上面所述线性回归模型和灰色线性回归模型求解步骤,分别计算两种模型的预测值,如表1所示(预测值均取整数)。利用相对误差法检验两种模型均满足精度要求,可以用于进一步预测。由表1可知线性回归模型拟合结果平均相对误差和预测结果平均相对误差分别为6.96%、19.16%,灰色线性回归模型拟合和预测的相对误差分别为1.37%、1.24%,灰色线性回归拟合和预测精度均明显优于线性回归模型。

 图2通过图示进一步直观地对两种预测模型进行比较可知,灰色线性回归模型的预测值与实际值相比,波动范围较小,图形更吻合,预测精度更好。灰色线性回归模型在动态关联规则元规则挖掘上具有良好的有效性,可以应用于实际分析中。由组合模型预测结果可知,此规则的有效性随着时间推移在不断地增强,在后续的时间中应该有很好的适用性,决策者可以对办理固定电话业务的客户推荐163拨号业务。

 本文提出了一种灰色线性回归组合模型的关联规则元规则挖掘方法,弥补了静态关联规则无法提供规则自身变化的不足,并能够对关联规则元规则变化的假定和判断基于时序数据的定量分析和研究。通过挖掘通信公司客户数据库业务数据,并利用不同的预测模型对规则支持度预测结果比较分析表明:灰色线性回归组合模型对具有线性和指数趋势的规则时间序列的拟合及预测精度均优于线性回归模型,从而可以更加准确地反映规则的变化趋势,判断规则的有效性,使决策者正确把握规则在实际中的应用前景。
参考文献
[1] ABRAHAM T, RODDICK J F. Incremental meta-mining from large temporal data sets. Advances in Database Technologies, Proceedings of the 1st International Workshop on DataWarehousing and Data Mining(DWDM′98), 1999:41-54.
[2] 荣冈,刘进锋,顾海杰.数据库中动态关联规则的挖掘[J].控制理论与应用,2007,24(1):127-131.
[3] Liu Bing, Ma Yiming, Lee R. Analyzing the interestingness of association rules from the temporal dimension[J]. IEEE International Conference on Data Mining (ICDM-2001), Silicon Valley, CA, 2001.
[4] Wai-Ho Au, Keith C. C. Chan. Mining changes in association rules: a fuzzy approach[J]. Fuzzy sets and systems, 2005,149(1): 87-104.
[5] 刘思峰,党耀国,方志耕,等.灰色系统理论及其应用[M].北京:科学出版社,2004:125-138.
[6] 王松桂.线性回归与方差分析[M].北京:高等教育出版社,1999.
 

此内容为AET网站原创,未经授权禁止转载。