《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 解决方案 > 一种属性相关性的加权贝叶斯分类算法研究

一种属性相关性的加权贝叶斯分类算法研究

2011-08-02
作者:郑 默,刘琼荪
来源:来源:微型机与应用2011年第7期

摘  要: 根据Rough Set属性重要度理论,构建了基于互信息的属性子集重要度,提出属性相关性的加权朴素贝叶斯分类算法,该算法同时放宽了朴素贝叶斯算法属性独立性、属性重要性相同的假设。通过在UCI部分数据集上进行仿真实验,与基于属性相关性分析的贝叶斯(CB)和加权朴素贝叶斯(WNB)两种算法做比较,证明了该算法的有效性。
关键词: 朴素贝叶斯;属性重要度;属性相关;分类

 分类是数据挖掘中一类非常重要的问题,分类算法的核心是构造能快速、有效处理大数据容量、高精确度的分类器。在众多分类算法和理论中,朴素贝叶斯NB(Naive Bayes)由于计算高效、高精确度,并具有坚实的理论基础而得到了广泛应用。NB分类基于一个简单的假定:在给定分类特征条件下属性值之间具有独立性,且每个条件属性对类变量(决策属性)的重要度是相同的。然而,在实际问题中,这些假设往往不能满足。为了保持NB的计算既简单,又能提高其分类性能,参考文献[1]提出了一种基于属性相关性分析的贝叶斯分类模型CB(Correlated Bayes),放宽了属性独立性的假设,当属性间存在相关性时较好地提高了分类性能,但是该模型假定每个属性相对于决策属性重要性相同,当属性相对于决策属性的重要性不相同时,分类效果并没有提高;参考文献[2-4]中提出了根据属性的重要性赋予属性权值的加权朴素贝叶斯WNB(Weighted Naive Bayes)模型,允许属性之间重要度不相同,较之NB模型获得较好的分类效果,但该模型仍基于属性类条件独立假设,当属性间存在相关性时分类效果并不好。综上,上述方法均只侧重改进NB方法的某单一假设,并未同时放宽两个假设,现实中数据也常常不能同时满足两个假设。
 本文在CB模型和WNB模型的基础上,以互信息作为度量条件属性相对于决策属性的重要度,提出了集合重要度的概念,并赋予各属性子集权值,同时考虑属性子集内部属性间的相关性,提出属性相关性的加权贝叶斯分类算法(WCB),以达到提高NB的分类性能的目的。

 





2.3 WCB模型的构造步骤
 (1)对训练样本进行缺失处理和离散化处理。
 (2)分类器的构造。
 ①扫描训练样本集,统计训练集中,类别Ci的个数di和类Ci中属性Ak取值为aik的实例个数dik,构成统计表;
 ②对训练属性集进行聚类,并由式(9)计算属性子集Ej的权重wj;
 ③计算所有的先验概率P(Ci)=di/d,由式(2)和式(11)计算条件概率P(Ej|Ci),形成概率表;
 ④式(2)中,选择控制参数β∈[0,0.3],取步长h=0.01,选取训练效果最优的β值构建分类器;
 (3)分类,对于样本X,调用概率表和构建好的分类器,得出分类结果。
3 实验分析
 为了验证WCB算法的分类效果,本文选用UCI[6]机器学习库中的8个数据集进行算法测试,以分类正确率作为算法优劣的主要评价指标。在相同的试验环境下,利用MATLAB编程分别实现了WNB算法、CB算法和本文提出的WCB算法。数据集中连续属性进行离散化处理。由于Letter-Recognition、kr-vs-kp和MushRoom数据集样本容量或属性个数较多,一次测试需要较长时间,采用分割数据集的方法进行测试,取2/3的数据作为训练集,1/3数据作为测试集。其余数据集均采用10折交叉验证,取10次的平均值作为实验的测试结果。实验结果如表1所示。

 仿真实验表明,WCB算法在大部分数据集上分类正确率高于CB算法和WNB算法,由于本文构造的WCB算法兼顾了不同的属性相关性和属性重要性,更能反映真实情况,并克服了CB算法和WNB算法的不足。因为本算法既要调用属性集合重要度子函数,又要选取控制参数β,所以算法运行的时间比CB算法和WNB算法稍长。当属性子集重要度wj均为1时,WCB算法即为CB算法;当向量相关度系数CorrEr均为1时,WCB算法则为WNB算法。因此,本文提出的算法不会比二者分类效果差。
 实验都采用了UCI标准数据集,因此实验结果具有一定的可比性。
 本文提出的WCB算法放宽了NB的两个假设,同时考虑属性相关性和属性重要性,进一步扩展了现有贝叶斯分类算法,有效地提高了分类效果。同时本文提出一种属性集合重要度的计算方法,随着属性相关性和属性重要度研究的发展,还可以使用其他度量属性相关性或属性重要性的方法,寻找分类效果更好的WCB算法是今后的研究方向。
参考文献
[1] 章舜仲,王树梅,黄河燕,等.基于属性相关性分析的贝叶斯模型[J].情报学报,2007,24(2):58-65.
[2] HARRY Z, SHENG S L. Learning weighted naive bayes with accurate ranking[A]. Fourth IEEE International Conference on Data Mining (I CDMπ 04)[C]. Brighton, UK.2004:567-570.
[3] 邓维斌,黄蜀江,周玉敏.基于条件信息熵的自主式朴素贝叶斯分类算法[J].计算机应用,2007,27(4):888-891.
[4] 邓维斌,王国胤,王燕.基于Rough Set的加权朴素贝叶斯分类算法[J].计算机科学,2007,34(2):204-206.
[5] 曾黄麟.粗集理论及其应用(修订版)[M].重庆:重庆大学出版社,1998.
[6] NEWMAN D J, HETTICH S, BLAKE C L, et al. UCI repository of machine learning databases [EB/OL]. http://www.ics.uci.edu/mlearn/MLRepository. html, 1998.   

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。