《电子技术应用》
您所在的位置:首页 > 通信与网络 > 设计应用 > 入侵检测系统中的多分类器融合技术
入侵检测系统中的多分类器融合技术
蒋雄文 茅 洁
1. 武汉中国地质大学研究生院(430074) ; 2. 武汉体育学院体育信息技术系(430079)
摘要: 提出了一种用于入侵检测系统的多分类器融合的模式识别方法,通过试验对单分类器和多分类器的IDS性能进行了比较。
Abstract:
Key words :

 摘   要: 提出了一种用于入侵检测系统的多分类器融合的模式识别方法,通过试验对单分类器和多分类器的IDS性能进行了比较。
 关键词: 入侵检测  模式识别  多分类器融合

  对计算机网络的保护通常是通过访问控制策略来实现的。尽管投入了很大的精力来设计这些过滤器,但是,网络安全还是难以得到保证。为了检测出已知的或潜在的威胁,入侵检测系统被放入计算机网络中作为网络安全的第二道防线。入侵检测系统作为一种积极、主动的防御系统是传统的防火墙所不能替代的。
1  入侵检测系统概述
1.1 入侵检测系统的组成

  入侵检测系统从功能上可以分为三部分。
  (1)探测器:探测器主要负责收集数据。探测器的输入数据流包括任何可能包含入侵行为线索的系统数据。
  (2)分析器:分析器又称为检测引擎,负责从一个或多个探测器处接收信息,并分析是否发生了非法入侵活动。
  (3)用户接口:IDS的用户接口使用户易于观察系统的输出信号,并对系统行为进行控制。
1.2 入侵检测系统的分类
  根据检测引擎的实现技术,可把入侵检测系统分为误用入侵检测(Misuse Detection)和异常入侵检测(Anomaly Detection)。
  (1)误用入侵检测主要根据网络数据流的特征来匹配攻击模式,具有较高的检测准确性,但它的完整性则取决于特征库的及时更新。理论上,可以通过设计通用的攻击模式来解决此问题,但安全专家设计的通用攻击模式往往产生大量的假警报。
  (2)异常入侵检测是基于计算机系统正常行为的统计知识的一种检测方法。这种检测方法与系统类型、环境、系统脆弱性和攻击类型无关。它的检测完整性很高,但由于网络传输具有高可变性,因此很难保证高的准确性。较高的虚警率是它的主要缺陷。
2  入侵检测系统中模式识别技术的引入及特点
  从以上讨论可看出,开发一个成功、高效的IDS的关键是找到检测新攻击和低虚警率之间的平衡。误用检测模型虽然检测新攻击的能力有限,但由于它具有低虚警率而得到广泛的应用。
  为了检测新的攻击,很多研究人员采用样本学习的模式识别方法。用这种方法开发先进IDS的主要优点在于它的归纳能力。它可以识别出以前没有遇到过和没有描述过的攻击,尤其是,模式识别方法可以检测出变异的攻击。基于样本学习的入侵检测还处于初级阶段,在系统得到实用之前还有大量问题需要解决。一个最主要的问题就是它常常产生高的虚警率。
  应用模式识别和样本学习方法开发高效的IDS具有以下优点:(1)检测新攻击的能力。(2)从有标号的网络数据自动提炼出一些攻击特征,克服了人为的一些主观性。
  这些观点在IDS开发早期就被提出过,尤其是对神经网络的应用投入了大量研究。神经网络提供了一种识别异常行为模式的能力。用于误用和异常检测的神经网络模型已于1999年提出。训练集是由基本安全模块(Base Security Module)捕获的一系列事件。由网络会话数据而不是审计数据组成的训练集也被用在误用检测中。从以上分析中可以看出,模式识别技术非常适于提供一种IDS的解决方法。
3  基于模式识别技术的入侵检测系统
3.1 基于模式识别技术的NIDS系统结构

  计算机网络的入侵主要是针对传输协议、系统软件和应用软件的漏洞进行的。检测计算机网络的入侵,可以采用NIDS系统。它通过处理网络数据流,可以检测到入侵行为。基于模式识别的入侵检测系统的结构如图1所示。

  NIDS主要解决的问题是:通过给定2台主机之间的会话连接信息,把每次会话归类为N种数据类中的一种。这N种数据类包含了正常数据和各种入侵类别。
  会话连接指的是某一特定服务的一系列的数据包。NIDS的目的是检测出有恶意的会话连接,每个连接都可归于一个数据类。
3.2 入侵特征的提取
  特征提取是入侵检测系统的核心问题之一。合理的特征提取是保证入侵检测系统有效工作的重要前提。特征提取的结果将影响到IDS的误报率和漏报率。降低误报率和漏报率一直是IDS所追求的目标,而优化的特征选取会对该目标产生积极而深远的影响。
  为了区分不同的攻击,需要选择合适的入侵特征。本文将入侵特征分为与数据内容有关的特征(负载)和与网络连接有关的特征,而网络连接特征又可进一步细分为网络特征和统计特征。因此,这三类特征经常被用于划分网络连接类型。
  (1)内容特征:包含了数据包的数据内容信息(负载)。
  (2)网络特征:本次连接的一般特征,包括连接时间、类型、协议和标志等。
  (3)统计特征:与本次连接类似的连接的一些统计值。例如:与本次连接有相同目的主机的连接数目。
从网络数据流中能够提取3类特征,每类特征都可提供区分正常数据流或攻击的信息。当一个攻击发生时,攻击模式会在一类或多类的特征集中被发现。对于每一种攻击,网络工程师根据他们的经验选择更高效的特征系统,以设计出有效的攻击模式。一旦出现了新的攻击,就要对特征系统进行人为调整。另一方面,模式识别工具可以处理所有的特征集以自动提取更多有用的特征,不需要人为的干预,大大提高了IDS的工作效率。
4  单分类器与多分类器的比较
  设计模式识别系统的最终目的在于使当前的分类任务达到最佳的分类性能。该问题一般用神经网络分类器来解决,采用的算法是反向传播(BackPropagation,BP)算法。为完成一个现有的模式分类问题,对多个可选的分类方案进行实验测试,然后选择最佳的分类器方案作为该问题的分类器。但这里出现了 3个问题:(1)BP算法存在易于陷入局部极值的缺点,因而可能使最终的分类结果达不到理想的分类状态。(2)不能被最佳分类器识别的模式可能被其他分类器识别。(3)高维特征变量的输入会导致计算复杂化,学习速度慢,在具体实现和精度上都会产生问题。解决这些问题的方法是将一个模式识别问题由多个分类器共同完成,并将多个分类器的输出作为证据进行组合。
  为此,可以把全体特征按不同的抽象层分为几个特征集,然后用不同的分类器分别进行处理(但在大多数情况下,只用一个分类器处理所有特征集)。但分类器工作在这样的环境中,会导致属性(或维)的大量冗余。不同的网络会话中,特征有不同的含义,因而用单个分类器处理不同语义的分类非常困难。鉴于这种情况,多分类器融合将比基于高维特征向量的单分类器更有效。
  在目标识别中,利用不同的特征或分类器可以得到不同的分类识别结果。这些结果之间的互补性往往很强。因此,通过对多分类器的分类识别结果进行融合能有效地提高对目标的分类识别效果。此外,对多分类器的融合还可以降低分类系统的训练时间并提高分类系统的鲁棒性。
5  IDS中采用的多分类器融合方法
  基于多分类器的模式识别方法能进一步利用由不同特征子集所提取出的攻击模式。每个特征子空间独立地执行攻击检测,然后把检测结果综合起来得出最后的决定。入侵检测多分类器结构如图2所示。这个处理过程与网络安全专家设计攻击模式的过程吻合。

  多分类器融合包括2种基本技术:(1)将每个分类器的输出结果按照特定的融合方法进行融合来得到最终的分类结果。常用的融合方法有投票法、加权平均法、贝叶斯推理、D-S证据理论和模糊积分等。(2)动态分类器选择,即对于特定类型的待识别模式通过动态选择分类器进行分类。本文将采用投票法、加权平均法和朴素贝叶斯这3种融合方法和动态分类器选择技术。
  投票法是应用最广泛的融合方法。它利用单个分类器对给定的测试样本分类,将具有相同分类结果的分类器划分为同一组。分类器数目最多的一组的分类结果就是测试样本最终的分类结果。
  由于分类系统中各分类器的分类效果不同,为发挥各个分类器的优点,使融合结果达到高识别率和高置信度,在融合过程中常常需要对各分类器的输出进行加权,得到最终的分类结果。这种方法就是加权平均法。
  朴素贝叶斯方法直接利用贝叶斯公式进行预测,把从训练样本中计算出的各个属性值和类别频率比作为先验概率,并假定各个属性之间是独立的。这样就可以用贝叶斯公式和相应的概率公式计算出要预测实例对各类别的条件概率值。
  动态分类器选择技术就是要找出在输入样本周围区域中具有最优局部性能的分类器,并以该分类器的输出作为整个融合系统的输出结果。
  假设根据不同特征集训练的各分类器的输出结果不具有相关性,则可用一些固定的融合方法,如投票法和加权平均法。然而,该假设并不总是成立。当不同分类器输出结果之间具有相关性时,固定的规则就不能很好地进行处理。这时可以采用可训练的融合方法,它能较好地解决不同分类器输出结果的关联性。
6  试验结果
  为了测试模式识别方法,只选择Ftp服务,从中选取有代表性的30个特征,并分为3类:4个网络特征、7个统计特征和19个内容特征。特征值都被规格化为[0,1]。训练集包括122个正常数据、6个U2R(非授权的本地根用户权限访问)攻击、539个 R2L(非授权的远程访问)攻击、1个探测和57个DoS(拒绝服务)攻击,一共725次连接,测试集有7 400个连接。
  单分类器系统总体性能对比如表1所示。表中对比了3类不同特征集训练的神经网络的性能。这些网络是用3层神经元组成的完全连接多层感知机。这3层神经元分别是输入层、隐含层和输出层神经元。每个网络有5个输出神经元作为数据类的数量,代表5种不同的输出数据类。输入神经元个数与特征值数量相同。隐含层由5个神经元组成。神经网络采用BP算法,用不同学习率、随机初始权值和偏差值进行训练,表1显示了在测试集中获得的性能。

  从统计数据可以看出,除了用统计特征训练的神经网络外,其他方法的性能比较接近,基于内容特征的性能最好。从结果可以看出,内容特征集最适合这类网络服务,而统计特征集最差。
  多分类器系统的总体性能对比如表2所示。从表1和表2 的对比中看出,由于采用了多个分类器的融合技术,因而获得了比单个分类器更好的性能。相比固定的融合规则,可训练的融合规则提供了更好的性能。动态分类器选择(Dynamic Classifier Selection,DCS)的性能最好,它更好地解决了精度和相关性的问题。

7  结  论
  本文提出了一种基于不同特征的多分类器方法,给出了一组实验数据,比较了单分类器与多分类器的总体性能。从结果可以看出,在入侵检测系统中,多分类器性能远优于单分类器。
  以前提出的基于模式识别的入侵检测方法的主要缺点就是虚警率较高。本文的工作将有助于设计更好的基于模式识别的入侵检测。实验结论也证实了多分类器融合的方法相比单分类器而言,具有较低的虚警率和较高的准确率。
参考文献
1   哈根著,戴葵译.神经网络设计.北京:机械工业出版社,2002
2   赵谊虹.多分类器融合中一个新的加权算法.上海交通大学学报,2002;36(6)
3   Allen J,Christie A,Fithen W et al.State of the Practice of  Intrusion Detection Technologies.http://www.sei.cmu.edu/publications/documents/99.reports/99tr028/99tr028abstract.
html,2000
4   Axelsson S.The Base-rate Fallacy and the Difficulty of  Intrusion Detection.ACM Press,2000;3(8)
5   Lee W,Stolfo S J.A Framework for Constructing Features and  Models for Intrusion Detection Systems.ACM Transactions  on Information and System Security(TISSEC),2000;3(11)
 

此内容为AET网站原创,未经授权禁止转载。