《电子技术应用》
您所在的位置:首页 > 通信与网络 > 设计应用 > 基于自编码器的日志异常检测方法研究
基于自编码器的日志异常检测方法研究
网络安全与数据治理
杨光1,雷玉芳2,王鹏2,孙强2,闫凯鑫1,朱燕1,潘号龙1,王旭仁3
1.中国科学院信息工程研究所; 2.中铁(北京)信息技术服务有限公司;3.首都师范大学
摘要: 系统日志蕴含关键运行信息与问题线索,但随系统规模扩大,日志数据愈发庞大复杂,自动化异常检测成为研究重点。当前研究面临日志数据不平衡、有标签数据稀少导致检测精度不足的挑战。为应对挑战,提出了多窗口LSTM自编码器日志异常检测方法,主要围绕日志数据处理、自编码模型和日志事件分类三个方面展开。该方法结合LSTM与自编码器优势,并利用多窗口策略捕捉不同时间尺度上下文信息,针对时间敏感的日志提供了更有效的异常检测方案。实验结果表明,该方法在HDFS和BGL两个公共数据集上均取得了较高的F1值,相比其他方法具有更好的异常检测效果。
中图分类号:TP393.08;TP309文献标识码:ADOI:10.19358/j.issn.2097-1788.2025.12.003引用格式:杨光,雷玉芳,王鹏,等. 基于自编码器的日志异常检测方法研究[J].网络安全与数据治理,2025,44(12):16-25.
Research on log anomaly detection method based on autoencoder
Yang Guang1, Lei Yufang2, Wang Peng2, Sun Qiang2, Yan Kaixin1, Zhu Yan1, Pan Haolong1, Wang Xuren3
1. Institute of Information Engineering, Chinese Academy of Sciences;2. SinoRail (Beijing) Information Technology Service Co., Ltd.;3. Capital Normal University
Abstract: System logs contain key operational information and problem clues. However, as the system scale expands, log data becomes increasingly large and complex, making automated anomaly detection a research focus. Current studies face challenges such as imbalanced log data and insufficient labeled data, which lead to low detection accuracy. To address these challenges, a log anomaly detection method based on MultiWindow Long ShortTerm Memory (LSTM) Autoencoder is proposed, focusing on three aspects: log data processing, autoencoder model, and log event classification. This method combines the advantages of LSTM and autoencoder, and uses a multiwindow strategy to capture contextual information at different time scales, providing a more effective anomaly detection solution for timesensitive logs. Experimental results show that this method achieves high F1scores on two public datasets, Hadoop Distributed File System (HDFS) and Blue Gene/L (BGL), and exhibits better anomaly detection performance compared with other methods.
Key words : system logs; anomaly detection; deep learning; autoencoder

引言

在信息时代,大量的计算机和网络系统被广泛应用于各行各业。几乎所有的计算机系统都会在运行时将系统执行期间发生的信息和异常事件附加到一个或多个特殊文件中——称为系统日志、日志文件或简称为日志[1]。系统操作员需要根据日志中包含的意外和疑似不安全的系统活动痕迹,来及时采取行动,以防止或减少系统的损坏,并避免不利的级联效应[2]。在传统的日志分析领域,开发人员往往依赖于其专业领域知识,通过手动检查、编写规则、统计学分析或聚类等手段,人工识别特征和建立规则。然而,随着网络安全形势的演变,网络入侵攻击已逐渐从单一、直接、易于识别转变为有组织、有目的、长时间潜伏等更为复杂和隐蔽的形式,系统的应用呈现规模化发展、分布式部署、高并行和冗余运行的特征,日志数据爆炸式增长[3]。面对大量的日志数据和隐蔽性高的攻击手段,传统检测方法适用程度低。此外,由于日志异常事件通常是少数类别,这会导致类别分布的不平衡,从而影响异常检测的精度。人工神经网络为解决上述问题提供了新的思路,在没有人类干预的情况下自动化地提取特征和识别日志中的异常模式,为用户提供了一种快速、可靠、准确的方式来监测系统的状态和性能。自编码器(Autoencoder)作为一种无监督学习模型,因具有鲁棒性强、可解释性好的特点,不仅在图像、文本等数据的降维和特征提取上有着广泛的应用,也在异常检测上展现出巨大的潜力。在时间序列预测方面,长短期记忆网络(Long ShortTerm Memory, LSTM)也展现出强大的实力,无论是金融市场的价格预测、气象数据的趋势分析,还是工业领域的故障预警,其能通过捕捉时序数据中的复杂模式,提供准确的预测结果。因此,本文结合LSTM在序列数据处理上的优势与自编码器在特征学习上的能力,使用多窗口策略捕捉日志数据中不同时间尺度的上下文信息,针对时间敏感的日志提供了更有效的异常检测方案。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000006895


作者信息:

杨光1,雷玉芳2,王鹏2,孙强2,闫凯鑫1,朱燕1,潘号龙1,王旭仁3

(1.中国科学院信息工程研究所,北京100085;

2.中铁(北京)信息技术服务有限公司,北京100055;

3.首都师范大学,北京100048)


官方订阅.jpg

此内容为AET网站原创,未经授权禁止转载。