安全类文章的多文本分类系统的设计与实现-AET-电子技术应用

安全类文章的多文本分类系统的设计与实现

《信息技术与网络安全》2020年第7期

吴习沫，朱广宇，张雷

华北计算机系统工程研究所，北京100083

摘要： 目前安全类网站信息的分类标签各不相同，没有统一分类标准，使安全类网站无法准确地向用户展示特定类别的安全信息。面对大量的安全类网站的技术类文章信息，用户需要花费大量的时间来识别文本类别。因此，设计一个多文本分类系统对于提高安全类网站的用户体验和使用效率具有重要意义。开发了一套基于CNN和LSTM混合模型的安全类文章多文本分类系统，本系统采用基于Scrapy框架的网络爬虫，该网络爬虫支持定制化配置提取不同布局的页面数据，支持数据持久化存储。并在 CNN和 LSTM混合模型基础上设计实现了多文本自动标注模块，实现了网站安全类信息的自动分类，相对传统的CNN和LSTM模型分类准确率分别提升1.79%和1.54%，F1值分别提升1.02%和0.32%。

关键词： 深度学习文本分类爬虫系统

中图分类号： TP391.1
文献标识码： A
DOI： 10.19358/j.issn.2096-5133.2020.07.009
引用格式：吴习沫，朱广宇，张雷. 安全类文章的多文本分类系统的设计与实现[J].信息技术与网络安全，2020，
39(7)：52-56，60.

Design and implementation of multi-text classification system for security articles

Wu Ximo，Zhu Guangyu，Zhang Lei

North China Institute of Computer Systems Engineering，Beijing 100083，China

Abstract： At present, the classification labels of security website information are different, and there is no unified classification standard, so that security websites cannot accurately display specific types of security information to users. Faced with a large number of technical article information of security websites, users need to spend a lot of time to identify text categories. So, it′s significant to design a multi-text classification system to advance the user experience and make use of security websites′ efficiency. This paper develops a security text multi-text classification system based on a hybrid model of CNN and LSTM. Based on the Scrapy framework, a web crawler, which supports both customized configuration to extract page data in different layouts and data persistence storage, is used in this system. Based on the mixed model of CNN and LSTM, a multi-text automatic labeling module is designed and implemented to realize the automatic classification of website security information. The rate of classification accuracy has increased by 1.79% and 1.54% in comparison with the traditional CNN and LSTM models respectively. Meanwhile,the F1 value has increased by 1.02% and 0.32%.

Key words : in-depth learning；text categorization；crawler；system

互联网已成为信息传播的普遍途径，然而，由于互联网中的冗余信息过多，各网站提供的标签没有统一的分类标准，使得整合某一特定类的文章信息所消耗的时间成本和人力成本增加。但目前为止，针对网络安全类网站的技术类文章，还没有一套系统能够很好地解决上述对应问题。

为迅速掌握最新的网络安全信息，本文设计并实现了基于CNN和LSTM混合模型的安全类文章多文本分类系统，该系统从多种来源收集安全类技术文本，并将它们以特定格式汇总，自动标记汇总后的文章内容。就信息收集而言，系统主要采集近一年的安全类技术文本，收集的目标内容主要包括文章内容和网页自带的标签，对于各网站自定义的文章标签，可作为多标签的一部分，供用户参考。安全类文本与普通文本对比需要由多个标签对其进行标记分类处理。因此安全类文本的分类要难于普通文本分类处理。

面向网络安全数据高并发的安全类网站，本文设计和实现了信息采集模块，该模块主要实现了基于Scrapy框架的分布式爬虫程序设计，完成了多个安全类网站技术类文章的文本信息数据采集。

本文设计并实现了信息分类模块，它负责对所获得的数据进行预处理、文本表示以及文本分类，其中文本分类模块具体提出了一种基于CNN和LSTM的混合分类模型，它综合了CNN与LSTM的优点，提高了模型的特征提取能力。实验结果表明，基于CNN和LSTM的混合分类模型达到了比较高的准确率，CNN和LSTM的混合模型的准确率为91.99%。CNN-LSTM与CNN、LSTM相比分类准确率提高了1.79%和1.54%。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000003231

作者信息：

吴习沫，朱广宇，张雷

(华北计算机系统工程研究所，北京100083)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容