基于TF-IDF进化集成分类器的铁路安全故障文本分类-AET-电子技术应用

基于TF-IDF进化集成分类器的铁路安全故障文本分类

2021年电子技术应用第4期

高凡1，王富章1，张铭1，赵俊华2，李高科1

1.中国铁道科学研究院，北京100081；2.北京经纬信息技术有限公司，北京100081

摘要： 铁路安全问题是铁路运输保证的核心问题，铁路安全问题非结构化文本数据量大，文本内容无特定规律，对于综合分析解决安全故障问题造成很高的难度。针对铁路安全问题数据智能分类，提出进化集成分类器模型。运用TF-IDF算法，通过分析接触网安全问题的数据特点提取文本特征。采用决策树作为基分类器的Bagging集成分类器将文本数据分类，在Bagging分类过程中，针对Bagging算法产生的基分类器组合解集，提出采用遗传算法(Genetic Algorithm)将其优化，产生分类结果较优的基分类器组合解集。以铁路局实际安全问题进行实验分析，实验证明TF-IDF+Bagging+Genetic Algorithm=Evolutionary Ensemble Classifier进化集成分类器模型在铁路安全问题文本分类中具有较高的准确性。

关键词： 铁路安全问题 TF-IDF 基分类器集成分类器进化集成分类器

中图分类号： TN02；U284
文献标识码： A
DOI：10.16157/j.issn.0258-7998.200284
中文引用格式： 高凡，王富章，张铭，等. 基于TF-IDF进化集成分类器的铁路安全故障文本分类[J].电子技术应用，2021，47(4)：71-76，81.
英文引用格式： Gao Fan，Wang Fuzhang，Zhang Ming，et al. Text classification of railway safety fault based on TF-IDF evolutionary integrated classifier[J]. Application of Electronic Technique，2021，47(4)：71-76，81.

Text classification of railway safety fault based on TF-IDF evolutionary integrated classifier

Gao Fan1，Wang Fuzhang1，Zhang Ming1，Zhao Junhua2，Li Gaoke1

1.China Academy of Railway Science，Beijing 100081，China； 2.Beijing Jingwei Information Technologies Co.，Ltd.，Beijing 100081，China

Abstract： Railway safety is the core of railway transportation guarantee. The unstructured text data of railway safety problems is large, and the content of the text has no specific rules, which makes it very difficult to comprehensively analyze and solve the safety problems. Aiming at the intelligent classification of railway safety data, an evolutionary ensemble classifier model is proposed. By analyzing the characteristics of the catenary security issues of data, TF-IDF model is adopted to realize the feature extraction. Bagging ensemble classifier which uses Decision Tree as the base classifier classifies the text data, in the process of classification of Bagging, for the combined solution set of base classifier generated by Bagging Algorithm, Genetic Algorithm is proposed to optimize it to generate the combined solution set of base classifier with better classification results. Based on the safety problem of power supply contact network of a railway bureau, the experimental analysis shows that the TF-IDF+Bagging+Genetic Algorithm=Evolutionary Ensemble Classifier model has a high classification index in the text classification of railway safety problems.

Key words : software railway safety problems；TF-IDF；base classifier；integrated classifier；evolutionary integration classifier

0 引言

安全问题历来是铁路运输的重点关注问题，在铁路安全监控体系中，为减少运营过程中可能存在的安全隐患，减少设备故障，保障系统稳定运行，安全人员根据日常巡检、专项巡检、重大节假日排查等计划定期到现场检查存在的安全生产故障隐患，并将问题记录为文本形式存储。管理人员依据这些问题记录，分析、总结与整改问题。在长期形成的海量的安全问题文本文件中，采用文本分类技术将安全问题自动归类，辅助管理人员更好地掌握与处理安全问题，在铁路安全领域的重要性日渐凸显。

一般来说，文本分类过程有以下3个步骤^[1]：预处理、文本表示和文本分类。其中，文本预处理包括分词、去除停顿词、去除不规则数据等。文本表示即将提取的文本特征转换为计算机可处理的数据类型(通常用向量表示)。文本表示方法包括词袋模型(BOW)、词频-逆向文件频率(Term Frequency-Inverse Document Frequency，TF-IDF)，以及基于深度学习的Word2vec表示方法等^[2]。在构造分类器时使用的技术大体包括单个的基分类器、集成分类器以及深度学习模型^[3]。集成分类器主要包含Bagging和Boosting两种，Bagging的主要算法是随机森林，Boosting的主要算法是梯度提升树。在深度学习领域，有基于深度信念网络、卷积神经网络^[4-5]、循环神经网络等完成文本分类任务^[6]。

目前，国内学者在铁路文本分析领域研究较多。王广采用贝叶斯网络的预测模型和自适应增强算法(Adaptive Boosting，AdaBoost)的预测模型实现天气相关的铁路道岔故障预测^[7]；赵阳等以故障文本信息为依据，针对高铁信号车载设备，提出贝叶斯结构学习算法(HDBN_SL)^[8]；李佳奇等将面向Agent的分布式人工智能技术引入到信号设备故障诊断系统中^[9]；杨连报针对信号故障不平衡数据，采用SVM-SMOTE算法对TF-IDF转换后的小类别文本向量数据随机生成，分别采用基分类器和集成分类对数据进行分类^[10]。本文处理安全问题为事故故障发生前人员检查时发现的风险、隐患内容，通常包括安全问题发生的时间、地点、问题描述等关键要素^[11]，所以针对每一类安全问题，存在特定的关键词，本文在文本特征抽取上采用TF-IDF表示，针对Bagging集成分类器的基础上，采用遗传算法优化，提升分类准确性^[12]。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000003467

作者信息：

高凡1，王富章1，张铭1，赵俊华2，李高科1

(1.中国铁道科学研究院，北京100081；2.北京经纬信息技术有限公司，北京100081)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容