文献标识码: A
DOI:10.16157/j.issn.0258-7998.200284
中文引用格式: 高凡,王富章,张铭,等. 基于TF-IDF进化集成分类器的铁路安全故障文本分类[J].电子技术应用,2021,47(4):71-76,81.
英文引用格式: Gao Fan,Wang Fuzhang,Zhang Ming,et al. Text classification of railway safety fault based on TF-IDF evolutionary integrated classifier[J]. Application of Electronic Technique,2021,47(4):71-76,81.
0 引言
安全问题历来是铁路运输的重点关注问题,在铁路安全监控体系中,为减少运营过程中可能存在的安全隐患,减少设备故障,保障系统稳定运行,安全人员根据日常巡检、专项巡检、重大节假日排查等计划定期到现场检查存在的安全生产故障隐患,并将问题记录为文本形式存储。管理人员依据这些问题记录,分析、总结与整改问题。在长期形成的海量的安全问题文本文件中,采用文本分类技术将安全问题自动归类,辅助管理人员更好地掌握与处理安全问题,在铁路安全领域的重要性日渐凸显。
一般来说,文本分类过程有以下3个步骤[1]:预处理、文本表示和文本分类。其中,文本预处理包括分词、去除停顿词、去除不规则数据等。文本表示即将提取的文本特征转换为计算机可处理的数据类型(通常用向量表示)。文本表示方法包括词袋模型(BOW)、词频-逆向文件频率(Term Frequency-Inverse Document Frequency,TF-IDF),以及基于深度学习的Word2vec表示方法等[2]。在构造分类器时使用的技术大体包括单个的基分类器、集成分类器以及深度学习模型[3]。集成分类器主要包含Bagging和Boosting两种,Bagging的主要算法是随机森林,Boosting的主要算法是梯度提升树。在深度学习领域,有基于深度信念网络、卷积神经网络[4-5]、循环神经网络等完成文本分类任务[6]。
目前,国内学者在铁路文本分析领域研究较多。王广采用贝叶斯网络的预测模型和自适应增强算法(Adaptive Boosting,AdaBoost)的预测模型实现天气相关的铁路道岔故障预测[7];赵阳等以故障文本信息为依据,针对高铁信号车载设备,提出贝叶斯结构学习算法(HDBN_SL)[8];李佳奇等将面向Agent的分布式人工智能技术引入到信号设备故障诊断系统中[9];杨连报针对信号故障不平衡数据,采用SVM-SMOTE算法对TF-IDF转换后的小类别文本向量数据随机生成,分别采用基分类器和集成分类对数据进行分类[10]。本文处理安全问题为事故故障发生前人员检查时发现的风险、隐患内容,通常包括安全问题发生的时间、地点、问题描述等关键要素[11],所以针对每一类安全问题,存在特定的关键词,本文在文本特征抽取上采用TF-IDF表示,针对Bagging集成分类器的基础上,采用遗传算法优化,提升分类准确性[12]。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003467
作者信息:
高 凡1,王富章1,张 铭1,赵俊华2,李高科1
(1.中国铁道科学研究院,北京100081;2.北京经纬信息技术有限公司,北京100081)