基于预训练模型的基层治理敏感实体识别方法-AET-电子技术应用

基于预训练模型的基层治理敏感实体识别方法

电子技术应用

吴磊1，汪杭军2

（1.浙江农林大学数学与计算机科学学院，浙江杭州 311300； 2.浙江农林大学暨阳学院工程技术学院，浙江诸暨 311800）

摘要： 基层治理产生的大量敏感数据可通过数据脱敏去除隐私内容，但这些数据包含较多非结构化文本数据，难以直接进行数据脱敏。因此，需要对非结构化文本数据进行命名实体识别以提取敏感数据。首先把敏感实体分为16类并对信访文本进行标注，输入层表示采用预训练模型BERT，编码层利用双向长短时记忆网络汲取上下文信息，解码层通过条件随机场模型优化序列，构建了较高精度的基层治理敏感实体识别模型。针对脱敏工作需要，改变假阴性和假阳性的loss权重，并采用敏感实体框选率辅助评价模型性能。在基层治理信访数据集和公共数据集MSRA上进行实验，F1值分别为88.38%和90.11%，相较于基准模型提升了4.64%和3.78%。该模型可应用于非结构化文本的敏感实体识别，识别成功率高。现有评价指标未能较好地反映敏感实体的间接推理关系，应当探索更完善的敏感实体评价体系。

关键词： 预训练语言模型基层治理中文命名实体识别数据脱敏

中图分类号：TP391.1 文献标志码：A DOI: 10.16157/j.issn.0258-7998.233942
中文引用格式： 吴磊，汪杭军. 基于预训练模型的基层治理敏感实体识别方法[J]. 电子技术应用，2023，49(9)：109-114.
英文引用格式： Wu Lei，Wang Hangjun. Identification method of sensitive entities in grassroots governance based on pre-training models[J]. Application of Electronic Technique，2023，49(9)：109-114.

Identification method of sensitive entities in grassroots governance based on pre-training models

Wu Lei1，Wang Hangjun2

(1.School of Mathematics and Computer Science， Zhejiang A&F University， Hangzhou 311300， China； 2.College of Engineering and Technology， Jiyang College of Zhejiang A&F University， Zhuji 311800， China)

Abstract： A large number of sensitive data generated by grassroots governance can be desensitized to remove private content, but these data contain more unstructured text data, which is difficult to desensitize directly. Therefore, it is necessary to identify named entities from unstructured text data to extract sensitive data.Firstly, the sensitive entities are divided into 16 categories and the letters and visits are labeled. The input layer is represented by the pre-trained model BERT, and the coding layer uses the bidirectional long short-term memory network to extract the context information. The decoding layer constructs a highly accurate identification model for sensitive entities in grassroots governance through the conditional random field model optimization sequence. According to the needs of desensitization, the loss weight of false negative and false positive is changed, and the Box Selection rate of sensitive entities is used to assist in evaluating the performance of the model.Experiments were conducted on the grassroots governance petition data set and the public data set MSRA. The F1 values were 88.38% and 90.11%, respectively, which were 4.64% and 3.78% higher than the benchmark model. The model can be applied to sensitive entity recognition of unstructured text with high recognition success rate.The existing evaluation indicators fail to better reflect the indirect reasoning relationship of sensitive entities, and a more perfect evaluation system of sensitive entities should be explored.

Key words : pre-trained language model；grassroots governance；Chinese named entity recognition；data masking

0　引言

随着中国特色社会主义进入新时代，构建现代化的基层治理体系对乡村振兴和国家长治久安意义重大，而治理体系现代化需要信息化要素的融入[1]。基层治理数字化产生的大量数据经过数据分析与挖掘，可用于乡、镇、街道的信息化、智慧化建设。这些数据难以避免地会包含个人隐私信息，且在现有安全条件下这些数据采集和使用可能存在数据泄露风险[2]。数据脱敏是一种将结构化或非结构化数据中的敏感信息按照一定脱敏规则进行数据变形的技术，经过脱敏后的数据兼顾了可用性和安全性，能够在保护隐私的前提下正常应用于各个场景。文献[3]阐述司法领域结构化文本和非结构化文本的脱敏问题，并以匈牙利法律文件作为案例研究可能的方案。该文献提供了一种思路，即将命名实体识别与数据脱敏联系起来。结构化数据中敏感数据较为明确，可依据不同的数据列划分，但非结构化数据需要将敏感数据从大量文本中识别出来，这就需要命名实体识别技术应用于基层治理文本的数据脱敏过程中。

命名实体识别[4]是一种从非结构化文本中识别出具有特定意义实体的技术，为自然语言处理中的一项基础任务。该任务有助于关系抽取、知识图谱等下游任务[5]。常见的实体有人名、地名、机构名等，例如在“李彦宏在北京举办了百度AI开发大会”识别出李彦宏（人名）、北京（地名）、百度（机构名）3个实体。命名实体识别技术的发展可划分为3个阶段：基于词典和规则的方法、基于机器学习的方法和基于深度学习的方法[4]。除了通用语料的实体识别，还存在面向特定应用场景的领域命名实体识别（Domain Named Entity Recognition，DNER），例如医疗、生物、金融、司法、农业等领域[6]。双向长短期记忆网络（Bidirectional Long Short-Term Memory Networks,BiLSTM）和条件随机场（Conditional Random Field,CRF）的组合模型由于良好的表现，在不同领域都被作为最经典的模型而广泛使用。本文将基层治理非结构化文本的敏感词识别任务转换为命名实体识别任务，沿用常规的序列标注方法。

英文单词之间有空格划分，分词边界明确，以及首字母、词根、后缀等区分信息使得命名实体识别表现较好。而中文最明显的特点是词界模糊，没有分隔符来表示词界[7]。由于中文字词之间没有空格分隔，中文命名实体识别若以词粒度划分，必须先进行分词。分词错误导致的误差传递使得词粒度识别效果差于字粒度。因此，中文命名实体识别常采用字粒度进行识别。文献[8]综述了中文命名实体识别的方法、难点问题和未来研究方向。文献[9]通过在中文词嵌入加入语义、语音信息以提升识别效果。目前，命名实体识别广泛应用于各个领域，但在基层治理领域的相关应用较少。与通用领域数据相比，基层治理过程中的敏感信息识别实体嵌套、一词多义和字词错误等问题更为严重。

此外，通用领域的命名实体识别虽包含了人名、地名和机构名等部分敏感实体，但未能将身份证号、手机号和银行卡号等数字类型的敏感实体作为数据标注，难以包含基层治理过程中产生的众多敏感实体类型。

本文详细内容请下载：https://www.chinaaet.com/resource/share/2000005647

作者信息：

吴磊1，汪杭军2

（1.浙江农林大学数学与计算机科学学院，浙江杭州 311300；2.浙江农林大学暨阳学院工程技术学院，浙江诸暨 311800）

微信图片_20210517164139.jpg

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容