一种基于成词率和谱聚类的电力文本领域词发现方法-AET-电子技术应用

一种基于成词率和谱聚类的电力文本领域词发现方法

2021年电子技术应用第10期

杨政1，尹春林1，蔡迪2，李慧斌2

1.云南电网有限责任公司电力科学研究院，云南昆明650217；2.西安交通大学数学与统计学院，陕西西安710049

摘要： 考虑到当前电力行业仍缺少有效的领域词发现方法，以电力行业科技项目文本为原始语料库，将基于互信息与左右熵的统计特征与传统语言构词规则特征相融合，提出了电力文本成词率的概念。所提方法首先利用成词率对电力文本进行无监督筛选得到初始候选词集，然后对候选词集进行文本切片算法和常用词过滤操作，最后进行词嵌入和谱聚类得到最终所需的电力文本领域词。实验结果表明，所提出的方法准确有效，为电力文本的领域词发现提供了一种新方法。

关键词： 成词率谱聚类领域词发现电力文本

中图分类号： TP311
文献标识码： A
DOI：10.16157/j.issn.0258-7998.211437
中文引用格式： 杨政，尹春林，蔡迪，等. 一种基于成词率和谱聚类的电力文本领域词发现方法[J].电子技术应用，2021，47(10)：29-32，37.
英文引用格式： Yang Zheng，Yin Chunlin，Cai Di，et al. A power text domain word discovery method based on word formation rate and spectral clustering[J]. Application of Electronic Technique，2021，47(10)：29-32，37.

A power text domain word discovery method based on word formation rate and spectral clustering

Yang Zheng1，Yin Chunlin1，Cai Di2，Li Huibin2

1.Electric Power Research Institute of Yunnan Power Grid Co.，Ltd.，Kunming 650217，China； 2.School of Mathematics and Statistics，Xi′an Jiaotong University，Xi′an 710049，China

Abstract： Considering that the current power industry still lacks effective domain word discovery methods, this paper takes the power industry science and technology project text as the original corpus, combines the statistical features based on the mutual information, left entropy as well as right entropy with the features of traditional language word-formation rules, and proposes the new concept of power text word formation rate. The proposed method firstly uses the word formation rate to get the initial candidate word set by unsupervised filtering, and then performs the text slicing algorithm and common word filtering operation on the candidate word set, and finally performs the word embedding and spectral clustering algorithms to get the final power text-domain words. Experimental results show that the method proposed in this paper is accurate and effective, and provides a new method for power text domain word discovery.

Key words : word formation rate；spectral clustering；domain word discovery；power text

0 引言

针对特定领域的文本数据，领域词的词库构建是最为关键的任务之一。传统领域词发现方法依赖互信息或邻接熵得到候选词集，进而利用word2vec进行词向量转化、K-means进行聚类^[1]，最终得到行业领域词。传统方法对词语组合规律运用得不够全面，因此这类方法筛选的候选词集存在诸多不合理的词语。领域词发现分为候选词集筛选与字符串过滤两个步骤。

在候选词集筛选方面，领域词发现算法主要是基于词语统计特性的无监督方法或序列模式机器学习的有监督算法。基于无监督的方法中，互信息和凝固度是最常见的用来筛选词语的度量，刘伟童等^[2]提出使用互信息初步筛选词集，随后用邻接熵对词集进行再过滤的方法。刘昱彤等^[3]使用改进的类Apriori算法，通过组合、统计频率、过滤3个步骤来筛选候选词集。杜丽萍等^[4]提出利用改进的互信息，同时结合一定的构词规则筛选候选词集。无监督算法泛化性优良，但缺少规则，会遗留有较多垃圾串与非领域词。基于监督的机器学习词集筛选方法有马建红等^[5]提出的基于CNN和LSTM抽取词特征，随后使用半马尔科夫条件随机场(SCRF)来识别词语边界。Fu Guohong等^[6]在隐马尔可夫模型(HMM)的框架下运用命名实体识别(NER)的思路，同时结合上下文筛选出候选词集。陈飞等^[7]提出运用条件随机场来判断分词的词汇边界是否为候选词边界的方法。监督方法通常需要大量标注数据进行训练，耗费高额的人工成本。此外，部分方法选择基于纯规则的构词法^[8-9](即汉语成词规则)与一些领域先验知识结合，进行候选词集的筛选。这种方式虽然准确性相对较高，但是规则维护复杂，基本无跨域能力。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000003777。

作者信息：

杨政1，尹春林1，蔡迪2，李慧斌2

(1.云南电网有限责任公司电力科学研究院，云南昆明650217；2.西安交通大学数学与统计学院，陕西西安710049)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容