文献标识码: A
DOI:10.16157/j.issn.0258-7998.211437
中文引用格式: 杨政,尹春林,蔡迪,等. 一种基于成词率和谱聚类的电力文本领域词发现方法[J].电子技术应用,2021,47(10):29-32,37.
英文引用格式: Yang Zheng,Yin Chunlin,Cai Di,et al. A power text domain word discovery method based on word formation rate and spectral clustering[J]. Application of Electronic Technique,2021,47(10):29-32,37.
0 引言
针对特定领域的文本数据,领域词的词库构建是最为关键的任务之一。传统领域词发现方法依赖互信息或邻接熵得到候选词集,进而利用word2vec进行词向量转化、K-means进行聚类[1],最终得到行业领域词。传统方法对词语组合规律运用得不够全面,因此这类方法筛选的候选词集存在诸多不合理的词语。领域词发现分为候选词集筛选与字符串过滤两个步骤。
在候选词集筛选方面,领域词发现算法主要是基于词语统计特性的无监督方法或序列模式机器学习的有监督算法。基于无监督的方法中,互信息和凝固度是最常见的用来筛选词语的度量,刘伟童等[2]提出使用互信息初步筛选词集,随后用邻接熵对词集进行再过滤的方法。刘昱彤等[3]使用改进的类Apriori算法,通过组合、统计频率、过滤3个步骤来筛选候选词集。杜丽萍等[4]提出利用改进的互信息,同时结合一定的构词规则筛选候选词集。无监督算法泛化性优良,但缺少规则,会遗留有较多垃圾串与非领域词。基于监督的机器学习词集筛选方法有马建红等[5]提出的基于CNN和LSTM抽取词特征,随后使用半马尔科夫条件随机场(SCRF)来识别词语边界。Fu Guohong等[6]在隐马尔可夫模型(HMM)的框架下运用命名实体识别(NER)的思路,同时结合上下文筛选出候选词集。陈飞等[7]提出运用条件随机场来判断分词的词汇边界是否为候选词边界的方法。监督方法通常需要大量标注数据进行训练,耗费高额的人工成本。此外,部分方法选择基于纯规则的构词法[8-9](即汉语成词规则)与一些领域先验知识结合,进行候选词集的筛选。这种方式虽然准确性相对较高,但是规则维护复杂,基本无跨域能力。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003777。
作者信息:
杨 政1,尹春林1,蔡 迪2,李慧斌2
(1.云南电网有限责任公司电力科学研究院,云南 昆明650217;2.西安交通大学 数学与统计学院,陕西 西安710049)