一种基于成词率和谱聚类的电力文本领域词发现方法
所属分类:技术论文
上传者:aetmagazine
文档大小:544 K
标签: 成词率 谱聚类 领域词发现
所需积分:0分积分不够怎么办?
文档介绍:考虑到当前电力行业仍缺少有效的领域词发现方法,以电力行业科技项目文本为原始语料库,将基于互信息与左右熵的统计特征与传统语言构词规则特征相融合,提出了电力文本成词率的概念。所提方法首先利用成词率对电力文本进行无监督筛选得到初始候选词集,然后对候选词集进行文本切片算法和常用词过滤操作,最后进行词嵌入和谱聚类得到最终所需的电力文本领域词。实验结果表明,所提出的方法准确有效,为电力文本的领域词发现提供了一种新方法。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。