《电子技术应用》
您所在的位置:首页 > 模拟设计 > 设计应用 > 一种语音识别中核心词快速模型优化方法
一种语音识别中核心词快速模型优化方法
2019年电子技术应用第2期
杨 维,张才俊,马永波
国家电网客服中心 信息技术部,天津300000
摘要: 针对国网客服电话语音识别在特定领域核心词识别效果差的问题,提出一种基于HCLG领域词权重增强和领域词纠正的方法,能够实时并快速地添加领域词,从而动态地优化语言模型,提升语音识别效果。将该模型和算法优化应用在国网客服中心电话语音的咨询、维修、投诉等各种领域场景中,其语音识别结果都得到大幅改善。
关键词: 语音识别 HCLG
中图分类号: TP183
文献标识码: A
DOI:10.16157/j.issn.0258-7998.182304
中文引用格式: 杨维,张才俊,马永波. 一种语音识别中核心词快速模型优化方法[J].电子技术应用,2019,45(2):9-11.
英文引用格式: Yang Wei ,Zhang Caijun,Ma Yongbo. Domain word recognition enhancement method in speech recognition[J]. Application of Electronic Technique,2019,45(2):9-11.
Domain word recognition enhancement method in speech recognition
Yang Wei,Zhang Caijun,Ma Yongbo
IT Department,State Grid Customer Service Center,Tianjin 300000,China
Abstract: Aiming at the problem that the national network customer telephone voice recognition has poor recognition of core words in specific fields, this paper proposes a method based on HCLG domain weight enhancement and domain word correction, which can add domain words in real time and quickly, to dynamically optimize the language model and improve speech recognition. The model and algorithm are optimized in the various fields of the telephone voice consultation, maintenance, complaints, etc. of the State Grid Customer Service Center. The speech recognition results have been greatly improved.
Key words : speech recognition;HCLG

0 引言

    近年来,随着语音识别技术的逐步成熟,语音识别技术被应用到越来越多的场景中。国家电网客服中心成立人工智能中心,并深入研究语音识别核心技术以及语音在智能客服系统中的应用。当前国网语音系统面临的一个非常关键的问题就是通用语音识别,在文本语料能够覆盖的通用场景识别中,如查天气、问车票等,识别率很高。但是,在国网客服电话语音中,面临大量国网业务特有的核心词汇和说法,如专有名词“电线杆、高压铁塔、绝缘子、金具、瓷瓶、拉线”等,由于其属于特定领域,通用的领域语言模型很难正确识别。因此,如何在保证通用领域高识别率的同时,能够快速通过模型训练和优化来提升新领域、新核心词的识别率,就尤为关键。

    目前,对于领域词增强的方法主要是通过优化语言模型来解决,包括两个方法:(1)领域语料获取,即在相关领域通过收集大量的文本语料,训练领域相关的语言模型,以达到对领域词准确的识别;(2)分类语言模型[1],即领域词为某一类别词,通过类别替换获取类别的领域语料,训练得到类别语言模型,进而实现对领域词的识别。

    但是,在实际应用场景中面临3个问题:(1)领域文本语料很难获取和收集,并且也无法覆盖所有领域的词,很难训练获得一个比较好的领域语言模型;(2)目前使用较多解决领域词识别的是基于类的语言模型,然而这种模型需要提前定义词类,相对复杂,对那些不属于任何一类的词不好建模。领域词具有多样性,无法用类别代替,如国网业务词和专业词种类较多;(3)领域词具有实时性且不断扩充,模型完全重新训练到上线应用会有一定的滞后,不能实时生效。

    为了解决语音识别中领域词的多样性和实时性,本文设计了一种基于HCLG领域词权重增强来优化语言模型的方法,并重构语音识别解码流程,如图1所示。首先获取领域内领域词,并对领域词进行发音标注;然后对HCLG中对应领域词进行权重增强,使得解码过程在尽量不影响性能的前提下保证领域词的识别;接着,对语音识别的结果进行后处理,即领域词的检查和替换。本文的方法只依赖领域词表,可以实时添加和扩充,并实时生效。

rgzn3-t1.gif

1 HCLG领域词权重增强

1.1 HCLG

    在大规模连续语音识别中,解码过程一般采用加权有限状态转换器(Weighter Finite State Transducer,WFST)[2],因此以WFST为框架的大词汇量连续语音识别系统被广泛应用。语音识别的解码过程可以分为语言模型、发音词典规律、上下文相关和隐马尔可夫模型等限制下,寻找一个最有可能的文本序列的过程。

    语音识别解码器是在给定输入特征序列下寻找最优的文本次序,寻找次序的过程其实就是在HCLG图上检索的过程。关于HCLG:G表示语言模型,用来解码语法;L是发音词典,输入是音素,输出是词;C表示音素上下文关系;H是隐马尔可夫模型,表示相似状态之间的跳转状态。

1.2 领域词权重增强

    上文中介绍了HCLG的结构,在本小节中,将详细描述如何通过修改HCLG的权重来增强领域词的识别效果。本文的修改只是对HCLG中的G语言模型进行修改,可以将HCLG简化表示如图2所示。

rgzn3-t2.gif

    本文提出的在HCLG中对领域词进行增强主要是通过构造领域词状态转移图(下文中用S.FST表示),然后将S.FST与现有的HCLG进行合并生成HCLGS。本方法能够通过自定义S.FST中词的权重,增强HCLG中对应词的权重,同时可以共享HCLG中原有词的权重,保证了领域词的识别。

    (1)生成领域词S.FST

    假设领域词为“国家智能电网”,可以将领域词拆分为已有词表词的组合,即:“国家”、“智能”、“电网”。根据领域词可以生成对应的S.FST,如图3所示。

rgzn3-t3.gif

    (2)生成HCLGS

    根据上个模块生成的S.FST,将S.FST与HCLG进行合并,如图4所示。合并操作即将原S.FST中的边合并到HCLG对应的边上,在本文例子中即将“国家”和“智能”连接,对应的权重为用户自定义。

rgzn3-t4.gif

2 领域词纠正

    上小节中,在HCLG中对领域词的权重进行增强,增加了解码阶段领域词出现的概率。但是,由于要保证语音识别结果的正确性,不能对在HCLG中对领域词增加过大的权重,以免影响整体解码的效果,因此需要对解码后的结果进行领域词增强。在解码过程中,解码识别错误的领域词往往是由于发音相似但是字形不对而导致的,因此,后处理的过程需要匹配到相似发音的领域词,从而进行替换。为了替换的准确性,本文以音素为基本单位进行领域词的替换。后处理主要涉及两部分:领域词检索和发音相似度度量。

    在语音识别过程中,解码的效率往往在实际应用中比较重要,因此需要设计一种快速的领域词查找的方法,实现高效的领域词替换。本文提出一种基于音素树的领域词快速查找方法。

2.1 音素检索树

    字典树,又称Trie树、前缀树,是一种树形结构,是哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串)[3],所以经常被搜索引擎系统用于文本词频统计。它能最大限度地减少无谓的字符串比较,查询效率比哈希表高。本文的音素串查找可以看作是字符串查找,即检索相同的音素串,因此可以利用字典树建立音素检索树,从而进行音素的匹配查找。

    首先,需要将