基于深度学习的词语级中文唇语识别
所属分类:技术论文
上传者:aetmagazine
文档大小:653 K
标签: 唇语识别 ResNet Bi-LSTM
所需积分:0分积分不够怎么办?
文档介绍:在无声或噪声干扰严重的环境下,或对于存在听觉障碍的人群,唇语识别至关重要。针对词语级中文唇语识别的问题,提出了SinoLipReadingNet模型,前端采用Conv3D+ResNet34结构用于时空特征提取,后端分别采用Conv1D结构和Bi-LSTM结构用于分类预测,并引入Self-Attention、CTCLoss对Bi-LSTM后端进行改进。最终在新网银行唇语识别数据集上进行实验,结果表明,SinoLipReadingNet模型在识别准确率上明显优于中科院D3D模型,多模型融合的预测准确率达到了77.64%,平均字错率为21.68%。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。