文献标志码:A
DOI: 10.16157/j.issn.0258-7998.234136
引用格式: 乐杨,胡军国,李耀. 基于RoBERTa和多层次特征的中文事件抽取方法[J]. 电子技术应用,2023,49(11):49-54.
【引言】
事件抽取作为一种信息抽取技术,旨在从文本中识别和提取出事件的关键要素[1],以自动化处理大规模的非结构化文本数据,在知识图谱[2]、信息检索[3]、自动问答[4]、情报收集[5]等领域均有着广泛的应用。
近年来,随着深度学习的发展,深度学习在事件抽取任务中取得了广泛的应用且取得了优异的效果。基于深度学习的事件抽取方法,先将文本中的词转换成向量,再将向量作为模型的输入进行特征抽取和分类。目前使用最广泛的词向量工具是Word2Vec,但通过Word2Vec得到的词向量是静态的,只针对单独的词,无法解决中文词语在不同环境下拥有不同语义信息的问题[6]。
同时大部分的神经网络模型着重于抽取向量中部分特征信息,无法覆盖所有的特征信息。如卷积神经网络(Convolutional Neural Networks,CNN)通过卷积操作提取向量中的局部特征,但由于卷积核大小和步幅的限制,可能导致一些全局上下文相关的特征被局部特征所掩盖或丢失[7];双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)可以处理长序列数据,提取全局特征,但无法直接捕捉文本中的词与词之间的关系[8]。
针对上述提到的中文语义复杂和特征信息抽取不全面,提出一种基于RoBERTa预训练模型[9]和多层次特征的中文事件抽取方法。本文的主要贡献在于:
(1)采用RoBERTa预训练模型训练的词向量,拼接词性特征向量,获取含有丰富语音的向量表示。并在论元抽取中基于Layer Normalization将触发词语义信息融入句子中,拼接字与触发词的距离向量,增强句子与触发词的关联。
(2)利用CNN和BiLSTM抽取词级特征和句子级特征,并采用注意力机制将特征聚焦于与事件更相关的特征上,满足事件抽取的特征要求。
(3)将事件抽取视为序列标注任务,通过CRF和BIO序列标注对句子中的每个字进行标注,得到多个触发词或事件论元,解决多事件抽取问题。
文章详细内容下载请点击:基于RoBERTa和多层次特征的中文事件抽取方法AET-电子技术应用-最丰富的电子设计资源平台 (chinaaet.com)
【作者信息】
乐杨,胡军国,李耀
(浙江农林大学 数学与计算机科学学院,浙江 杭州 311300)