适配语义对齐图像字幕方法
所属分类:技术论文
上传者:wwei
文档大小:7103 K
标签: 跨模态对齐 语义路由 数据要素
所需积分:0分积分不够怎么办?
文档介绍:基于冻结大语言模型的图像字幕生成方法突破了传统模型在利用外部知识方面的限制,但容易过度依赖文本先验,导致视觉特征利用不足和描述幻觉问题。为此,提出一种适配语义对齐的图像字幕方法,通过视觉压缩模块和语义路由模块,构建视觉与文本数据要素间的流通路径,实现跨模态语义的精准对齐与高效交互。在MSCOCO、Flickr30k和NoCaps等基准数据集上的实验结果表明,该方法能够在保持较低可训练参数量的同时,有效促进多模态数据要素的价值传递,达到当前先进性能水平,为工业应用提供了可靠解决方案。
现在下载
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。