基于多Transformer网络协同生成的自动作曲-AET-电子技术应用

基于多Transformer网络协同生成的自动作曲

信息技术与网络安全 5期

王嵩超，李金龙

(中国科学技术大学计算机科学与技术学院，安徽合肥230026)

摘要： 多音轨的自动作曲算法需要同时兼顾单条序列的连贯性与多个序列之间的和谐程度。以往工作通常选择合并序列或并行多生成器两种方案，它们都无法同时完全捕获音符之间的依赖关系以及做到单条序列的连续性。提出了MuseTransformer框架，其包括由多个Transformer组成的生成器池模块，并设计了多生成器的异步执行策略与同步机制，以确保细粒度依赖关系的捕获。在乐谱的序列表示方面，提出了关键位置符号(Key Position Symbol，KPS)以提高表示效率。多种音乐领域评价指标的实验结果表明，所提模型生成的多轨序列之间在和谐程度、连贯性以及序列表示空间效率上，均等同或优于其他先进方法。

关键词： 音乐生成序列表示序列模型

中图分类号： TP37
文献标识码： A
DOI： 10.19358/j.issn.2096-5133.2022.05.008
引用格式：王嵩超，李金龙. 基于多Transformer网络协同生成的自动作曲[J].信息技术与网络安全，2022，41(5)：51-58.

Automatic music composition based on multi-Transformer cooperation

Wang Songchao，Li Jinlong

(School of Computer Science and Technology，University of Science and Technology of China，Hefei 230026，China)

Abstract： Multi-track music generation algorithm needs to take account of both coherence on one single track and strong dependencies among multiple tracks. Previous methods either choose to merge multiple sequences into one long sequence, or use multiple generators in parallel, both of which either fail to capture complete dependencies among tokens, or loss single track′s completeness. In this paper，we proposed MuseTransformer, which contains multiple Transformer generators corresponding to each track. In order to capture dependencies among tracks in a fine-grained manner, we designed an asynchronous execution strategy to enable cooperation and synchronization among all generators. In terms of music sequence representation, we designed KPS(Key Position Symbol) to improve the representation efficiency. Experiments on multiple music field metrics show advantages of our model on multi-track harmony, coherence and spatial-compactness, compared to other state-of-the-art methods.

Key words : music generation；sequence representation；sequence model

0 引言

多目标序列生成技术在多轨音乐生成等任务中有着重要应用，这需要同时确保多个生成的序列自身的连续性与序列之间很强的相关性。本文关注音乐生成背景下的多序列生成问题。现代音乐歌曲通常包含多个音轨，包括旋律音轨和用于伴奏的多个乐器音轨。早期的研究[1-2]专注于只有单轨的旋律生成，而最近的工作[3-4]已经开始探索多轨音乐生成。在本文中，仅关注使用基于序列的方法的多轨音乐生成问题。

基于序列的方法首先会将乐谱序列化为一个或多个符号序列，并输入至序列模型。通常，会设计出类似MIDI协议的序列格式来表示一个单轨音乐序列[1-2，5]。与单轨生成相比，多轨生成任务需要其生成的轨道具有很强的相关性，同时保持其自身的连续性。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000004247

作者信息：

王嵩超，李金龙

(中国科学技术大学计算机科学与技术学院，安徽合肥230026)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容