文献标识码: A
DOI:10.16157/j.issn.0258-7998.190060
中文引用格式: 黄海新,梁志旭,张东. 基于深度学习的图像风格化算法研究综述[J].电子技术应用,2019,45(7):27-31.
英文引用格式: Huang Haixin,Liang Zhixu,Zhang Dong. A survey of image stylization algorithms based on deep learning[J]. Application of Electronic Technique,2019,45(7):27-31.
0 引言
图像风格化是指通过一些算法,将一张具有艺术风格图像的风格映射到其他自然图像上,使原自然图像保留原始语义内容的同时具备该艺术图像的艺术风格。图像风格化这一概念的提出是源于人们被某些艺术绘画大师的艺术作品所吸引,渴望自己也能够拥有同样艺术风格的图像,而重新绘制特殊风格的图像则需要大量相关技术人员的投入和资源损耗,于是一些研究人员开始研究相应算法来完成图像风格化任务。
自20世纪90年代中期以来,人们相继提出大量风格化算法,其中非真实感渲染[1]方法取得了较好的效果,但这种方法局限于仅能针对单一风格进行绘制,如果需要拓展到其他风格的转换,则需要重新修改算法和参数。研究人员后来进一步将风格化问题转化为风格图像的纹理合成问题,将目标风格图像的纹理特征信息映射到待风格化图像中完成风格化任务。WANG B等[2]从风格图像数据集中提取纹理信息,将纹理信息与被分割的原始图像结合成新的风格化图像。HERTZMANN A等[3]通过学习来自未经转换的图片和风格化图像的示例对的类似变换来进行风格化任务。FRIGO O等[4]提出一种无监督的风格化方法,具体是对小图像块的分割和重构完成风格转移。以上这些算法都是图像风格化的传统算法,传统算法还有很多,但其最大的局限性就是仅仅使用了图像低层次的特征,无法完美捕捉到图像的结构分布,这就导致风格化效果不理想。
1 基于深度学习的图像风格化算法
深度学习对于计算机视觉方面良好的效果使得风格化研究人员不得不将目光转移到它身上。随着卷积神经网络[5]的提出,图像的高层次特征得以有效利用,传统风格化算法的局限性得以消除,这吸引了大量的风格化研究人员。
GATYS L A等开创性地利用卷积神经网络进行风格化任务。他们在文献[6]中首先利用卷积神经网络进行图像纹理合成的任务,从目标风格图像中提取纹理。他们用Gram矩阵来表示纹理信息,Gram矩阵是预训练分类网络VGG的各过滤器激活值之间的相关系数,这种基于Gram矩阵的纹理表示方式有效地模拟了纹理的各种变化。他们初始化一张噪声图像,将噪声图像和待提取纹理的目标图像都送入VGG网络中,通过最小化噪声图像和目标图像之间各层的Gram矩阵之间的差值作为损失函数对噪声图像的像素值进行优化,通过反复的优化迭代得到目标图像的纹理,这是图像的纹理也就是风格的提取过程。
在后来的工作中,GATYS L A等人在纹理合成的基础上通过引入目标内容图像,修改了损失函数使算法同时针对风格和内容进行优化,满足了保持目标语义内容不变同时的风格化任务,可以做到如图1所示的风格化效果。此方法虽然能够较好地完成图像风格化的任务,但是其缺点也是很明显的,由于优化需要较长的等待时间,因此在实时性这一方面此方法有很大的局限性。另外,由于卷积神经网络不可避免地会丢失一些低级特征信息,因此GATYS L A等人的算法在风格化后的细节方面表现不佳且难以实现真实照片作为风格的转换任务。
针对GATYS L A等[7]的研究中关于实时性的问题,ULYANOV D等[8]和JOHNSON J等[9]都提出了相应的解决办法。这两种方法的原理相似,都是采用离线训练的方式预先训练一个风格转换网络,只不过采用不同的网络结构,两个网络结构分别如图2和图3所示。这样,当需要进行图像风格化任务时,只需要将图像送入转换网络中,即可立即获得风格化后的图像。但是,由于这两种算法的核心思想是基于文献[7]的算法,因此这两种算法依旧面临着GATYS L A等风格化后的局部细节方面表现不佳的问题。而且最大的局限性是预训练的转换网络只能对一种风格进行训练,如果想实现多个风格的转换,需要为每种特定风格都训练一个转换网络。
除了Gram矩阵可用于表示纹理特征外,马尔科夫随机场(MRF)也是对图像纹理特征建模的另一种方法。考虑到Gram矩阵的一些局限性,一些研究人员采用MRF的方法处理风格化问题。基于MRF的纹理建模表示方法假定在一个纹理图像中,每个像素仅与其相邻的像素有关,即每个像素完全由其空间邻域表征。
LI C和WAND M[10]认为GATYS L A等基于Gram矩阵的纹理表示方法仅考虑像素特征的相关性,没有考虑空间结构,这导致了算法在真实图像作为目标风格时不能很好地完成风格化任务。所以,他们提出了结合MRF和神经网络的方法。具体原理与GATYS L A等的原理相似,不同点在于没有利用特征图之间的关系构成Gram矩阵,而是将特征图生成了很多的局部图像块(local patch),利用MRF去寻找图像块与图像块之间关系的匹配,这样能更好地保留像素局部的信息,可以完成真实照片作为目标风格图像的风格化任务,如图4所示。这种方法的缺点在于当内容图像和风格图像在结构上存在很大差异时,由于图像块之间难以匹配,可能导致风格化任务失败。
考虑到文献[10]实时性的问题,LI C和WAND M又提出了一种离线训练的方式完成风格化任务[11]。其核心思想依旧基于MRF,通过对抗性训练一个前馈网络来解决效率问题。同样,这种基于MRF的方法有利于保留纹理像素的局部细节信息,所以对于复杂的纹理图像,这种方法的风格化效果要比JOHNSON J等和ULYANOY D等要好。但是,由于算法对图像语义内容和高层次特征上考虑的缺乏,因此对于非纹理图像(如脸部)作为目标风格图像时往往得不到很好的结果。
以上算法的很大限制就是往往只针对单一风格进行风格化任务,若希望得到不同的风格化结果则需要多次运行算法或训练多个风格转换网络。于是研究人员开始对如何一次完成多种风格的转换任务这一问题进行研究。DUMOULIN V等[12]提出了一种基于条件实例规范化的方法去训练一个多风格条件转换网络,具体做法是通过归一化不同转换参数的特征统计将内容图像转换为不同的风格,来实现通过调整不同的转换参数来模拟不同的风格的目的。LI Y等[13]将初始化的噪声图像送入不同的子风格网络中得到相应的风格特征编码,然后结合内容特征编码和风格特征编码送入转换网络的上采样部分完成风格转换,不同的风格可以通过选择单元进行选择。ZHANG H和DANA K[14]将多种风格送入预训练的VGG网络中得到多尺度风格特征,然后将此风格特征与来自编码器中的不同层的多尺度内容特征组合,通过其所提出的激励层,实现多风格化。
除了多风格转换,一些研究人员还对任意风格的转换进行了研究。HUANG X和BELONGIE S[15]提出了基于文献[12]思想的另一种方法,他们将条件实例规范化修改为自适应实例归一化,与DUMOULIN V等[12]不同的是他们采用的风格转换网络的下采样部分包含了VGG网络前几层在内且参数固定,这样得到的特征激活值经过自适应实例归一化处理后上采样重构后即可得到风格化后的图像。此方法能够完成实时的任意风格化处理,上采样部分的网络参数需要大量的风格图像和内容图像进行训练。后来,LI Y等[16]又对HUANG X和BELONGIE S[15]的方法进行了改进,他们采用相同的网络结构,只是用白化着色变换代替了自适应实例归一化,这是因为白化变换可以去除风格相关信息并保留内容结构,这使得内容图像的特征信息能够较好地传递,然后通过着色变换将风格特征与内容结合后,经过上采样重构图像后得到的就是风格化后的图像。
2 图像风格化的拓展
随着图像风格化技术的成熟,一些研究人员发现图像风格化算法具备更广泛的研究价值,可以拓展到其他相关应用,以下仅简要介绍图像风格化的几个拓展方向。
2.1 视频风格化
视频可以理解为一张张图像经过连续化处理得到的,那么图像的风格化任务就可以拓展到视频风格化的领域来。需要注意的是,视频风格化算法需要考虑相邻视频帧之间的平滑过渡。第一个视频风格化算法由RUDER M等提出[17-18],他们使用光流法计算光流信息,并引入了时间一致性损失,他们的算法实现了平滑的视频风格化结果。后来HUANG H等基于RUDER M等的思想提出一个离线训练的视频风格化模型[19],具体做法是将两个连续的帧画面送入风格转换网络中得到输出,对输出的结果直接计算时间一致性损失来约束两帧之间的连续性。
2.2 人脸风格化
尽管之前的算法都能够实现风格化任务,但是由于没有单独考虑头部特征导致难以实现单独针对头部的风格化效果。SELIM A等[20]在风格化过程中增加了增益图对空间配置进行约束,这使得面部的结构特征在风格化过程中得以保留。ZHAO M T等[21]从由绘画大师预先绘画的肖像中提取笔触信息,将笔触信息传递给内容图像实现人脸风格化方法。WANG N N等[22]采用MRF的方法实现人脸风格化,他们的方法可以从训练数据集中为目标图像匹配到最合适的特征信息完成风格化任务。
2.3 语义风格化
语义风格化是假设有两张图像,两张图像有着相似的语义内容但不同的风格,希望将一张图像的风格过渡到另一张图像上。CHAMPANDARD A J[23]提出基于图像块匹配的算法[24]完成语义风格化任务。CHEN Y L和HSU C T[25]提出了一种不同的思路,他们约束空间对应关系及风格特征统计完成语义风格化。
3 存在问题及今后研究方向
由于风格这一概念的模糊性,人们对于风格化图片效果的评估往往都是基于主观意识,风格化的好与坏完全由个人主观评判。由于人与人之间主观意识上的差异,导致对风格化结果的评判也各不相同。不同于分类任务[26],图像风格化没有一个预期的标准来对风格化结果进行评判,这是目前各种风格化算法普遍面临的问题,如何找到一个标准的评估方法,将会是风格化领域内各研究人员今后的一个重要研究方向。
虽然基于图像优化的在线风格化算法(如GATYS L A等[7]和LI C、WAND M等[10])可以较好地完成图像风格化的任务,但是此类方法由于需要在线优化,难以保证风格化的速度。离线训练风格转换网络的方式(如ULYANOV D等[8]和JOHNSON J等[9])可以避免此类速度问题,但训练一个单风格转换网络不够灵活,因为多数情况下用户需要多种风格化方式,而训练一个多风格转换网络得到的效果却又不如针对单一风格转换网络的效果好,所以如何提出一种同时满足转换速度和转换效果的方法也是今后研究的一个重要方向。
4 结论
本文主要介绍了基于深度学习的图像风格化方法,并对相应算法的优缺点和今后的研究发展方向进行了简要的分析。通过研究发现,尽管传统方法能够完成风格化任务,但是由于其局限性,不论是在合成速度方面还是图像效果方面都不是很理想。随着深度学习的介入,传统处理图像的方法得到了更好的发挥,图像的特征信息也得到了充分利用,可以说神经网络使人们对图像风格化这一领域的研究向前迈了一大步。虽然目前图像风格化领域有了一些进展,可以实现一些简单的应用,但距离风格化技术的全面成熟仍需要不断的发展改进。总而言之,图像风格化作为一个具有广泛商业用途,充满吸引力和挑战性的方向,有重要的研究意义等着研究人员去发展创新。
参考文献
[1] GOOCH B,GOOCH A.Non-photorealistic rendering[M].Natick,MA,USA:A.K.Peters,Ltd.,2001.
[2] WANG B,WANG W P,YANG H P,et al.Efficient examplebased painting and synthesis of 2D directional texture[J].IEEE Transactions on Visualization and Computer Graphics,2004,10(3):266-277.
[3] HERTZMANN A,JACOBS C E,OLIVER N,et al.Image analogies[C].Proceedings of the 28th Annual Conference On Computer Graphics And Interactive Techniques.ACM,2001:327-340.
[4] FRIGO O,SABATER N,DELON J,et al.Split and match:Example-based adaptive patch sampling for unsupervised style transfer[C].IEEE Conference on Computer Vision and PatternRecognition,2016:2338-2351.
[5] 徐中辉,吕维帅.基于卷积神经网络的图像着色[J].电子技术应用,2018,44(10):19-22.
[6] GATYS L A,ECKER A S,BETHGE M.Texture synthesis using convolutional neural networks[C].International Conference on Neural Information Processing Systems.MIT Press,2015.
[7] GATYS L A,ECKER A S,BETHGE M.A neural algorithm of artistic style[J].arXiv:1508,06576[cs.CV].
[8] ULYANOV D,LEBEDEV V,VEDALDI A,et al.Texture networks:feed-forward synthesis of textures and stylized images[C].International Conference on Machine Learning,2016:1349-1357.
[9] JOHNSON J,ALAHI A,Li Feifei.Perceptual losses for real-time style transfer and super-resolution[C].European Conference on Computer Vision,2016:694-711.
[10] LI C,WAND M.Combining markov random fields and convolutional neural networks for image synthesis[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2479-2486.
[11] LI C,WAND M.Precomputed real-time texture synthesis with markovian generative adversarial networks[C].European Conference on Computer Vision,2016:702-716.
[12] DUMOULIN V,SHLENS J,KUDLUR M.A learned representation for artistic style[C].International Conference on Learning Representations,2017.
[13] LI Y,CHEN F,YANG J,et al.Diversified texture synthesis with feed-forward networks[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:3920-3928.
[14] ZHANG H,DANA K.Multi-style generative network for real-time transfer[J].arXiv:1703.06953.
[15] HUANG X,BELONGIE S.Arbitrary style transfer in real-time with adaptive instance normalization[C].Proceedings of the IEEE International Conference on Computer Vision,2017:1501-1510.
[16] LI Y,FANG C,YANG J,et al.Universal style transfer via feature transforms[C].Advances in Neural Information Processing Systems,2017:385-395.
[17] RUDER M,DOSOVITSKIY A,BROX T.Artistic style transfer for videos[C].German Conference on Pattern Recognition,2016:26-36.
[18] RUDER M,DOSOVITSKLY A,BROX T.Artistic style transfer for videos and spherical images[J].International Journal of Computer Vision,2018,126:1199.
[19] HUANG H,WANG H,LUO W,et al.Real-time neural style transfer for videos[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:783-791.
[20] SELIM A,ELGHARIB M,DOYLE L.Painting style transfer for head portraits using convolutional neural networks[J].ACM Transactions on Graphics,2016,35(4):129.
[21] ZHAO M T,ZHU S C.Portrait painting using active templates[C].ACM SIGG RAPH/Eurographics Symposium on Non-Photorealistic Animation and Rendering,2011:117-124.
[22] WANG N N,TAO D C,GAO X B,et al.Transductive face sketch-photo synthesis[J].IEEE Transactions on Neural Networks and Learning Systems,2013,24(9):1364-1376.
[23] CHAMPANDARD A J.Semantic style transfer and turning two-bit doodles into fine artworks[J].arXiv:1603:01768[cs.CV].
[24] LI C,WAND M.Combining markov random fields and convolutional neural networks for image synthesis[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2479-2486.
[25] CHEN Y L,HSU C T.Towards deep style transfer:A content-aware perspective[C].Proceedings of the British Machine Vision Conference,2016.
[26] 许少尉,陈思宇.基于深度学习的图像分类方法[J].电子技术应用,2018,44(6):116-119.
[27] 邓盈盈,唐帆,董未名.图像艺术风格化的研究现状[J].南京信息工程大学学报(自然科学版),2017(6):31-36.
[28] JING Y,YANG Y,FENG Z,et al.Neural style transfer:a review[J].arXiv:1705.04D58[cs.CV].
作者信息:
黄海新,梁志旭,张 东
(沈阳理工大学 自动化与电气工程学院,辽宁 沈阳110159)