图像美学质量评价技术综述

图像美学质量评价技术综述

1. 引言

随着智能手机的快速发展与普及，图像以爆炸性的速度在网络上增长，帮助人们了解图像的质量如何已经逐渐成为研究热点。图像美学质量评价是虚拟现实技术在图像方面的新应用，是目前计算机视觉领域研究的热点问题之一。

图像美学质量评价技术是计算机通过计算图像的质量和模拟人类对美的认知与感知来自动评价图像的美感。对于手机拍摄的多张相似的照片，该技术可以帮助人们筛选出最“美”的那张照片来克服选择恐惧；对于多张不同的视频封面，该技术可以帮助视频选择最“美”的封面来提高其点击率。图像美学质量评价技术不仅可以筛选出美学质量较高的图片，还可以提高拍摄设备的质量，并且计算机可以根据自己的理解自动对图像进行美化。该技术不仅推动了设计行业、美妆行业、电影电视行业的进步，还促进了科技的发展。

越来越多的研究人员开始关注图像美学质量评价领域。图像美学质量评价根据数据集可以分为全参考、半参考和无参考的图像美学质量评价。全参考需要待评价的图像和参考图像的像素点一一对应比较，半参考只需要待评价的图像和参考图像上的部分特征做对比，而无参考不需要参考图像。对于无参考的图像进行美学质量评价是现今该课题的研究热点。目前许多学者提出的图像美学质量评价方法是首先进行图像特征提取，然后将提取到的特征训练一个分类器或回归模型，最后决策出该图像的质量；有一小部分学者提出在提取完图像特征后，对特征进行语义分析建立感知规则，最后再预测目标图像的美学质量。

2. 主体部分

2.1 国内外研究现状

图像美学质量评价技术的关键任务在于正确地提取图像中的美学特征，并作出合理的决策。根据技术的发展历程，将其分为传统的图像美学质量评价技术【1-11】和基于深度学习的图像美学质量评价技术。传统的图像美学质量评价技术获取美学特征的方法是通过手工提取或人为设计特征【19-31】，提取的特征是已知的。基于深度学习的图像美学质量评价技术获取美学特征是通过深度神经网络自动提取，提取的特征是不可解释的、未知的。早期的基于深度学习的图像美学质量评价常把任务做成一个分类或回归问题，将图像二分的分为高质量和低质量。近两年开始有学者提出以数据驱动的方法更加有效，通过微调神经网络，以较少的数据训练，也可以取得很好的成果。

2.1.1 传统的图像美学质量评价方法

传统的图像美学质量评价研究大都集中在如何提取图像的美学特征上，主要是通过人工设计特征分类器或提取器来实现的【12】。Tong等人【13】将对比度、显著性和鲜明度等全局低级特征直接相连并利用Boosting算法来训练图像美学质量分类器。其算法的复杂度非常高且最终取得成果有限。Datta等人【1】将RGB格式图像转换为HSV格式，设计了底层特征（形状、颜色、纹理、图片大小等）和高层特征（区域对比度、三分构图法等）等56种特征，从中选取了15种最有效的特征，然后训练SVM分类器预测图像美学质量二分类结果。Ke等人【2】构造了图像清晰度、曝光度、绚丽度等高层语义的特征，然后基于这些特征训练贝叶斯分类器来输出二值分类结果。在这两个工作中，虽然都取得了不错的成果，且时间复杂度远低于Tong等人【13】，但研究者在设计特征都是从整张图像出发的，并未考虑到区域图像特征与图像美学质量评价之间的关系，并且这两个工作都将图像美学质量评价问题转化为二分类问题来解决。Luo等人【3】将图像分为主体部分和背景部分，对主体部分设计了亮度对比度、颜色和谐度等高级语义特征，用贝叶斯分类器判读图像美学质量，以此证明了区域图像特征对图像美学质量评价结果影响很大。Wu等人【14】使用Gabor滤波器预估图像的中心部分，然后从图像的整体和中心区域部分提取低级HSV颜色特征，再利用SVM分类器得到描述图像模糊度的具体形容词。Bhattacharya等人【15】使用视觉权重和相对前景位置进行特征组合，模拟前景物体和背景的关系，并用得到的特征训练了一个SVR模型。Wei等人【16】从整幅图像中提取场景特征和全局色调特征，从图像主体部分提取空间复杂度、清晰对比度、明暗对比度等区域特征，然后针对每一个特征训练一个独立的SVM分类器，再分析每个特征对图像美学质量评价结果的影响，最后将多个特征融合再训练。该方法不仅有效地提高了模型的预测精度，而且证明了将图像区域特征和全局特征融合更利于图像美学质量研究。

图1 Tong等人【13】实验结果，Ps是预测结果，Mhs是人类打分的平均分数

图2 Ke等人【2】实验结果，左边的三张都是高质量图片，右边的三张都是低质量图片

图3 Luo等人【3】实验结果，在1000张图片中a是排名前五的，b是排名后5的

传统的图像美学质量评价虽然都取得了不错的成果，但是都忽略了不同内容的图像具有不同的特性，这对图像美学质量评价的结果有很大的影响。于是，研究者开始对不同内容的图像设计不同的美学特征，其中最受欢迎的是对人脸的研究。Schmid等人【17】在人脸标注了29个关键点来表示人脸的结构，并在对称性和黄金比例等数据的基础上建立了一个有效的预测模型。Lienhard等人【18】将人脸分为鼻子、眼睛、嘴巴等子区域，然后基于人类对美的认知计算各子区域的光照、饱和度、对比度等指标，最后用这些指标训练SVM分类器判断人脸美观度。

图4 Schmid等人【17】检测人脸的29个关键点

图5 Lienhard等人【18】将人脸分成四个子区域

人工设计的美学特征很难非常全面和详细。人为设计特征需要研究人员对美学有一定的认知，对摄影知识有一定的了解，最好有丰富的摄影经验，因为拍摄结果受拍摄场景、拍摄目标等多方面外在影响。并且随着数据集的不断增长，传统的方法已经不足以支撑对图像美学质量特征评价的继续研究。随着深度学习技术的快速发展，研究者在图像美学质量评价研究的任务上引入了卷积神经网络（CNN），研究人员不需要大量的美学知识和摄影经验，利用CNN可以自动提取美学特征。近几年，深度学习在图像美学质量评价方面取得了优异的成果，成为了解决图像美学质量评价问题的主流算法。

2.1.2 基于深度学习的图像美学质量评价方法

2012年，Krizhevsky等人【19】将卷积神经网络应用到了图像分类任务上，并展现了良好的性能，使得越来越多的研究者开始通过深度学习的方法解决图像处理问题。利用深度学习进行图像美学质量评价研究最直接的方法就是使用一经训练好的深度模型直接提取图像的美学特征，然后再用获取到的特征训练一个新的图像美学质量评价分类器。Li等人【20】用训练好的AlexNet模型获取图像美学特征，然后判断图像美学质量二分类结果。Gray等人【21】将图像直接输入到网络中获取人脸面部特征。Gao等人【22】首先从已经训练好的VGG16网络中提取不同层的美学特征，然后对这些特征进行融合，最后再用SVM分类器预测结果。Liu等人【23】把从ResNet模型中抽取的特征和手动设计的特征结合起来表示人脸图像，然后使用分布式标签学习方法来预测人脸美观度的分析。

随着图像美学质量评价领域的深入研究，研究人员开始将图像直接输入神经网络中，训练自己的图像美学质量评价模型。Xin等人【24】提出的PAPID模型是第一个使用美学数据训练卷积神经网络的模型，PAPID模型类似于AlexNet模型的架构，其中最后一个全连接层输出二维概率进行审美二元分类。Xin等人【25】认为之前提出的PAPID模型是从每个图像中抽取出一个局部区域作为训练样本，这并不能很好的代替整个图像，因此他们提出了DMA-Net模型，它使用从一个图像生成的多个局部区域来训练模型。Zhao等人【29】提出了一种从AlexNet架构修改的卷积神经网络。Chen等人【30】提出了一种用于美学特征表示的CNN。Shu等人【26】提出使用卷积神经网络对图像美学质量进行排序，为了训练和分析这个模型，构建了一个新的属性数据库（AADB）。Ma等人【27】提出了一种A-Lamp CNN架构来同时学习细粒度和整体布局，该网络中提出了自适应的多图像块选择策略，而不是随机的修剪，其中自适应选择图像块来保留图像的细粒度，属性图用来保留图像的整体布局，从而提高网络模型的预测性能。Talebi等人【28】提出的NIMA模型是一种深度卷积神经网络架构，能够从直接观感（技术角度）和吸引程度（美学角度）预测人类对图像评估意见的分布，NIMA模型不是简单的将图像分为高质量和低质量，或者进行回归得到平均分，而是对任意给定的图像输出分数，这种方法更直接地揭示了训练数据是如何被捕获的，更能呈现出对于人类偏好的更好预测。Su等人【31】提出在使用卷积神经网络提取完图像的局部和全局的美学特征后，再对特征进行语义分析建立感知规则，最后使用目标网络预测图像美学质量，该方法无论是在真实数据集还是在合成数据集上都表现了良好的性能和泛化能力。

图6 PAPID模型【24】网络结构

图7 DMA-Net模型【25】网络结构

图8 A-Lamp模型【27】网络结构

图9 Su等人【31】提出的网络结构

2.2 面临的问题

图像美学质量评价工作虽然现在已经取得了优异的成果，但仍然存在各种挑战：

(1)如何设计网络使输入图像尺寸不受限制。深度卷积神经网络在提取图像美学特征方面最大的局限性是其要求输入图像大小是固定的，从而图像需要在输入之前进行剪裁、缩放或填充等操作，而这些操作会破坏图像的原有结构，从而影响最后的评价结果。

(2)如何同时保留图像的全局信息和局部信息。目前的图像美学质量评价模型提取美学特征的时候，可以分别提取图像的全局特征和局部特征，然后再将多种特征融合研究或每个特征分别研究后再融合研究。

(3)如何从有限的辅助信息中学习特定类别的图像美学。例如如何确定图像的模糊性是技术问题还是故意拍摄的。

(4)如何建立更全面细节的感知规则。目前对图像美学特征进行语义分析的方法并不多，而且很少有学者加入语义分析这一步的操作。

2.3 发展趋势

随着5G技术的进步和人工智能的发展，图像美学质量评价领域也受到越来越多的关注。我认为在未来可以从以下四个方面来继续研究：

(1)图像输入网络不再受尺寸限制；

(2)构建同时保留图像的全局信息和局部细节的网络架构；

(3)对不同内容的图片选择不同的美学信息使用同一网络模型进行美学质量评价；

(4)图像美学质量评价的结果可以多形式化，如：分值加文字评价。

2.4 拟开展研究工作

通过阅读图像美学质量评价领域的文献和有关资料，本课题拟开展的研究工作为采用深度学习方法，提取图像的美学特征，然后对特征进行语义分析，最后使用目标网络对图像美学质量进行预测。

对于图像美学特征提取部分，采用的基础网络是Res-Net101。图像局部特征的大小和尺度各不相同，所以使用不同大小的模块进行特征提取，即把同一行或同一列的所有数据相加后求平均，然后将这些数据堆叠起来，在对堆叠后的数据用1x1卷积。提取多尺度内容特征时，从最后一层提取的特征代表图像整体内容，实现了同时保留图像的局部特征和全局特征。

对于建立感知规则部分，不同内容的图像，感知图像质量规则的方式也不同。引入超网络学习从图像内容到如何判断图像质量规则预测的映射。超网络可以有几个1x1的卷积层和生成权重的分支组成，对于不同类型的参数可以使用不同的权重生成方法，生成的权值指导目标网络预测图像质量。

对于美学质量评价部分，引入目标网络，该网络可由多个完全连接的层构成，输入是多尺度的内容特征向量，输出是通过感知规则生成的权值确目标网络的层传播来获得质量分数。给网络的功能是将学习到的图像特征映射到质量分数上。

2.5 总结

在近几年里，图像美学质量评价技术取得了不错的成果，这是由社会需求和科学挑战共同推进的。本文介绍了图像美学质量评价的一般流程，回顾了图像美学质量评价的研究历程，对其他学者已经提出的文献和方法作了总结和概述。传统的图像美学质量评价方法计算复杂且效率低下，评价结果也不够理想；而基于深度学习的方法对研究者美学和摄影方面的知识储备要求不高，不仅提高了计算速度，而且预测结果较好。接下来探讨了图像美学质量评价课题中仍然有待解决的一些问题和难点，对图像美学质量评价方向未来的发展趋势进行了一些分析和展望。最后，提出了本课题拟开展的研究工作。

参考文献

Datta R , Li J , Wang J Z . STUDYING AESTHETICS IN PHOTOGRAPHIC IMAGES USING A COMPUTATIONAL APPROACH:, US20130011070[P]. 2013.
Ke Y , Tang X , Jing F . The Design of High-Level Features for Photo Quality Assessment[C]// IEEE Computer Society. IEEE Computer Society, 2006:419-426.
Luo Y , Tang X . Photo and Video Quality Evaluation: Focusing on the Subject[J]. Proc. ECCV, part III, 2008, 2008.
Li C , Chen T . Aesthetic Visual Quality Assessment of Paintings[J]. IEEE Journal of Selected Topics in Signal Processing, 2009, 3(2):236-252.
Li C , Gallagher A C , Loui A C , et al. Aesthetic quality assessment of consumer photos with faces[C]// Proceedings of the International Conference on Image Processing, ICIP 2010, September 26-29, Hong Kong, China. IEEE, 2010.
Bhattacharya S , Sukthankar R , Shah M . A framework for photo-quality assessment and enhancement based on visual aesthetics[C]// Proceedings of the 18th ACM international conference on Multimedia. ACM, 2010.
Jin X , Zhao M , Chen X , et al. Learning Artistic Lighting Template from Portrait Photographs[C]// Computer Vision - ECCV 2010, 11th European Conference on Computer Vision, Heraklion, Crete, Greece, September 5-11, 2010, Proceedings, Part IV. DBLP, 2010.
Gray D , Kai Y , Wei X , et al. Predicting Facial Beauty without Landmarks[C]// European Conference on Computer Vision. Springer-Verlag, 2010.
Jiang W , Loui A C , Cerosaletti C D . Automatic aesthetic value assessment in photographic images[C]// IEEE International Conference on Multimedia & Expo. IEEE, 2010.
Dhar S , Ordonez V , Berg T L . High level describable attributes for predicting aesthetics and interestingness[C]// The 24th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2011, Colorado Springs, CO, USA, 20-25 June 2011. IEEE, 2011.
Chen X , Xin J , Wu H , et al. Learning Templates for Artistic Portrait Lighting Analysis[J]. IEEE Transactions on Image Processing, 2014, 24(2):608-618.
武志波. 基于深度学习的图像美学质量评价方法的研究[D]. 电子科技大学.
Tong H , Li M , Zhang H J , et al. Classification of Digital Photos Taken by Photographers or Home Users[J]. Springer, Berlin, Heidelberg, 2004.
Wu Y , Bauckhage C , Thurau C . The Good, the Bad, and the Ugly: Predicting Aesthetic Image Labels[C]// International Conference on Pattern Recognition. IEEE, 2010.
Bhattacharya S , Sukthankar R , Shah M . A holistic approach to aesthetic enhancement of photographs[J]. Acm Transactions on Multimedia Computing Communications & Applications, 2011, 7S(1):1-21.
Wei L , Wang X , Tang X . Content-Based Photo Quality Assessment[C]// IEEE International Conference on Computer Vision, ICCV 2011, Barcelona, Spain, November 6-13, 2011. IEEE, 2011.
Schmid K , Marx D , Samal A . Computation of a face attractiveness index based on neoclassical canons, symmetry, and golden ratios[J]. Pattern Recognition, 2008, 41( 8):2710-2717.
Lienhard A , Ladret P , Caplier A . How to predict the global instantaneous feeling induced by a facial picture?[J]. Image Communication, 2015.
Krizhevsky A , Sutskever I , Hinton G . ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in neural information processing systems, 2012, 25(2).
Li H , Tian X , D Zhe, et al. Photo Quality Assessment with DCNN that Understands Image Well[J]. 2015 International Conference on MultiMedia Modelling (MMM 2015), 2015, InternationalConferenceonMultiMediaModelling(MMM2015).
Gray D , Kai Y , Wei X , et al. Predicting Facial Beauty without Landmarks[C]// European Conference on Computer Vision. Springer-Verlag, 2010.
Gao F , Wang Y , Li P , et al. DeepSim: Deep Similarity for Image Quality Assessment[J]. Neurocomputing, 2017, 257(sep.27):104-114.
Liu S , Li B , Fan Y , et al. Label distribution based facial attractiveness computation by deep residual learning[J]. IEEE Transactions on Multimedia, 2016, PP(99):1-1.
Xin L , Zhe L , Jin H , et al. Rating Pictorial Aesthetics Using Deep Learning[J]. IEEE Transactions on Multimedia, 2015, 17(11):1-1.
Xin L , Zhe L , Shen X , et al. Deep Multi-patch Aggregation Network for Image Style, Aesthetics, and Quality Estimation[C]// IEEE International Conference on Computer Vision. IEEE, 2016.
Shu K , Shen X , Zhe L , et al. Photo Aesthetics Ranking Network with Attributes and Content Adaptation[J]. Springer, Cham, 2016.
Ma S , Liu J , Chen C W . A-Lamp: Adaptive Layout-Aware Multi-Patch Deep Convolutional Neural Network for Photo Aesthetic Assessment[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017.
Talebi H , Milanfar P . NIMA: Neural Image Assessment[J]. IEEE Transactions on Image Processing, 2017:1-1.
Zhao, Mingquan, Wang, et al. A multi-scene deep learning model for image aesthetic evaluation[J]. Signal Processing. Image Communication: A Publication of the the European Association for Signal Processing, 2016, 47:511-518.
Chen Y , Hu Y , Zhang L , et al. Describing Human Aesthetic Perception by Deeply-learned Attributes from Flickr[J]. 2016.
Su S , Yan Q , Zhu Y , et al. Blindly Assess Image Quality in the Wild Guided by a Self-Adaptive Hyper Network[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020.