大数据文摘作品,编译 | 钱天培、Aileen、Yawei Xia。
机器学习在有着明确目标定义的领域有非常强大的应用。在那些黑白分明的任务中,机器学习大有用武之地,比如正确地识别出图片内容,或是提供一段靠谱的翻译。然而,在许多缺少客观衡量标准的领域,机器学习的应用仍然十分有限。比如说,一张照片是否符合审美,这就是一个相当主观的评判了。
图为一张拍摄加拿大Jasper国家公园的专业(?)照片
为了探究机器学习带有主观性质任务的能力,我们设计了一个实验性深度学习系统来进行艺术创作。这一系统模拟了专业摄像师的工作流程,以Google Street View的全景图为素材,对它们进行裁剪、处理,创作出符合审美标准的照片,我们的虚拟照相师“前往”了阿尔卑斯山,黄石公园等地,拍摄了4万多张全景照片,许多最后处理过的作品甚至达到了专业水准。
尽管我们可以用AVA之类的数据库来训练“审美”模型,但不假思索地用这样的模型来提高照片质量往往是东施效颦,比如说会把照片p得过度饱和。另一方面,用监督学习来学习审美的多方面特质则需要一个标记好的数据库——这样的数据库实在是太难收集了。
我们的方法所需的只是一个专业级的照片集,不需要处理前后对比图,也不需要额外的标签。我们的模型可以自动把“审美”这一概念分解成多个方面的指标,每一个指标都是通过与“反面例子”的对比得到的,而这些反面例子则是通过某一项图片处理生成的。通过让这些图片处理技术处于“半正交”状态,我们可以分步在构图,饱和度/HDR,和灯光效果等方面提升图片的质量。
一张全景图(a)被裁剪成了(b),在(c)中进行了饱和度和HRD强度处理,而在(d)中进行了灯光效果处理。每一步都是由“审美”的某一维度指导的。
我们用传统的滤镜制作出在饱和度、HDR和构图上有缺陷的“反面教材”。我们也用到了一个灯光处理的操作。这些”反面教材“是通过对专业照片进行滤镜的随机组合得到的。在训练中,我们使用了GAN,用一个生成模型来处理”反面教材“,用一个区分模型来辨别处理过的照片和它们的原图。
Google street view的一些创新点如下。正如你看到的,受机器学习训练过的美图滤镜会有很奇幻的效果(本里的一些插图已经可见一斑)。
Jasper National Park, Canada.
Interlaken, Switzerland
Park Parco delle Orobie Bergamasche, Italy
为了判断我们的算法是多么的成功,我们设计了一个“图灵测试”的实验:我们将我们的创作与其他不同质量的照片混合在一起,并将它们展示给几位专业摄影师。他们被要求给每张照片的质量分类,定义如下:
1:随便拍拍,没考虑构图和光线等技术。
2:在没有摄影背景的普通大众里算是还不错的照片。没有什么脱颖而出的艺术感。
3:半专业摄影。很好的照片,显示出清晰的艺术感。摄影师在成为专业人士的正确轨道上。
4:专业摄影。
在下图中,每条曲线都显示专业摄影师给某一预测分数范围内的图像打出的评分。对于具有高预测分数的创作,它们收到的大约40%的评分是“半专业”到“专业”级别。
专业人士为不同预测分数的照片给出的评分分布
Google的Street View全景照片是我们这个项目的测试源。在不久的将来这项技术或许就将帮助你在实际生活中拍出专业级的照片了。我们在这里收集了更多用这项技术处理过的照片(https://google.github.io/creatism/)。你可以点开这些照片,并和Google Street View的原图进行对比。如果是你的话,你会这样处理这些照片吗?