编者按:本文来自微信公众号“机械鸡”(ID:jixieji2017),36氪经授权发布。
来自卡内基梅隆大学的Aayush Bansal 、Yaser Sheikh、Deva Ramanan,联合研究了一种基于示例图像合成清晰照片的技术—PixelNN,把模糊的低分辨率或者是有马赛克的图片,使用表面法线贴图和草图等,合成出高分辨率的逼真图像。
其中,YASER AJMAL SHEIKH教授曾带领团队研发出大规模社交互动采集的多视角系统。
详情:CMU机器人学院研发出,可实时读取肢体语言的计算机系统(Paper+GitHub+数据集)
CMU的研究人员提出一种简单的近邻分类取样(NN)算法,从“不完全”信号(如低分辨率图像,表面法线图或边缘)合成高清晰度的写实图像。
目前用于这种条件图像合成的、最先进的深度生成模型缺乏两方面:
首先,由于mode collapse问题,它们无法生成大量不同的输出
其次,它们不可解释,难以控制合成输出
我们证明NN方法可能解决这样的限制,但在小数据集上的准确性受到影响。我们设计了一个结合了两种方式的最佳方式:
第一阶段使用卷积神经网络(CNN)将输入映射到(overly-smoothed)图像,并且在第二阶段使用 pixel-wise近邻算法,以可控的方式,将平滑的输出映射到多个高质量的高频输出。
我们展示了我们对各种投喂模型的方法,从人脸到猫和狗到鞋子和手袋的各个领域。
利用GANs测试六种不同质量的图像输出
然后分为两个阶段来做训练。第一阶段直接从一个不完整的图像输入(损失函数采用L2 loss训练)。这个图像看起来,像是所有可能图像的“smoothed”平均值。
生成.在第二阶段,我们期待用同样的训练图像匹配similarly-smoothed。重要的是,我们匹配像素使用的多尺度描述符,能捕捉合适的卷积层(例如,眼睛像素往往只匹配眼睛)。
最终输出的傅立叶变换与原始高分辨率图像非常接近
猫狗、鞋包以及人的训练效果
原文链接