加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
本文为极市原创,如需转载,请联系小助手微信( cv-mart )
引言
论文链接:https://arxiv.org/abs/1905.12384
代码链接:https://github.com/KumapowerLIU/CSA-inpainting
以往的图像修复,往往没有考虑像素之间的连续性,映射到语义上来说就是没有考虑特征的连续性,从而导致色彩的断层或者线条的断层。如下图所示:
图中shift-net和Contextual Attention都是专做中心修复的,可以明显看出色彩的断层。而PC和GC用于随机马赛克修复,可以看出明显的人工修复痕迹。
模型分为粗修复和精细修复两个步骤,其中粗修复(Rough net)用的是pix to pix文章中的U-net网络,快并且效果不错. 精细修复网络(Refinement network)整体也是U-net架构,其中每个卷积分成两次完成,第一次是升降维度,第二次是up or down sample, 类似于分离卷积,不过降维用的3×3的卷积,采样用的空洞卷积。连贯性语义注意力机制(Coherent semantic attention)在32×32×256那一层,这一层效果不错并且时间消耗不多,这个在消融实验中有验证。
这个attention分成两个部分,第一部分称为搜索阶段,第二部分称为生成阶段。
其中
Consistency loss:
由于整体结构用的U-net架构,所以我们要保证编码器和解码器对应层需要语义一致性,并且要让Coherent semantic attention层能够更好的工作,所以我们用VGG提取原图的特征空间,并将这个特征空间作为CSA(Coherent semantic attention)层和其对应的解码器层的标签并计算L2距离,这样就能够保证编码器和解码器对应层需要语义一致性并且提升CSA的效果。
Feature patch discriminator:
我们用VGG提取图片的特征空间,并在这个特征空间上利用patch discriminator进行对抗损失计算,这样能够更加好的帮助生成器理解图像信息,同时稳定辨别器训练
下面是实验展示图:
-End-
联系客服