百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

CMU联合Petuum提出contrast-GAN:实现生成式语义处理

suiw9 2024-11-12 14:13 18 浏览 0 评论

选自arXiv

机器之心编译

参与:Smith

在本篇论文中,作者聚焦于一个更具挑战性的语义处理任务,在保持图像独有特征(例如视角和形状)的同时修改物体的语义含义,比如,牛→羊,摩托车→自行车,猫→狗。为了处理这样大型的语义变换,作者引入了一种带有新型对抗式对比目标(adversarial contrasting objective)的对比型 GAN(contrast-GAN)。论文还提出了配有新型比较式目标的、蒙版条件式对比 GAN(mask-conditional contrast-GAN)结构,它能够用目标语义变换使图像背景脱离出来。

论文:https://arxiv.org/abs/1708.00315

生成对抗网络(GAN)最近已经在配对/非配对的图像到图像转译(paired/unpaired image-to-image translation)方面取得了明显的进步,比如照片→简笔画以及艺术绘画风格的迁移。然而,现有的模型只能对低级信息(例如颜色或纹理变化)进行迁移,但不能对目标物体的高级语义含义(比如几何结构或内容)进行编译。

另一方面,尽管在给定一类标签或标注的情况下研究人员可以合成逼真的图像,但是并不能对任意的图形或结构进行处理,这大大地限制了它们的应用场景以及对模型结果的诠释能力。

在本篇论文中,我们聚焦于一个更具挑战性的语义处理任务,在保持图像独有特征(例如视角和形状)的同时修改物体的语义含义,比如,牛→羊,摩托车→自行车,猫→狗。为了处理这样大型的语义变换,我们引入了一种带有新型对抗式对比目标(adversarial contrasting objective)的对比型 GAN(contrast-GAN)。

与之前直接使合成样本逼近目标数据的 GAN 不同,我们的对抗式对比目标是在样本之间对距离比较(distance comparisons)进行优化,使被处理的数据在语义上比输入数据更加接近带有目标类别的真实数据。我们提出了配有新型比较式目标的、蒙版条件式对比 GAN(mask-conditional contrast-GAN)结构,它能够用目标语义变换使图像背景脱离出来。

在 ImageNet 和 MSCOCO 数据集上进行的若干个语义处理任务的相关实验说明了我们的对比式 GAN 比其它条件式 GAN 的性能表现更加可观。量化结果进一步说明了我们的模型在生成可操控结果方面的优势,它们都是高视觉保真和带有合理目标语义的结果。

图 1:本文模型的一些实例语义处理结果,将一张图像和一个期望目标物体类别(比如猫和狗)作为输入,然后学着去通过修改它们的外观或几何结构以自动改变目标物体语义。我们展示了每一对的原始图像(左)和处理后的结果(右)。

在本论文中,我们在没有任何配对训练实例的情况下对图像语义处理进行了进一步操作。它不仅仅是通过处理高级目标语义来对图像到图像转译工作进行泛化,也通过尽可能多地保留原始图像所传递的内部特征,推进了可控图像合成的相关研究。

图 1 展示了我们的模型的一些语义处理结果实例。可以看到我们的模型与输入图像相比仅有很少的形状、几何或纹理方面的变化,而且成功地改变了目标物体的语义特征,例如,猫→狗。

通过对比型 GAN 进行语义处理

如图 2 所示,我们的对比型 GAN 对一个条件式生成器 G 进行了学习,它将一个期望语义 cy 和一张输入图像 x 作为输入,然后对 x 进行操作使其进入 y'。语意认知对抗判别器(semantic-aware adversarial discriminators)Dcy 旨在对 y ∈ Y 的图像和结果 y'= G(x, cy) 进行判别。我们的新型对抗式对比损失(adversarial contrasting loss)迫使生成结果 y' 的表征比输入图像 x 的相应表征更加接近于目标区域 Y 里的那些图像 {y}。

图 2:对比型 GAN(contrast-GAN)的概述。cy 和 cx 分别表明 X 区域和 Y 区域的物体类别(语义)。Gcy 将样本转译进 Y 区域,Dcy 对处理结果 y' 和真实结果 y 进行区分,反过来对于 Gcx 和 Dcx 也一样。(a)展示了原始的 CycleGAN,使用循环一致性损失(cycle-consistency loss)为每一对分离的生成器和判别器进行优化。(b)展示了对比型 GAN 的工作流程,对一个条件式生成器 G 和几个语义认知判别器 D1, D2, . . . , DC 进行优化,其中 C 是目标物体类别的总数量。我们在 GAN 中引入了一个对抗式对比损失,以激励生成样本 y' 的特征 fy' 比输入 x 的特征更加接近于目标区域 Y 的特征中心 ˉfy。

蒙版条件式对比 GAN(Mask-conditional Contrast-GAN)

图 3 展示了模型的略图,以一张输入图像 x,一个目标物体蒙版 M 和目标类别 cy 作为开始,输出处理图像。注意整个结构对于反向传播来说是全差分(fully differential)的。为了更加清晰,全周期架构(比如,通过 G(y, cx) 映射 y' → x?)在图 3 中被省略了。

图 3:用于语义处理的蒙版条件式对比 GAN(mask-conditional contrast-GAN),以一张输入图像,一个目标物体蒙版和一个目标类别作为输入。

图 4:在给定目标蒙版的情况下,MSCOCO 数据集上蒙版对比型 GAN 和 CycleGAN 对马→斑马和斑马→马转译的结果对比。它展示了整合目标物体蒙版来脱离图像背景和目标语义的效果。其中,λ 和 β 控制着目标物体的相对重要程度。G 试图使此目标最小化,以对抗一组试图将其最大化的判别器 {Dcy }。大量实验表明每一个目标物体都在达到高质量处理结果的过程中扮演着重要角色。

实验结果对比:

表 1:在 Cityscapes 标注→图像数据集上的 FCN 得分情况对比。

表 2:在 Cityscapes 图像→标注数据集上的分类性能表现对比。

图 5:contrast-GAN 与 CycleGAN 在 ImageNet 上进行橙子→苹果(第一行)与苹果→橙子(第二行)转译的结果对比。

图 6:在给定目标蒙版的情况下,在 MSCOCO 数据集上,蒙版对比型 GAN 和 CycleGAN 对狗→猫和猫→狗转译的结果对比。

表 3:MSCOCO 数据集上 8 个蒙版条件式语义处理任务的 AMT 感知测试的结果对比。

图 7:在 MSCOCO 数据集上用蒙版对比式 GAN 对大量目标物体语义的处理结果实例。每一对图像都指明了期望目标语义,展示了原始图像(左)和处理后的图像(右)。

相关推荐

交互设计师做好动画后,提交给开发的文档有哪些?

谢邀!简单的说一下自己的看法。首先从制作动画开始。目前制作动画的方式主要有:Gif动画视频动画Web动画,而Web动画又包括:CSS动画、JS动画(Canvas动画、原生JS动画API)、SVG动画等...

8个提高效率的设计工具分享(8个提高效率的设计工具分享心得体会)

日常工作实在繁忙,如果我们可以使用一些辅助工具的话,可以加快和更好地实现自己的项目。今天整理8个新设计工具和插件给办公白领们,希望大家喜欢。1、ScrollmejQuery插件这是一个有点类似视差滑...

有哪些优秀的图片素材网站,你却不知道?

关于设计素材、图片、源文件的网站有很多。但是今天我给大家推荐几个特别好用的。总有些人没用过文章现在今天就分享3个。还有其他不错的网站需要的话可以加我微信(gla2016)我给你发链接。一、视图网(ht...

Rainyday.js – 实现雨滴效果JS插件

Rainyday.js背后的想法是创建一个JavaScript库,利用HTML5Canvas渲染一个雨滴落在玻璃表面的动画。Rainyday.js有功能可扩展的API,例如碰撞检测和易...

JavaScript如何入门?(javascript初级教程)

1,建议阅读“javascript高级程序设计”第三版电子版。(我刚开始学习,我向表哥(软件工程师)说我想做前端,于是,他帮我买了这本书,好的书大家都会推荐,很容易在网上找到,也没有必要我说一定是这...

苏州网页设计- 网页设计中的备份与恢复指南?

苏州网页设计-网页设计中的备份与恢复指南?-常见问题-苏州网站建设-苏州网页设计-苏州网络公司五一点创网络科技...

做设计还只知道花瓣包图网?这100+个免费商用素材网站送给你

作为设计师你常用的网站是哪些呢?花瓣?站酷?千库?千图?包图?这些网站确实是大家最常用的网站,各种风格的元素、模板、源文件,用起来可以说是得心应手了~但是一旦出现了这个场景,你就也跟着崩溃了........

如何打开PSD格式文件?(如何打开.psd文件)

设计师在交接文件时,会看到各种格式的扩展文件,不同的格式需要不同的软件来运行。大多数人都听说过流行的文件格式PSD,因为它是最常用的图片格式之一,还有JPG、PNG等。然而,与JPG和PNG不同的是,...

2.3 文件格式全解:PSD/JPG/PNG/SVG/GIF

2.3文件格式全解:PSD/JPG/PNG/SVG/GIF一、文件格式的核心意义文件格式是数字图像的存储规则,决定了:-信息保留程度(图层/透明度/动画)-压缩方式与画质损失...

一周国外众筹项目精彩看点(国外众筹模式)

安珀网(公众号:ianpocom)上周介绍的1款Kickstarter众筹新品是:Skugga智能太阳镜。而在Indiegogo众筹的2款新品分别是AllBe1多功能智能家居安防产品、Pura智能猫...

React-Native 样式指南(react-native-view-shot)

React-Native样式指南React-Native的样式基本上是实现了CSS的一个子集,并且属性名不完全一致,所以当你开始在编写React-Native之前,可以先简要了解一下。...

分光测色仪在铂钴色度测定上的应用

纺织、印染、石油、电池等化工行业,在生产过程中往往会产生很多工业废水,检测废水色度的国家标准主要采用铂钴比色法和稀释倍数法。...

无线充电的智能追踪挂件 Tintag(无线充电gps定位跟踪器)

智能追踪挂件给生活带来无尽的欢乐,缩短了人们寻找物品的时间,也给生活增添了一份保障,对于经常丢东西的人来说,简直是福音。智能追踪挂件作为智能产品的领头羊、排头兵,也会面临炮灰的风险,人们使用时经常将其...

鸿蒙底部导航栏 vs 安卓底部导航栏

BottomNavigationBar底部导航栏,可以说所有的App是这样的页面架构,原因很简单,操作简单,模块化清晰,页面切换流畅,而且每页都可以展示不同的风格。...

Andriod APK体积优化(android包大小优化)

...

取消回复欢迎 发表评论: