快速导航×

「场景控制传送门:四合一物体传送,上交&蚂蚁出品」2023-09-12 16:05:02

在常见的图像编辑操作中,图像合成是指将一张图片的前景物体与另一张背景图片结合,生成一张合成图的过程。合成后的图像在视觉效果上类似于将前景物体从一张图片传送到另一张背景图片上,如下图所示

「场景控制传送门:四合一物体传送,上交&蚂蚁出品」

图像合成在艺术创作、海报设计、电子商务、虚拟现实、数据增广等领域被广泛使用

通过简单的剪切粘贴得到的合成图可能会存在很多问题。在之前的研究工作中,图像合成衍生出不同的子任务,分别解决不同的子问题。举例来说,图像混合旨在解决前景和背景之间不自然的边界。图像和谐化旨在调整前景的光照使其与背景和谐。视角调整旨在调整前景的姿态,使其与背景匹配。物体放置旨在为前景物体预测合适的位置、大小、透视角度。阴影生成旨在为前景物体在背景上生成合理的阴影

根据下图所示,之前的研究工作以串行或并行的方式执行上述子任务,以获得逼真自然的合成图像。在串行框架中,我们可以根据实际需求有选择性地执行部分子任务

在并行框架下,目前流行的方法是使用扩散模型。它接受一张带有前景边界框的背景图片和一张前景物体图片作为输入,直接生成最终的合成图像。这样可以使得前景物体与背景图片无缝融合,光照和阴影效果合理,姿态与背景相适应

这个并行框架相当于同时执行多个子任务,无法有选择性地执行部分子任务,不具有可控性,可能会对前景物体的姿态或者颜色带来不必要或者不合理的改变

需要重写的是:

「场景控制传送门:四合一物体传送,上交&蚂蚁出品」

为了增强并行框架的可控性并有选择性地执行部分子任务,我们提出了可控图像合成模型 Controllable Image Composition (ControlCom)。如下图所示,我们使用一个指示向量作为扩散模型的条件信息,以控制合成图中前景物体的属性。指示向量是一个二维的二值向量,其中每个维度分别控制是否调整前景物体的光照属性和姿态属性,其中1表示调整,0表示保留

具体来说,(0,0)表示既不改变前景光照,也不改变前景姿态,只是将物体无缝融入背景图片,相当于图像混合(image blending)。(1,0)表示只改变前景光照使其与背景和谐,保留前景姿态,相当于图像和谐化(image harmonization)。(0,1)表示只改变前景姿态使其与背景匹配,保留前景光照,相当于视角调整(view synthesis)。(1,1)表示同时改变前景的光照和姿态,相当于现在的不可控并行图像合成

我们将四种任务纳入同一个框架,通过指示向量实现了四合一物体传送门的功能,可以将物体传送到场景中的指定位置。这项工作是由上海交通大学和蚂蚁集团合作完成的,代码和模型即将开源

「场景控制传送门:四合一物体传送,上交&蚂蚁出品」

请点击以下链接查看论文:https://arxiv.org/abs/2308.10040

代码模型链接:https://github.com/bcmi/ControlCom-Image-Composition

在下面的图中,我们展示了可控图像合成的功能

「场景控制传送门:四合一物体传送,上交&蚂蚁出品」

左边一列,前景物体的姿态原本就和背景图片适配,用户可能希望保留前景物体的姿态。之前的方法 PbE [1]、ObjectStitch [2] 会对前景物体的姿态做出不必要且不可控的改变。我们方法的 (1,0) 版本能够保留前景物体的姿态,将前景物体无缝融入背景图片且光照和谐

TabTab AI TabTab AI

首个全链路 Data Agent,让数据搜集、处理到深度分析一步到位。

TabTab AI 326 查看详情 TabTab AI

右侧的一列中,前景物体的光照本应与背景光照相同。以往的方法可能会导致前景物体的颜色发生意外的变化,例如车辆和服装的颜色。我们的方法(版本0.1)能够保留前景物体的颜色,并同时调整其姿态,使其自然地融入背景图片中

「场景控制传送门:四合一物体传送,上交&蚂蚁出品」

接下来,我们展示更多我们方法四个版本 (0,0),(1,0),(0,1),(1,1) 的结果。可以看出在使用不同指示向量的情况下,我们的方法能够有选择性地调整前景物体的部分属性,有效控制合成图的效果,满足用户不同的需求。

「场景控制传送门:四合一物体传送,上交&蚂蚁出品」

我们需要重新写的内容是:能够实现四种功能的模型结构是什么样的呢?我们的方法采用了以下模型结构,模型的输入包括带有前景边界框的背景图片和前景物体图片,将前景物体的特征和指示向量结合到扩散模型中

我们重新提取了前景物体的全局特征和局部特征,并先融合全局特征,再融合局部特征。在局部融合的过程中,我们使用了对齐的前景特征图进行特征调制,以实现更好的细节保留。同时,在全局融合和局部融合中都使用了指示向量,以更充分地控制前景物体的属性

我们使用预训练的稳定扩散算法,基于OpenImage的190万张图片来训练模型。为了同时训练四个子任务,我们设计了一套数据处理和增强的流程。有关数据和训练的详细信息,请参阅论文

「场景控制传送门:四合一物体传送,上交&蚂蚁出品」

我们在COCOEE数据集和自己构建的数据集上进行了测试。由于之前的方法只能实现不可控的图像合成,所以我们与(1,1)版本和之前的方法进行了比较。比较结果如下图所示,PCTNet是一种图像和谐化方法,能够保留物体的细节,但不能调整前景的姿态,也不能补全前景物体。其他方法能够生成相同种类的物体,但在细节保留方面效果较差,例如衣服的款式、杯子的纹理、鸟的羽毛颜色等等

我们的方法相比之下能够更好地保留前景物体的细节,补全不完整的前景物体,并且调整前景物体的光照、姿势以及与背景的适配

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

「场景控制传送门:四合一物体传送,上交&蚂蚁出品」

这项工作是对可控图像合成的首次尝试,任务非常困难,仍然存在许多不足之处,模型的表现不够稳定和鲁棒。此外,除了光照和姿态之外,前景物体的属性还可以进一步细化,如何实现更细粒度的可控图像合成是一个更具挑战性的任务

为了保持原意不变,需要重写的内容是:参考文献

杨,古,张,张,陈,孙,陈,文(2025年)。以示例为基础的图像编辑与扩散模型。在CVPR中

[2] 宋永忠,张智,林志龙,科恩,S. D.,普莱斯,B. L.,张静,金素英,阿里亚加,D. G. 2025。ObjectStitch:生成式物体合成。在CVPR中

以上就是「场景控制传送门:四合一物体传送,上交&蚂蚁出品」的详细内容,更多请关注其它相关文章!


# 四种  # 临沂网站运营推广托管  # 社群推广营销引流怎么做  # 机械行业seo推广宣传  # 建设银行网站维护  # 豆瓣seo推广收费吗  # 铁岭seo排名推荐企业  # seo工作插件  # 庄河租房网站建设  # seo关键词排名就选r火21星  # 赵县海外网站推广技巧  # 合成图  # 理论  # 重写  # 会对  # 如下图  # 是一个  # 所示  # 使其  # 传送门  # 四合一  # 图像合成  # 图像编辑 


相关栏目: 【 企业资讯168 】 【 行业动态50218 】 【 媒体报道120512


相关推荐: 记录仪power灯亮是什么意思  楔子是什么意思  平仓是什么意思?  手机nfc功能功能是什么意思  m*en repository的作用是什么  drawing是什么意思  typescript 如何使用  折叠手机内屏为什么会坏  ping命令如何看问题  固态硬盘如何测试  4800日元等于多少人民币  交管12123协议头不完整怎么解决  什么是域名解析地址  固态硬盘电脑如何设置  typescript的语法格式是什么  命令行如何运行j*a  怎么下载360桌面壁纸  如何在一串数字前面去掉四位数的命令  j*a 数组怎么循环输出  微信最多可以加多少好友  2025年哪个局域网聊天软件好用  每日推荐电声音乐软件有哪些  datediff快捷函数怎么用  vue中datediff函数怎么用  j*a数组怎么取元素  一帧是多少秒  ai如何重复使用上一命令  为什么ai老是说链接面板中缺少某些文件  夸克网盘为什么解析错误  typescript如何使用viewer  三星固态硬盘如何保修  mysql的datediff函数怎么用  如何增加固态硬盘  闲鱼上面的power是什么意思  eraser是什么意思  cron表达式在线工具有哪些  春运抢票软件哪个最好用  春运抢票最多能抢几趟车  国标控制器单片机怎么接线  什么是base64  单片机学习视频怎么调色  youtube受限模式是什么_youtube受限模式是什么意思  如何创建解压文件命令  为什么都用typescript  1kb等于多少字节  linux如何用命令修改ip  点焊机接触器上power是什么意思  苹果16改进了哪些  如何看固态硬盘信息  typescript怎么写call方法