已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

MMGInpainting: Multi-Modality Guided Image Inpainting Based On Diffusion Models

修补 计算机科学 人工智能 图像(数学) 模态(人机交互) 计算机视觉 模式识别(心理学)
作者
Cong Zhang,Wenxia Yang,Xin Li,Huan Han
出处
期刊:IEEE Transactions on Multimedia [Institute of Electrical and Electronics Engineers]
卷期号:26: 8811-8823 被引量:2
标识
DOI:10.1109/tmm.2024.3382484
摘要

Proper inference of semantics is necessary for realistic image inpainting. Most image inpainting methods use deep generative models, which require large image datasets to predict and generate content. However, predicting the missing regions and generating coherent content is difficult due to limited control. Existing approaches include image-guided or text-guided image inpainting, but none of them has taken both image and text as the guidance signals, as far as we know. To fill this gap, we propose a multi-modality guided (MMG) image inpainting approach based on the diffusion model. This MMGInpainting method uses both image and text as guidance for generating content within the target area for inpainting, effectively integrating the semantic information conveyed by the guiding image or text into the content of the inpainted region. To construct MMGInpainting, we start by enhancing the U-Net backbone with a customized Nonlinear Activation Free Network (NAFNet). This adapted NAFNet incorporates an Anchored Stripe Attention mechanism, which utilizes anchor points to effectively model global contextual dependencies. To regulate inpainting, we use a Semantic Fusion Encoder to guide the inverse process of the diffusion model. The process is iteratively executed to denoise and generate the desired inpainting result. Additionally, we explore how different modes of meaning interact and coordinate to offer users useful guidance for a more manageable inpainting procedure. Experimental results demonstrate that our approach produces faithful results adhering to the guiding information, while significantly improving computational efficiency. Github Repository: https://github.com/skipper-zc/MMGInpainting/
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
蒸芋芋了发布了新的文献求助10
刚刚
6秒前
cyj完成签到 ,获得积分10
6秒前
cccttt完成签到,获得积分10
8秒前
李西瓜完成签到 ,获得积分10
8秒前
9秒前
执城完成签到,获得积分10
9秒前
乐乐应助木讷山采纳,获得10
10秒前
巴山夜雨发布了新的文献求助10
11秒前
rrr发布了新的文献求助10
11秒前
Eddy完成签到,获得积分10
12秒前
打打应助蒸芋芋了采纳,获得10
12秒前
12秒前
1423849686发布了新的文献求助10
14秒前
量子星尘发布了新的文献求助10
14秒前
北觅完成签到 ,获得积分10
15秒前
15秒前
15秒前
猫好好完成签到,获得积分10
17秒前
钟基基完成签到 ,获得积分10
19秒前
cccccccc发布了新的文献求助10
20秒前
科研通AI5应助默默冬瓜采纳,获得10
22秒前
怕黑鲂完成签到 ,获得积分10
24秒前
24秒前
虚心的不二完成签到 ,获得积分10
25秒前
哈比人linling完成签到,获得积分10
26秒前
书文混四方完成签到 ,获得积分10
27秒前
哈哈哈发布了新的文献求助10
29秒前
yaya发布了新的文献求助10
31秒前
GongSyi完成签到 ,获得积分10
36秒前
lqqq完成签到 ,获得积分10
38秒前
38秒前
koutianle完成签到 ,获得积分10
40秒前
蔡宇滔发布了新的文献求助10
44秒前
45秒前
FashionBoy应助虞四娘采纳,获得10
45秒前
木讷山发布了新的文献求助10
49秒前
zzzzz发布了新的文献求助10
51秒前
53秒前
xiaowang完成签到,获得积分10
54秒前
高分求助中
Picture Books with Same-sex Parented Families: Unintentional Censorship 1000
A new approach to the extrapolation of accelerated life test data 1000
ACSM’s Guidelines for Exercise Testing and Prescription, 12th edition 500
Indomethacinのヒトにおける経皮吸収 400
Phylogenetic study of the order Polydesmida (Myriapoda: Diplopoda) 370
基于可调谐半导体激光吸收光谱技术泄漏气体检测系统的研究 310
宽量程高线性度柔性压力传感器的逆向设计 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 3980841
求助须知:如何正确求助?哪些是违规求助? 3524572
关于积分的说明 11221987
捐赠科研通 3261967
什么是DOI,文献DOI怎么找? 1801015
邀请新用户注册赠送积分活动 879582
科研通“疑难数据库(出版商)”最低求助积分说明 807343