清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation Knowledge

计算机科学 自举(财务) 视听 基础(证据) 分割 图像分割 人工智能 自然语言处理 多媒体 财务 历史 经济 考古
作者
Chen Liu,Peike Li,Hu Zhang,Lincheng Li,Zi Huang,Dadong Wang,Xin Yu
出处
期刊:IEEE Transactions on Multimedia [Institute of Electrical and Electronics Engineers]
卷期号:: 1-13 被引量:5
标识
DOI:10.1109/tmm.2024.3405622
摘要

Given an audio-visual pair, audio-visual segmentation (AVS) aims to locate sounding sources by predicting pixel-wise maps. Previous methods assume that each sound component in an audio signal always has a visual counterpart in the image. However, this assumption overlooks that off-screen sounds and background noise often contaminate the audio recordings in real-world scenarios. They impose significant challenges on building a consistent semantic mapping between audio and visual signals for AVS models and thus impede precise sound localization. In this work, we propose a two-stage bootstrapping audio-visual segmentation framework by incorporating multi-modal foundation knowledge $^{1}$ In a nutshell, our BAVS is designed to eliminate the interference of background noise or off-screen sounds in segmentation by establishing the audio-visual correspondences in an explicit manner. In the first stage, we employ a segmentation model to localize potential sounding objects from visual data without being affected by contaminated audio signals. Meanwhile, we also utilize a foundation audio classification model to discern audio semantics. Considering the audio tags provided by the audio foundation model are noisy, associating object masks with audio tags is not trivial. Thus, in the second stage, we develop an audio-visual semantic integration strategy (AVIS) to localize the authentic-sounding objects. Here, we construct an audio-visual tree based on the hierarchical correspondence between sounds and object categories. We then examine the label concurrency between the localized objects and classified audio tags by tracing the audio-visual tree. With AVIS, we can effectively segment real-sounding objects. Extensive experiments demonstrate the superiority of our method on AVS datasets, particularly in scenarios involving background noise. Our project website is https://yenanliu.github.io/AVSS.github.io/ .

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
25秒前
39秒前
科研通AI6应助科研通管家采纳,获得10
43秒前
wuludie应助科研通管家采纳,获得10
43秒前
wuludie应助科研通管家采纳,获得10
43秒前
科研通AI6应助科研通管家采纳,获得10
43秒前
wuludie应助科研通管家采纳,获得10
43秒前
科研通AI6应助科研通管家采纳,获得10
43秒前
颜笙发布了新的文献求助10
44秒前
冷静丸子完成签到 ,获得积分10
52秒前
Blank完成签到 ,获得积分10
59秒前
何为完成签到 ,获得积分10
1分钟前
彼岸花开完成签到 ,获得积分10
1分钟前
星辰大海应助lei采纳,获得10
1分钟前
笨笨听枫完成签到 ,获得积分10
1分钟前
赘婿应助www采纳,获得10
1分钟前
1分钟前
zjh完成签到,获得积分10
1分钟前
独特纸飞机完成签到 ,获得积分10
1分钟前
林克发布了新的文献求助10
1分钟前
LvCR完成签到 ,获得积分10
1分钟前
隐形曼青应助左白易采纳,获得10
1分钟前
1分钟前
颜笙发布了新的文献求助10
1分钟前
毛毛弟完成签到 ,获得积分10
1分钟前
1分钟前
1分钟前
www发布了新的文献求助10
1分钟前
左白易发布了新的文献求助10
1分钟前
种下梧桐树完成签到 ,获得积分10
1分钟前
追梦完成签到,获得积分10
1分钟前
颜笙完成签到,获得积分10
2分钟前
左白易完成签到,获得积分10
2分钟前
2分钟前
Ray完成签到 ,获得积分10
2分钟前
小小鱼完成签到 ,获得积分10
2分钟前
2分钟前
量子星尘发布了新的文献求助10
2分钟前
害羞的雁易完成签到 ,获得积分10
3分钟前
秋秋完成签到 ,获得积分10
3分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Clinical Microbiology Procedures Handbook, Multi-Volume, 5th Edition 2000
The Cambridge History of China: Volume 4, Sui and T'ang China, 589–906 AD, Part Two 1000
The Composition and Relative Chronology of Dynasties 16 and 17 in Egypt 1000
Russian Foreign Policy: Change and Continuity 800
Real World Research, 5th Edition 800
Qualitative Data Analysis with NVivo By Jenine Beekhuyzen, Pat Bazeley · 2024 800
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5715273
求助须知:如何正确求助?哪些是违规求助? 5232949
关于积分的说明 15274262
捐赠科研通 4866228
什么是DOI,文献DOI怎么找? 2612811
邀请新用户注册赠送积分活动 1562974
关于科研通互助平台的介绍 1520368