Learning Better Video Query with SAM for Video Instance Segmentation

计算机科学 人工智能 分割 视频跟踪 图像分割 计算机视觉 多视点视频编码 视频压缩图片类型 视频后处理 视频处理
作者
Hao Fang,Tong Zhang,Xiaofei Zhou,Xinxin Zhang
出处
期刊:IEEE Transactions on Circuits and Systems for Video Technology [Institute of Electrical and Electronics Engineers]
卷期号:: 1-1 被引量:3
标识
DOI:10.1109/tcsvt.2024.3361076
摘要

Recently, Transformer-based offline video instance segmentation (VIS) solutions have made significant progress by decomposing the whole task into global segmentation map generation and instance discrimination. We argue that the quality of video queries that represent all instances in a video clip is crucial for offline VIS methods. Existing methods typically interact video queries with dense spatio-temporal features, resulting in significant computational complexity and redundant information. Thus, we propose a novel video instance segmentation framework, LBVQ, dedicated to learning better video queries. Specifically, we first obtain the frame queries for each frame independently without any complex inter-frame spatial-temporal association operations. Secondly, we propose an adaptive query initialization module (AQI), which adaptively integrates frame queries to initialize video queries instead of traditional random initialization strategies. This initialization method preserves rich instance clues and accelerates the optimization of the whole model. Finally, to enhance the quality of video queries, we propose a query propagation module (QPM) that captures relevant instance information in frame queries frame by frame, greatly improving the model's understanding of long videos. By learning higher quality video queries, LBVQ achieves the state-of-the-art on VIS benchmarks with a ResNet-50 backbone: 52.2 AP, 44.8 AP on YouTube-VIS 2019 & 2021. Moreover, LBVQ achieves 39.7 AP on YouTube-VIS 2022 and 22.2 AP on OVIS, demonstrating superior potential for long videos. To further improve the quality of segmentation masks, a large-scale pretrained SAM is employed to refine the segmentation results. Code is available at https://github.com/fanghaook/LBVQ.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
HMZ完成签到,获得积分10
1秒前
冷酷凌丝发布了新的文献求助10
2秒前
2秒前
椰子壳完成签到,获得积分20
2秒前
无花果应助小熊采纳,获得10
3秒前
5秒前
5秒前
粤利粤完成签到,获得积分10
6秒前
彭于晏应助TRY采纳,获得10
6秒前
zonghonghan完成签到 ,获得积分10
7秒前
feng完成签到,获得积分10
7秒前
9秒前
科研通AI2S应助十九采纳,获得10
10秒前
10秒前
暴躁的寻云应助eterny采纳,获得10
10秒前
haobuweiju完成签到 ,获得积分10
10秒前
11秒前
小熊完成签到,获得积分10
11秒前
nalanwude发布了新的文献求助10
11秒前
taozhanhua发布了新的文献求助10
11秒前
英勇熠彤发布了新的文献求助10
13秒前
14秒前
风中的天空完成签到,获得积分10
14秒前
小熊发布了新的文献求助10
15秒前
Orange应助油炸麻辣豆包采纳,获得10
15秒前
16秒前
可爱的函函应助冷酷凌丝采纳,获得30
17秒前
17秒前
桐桐应助学术蔡鸡采纳,获得10
19秒前
工藤新一发布了新的文献求助10
20秒前
smile发布了新的文献求助10
21秒前
22秒前
23秒前
huang发布了新的文献求助10
24秒前
25秒前
多读文献完成签到,获得积分10
27秒前
钢琴海豹发布了新的文献求助10
30秒前
缓慢的从灵完成签到,获得积分10
30秒前
Aixia发布了新的文献求助10
31秒前
31秒前
高分求助中
Continuum Thermodynamics and Material Modelling 2000
Neuromuscular and Electrodiagnostic Medicine Board Review 1000
Wind energy generation systems - Part 3-2: Design requirements for floating offshore wind turbines 600
こんなに痛いのにどうして「なんでもない」と医者にいわれてしまうのでしょうか 510
Seven new species of the Palaearctic Lauxaniidae and Asteiidae (Diptera) 400
A method for calculating the flow in a centrifugal impeller when entropy gradients are present 240
Conceptualizing 21st-Century Archives (2014) 238
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3692805
求助须知:如何正确求助?哪些是违规求助? 3243429
关于积分的说明 9844343
捐赠科研通 2955477
什么是DOI,文献DOI怎么找? 1620262
邀请新用户注册赠送积分活动 766409
科研通“疑难数据库(出版商)”最低求助积分说明 740198