亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Efficient Video Transformers via Spatial-Temporal Token Merging for Action Recognition

计算机科学 安全性令牌 变压器 人工智能 合并(版本控制) 计算 动作识别 模式识别(心理学) 计算机视觉 算法 物理 计算机安全 量子力学 电压 情报检索 班级(哲学)
作者
Zhanzhou Feng,Jiaming Xu,Лей Ма,Shiliang Zhang
出处
期刊:ACM Transactions on Multimedia Computing, Communications, and Applications [Association for Computing Machinery]
卷期号:20 (4): 1-21 被引量:3
标识
DOI:10.1145/3633781
摘要

Transformer has exhibited promising performance in various video recognition tasks but brings a huge computational cost in modeling spatial-temporal cues. This work aims to boost the efficiency of existing video transformers for action recognition through eliminating redundancies in their tokens and efficiently learning motion cues of moving objects. We propose a lightweight and plug-and-play module, namely Spatial-temporal Token Merger (STTM), to merge the tokens belonging to the same object into a more compact representation. STTM first adaptively identifies crucial object clues underlying the video as meta tokens. Similarity scores between input tokens and meta tokens are hence computed and used to guide the fusion of similar tokens in both spatial and temporal domains, respectively. To compensate for motion cues lost in the merging procedure, we compute the linear aggregation of spatial-temporal positions of tokens as motion features. STTM hence outputs a compact set of tokens fusing both appearance and motion features of moving objects. This procedure substantially decreases the number of tokens that need to be processed by each Transformer block and boosts the efficiency. As a general module, STTM can be applied to different layers of various video Transformers. Extensive experiments on the action recognition datasets Kinectics-400 and SSv2 demonstrate its promising performance. For example, it reduces the computation complexity of ViT by 38% while maintaining a similar performance on Kinectics-400. It also brings 1.7% gains of top-1 accuracy on SSv2 under the same computational cost.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
6秒前
SciGPT应助les采纳,获得10
7秒前
16秒前
19秒前
淡定的保温杯完成签到,获得积分10
37秒前
娜娜子完成签到 ,获得积分10
53秒前
wanci应助凶狠的秀发采纳,获得10
58秒前
wy123完成签到 ,获得积分10
1分钟前
les给les的求助进行了留言
1分钟前
不会游泳的鱼完成签到 ,获得积分10
1分钟前
1分钟前
2分钟前
是是是发布了新的文献求助10
2分钟前
小脚丫完成签到 ,获得积分10
2分钟前
爱宝乐宝福宝完成签到,获得积分10
2分钟前
2分钟前
CodeCraft应助科研通管家采纳,获得10
2分钟前
Lucas应助科研通管家采纳,获得30
2分钟前
丘比特应助禅伯采纳,获得10
2分钟前
Woshikeyandawang完成签到,获得积分10
2分钟前
3分钟前
3分钟前
充电宝应助是是是采纳,获得10
3分钟前
3分钟前
禅伯发布了新的文献求助10
3分钟前
3分钟前
奥里给医学生完成签到,获得积分10
3分钟前
3分钟前
万能图书馆应助禅伯采纳,获得10
3分钟前
bkagyin应助施含莲采纳,获得10
3分钟前
羊羊羊完成签到 ,获得积分10
4分钟前
陶醉的蜜蜂完成签到 ,获得积分10
4分钟前
JamesPei应助科研通管家采纳,获得10
4分钟前
科研通AI2S应助科研通管家采纳,获得10
4分钟前
星辰大海应助科研通管家采纳,获得10
4分钟前
汉堡包应助cc采纳,获得10
4分钟前
4分钟前
4分钟前
是是是发布了新的文献求助10
4分钟前
4分钟前
高分求助中
Continuum Thermodynamics and Material Modelling 3000
Production Logging: Theoretical and Interpretive Elements 2700
Mechanistic Modeling of Gas-Liquid Two-Phase Flow in Pipes 2500
Structural Load Modelling and Combination for Performance and Safety Evaluation 1000
Conference Record, IAS Annual Meeting 1977 720
電気学会論文誌D(産業応用部門誌), 141 巻, 11 号 510
Typology of Conditional Constructions 500
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 量子力学 光电子学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3566619
求助须知:如何正确求助?哪些是违规求助? 3139342
关于积分的说明 9431545
捐赠科研通 2840174
什么是DOI,文献DOI怎么找? 1560963
邀请新用户注册赠送积分活动 730121
科研通“疑难数据库(出版商)”最低求助积分说明 717843