已入深夜,您辛苦了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!祝你早点完成任务,早点休息,好梦!

Global-Shared Text Representation Based Multi-Stage Fusion Transformer Network for Multi-Modal Dense Video Captioning

隐藏字幕 计算机科学 编码器 变压器 情态动词 人工智能 自然语言处理 语音识别 图像(数学) 化学 物理 量子力学 电压 高分子化学 操作系统
作者
Yulai Xie,Jingjing Niu,Yang Zhang,Fang Ren
出处
期刊:IEEE Transactions on Multimedia [Institute of Electrical and Electronics Engineers]
卷期号:26: 3164-3179
标识
DOI:10.1109/tmm.2023.3307972
摘要

Dense video captioning aims to detect all events of an uncropped video and generate corresponding textual captions for each event. Multi-modal information is essential to improve the performance of this task, but the existing methods mainly rely on the single visual or dual audio-visual modal input, while completely ignoring the text modal input (subtitle). Since the text data has a similar data representation as video caption words, it is conducive to the performance improvement of video captioning. In this paper, we propose a novel framework, called the multi-stage fusion transformer network (MS-FTN), to realize multi-modal dense video captioning by fusing the text, the audio, and the visual features in stages. We present a multi-stage feature fusion encoder that first fuses audio and visual modalities at a lower level and then fuses them with a global-shared text representation at a higher level to generate a set of multi-modal complementary context features. In addition, an anchor-free event proposal module is proposed to efficiently generate a set of event proposals without the complex anchor calculation. Extensive experiments on the subsets of the ActivityNet Captions dataset show that our proposed MS-FTN achieves superior performance and efficient computation. Moreover, the ablation studies demonstrate that the global-shared text representation is more suitable for multi-modal dense video captioning. Our code and data are available at https://github.com/xieyulai/GS-MS-FTN .

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
zyf完成签到,获得积分10
刚刚
2秒前
卷毛地瓜发布了新的文献求助10
3秒前
黎bb发布了新的文献求助10
4秒前
Owen应助谨慎博超采纳,获得10
6秒前
婷妞儿发布了新的文献求助20
6秒前
云漓完成签到 ,获得积分10
7秒前
SciGPT应助自信鬼神采纳,获得10
8秒前
8秒前
8秒前
9秒前
黎bb完成签到,获得积分20
10秒前
12秒前
12秒前
13秒前
14秒前
爆米花应助科研通管家采纳,获得10
14秒前
脑洞疼应助科研通管家采纳,获得10
14秒前
深情安青应助科研通管家采纳,获得10
14秒前
爆米花应助科研通管家采纳,获得10
14秒前
华仔应助科研通管家采纳,获得10
14秒前
在水一方应助科研通管家采纳,获得10
14秒前
pterionGao发布了新的文献求助10
16秒前
sad发布了新的文献求助10
16秒前
16秒前
77关闭了77文献求助
17秒前
18秒前
Aurora发布了新的文献求助30
19秒前
20秒前
lili发布了新的文献求助10
20秒前
21秒前
坐雨赏花完成签到 ,获得积分10
22秒前
自信鬼神发布了新的文献求助10
22秒前
淡然的宛凝完成签到 ,获得积分10
23秒前
24秒前
标致向露发布了新的文献求助10
24秒前
李江关注了科研通微信公众号
25秒前
NexusExplorer应助WD采纳,获得10
25秒前
田様应助alan采纳,获得10
25秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Kinesiophobia : a new view of chronic pain behavior 3000
Les Mantodea de guyane 2500
Signals, Systems, and Signal Processing 510
Discrete-Time Signals and Systems 510
Brittle Fracture in Welded Ships 500
Lloyd's Register of Shipping's Approach to the Control of Incidents of Brittle Fracture in Ship Structures 500
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5942067
求助须知:如何正确求助?哪些是违规求助? 7067727
关于积分的说明 15887789
捐赠科研通 5072749
什么是DOI,文献DOI怎么找? 2728609
邀请新用户注册赠送积分活动 1687267
关于科研通互助平台的介绍 1613353