亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Dynamic-balanced double-attention fusion for image captioning

隐藏字幕 计算机科学 特征(语言学) 频道(广播) 人工智能 判决 图像(数学) 像素 模式识别(心理学) 哲学 语言学 计算机网络
作者
Changzhi Wang,Xiaodong Gu
出处
期刊:Engineering Applications of Artificial Intelligence [Elsevier BV]
卷期号:114: 105194-105194 被引量:5
标识
DOI:10.1016/j.engappai.2022.105194
摘要

Image captioning has received significant attention in the cross-modal field in which spatial and channel attentions play a crucial role. However, such attention-based approaches ignore two issues: (1) errors or noise in the channel feature map amplifies in the spatial feature map, leading to a lower model reliability; (2) image spatial feature and channel feature provide different contributions to the prediction both function words (e.g., “in”, “out” and “on”) and notional words (e.g., “girl”, “teddy” and “bear”). To alleviate the above issues, in this paper we propose the Dynamic-Balanced Double-Attention Fusion (DBDAF) for image captioning task that novelly exploits the attention variation and enhances the overall performance of the model. Technically, DBDAF first integrates a parallel Double Attention Network (DAN) in which channel attention is capitalized on as a supplement to the region attention, enhancing the model reliability. Then, a attention variation based Balancing Attention Fusion Mechanism (BAFM) module is devised. When predicting function words and notional words, BAFM makes a dynamic balance between channel attention and region attention based on attention variation. Moreover, to achieve the richer image description, we further devise a Doubly Stochastic Regularization (DSR) penalty and integrate it into the model loss function. Such DSR makes the model equally focus on every pixel and every channel in generating entire sentence. Extensive experiments on the three typical datasets show our DBDAF outperforms the related end-to-end leading approaches clearly. More remarkably, DBDAF achieves 1.04% and 1.75% improvement in terms of BLEU4 and CIDEr on the MSCOCO datasets.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
张姐发布了新的文献求助10
刚刚
张姐完成签到,获得积分10
6秒前
24秒前
26秒前
贺可乐完成签到,获得积分10
28秒前
江南第八发布了新的文献求助10
31秒前
贺可乐发布了新的文献求助30
32秒前
zqq完成签到,获得积分0
33秒前
清爽谷秋发布了新的文献求助20
33秒前
江南第八完成签到,获得积分10
45秒前
壮观的谷冬完成签到 ,获得积分0
52秒前
传奇3应助zeyin采纳,获得10
59秒前
清爽谷秋完成签到,获得积分20
1分钟前
lillian完成签到,获得积分10
1分钟前
1分钟前
1分钟前
英俊的铭应助科研通管家采纳,获得10
1分钟前
dgcyjvfb发布了新的文献求助10
1分钟前
1分钟前
zeyin发布了新的文献求助10
1分钟前
丽娘完成签到 ,获得积分10
1分钟前
zeyin完成签到,获得积分10
1分钟前
2分钟前
ljl86400完成签到,获得积分10
2分钟前
852应助包容的绿蕊采纳,获得10
2分钟前
liuxian发布了新的文献求助10
2分钟前
1933644015应助淡然的妙芙采纳,获得50
2分钟前
华仔应助黄玉采纳,获得10
2分钟前
2分钟前
2分钟前
liuxian完成签到,获得积分10
2分钟前
2分钟前
黄玉发布了新的文献求助10
2分钟前
Honor完成签到 ,获得积分10
2分钟前
敏静完成签到,获得积分10
2分钟前
CipherSage应助archsaly采纳,获得10
2分钟前
archsaly完成签到,获得积分10
3分钟前
3分钟前
archsaly发布了新的文献求助10
3分钟前
科研通AI5应助安详的一曲采纳,获得10
3分钟前
高分求助中
Pipeline and riser loss of containment 2001 - 2020 (PARLOC 2020) 1000
哈工大泛函分析教案课件、“72小时速成泛函分析:从入门到入土.PDF”等 660
Theory of Dislocations (3rd ed.) 500
Comparing natural with chemical additive production 500
The Leucovorin Guide for Parents: Understanding Autism’s Folate 500
Phylogenetic study of the order Polydesmida (Myriapoda: Diplopoda) 500
A Manual for the Identification of Plant Seeds and Fruits : Second revised edition 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 内科学 生物化学 物理 计算机科学 纳米技术 遗传学 基因 复合材料 化学工程 物理化学 病理 催化作用 免疫学 量子力学
热门帖子
关注 科研通微信公众号,转发送积分 5220883
求助须知:如何正确求助?哪些是违规求助? 4394087
关于积分的说明 13680180
捐赠科研通 4257138
什么是DOI,文献DOI怎么找? 2335963
邀请新用户注册赠送积分活动 1333573
关于科研通互助平台的介绍 1288039