Label-attention transformer with geometrically coherent objects for image captioning

隐藏字幕 计算机科学 变压器 人工智能 编码器 计算机视觉 图像(数学) 自然语言处理 物理 量子力学 电压 操作系统
作者
Shikha Dubey,Farrukh Olimov,Muhammad Aasim Rafique,Joonmo Kim,Moongu Jeon
出处
期刊:Information Sciences [Elsevier]
卷期号:623: 812-831 被引量:24
标识
DOI:10.1016/j.ins.2022.12.018
摘要

Encoder-decoder-based image captioning techniques are generally utilized to describe meaningful information present in an image. In this work, we investigate two unexplored ideas for image captioning using the transformer: 1) an object-focused label attention module (LAM), and 2) a geometrically coherent proposal (GCP) module that focuses on the scale and position of objects to benefit the transformer model by attaining better image perception. These modules demonstrate the enforcement of objects’ relevance in the surrounding environment. Furthermore, they explore the effectiveness of learning an explicit association between vision and language constructs. LAM and GCP tolerate the variation in objects’ class and its association with labels in multi-label classification. The proposed framework, label-attention transformer with geometrically coherent objects (LATGeO), acquires proposals of geometrically coherent objects using a deep neural network (DNN) and generates captions by investigating their relationships using LAM. The module LAM associates the extracted objects classes to the available dictionary using self-attention layers. Object coherence is acquired in the GCP module using the localized ratio of the proposals’ geometrical features. In this study, experimentation results are performed on MSCOCO dataset. The evaluation of LATGeO on MSCOCO advocates that objects’ relevance in surroundings and their visual features binding with geometrically localized ratios and associated labels generate improved and meaningful captions.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
lily完成签到,获得积分10
1秒前
diputsl完成签到,获得积分10
2秒前
szc完成签到 ,获得积分10
2秒前
风趣霆完成签到,获得积分10
3秒前
稻米完成签到 ,获得积分10
9秒前
hj0806完成签到,获得积分0
11秒前
11秒前
13秒前
小燚完成签到 ,获得积分10
16秒前
现代的人达完成签到,获得积分10
18秒前
wzhang发布了新的文献求助10
18秒前
coolplex完成签到 ,获得积分10
20秒前
琦qi完成签到 ,获得积分10
22秒前
kongxiangjiu举报甘木鸣求助涉嫌违规
22秒前
梦XING完成签到 ,获得积分10
25秒前
英姑应助普萘洛尔采纳,获得30
27秒前
疯狂的迪子完成签到 ,获得积分10
28秒前
闵不悔完成签到,获得积分10
28秒前
诚心靳完成签到 ,获得积分10
30秒前
31秒前
jeffrey完成签到,获得积分10
31秒前
shor0414完成签到 ,获得积分10
32秒前
37秒前
42秒前
眠眠清完成签到 ,获得积分10
43秒前
45秒前
zlx完成签到,获得积分10
48秒前
平常的雁凡完成签到,获得积分10
50秒前
wzhang发布了新的文献求助10
51秒前
榴莲小胖完成签到,获得积分10
51秒前
cannon8应助太阳高高照采纳,获得10
51秒前
jordan应助1234567xjy采纳,获得20
56秒前
nk完成签到 ,获得积分10
58秒前
xiaowen完成签到,获得积分10
58秒前
昀宇完成签到 ,获得积分10
59秒前
CHSLN完成签到 ,获得积分10
1分钟前
美丽的仙人掌完成签到,获得积分10
1分钟前
烟酒不离生完成签到 ,获得积分10
1分钟前
清秀龙猫完成签到 ,获得积分10
1分钟前
1分钟前
高分求助中
One Man Talking: Selected Essays of Shao Xunmei, 1929–1939 1000
A Chronicle of Small Beer: The Memoirs of Nan Green 1000
From Rural China to the Ivy League: Reminiscences of Transformations in Modern Chinese History 900
Migration and Wellbeing: Towards a More Inclusive World 900
Eric Dunning and the Sociology of Sport 850
Operative Techniques in Pediatric Orthopaedic Surgery 510
The Making of Détente: Eastern Europe and Western Europe in the Cold War, 1965-75 500
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 免疫学 细胞生物学 电极
热门帖子
关注 科研通微信公众号,转发送积分 2910158
求助须知:如何正确求助?哪些是违规求助? 2544089
关于积分的说明 6884973
捐赠科研通 2210116
什么是DOI,文献DOI怎么找? 1174438
版权声明 588033
科研通“疑难数据库(出版商)”最低求助积分说明 575449