GRNet: a graph reasoning network for enhanced multi-modal learning in scene text recognition

计算机科学 场景图 视觉推理 人工智能 特征(语言学) 图形 背景(考古学) 语义学(计算机科学) 先验概率 自然语言处理 理论计算机科学 贝叶斯概率 语言学 古生物学 哲学 程序设计语言 渲染(计算机图形) 生物
作者
Zeguang Jia,Jianming Wang,Rize Jin
出处
期刊:The Computer Journal [Oxford University Press]
卷期号:67 (12): 3239-3250 被引量:1
标识
DOI:10.1093/comjnl/bxae085
摘要

Abstract Recent advancements in scene text recognition have predominantly focused on leveraging textual semantics. However, an over-reliance on linguistic priors can impede a model’s ability to handle irregular text scenes, including non-standard word usage, occlusions, severe distortions, or stretching. The key challenges lie in effectively localizing occlusions, perceiving multi-scale text, and inferring text based on scene context. To address these challenges and enhance visual capabilities, we introduce the Graph Reasoning Model (GRM). The GRM employs a novel feature fusion method to align spatial context information across different scales, beginning with a feature aggregation stage that extracts rich spatial contextual information from various feature maps. Visual reasoning representations are then obtained through graph convolution. We integrate the GRM module with a language model to form a two-stream architecture called GRNet. This architecture combines pure visual predictions with joint visual-linguistic predictions to produce the final recognition results. Additionally, we propose a dynamic iteration refinement for the language model to prevent over-correction of prediction results, ensuring a balanced contribution from both visual and linguistic cues. Extensive experiments demonstrate that GRNet achieves state-of-the-art average recognition accuracy across six mainstream benchmarks. These results highlight the efficacy of our multi-modal approach in scene text recognition, particularly in challenging scenarios where visual reasoning plays a crucial role.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
科研通AI2S应助王多肉采纳,获得10
5秒前
5秒前
luckyhan完成签到 ,获得积分10
7秒前
CJW完成签到 ,获得积分10
10秒前
张zhang完成签到 ,获得积分10
14秒前
梁瘦瘦完成签到,获得积分10
17秒前
清水完成签到 ,获得积分10
19秒前
你的笑慌乱了我的骄傲完成签到 ,获得积分10
20秒前
fokuf完成签到 ,获得积分10
24秒前
marc107完成签到,获得积分10
25秒前
guoxihan完成签到,获得积分10
29秒前
sxl完成签到,获得积分10
37秒前
xliiii完成签到,获得积分10
40秒前
容易66完成签到 ,获得积分10
43秒前
kaige88完成签到,获得积分10
47秒前
ran完成签到 ,获得积分10
52秒前
BioRick完成签到,获得积分10
54秒前
胡33完成签到,获得积分10
55秒前
猪猪hero应助BioRick采纳,获得10
58秒前
小屁孩完成签到,获得积分0
1分钟前
勤奋的猫咪完成签到 ,获得积分10
1分钟前
流萤完成签到 ,获得积分10
1分钟前
陈一完成签到,获得积分10
1分钟前
grace完成签到 ,获得积分10
1分钟前
无极微光应助科研通管家采纳,获得20
1分钟前
英姑应助科研通管家采纳,获得10
1分钟前
优雅的千雁完成签到,获得积分0
1分钟前
1分钟前
原子超人完成签到,获得积分10
1分钟前
Soars应助海不扬波采纳,获得30
1分钟前
shouz完成签到,获得积分10
1分钟前
Thunnus001完成签到 ,获得积分10
1分钟前
wakawaka完成签到 ,获得积分10
1分钟前
huyuan完成签到,获得积分10
1分钟前
lyb完成签到 ,获得积分10
1分钟前
ken131完成签到 ,获得积分0
1分钟前
1分钟前
飞龙在天完成签到,获得积分0
2分钟前
LYB完成签到,获得积分10
2分钟前
南风不竞完成签到,获得积分10
2分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
PowerCascade: A Synthetic Dataset for Cascading Failure Analysis in Power Systems 2000
Various Faces of Animal Metaphor in English and Polish 800
Signals, Systems, and Signal Processing 610
Photodetectors: From Ultraviolet to Infrared 500
On the Dragon Seas, a sailor's adventures in the far east 500
Yangtze Reminiscences. Some Notes And Recollections Of Service With The China Navigation Company Ltd., 1925-1939 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6353178
求助须知:如何正确求助?哪些是违规求助? 8168047
关于积分的说明 17191451
捐赠科研通 5409215
什么是DOI,文献DOI怎么找? 2863646
邀请新用户注册赠送积分活动 1840978
关于科研通互助平台的介绍 1689834