Enhancing Scene Text Segmentation through Subtask Decomposition

计算机科学 分解 人工智能 分割 计算机视觉 图像分割 自然语言处理 计算机图形学(图像) 情报检索 生态学 生物
作者
Yong Wang,Youguang Chen
标识
DOI:10.1109/icicml60161.2023.10424830
摘要

The field of image processing widely utilizes scene text segmentation technology, with applications extending to image editing and font style transfer. These applications enhance image understanding quality and aid in boosting the performance of numerous computer vision tasks. The advent and progression of deep learning have led to substantial advancements in scene text segmentation technology. However, the limited size of existing scene text segmentation datasets constrains the performance of models. Therefore, we propose an algorithm for synthetic segmentation data. We first pretrain the model using large-scale synthetic data, then fine-tune it on the target dataset to address the issue of limited dataset size. Existing models employ end-to-end segmentation, which presents challenges in segmentation. We propose a scene text segmentation method. By decomposing the segmentation task into subtasks and solving them one by one, the complexity of the task can be reduced compared to direct segmentation of the entire image significantly improving the segmentation effect. The proposed method consists of three modules: a fragment crop module, a fragment segmentation module, and a fragment combination module. The fragment crop module is composed of an additional corp layer added after DBnet. The fragment segmentation module can be embedded with various segmentation methods. The fragment combination module uses the maximum pixel value pasting algorithm to combine the segmented fragments. We call this method Crop-Segmentation-Combination Framework (CSCF). We conducted experiments on the ICDAR 2013 and TextSeg datasets. The CSCF, embedded in Unet within the segment segmentation module, enhanced the text segmentation IoU by 5.80% on the ICDAR 2013 test dataset. Our suggested approach has been shown to notably enhance the efficiency of scene text segmentation.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
二七驳回了dong应助
刚刚
3秒前
3秒前
好好努力小王完成签到,获得积分10
3秒前
CZC完成签到,获得积分10
3秒前
Hexagram发布了新的文献求助10
4秒前
4秒前
4秒前
5秒前
张二狗完成签到,获得积分10
5秒前
5秒前
6秒前
爆米花应助Till采纳,获得10
6秒前
玛卡巴卡发布了新的文献求助10
6秒前
Apple发布了新的文献求助10
7秒前
木棉完成签到,获得积分10
8秒前
www完成签到,获得积分20
8秒前
cacaldon完成签到,获得积分10
8秒前
SciGPT应助猫猫熊采纳,获得10
8秒前
xiaoX12138发布了新的文献求助10
9秒前
9秒前
10秒前
莹莹哒发布了新的文献求助10
10秒前
10秒前
10秒前
韩涵发布了新的文献求助10
10秒前
木棉发布了新的文献求助10
10秒前
12秒前
14秒前
钙离子发布了新的文献求助10
15秒前
15秒前
Apple完成签到,获得积分10
15秒前
曾梦发布了新的文献求助10
16秒前
欢喜完成签到,获得积分20
16秒前
夏天发布了新的文献求助10
17秒前
18秒前
纪无施发布了新的文献求助10
18秒前
嘎嘎乐儿关注了科研通微信公众号
18秒前
18秒前
高分求助中
A new approach to the extrapolation of accelerated life test data 1000
Picture Books with Same-sex Parented Families: Unintentional Censorship 700
ACSM’s Guidelines for Exercise Testing and Prescription, 12th edition 500
Nucleophilic substitution in azasydnone-modified dinitroanisoles 500
不知道标题是什么 500
Indomethacinのヒトにおける経皮吸収 400
Effective Learning and Mental Wellbeing 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 3975986
求助须知:如何正确求助?哪些是违规求助? 3520289
关于积分的说明 11202025
捐赠科研通 3256778
什么是DOI,文献DOI怎么找? 1798453
邀请新用户注册赠送积分活动 877605
科研通“疑难数据库(出版商)”最低求助积分说明 806482