Exploring Heterogeneous Feature Representation for Document Layout Understanding

计算机科学 可解释性 特征学习 特征(语言学) 代表(政治) 变压器 人工智能 工程类 政治学 语言学 政治 电气工程 哲学 电压 法学
作者
Guosheng Feng,Danqing Huang,Chin-Yew Lin,Damjan Dakic,Milos Milunovic,Tamara Stankovic,Igor Ilic
标识
DOI:10.1109/ictai56018.2022.00046
摘要

There are increasing interests in document layout representation learning and understanding. Transformer, with its great power, has become the mainstream model architecture and achieved promising results in this area. As elements in a document layout consist of multi-modal and multi-dimensional features such as position, size, and its text content, prior works represent each element by summing all feature embeddings into one unified vector in the input layer, which is then fed into the self-attention for element-wise interaction. However, this simple summation would potentially raise mixed correlations among heterogeneous features and bring noise to the representation learning. In this paper, we propose a novel two-step disentangled attention mechanism to allow more flexible feature interactions in the self-attention. Furthermore, inspired by the principles of document design (e.g., contrast, proximity), we propose an unsupervised learning objective to constrain the layout representations. We verify our approach on two layout understanding tasks, namely element role labeling and image captioning. Experiment results show that our approach achieves state-of-the-art performances. Moreover, we conduct extensive studies and observe better interpretability using our approach.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
甜蜜的白桃完成签到 ,获得积分10
1秒前
gotolian发布了新的文献求助30
3秒前
良菵完成签到 ,获得积分10
3秒前
4秒前
一颗红葡萄完成签到 ,获得积分10
5秒前
Singularity完成签到,获得积分0
8秒前
劲秉应助科研通管家采纳,获得10
14秒前
科研通AI5应助科研通管家采纳,获得30
14秒前
劲秉应助科研通管家采纳,获得10
14秒前
suibianba应助科研通管家采纳,获得10
14秒前
科研通AI2S应助科研通管家采纳,获得10
14秒前
劲秉应助科研通管家采纳,获得10
14秒前
劲秉应助科研通管家采纳,获得10
14秒前
劲秉应助科研通管家采纳,获得10
14秒前
suibianba应助科研通管家采纳,获得10
14秒前
劲秉应助科研通管家采纳,获得10
14秒前
Jenny完成签到,获得积分10
15秒前
Mao完成签到,获得积分10
22秒前
忒寒碜完成签到,获得积分10
25秒前
29秒前
冰雨Flory完成签到,获得积分10
30秒前
哇咔咔完成签到 ,获得积分10
30秒前
Star完成签到,获得积分10
32秒前
Elytra完成签到,获得积分10
40秒前
CAOHOU完成签到 ,获得积分0
40秒前
噜噜晓完成签到 ,获得积分10
41秒前
碗在水中央完成签到 ,获得积分0
42秒前
zoele完成签到 ,获得积分0
51秒前
热心的飞风完成签到 ,获得积分10
1分钟前
廖天佑完成签到,获得积分0
1分钟前
和平港湾完成签到,获得积分10
1分钟前
Qing完成签到 ,获得积分10
1分钟前
哈哈呀完成签到 ,获得积分10
1分钟前
Baboonium完成签到,获得积分10
1分钟前
Kelvin.Tsi完成签到 ,获得积分10
1分钟前
DAI完成签到,获得积分10
1分钟前
1分钟前
沈沈发布了新的文献求助10
1分钟前
逆流的鱼完成签到 ,获得积分10
1分钟前
clm完成签到 ,获得积分10
1分钟前
高分求助中
Production Logging: Theoretical and Interpretive Elements 2700
Neuromuscular and Electrodiagnostic Medicine Board Review 1000
こんなに痛いのにどうして「なんでもない」と医者にいわれてしまうのでしょうか 510
いちばんやさしい生化学 500
Genre and Graduate-Level Research Writing 500
The First Nuclear Era: The Life and Times of a Technological Fixer 500
岡本唐貴自伝的回想画集 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3674499
求助须知:如何正确求助?哪些是违规求助? 3229813
关于积分的说明 9787137
捐赠科研通 2940387
什么是DOI,文献DOI怎么找? 1611904
邀请新用户注册赠送积分活动 761060
科研通“疑难数据库(出版商)”最低求助积分说明 736471