Schema Matching using Pre-Trained Language Models

模式匹配 计算机科学 模式(遗传算法) 数据库架构 自然语言处理 人工智能 匹配(统计) 情报检索 自然语言 机器学习 数据挖掘 数据集成 数据库设计 统计 数学
作者
Yunjia Zhang,Avrilia Floratou,Joyce Cahoon,Subru Krishnan,Andreas Müller,Dalitso Banda,Fotis Psallidas,Jignesh M. Patel
标识
DOI:10.1109/icde55515.2023.00123
摘要

Schema matching over relational data has been studied for more than two decades. However, the state-of-the-art methods do not address key modern-day challenges encountered in real customer scenarios, namely: 1) no access to the source (customer) data due to privacy constraints, 2) target schema with a much larger number of entities and attributes compared to the source schema, and 3) different but semantically equivalent entity and attribute names in the source and target schemata. In this paper, we address these shortcomings. Using real-world customer schemata, we demonstrate that existing linguistic matching approaches have low accuracy. Next, we propose the Learned Schema Mapper (LSM), a novel linguistic schema matching system that leverages the natural language understanding capabilities of pre-trained language models to improve the overall accuracy. Combining this with active learning and a smart attribute selection strategy that selects the most informative attributes for users to label, LSM can significantly reduce the overall human labeling cost. Experimental results demonstrate that users can correctly match their full schema while saving as much as 81% of the labeling cost compared to manual labeling.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
达叔发布了新的文献求助10
刚刚
科研通AI5应助小小科研人采纳,获得10
刚刚
ding应助小高采纳,获得10
1秒前
wesley发布了新的文献求助100
1秒前
2秒前
3秒前
3秒前
光亮妙之完成签到,获得积分10
4秒前
新世界的蜗牛完成签到,获得积分10
4秒前
比白618完成签到,获得积分10
6秒前
wshwx驳回了田様应助
7秒前
7秒前
早爹完成签到 ,获得积分10
7秒前
8秒前
Jasper应助奋斗映寒采纳,获得10
8秒前
王淇茜发布了新的文献求助10
8秒前
天天发布了新的文献求助10
9秒前
猜猜完成签到,获得积分10
10秒前
Erina完成签到 ,获得积分10
10秒前
10秒前
入海完成签到,获得积分10
10秒前
科研通AI5应助jeep先生采纳,获得10
10秒前
11秒前
酷波er应助ll200207采纳,获得10
12秒前
CLF发布了新的文献求助10
12秒前
12秒前
搞怪羊完成签到,获得积分20
13秒前
在水一方应助qd采纳,获得10
13秒前
一一发布了新的文献求助10
13秒前
充电宝应助anna521212采纳,获得20
14秒前
15秒前
Quan发布了新的文献求助10
16秒前
wang发布了新的文献求助10
16秒前
wasiwan完成签到,获得积分10
17秒前
Xxi完成签到,获得积分10
19秒前
20秒前
CLF完成签到,获得积分10
20秒前
21秒前
火星上的芹菜完成签到,获得积分10
21秒前
斯文败类应助qiyr采纳,获得10
22秒前
高分求助中
【此为提示信息,请勿应助】请按要求发布求助,避免被关 20000
Continuum Thermodynamics and Material Modelling 2000
ISCN 2024 – An International System for Human Cytogenomic Nomenclature (2024) 1000
CRC Handbook of Chemistry and Physics 104th edition 1000
Izeltabart tapatansine - AdisInsight 600
Maneuvering of a Damaged Navy Combatant 500
An International System for Human Cytogenomic Nomenclature (2024) 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3769651
求助须知:如何正确求助?哪些是违规求助? 3314720
关于积分的说明 10173463
捐赠科研通 3030075
什么是DOI,文献DOI怎么找? 1662585
邀请新用户注册赠送积分活动 795040
科研通“疑难数据库(出版商)”最低求助积分说明 756519