亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Deep learning for blocking in entity matching

计算机科学 阻塞(统计) 利用 匹配(统计) 变压器 人工智能 理论计算机科学 空格(标点符号) 数据挖掘 算法 数学 操作系统 电压 物理 统计 量子力学 计算机安全 计算机网络
作者
Saravanan Thirumuruganathan,Han Li,Nan Tang,Mourad Ouzzani,Yash Govind,Derek J. Paulsen,Glenn Fung,AnHai Doan
出处
期刊:Proceedings of the VLDB Endowment [VLDB Endowment]
卷期号:14 (11): 2459-2472 被引量:30
标识
DOI:10.14778/3476249.3476294
摘要

Entity matching (EM) finds data instances that refer to the same real-world entity. Most EM solutions perform blocking then matching. Many works have applied deep learning (DL) to matching, but far fewer works have applied DL to blocking. These blocking works are also limited in that they consider only a simple form of DL and some of them require labeled training data. In this paper, we develop the DeepBlocker framework that significantly advances the state of the art in applying DL to blocking for EM. We first define a large space of DL solutions for blocking, which contains solutions of varying complexity and subsumes most previous works. Next, we develop eight representative solutions in this space. These solutions do not require labeled training data and exploit recent advances in DL (e.g., sequence modeling, transformer, self supervision). We empirically determine which solutions perform best on what kind of datasets (structured, textual, or dirty). We show that the best solutions (among the above eight) outperform the best existing DL solution and the best existing non-DL solutions (including a state-of-the-art industrial non-DL solution), on dirty and textual data, and are comparable on structured data. Finally, we show that the combination of the best DL and non-DL solutions can perform even better, suggesting a new venue for research.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
思源应助Btfutl采纳,获得10
54秒前
田様应助科研通管家采纳,获得10
55秒前
嗯哼应助科研通管家采纳,获得10
55秒前
嗯哼应助科研通管家采纳,获得30
55秒前
Tianju完成签到,获得积分10
1分钟前
DMA50完成签到 ,获得积分10
2分钟前
2分钟前
2分钟前
CipherSage应助科研通管家采纳,获得10
2分钟前
3分钟前
46464号发布了新的文献求助10
3分钟前
3分钟前
3分钟前
希望天下0贩的0应助freya采纳,获得30
3分钟前
嗯哼应助科研通管家采纳,获得20
4分钟前
嗯哼应助科研通管家采纳,获得20
4分钟前
嗯哼应助科研通管家采纳,获得20
4分钟前
5分钟前
5分钟前
Btfutl发布了新的文献求助10
5分钟前
5分钟前
6分钟前
6分钟前
7分钟前
从容芮应助gszy1975采纳,获得50
7分钟前
晴天向日葵完成签到,获得积分10
8分钟前
8分钟前
上官若男应助Btfutl采纳,获得10
8分钟前
8分钟前
Ghooor完成签到,获得积分10
9分钟前
王小明完成签到,获得积分10
9分钟前
Gauss应助Ghooor采纳,获得300
9分钟前
9分钟前
李白白白完成签到,获得积分10
9分钟前
10分钟前
神勇丹烟完成签到 ,获得积分10
10分钟前
诚心的初露完成签到,获得积分10
10分钟前
Owen应助研究员2采纳,获得10
10分钟前
李白完成签到,获得积分10
10分钟前
酷波er应助科研通管家采纳,获得10
10分钟前
高分求助中
Impact of Mitophagy-Related Genes on the Diagnosis and Development of Esophageal Squamous Cell Carcinoma via Single-Cell RNA-seq Analysis and Machine Learning Algorithms 2000
How to Create Beauty: De Lairesse on the Theory and Practice of Making Art 1000
Gerard de Lairesse : an artist between stage and studio 670
大平正芳: 「戦後保守」とは何か 550
2019第三届中国LNG储运技术交流大会论文集 500
Contributo alla conoscenza del bifenile e dei suoi derivati. Nota XV. Passaggio dal sistema bifenilico a quello fluorenico 500
Multiscale Thermo-Hydro-Mechanics of Frozen Soil: Numerical Frameworks and Constitutive Models 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 2997767
求助须知:如何正确求助?哪些是违规求助? 2658313
关于积分的说明 7196005
捐赠科研通 2293615
什么是DOI,文献DOI怎么找? 1216149
科研通“疑难数据库(出版商)”最低求助积分说明 593437
版权声明 592877