清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

SETEM: Self-ensemble training with Pre-trained Language Models for Entity Matching

计算机科学 水准点(测量) 一般化 机器学习 人工智能 集成学习 匹配(统计) 任务(项目管理) 特征(语言学) 试验装置 训练集 集合(抽象数据类型) 二元分类 集合预报 试验数据 模式识别(心理学) 统计 数学 支持向量机 数学分析 语言学 哲学 管理 大地测量学 经济 程序设计语言 地理
作者
Huahua Ding,Chaofan Dai,Yahui Wu,Ma Wei,Haohao Zhou
出处
期刊:Knowledge Based Systems [Elsevier]
卷期号:293: 111708-111708 被引量:1
标识
DOI:10.1016/j.knosys.2024.111708
摘要

Entity Matching (EM) aims to determine whether records in two datasets refer to the same real-world entity. Existing work often uses Pre-trained Language Models (PLMs) for feature representation, converting EM to a binary classification task. However, due to the dependence of PLMs on large labeled datasets and the overlap between train and test sets in current EM benchmarks, these methods often underperform in real-world scenarios (e.g., small data size, hard negative samples, and unseen entities). To address the limitations of existing methods, we propose SETEM, a self-ensemble training method leveraging the stability and strong generalization of ensemble models to tackle these challenges in real-world scenarios. Additionally, we develop a faster training method for low-resource applications. Experiments on benchmark datasets show that SETEM outperforms Ditto and HierGAT on the F1 score. In particular, SETEM shows the greatest advantage with small datasets and a high proportion of unseen entities in the test set, achieving up to a 9.61% F1 score increment over baselines on the WDC dataset.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
天行健完成签到,获得积分10
5秒前
CC完成签到,获得积分10
27秒前
俊逸的白梦完成签到 ,获得积分10
33秒前
yuyuyu完成签到,获得积分10
49秒前
1分钟前
cai白白完成签到,获得积分0
1分钟前
1分钟前
al完成签到 ,获得积分10
1分钟前
lielizabeth完成签到 ,获得积分0
1分钟前
聪明的嘉熙完成签到,获得积分10
1分钟前
doreen完成签到 ,获得积分10
2分钟前
一一完成签到 ,获得积分0
2分钟前
干净思远完成签到,获得积分10
2分钟前
DJ_Tokyo完成签到,获得积分10
3分钟前
橙子完成签到 ,获得积分10
3分钟前
丘比特应助Goss采纳,获得10
3分钟前
wyh295352318完成签到 ,获得积分10
3分钟前
Goss完成签到,获得积分10
3分钟前
wangkongxinglang完成签到,获得积分10
3分钟前
federish完成签到 ,获得积分10
3分钟前
QiaoHL完成签到 ,获得积分10
3分钟前
huanghe完成签到,获得积分10
3分钟前
xiazhq完成签到,获得积分10
4分钟前
kenchilie完成签到 ,获得积分10
4分钟前
4分钟前
刘天虎研通完成签到 ,获得积分10
4分钟前
潇潇完成签到 ,获得积分10
4分钟前
4分钟前
afli完成签到 ,获得积分0
4分钟前
Goss发布了新的文献求助10
4分钟前
zhdjj完成签到 ,获得积分10
4分钟前
甜乎贝贝完成签到 ,获得积分10
5分钟前
a46539749完成签到 ,获得积分10
5分钟前
5分钟前
5分钟前
康2000发布了新的文献求助10
5分钟前
康2000完成签到,获得积分10
6分钟前
ww完成签到,获得积分10
6分钟前
未来可期完成签到,获得积分10
7分钟前
7分钟前
高分求助中
Tracking and Data Fusion: A Handbook of Algorithms 1000
Models of Teaching(The 10th Edition,第10版!)《教学模式》(第10版!) 800
La décision juridictionnelle 800
Rechtsphilosophie und Rechtstheorie 800
Nonlocal Integral Equation Continuum Models: Nonstandard Symmetric Interaction Neighborhoods and Finite Element Discretizations 600
Academic entitlement: Adapting the equity preference questionnaire for a university setting 500
Arkiv för kemi 400
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 免疫学 细胞生物学 电极
热门帖子
关注 科研通微信公众号,转发送积分 2876916
求助须知:如何正确求助?哪些是违规求助? 2489250
关于积分的说明 6737817
捐赠科研通 2171335
什么是DOI,文献DOI怎么找? 1153671
版权声明 585969
科研通“疑难数据库(出版商)”最低求助积分说明 566445