亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

CoRTEx: contrastive learning for representing terms via explanations with applications on constructing biomedical knowledge graphs

统一医学语言系统 计算机科学 聚类分析 人工智能 自然语言处理 杠杆(统计) 本体论 机器学习 集合(抽象数据类型) 开放生物医学本体论 情报检索 领域知识 上层本体 建议合并本体 哲学 认识论 程序设计语言
作者
Huaiyuan Ying,Zhengyun Zhao,Yang Zhao,Sihang Zeng,Sheng Yu
出处
期刊:Journal of the American Medical Informatics Association [Oxford University Press]
被引量:1
标识
DOI:10.1093/jamia/ocae115
摘要

Abstract Objectives Biomedical Knowledge Graphs play a pivotal role in various biomedical research domains. Concurrently, term clustering emerges as a crucial step in constructing these knowledge graphs, aiming to identify synonymous terms. Due to a lack of knowledge, previous contrastive learning models trained with Unified Medical Language System (UMLS) synonyms struggle at clustering difficult terms and do not generalize well beyond UMLS terms. In this work, we leverage the world knowledge from large language models (LLMs) and propose Contrastive Learning for Representing Terms via Explanations (CoRTEx) to enhance term representation and significantly improves term clustering. Materials and Methods The model training involves generating explanations for a cleaned subset of UMLS terms using ChatGPT. We employ contrastive learning, considering term and explanation embeddings simultaneously, and progressively introduce hard negative samples. Additionally, a ChatGPT-assisted BIRCH algorithm is designed for efficient clustering of a new ontology. Results We established a clustering test set and a hard negative test set, where our model consistently achieves the highest F1 score. With CoRTEx embeddings and the modified BIRCH algorithm, we grouped 35 580 932 terms from the Biomedical Informatics Ontology System (BIOS) into 22 104 559 clusters with O(N) queries to ChatGPT. Case studies highlight the model’s efficacy in handling challenging samples, aided by information from explanations. Conclusion By aligning terms to their explanations, CoRTEx demonstrates superior accuracy over benchmark models and robustness beyond its training set, and it is suitable for clustering terms for large-scale biomedical ontologies.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
这学真难读下去完成签到,获得积分10
28秒前
40秒前
43秒前
独特冰安发布了新的文献求助30
49秒前
51秒前
怕孤独的若云完成签到,获得积分10
1分钟前
爆米花应助科研通管家采纳,获得10
1分钟前
今后应助科研通管家采纳,获得10
1分钟前
1分钟前
Mayra发布了新的文献求助10
1分钟前
panching完成签到,获得积分10
1分钟前
Bearbiscuit完成签到 ,获得积分10
1分钟前
xxx完成签到 ,获得积分10
1分钟前
禾苗完成签到 ,获得积分10
1分钟前
研友_VZG7GZ应助球球采纳,获得10
1分钟前
康康XY完成签到 ,获得积分10
2分钟前
摆烂的实验室打工人完成签到,获得积分10
2分钟前
清脆代桃完成签到 ,获得积分10
2分钟前
大布丁完成签到,获得积分10
2分钟前
耶格尔完成签到 ,获得积分10
3分钟前
howgoods发布了新的文献求助10
3分钟前
星辰大海应助木子采纳,获得10
3分钟前
howgoods完成签到,获得积分10
4分钟前
4分钟前
木子发布了新的文献求助10
4分钟前
大大大娇搞科研完成签到 ,获得积分10
4分钟前
科研通AI2S应助科研通管家采纳,获得10
5分钟前
江河湖海完成签到 ,获得积分10
5分钟前
领导范儿应助KLC采纳,获得10
5分钟前
5分钟前
捉住一只羊完成签到 ,获得积分10
5分钟前
FashionBoy应助木子采纳,获得10
5分钟前
栗子完成签到,获得积分10
5分钟前
5分钟前
KLC发布了新的文献求助10
5分钟前
yxm完成签到 ,获得积分10
5分钟前
开心叫兽发布了新的文献求助10
5分钟前
辛勤晓旋完成签到,获得积分10
6分钟前
Bowman完成签到,获得积分10
6分钟前
gszy1975完成签到,获得积分10
6分钟前
高分求助中
Contemporary Issues in Evaluating Treatment Outcomes in Neurodevelopmental Disorders 1000
rhetoric, logic and argumentation: a guide to student writers 1000
QMS18Ed2 | process management. 2nd ed 1000
One Man Talking: Selected Essays of Shao Xunmei, 1929–1939 1000
A Chronicle of Small Beer: The Memoirs of Nan Green 1000
From Rural China to the Ivy League: Reminiscences of Transformations in Modern Chinese History 900
Eric Dunning and the Sociology of Sport 850
热门求助领域 (近24小时)
化学 医学 材料科学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 免疫学 细胞生物学 电极
热门帖子
关注 科研通微信公众号,转发送积分 2915857
求助须知:如何正确求助?哪些是违规求助? 2555340
关于积分的说明 6912374
捐赠科研通 2216416
什么是DOI,文献DOI怎么找? 1178040
版权声明 588370
科研通“疑难数据库(出版商)”最低求助积分说明 576593