亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Named Entity Recognition and Relation Extraction for COVID-19: Explainable Active Learning with Word2vec Embeddings and Transformer-Based BERT Models

计算机科学 人工智能 文字2vec 自然语言处理 命名实体识别 词(群论) 文字嵌入 深度学习 关系抽取 学习迁移 机器学习
作者
Mercedes Arguello-Casteleiro,Nava Maroto,Chris Wroe,Carlos Sevillano Torrado,Cory Henson,Julio Des-Diz,M.J. Fernandez-Prieto,TJ Furmston,Diego Maseda Fernandez,Mohak Kulshrestha,Robert Stevens,John Keane,Simon Peters
出处
期刊:Lecture Notes in Computer Science 卷期号:: 158-163 被引量:3
标识
DOI:10.1007/978-3-030-91100-3_14
摘要

Deep learning for natural language processing acquires dense vector representations for n-grams from large-scale unstructured corpora. Converting static embeddings of n-grams into a dataset of interlinked concepts with explicit contextual semantic dependencies provides the foundation to acquire reusable knowledge. However, the validation of this knowledge requires cross-checking with ground-truths that may be unavailable in an actionable or computable form. This paper presents a novel approach from the new field of explainable active learning that combines methods for learning static embeddings (word2vec models) with methods for learning dynamic contextual embeddings (transformer-based BERT models). We created a dataset for named entity recognition (NER) and relation extraction (REX) for the Coronavirus Disease 2019 (COVID-19). The COVID-19 dataset has 2,212 associations captured by 11 word2vec models with additional examples of use from the biomedical literature. We propose interpreting the NER and REX tasks for COVID-19 as Question Answering (QA) incorporating general medical knowledge within the question, e.g. “does ‘cough’ (n-gram) belong to ‘clinical presentation/symptoms’ for COVID-19?”. We evaluated biomedical-specific pre-trained language models (BioBERT, SciBERT, ClinicalBERT, BlueBERT, and PubMedBERT) versus general-domain pre-trained language models (BERT, and RoBERTa) for transfer learning with COVID-19 dataset, i.e. task-specific fine-tuning considering NER as a sequence-level task. Using 2,060 QA for training (associations from 10 word2vec models) and 152 QA for validation (associations from 1 word2vec model), BERT obtained an F-measure of 87.38%, with precision = 93.75% and recall = 81.82%. SciBERT achieved the highest F-measure of 94.34%, with precision = 98.04% and recall = 90.91%.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
40秒前
子月之路完成签到,获得积分10
52秒前
ZJU完成签到,获得积分10
1分钟前
1分钟前
鹿茸与共发布了新的文献求助10
1分钟前
2分钟前
2分钟前
科研通AI2S应助科研通管家采纳,获得10
2分钟前
科研通AI2S应助科研通管家采纳,获得10
2分钟前
2分钟前
3分钟前
lovelife完成签到,获得积分10
3分钟前
上官若男应助krajicek采纳,获得10
3分钟前
月亮完成签到 ,获得积分10
3分钟前
蜂蜜不是糖完成签到 ,获得积分10
4分钟前
4分钟前
4分钟前
med1640发布了新的文献求助30
4分钟前
krajicek发布了新的文献求助10
4分钟前
4分钟前
med1640完成签到,获得积分10
4分钟前
4分钟前
5分钟前
5分钟前
LULU完成签到,获得积分10
5分钟前
6分钟前
HRZ完成签到 ,获得积分10
6分钟前
一个小胖子完成签到,获得积分10
6分钟前
洪荒少女发布了新的文献求助10
6分钟前
脑洞疼应助科研通管家采纳,获得10
6分钟前
科研通AI2S应助科研通管家采纳,获得10
6分钟前
领导范儿应助微凉采纳,获得10
6分钟前
7分钟前
小小小何完成签到 ,获得积分10
7分钟前
DocChen发布了新的文献求助10
7分钟前
淡淡紫山完成签到,获得积分10
8分钟前
8分钟前
太阳的肩膀哇完成签到,获得积分10
8分钟前
汉堡包应助太阳的肩膀哇采纳,获得10
8分钟前
Sunny完成签到 ,获得积分10
9分钟前
高分求助中
Production Logging: Theoretical and Interpretive Elements 2000
Very-high-order BVD Schemes Using β-variable THINC Method 1200
Mantiden: Faszinierende Lauerjäger Faszinierende Lauerjäger 1000
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 1000
中国荞麦品种志 1000
BIOLOGY OF NON-CHORDATES 1000
Autoregulatory progressive resistance exercise: linear versus a velocity-based flexible model 550
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 细胞生物学 免疫学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3360056
求助须知:如何正确求助?哪些是违规求助? 2982597
关于积分的说明 8704562
捐赠科研通 2664401
什么是DOI,文献DOI怎么找? 1459023
科研通“疑难数据库(出版商)”最低求助积分说明 675397
邀请新用户注册赠送积分活动 666421