Traditional Chinese medicine clinical records classification with BERT and domain specific corpora

人工智能 预处理器 计算机科学 特征工程 深度学习 分类器(UML) 自然语言处理 中医药 F1得分 水准点(测量) 编码器 数据预处理 变压器 机器学习 模式识别(心理学) 医学 替代医学 地理 物理 电压 病理 操作系统 量子力学 大地测量学
作者
Liang Yao,Zhe Jin,Chengsheng Mao,Yin Zhang,Yuan Luo
出处
期刊:Journal of the American Medical Informatics Association [Oxford University Press]
卷期号:26 (12): 1632-1636 被引量:53
标识
DOI:10.1093/jamia/ocz164
摘要

Abstract Traditional Chinese Medicine (TCM) has been developed for several thousand years and plays a significant role in health care for Chinese people. This paper studies the problem of classifying TCM clinical records into 5 main disease categories in TCM. We explored a number of state-of-the-art deep learning models and found that the recent Bidirectional Encoder Representations from Transformers can achieve better results than other deep learning models and other state-of-the-art methods. We further utilized an unlabeled clinical corpus to fine-tune the BERT language model before training the text classifier. The method only uses Chinese characters in clinical text as input without preprocessing or feature engineering. We evaluated deep learning models and traditional text classifiers on a benchmark data set. Our method achieves a state-of-the-art accuracy 89.39% ± 0.35%, Macro F1 score 88.64% ± 0.40% and Micro F1 score 89.39% ± 0.35%. We also visualized attention weights in our method, which can reveal indicative characters in clinical text.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
wisdom完成签到,获得积分10
刚刚
slayers发布了新的文献求助30
3秒前
4秒前
e746700020完成签到,获得积分10
5秒前
高兴尔冬完成签到,获得积分10
5秒前
李爱国应助不安的秋白采纳,获得10
7秒前
忧伤的步美完成签到,获得积分10
12秒前
小西完成签到 ,获得积分10
13秒前
郝老头完成签到,获得积分10
14秒前
13313完成签到,获得积分10
15秒前
su完成签到 ,获得积分10
16秒前
19秒前
24秒前
量子星尘发布了新的文献求助10
24秒前
slayers完成签到 ,获得积分10
24秒前
26秒前
知犯何逆完成签到,获得积分10
28秒前
Krsky完成签到,获得积分10
30秒前
ding应助不安的秋白采纳,获得10
31秒前
32秒前
34秒前
HHHAN发布了新的文献求助10
38秒前
威武的沂完成签到,获得积分10
43秒前
45秒前
46秒前
48秒前
笨笨青筠完成签到 ,获得积分10
51秒前
mengmenglv完成签到 ,获得积分0
51秒前
Tonald Yang完成签到 ,获得积分20
54秒前
55秒前
落后的怀梦完成签到 ,获得积分10
56秒前
陈坤完成签到,获得积分10
58秒前
量子星尘发布了新的文献求助10
1分钟前
斯文败类应助zgx采纳,获得10
1分钟前
默默完成签到 ,获得积分10
1分钟前
KY Mr.WANG完成签到,获得积分10
1分钟前
1分钟前
guoxingliu完成签到,获得积分10
1分钟前
1分钟前
高分求助中
【提示信息,请勿应助】关于scihub 10000
Les Mantodea de Guyane: Insecta, Polyneoptera [The Mantids of French Guiana] 3000
徐淮辽南地区新元古代叠层石及生物地层 3000
The Mother of All Tableaux: Order, Equivalence, and Geometry in the Large-scale Structure of Optimality Theory 3000
Handbook of Industrial Diamonds.Vol2 1100
Global Eyelash Assessment scale (GEA) 1000
Picture Books with Same-sex Parented Families: Unintentional Censorship 550
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 4038039
求助须知:如何正确求助?哪些是违规求助? 3575756
关于积分的说明 11373782
捐赠科研通 3305574
什么是DOI,文献DOI怎么找? 1819239
邀请新用户注册赠送积分活动 892655
科研通“疑难数据库(出版商)”最低求助积分说明 815022