Towards building multilingual language model for medicine

水准点(测量) 计算机科学 构造(python库) 适应(眼睛) 领域(数学分析) 语言模型 自然语言处理 人工智能 心理学 程序设计语言 地理 大地测量学 数学 数学分析 神经科学
作者
Pengcheng Qiu,Chaoyi Wu,Xiaoman Zhang,Weixiong Lin,Haicheng Wang,Ya Zhang,Yanfeng Wang,Weidi Xie
出处
期刊:Nature Communications [Nature Portfolio]
卷期号:15 (1) 被引量:40
标识
DOI:10.1038/s41467-024-52417-z
摘要

Abstract The development of open-source, multilingual medical language models can benefit a wide, linguistically diverse audience from different regions. To promote this domain, we present contributions from the following: First, we construct a multilingual medical corpus, containing approximately 25.5B tokens encompassing 6 main languages, termed as MMedC, enabling auto-regressive domain adaptation for general LLMs; Second, to monitor the development of multilingual medical LLMs, we propose a multilingual medical multi-choice question-answering benchmark with rationale, termed as MMedBench; Third, we have assessed a number of open-source large language models (LLMs) on our benchmark, along with those further auto-regressive trained on MMedC. Our final model, MMed-Llama 3, with only 8B parameters, achieves superior performance compared to all other open-source models on both MMedBench and English benchmarks, even rivaling GPT-4. In conclusion, in this work, We present a large-scale corpus, a benchmark and a series of models to support the development of multilingual medical LLMs.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
调皮的烤鸡完成签到,获得积分10
6秒前
HanaTerbush完成签到,获得积分10
11秒前
GinaLundhild06完成签到,获得积分10
15秒前
nieyy完成签到,获得积分10
16秒前
纸条条完成签到 ,获得积分10
17秒前
踏实麦片完成签到,获得积分10
20秒前
redmoon完成签到,获得积分10
20秒前
小杨完成签到,获得积分10
23秒前
yunsui完成签到,获得积分10
24秒前
Shaohan完成签到,获得积分10
25秒前
哈哈哈完成签到,获得积分10
27秒前
往昔不过微澜完成签到,获得积分10
29秒前
风中可仁完成签到 ,获得积分10
29秒前
背后如之完成签到,获得积分10
30秒前
想毕业的笑笑完成签到,获得积分10
31秒前
王继完成签到,获得积分10
31秒前
卡片完成签到,获得积分10
32秒前
fxy完成签到 ,获得积分10
32秒前
小小油完成签到,获得积分10
33秒前
愤怒的水绿完成签到,获得积分10
35秒前
胡思乱响完成签到,获得积分10
35秒前
hahaha6789y完成签到,获得积分10
35秒前
舒心的夜完成签到,获得积分10
36秒前
jiajiajai完成签到,获得积分10
36秒前
想毕业的猫猫完成签到,获得积分10
36秒前
Mo完成签到,获得积分10
37秒前
maybe完成签到,获得积分10
38秒前
hahaha2完成签到,获得积分10
38秒前
MaxwellZH完成签到,获得积分10
39秒前
yc完成签到,获得积分10
39秒前
sheep完成签到,获得积分10
39秒前
清风徐来完成签到,获得积分10
39秒前
James完成签到,获得积分10
39秒前
simon666完成签到,获得积分10
39秒前
Tom2077完成签到,获得积分10
40秒前
syltharion完成签到,获得积分10
40秒前
徐彬荣完成签到,获得积分10
40秒前
Walton完成签到,获得积分10
41秒前
LGA1700完成签到,获得积分10
42秒前
42秒前
高分求助中
Psychopathic Traits and Quality of Prison Life 1000
Chemistry and Physics of Carbon Volume 18 800
The formation of Australian attitudes towards China, 1918-1941 660
Signals, Systems, and Signal Processing 610
天津市智库成果选编 600
Forced degradation and stability indicating LC method for Letrozole: A stress testing guide 500
全相对论原子结构与含时波包动力学的理论研究--清华大学 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6451302
求助须知:如何正确求助?哪些是违规求助? 8263211
关于积分的说明 17606503
捐赠科研通 5516063
什么是DOI,文献DOI怎么找? 2903623
邀请新用户注册赠送积分活动 1880627
关于科研通互助平台的介绍 1722634