Benchmarking open-source large language models on Portuguese Revalida multiple-choice questions

标杆管理 水准点(测量) 背景(考古学) 葡萄牙语 计算机科学 业务 营销 地理 语言学 哲学 考古 大地测量学
作者
João Victor Bruneti Severino,Pedro Angelo Basei de Paula,Matheus Nespolo Berger,Filipe Silveira Loures,Solano Amadori Todeschini,Eduardo Augusto Roeder,Rosário Veiga,Murilo Guedes,Gustavo Lenci Marques
出处
期刊:BMJ health & care informatics [BMJ]
卷期号:32 (1): e101195-e101195
标识
DOI:10.1136/bmjhci-2024-101195
摘要

Objective The study aimed to evaluate the top large language models (LLMs) in validated medical knowledge tests in Portuguese. Methods This study compared 31 LLMs in the context of solving the national Brazilian medical examination test. The research compared the performance of 23 open-source and 8 proprietary models across 399 multiple-choice questions. Results Among the smaller models, Llama 3 8B exhibited the highest success rate, achieving 53.9%, while the medium-sized model Mixtral 8×7B attained a success rate of 63.7%. Conversely, larger models like Llama 3 70B achieved a success rate of 77.5%. Among the proprietary models, GPT-4o and Claude Opus demonstrated superior accuracy, scoring 86.8% and 83.8%, respectively. Conclusions 10 out of the 31 LLMs attained better than human level of performance in the Revalida benchmark, with 9 failing to provide coherent answers to the task. Larger models exhibited superior performance overall. However, certain medium-sized LLMs surpassed the performance of some of the larger LLMs.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
青柠完成签到,获得积分10
1秒前
窝窝头完成签到,获得积分10
1秒前
彪行天下完成签到,获得积分10
2秒前
鱼笙发布了新的文献求助10
2秒前
晴天霹雳3732完成签到,获得积分0
2秒前
shouying发布了新的文献求助10
3秒前
单纯的爆米花完成签到,获得积分10
3秒前
隐形曼青应助大马猴采纳,获得10
3秒前
Tammy完成签到,获得积分10
4秒前
NWP发布了新的文献求助10
5秒前
滴答dddd完成签到,获得积分10
5秒前
camillelizhaohe完成签到,获得积分10
6秒前
6秒前
humble完成签到 ,获得积分10
7秒前
闪闪青雪完成签到,获得积分10
7秒前
Emily完成签到,获得积分10
7秒前
8秒前
8秒前
yxf完成签到 ,获得积分10
8秒前
苏苏完成签到,获得积分10
9秒前
Yasong完成签到 ,获得积分10
9秒前
孤独的问凝完成签到,获得积分10
9秒前
JIUR发布了新的文献求助10
9秒前
AZN完成签到,获得积分10
10秒前
zhongbo完成签到,获得积分10
10秒前
骤雨红尘发布了新的文献求助10
10秒前
巧克力张张包完成签到,获得积分10
10秒前
来一杯珍珠完成签到,获得积分10
11秒前
11秒前
JevonCheung完成签到 ,获得积分10
11秒前
xn201120完成签到 ,获得积分10
11秒前
现代的烤鸡完成签到,获得积分10
12秒前
12秒前
12秒前
鱼笙完成签到,获得积分10
12秒前
一文字豪树完成签到,获得积分10
13秒前
13秒前
劳资懒得起网名完成签到,获得积分10
13秒前
lxzhou发布了新的文献求助10
13秒前
松思完成签到,获得积分10
14秒前
高分求助中
Continuum Thermodynamics and Material Modelling 3000
Production Logging: Theoretical and Interpretive Elements 2700
Kelsen’s Legacy: Legal Normativity, International Law and Democracy 1000
Interest Rate Modeling. Volume 3: Products and Risk Management 600
Interest Rate Modeling. Volume 2: Term Structure Models 600
Dynamika przenośników łańcuchowych 600
The King's Magnates: A Study of the Highest Officials of the Neo-Assyrian Empire 500
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 基因 遗传学 物理化学 催化作用 量子力学 光电子学 冶金
热门帖子
关注 科研通微信公众号,转发送积分 3539245
求助须知:如何正确求助?哪些是违规求助? 3116833
关于积分的说明 9327035
捐赠科研通 2814684
什么是DOI,文献DOI怎么找? 1547098
邀请新用户注册赠送积分活动 720765
科研通“疑难数据库(出版商)”最低求助积分说明 712231