清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Medical large language models are vulnerable to data-poisoning attacks

误传 计算机科学 危害 互联网 互联网隐私 计算机安全 医疗保健 数据科学 心理学 万维网 政治学 社会心理学 法学
作者
Daniel Alber,Zihao Yang,Anton Alyakin,Eunice Yang,N. Shesh,Aly Valliani,Jeff Zhang,Gabriel R. Rosenbaum,Ashley K. Amend-Thomas,David B. Kurland,C. Kremer,Alexander Eremiev,Bruck Negash,Daniel D. Wiggan,M. Nakatsuka,Karl L. Sangwon,Sean N. Neifert,Hammad A. Khan,Akshay Save,Adhith Palla,Eric A. Grin,Monika Hedman,Mustafa Nasir-Moin,Xujin Chris Liu,Lavender Yao Jiang,Michal Mankowski,Dorry L. Segev,Yindalon Aphinyanaphongs,Howard A. Riina,John G. Golfinos,Daniel A. Orringer,Douglas Kondziolka,Eric K. Oermann
出处
期刊:Nature Medicine [Nature Portfolio]
标识
DOI:10.1038/s41591-024-03445-1
摘要

The adoption of large language models (LLMs) in healthcare demands a careful analysis of their potential to spread false medical knowledge. Because LLMs ingest massive volumes of data from the open Internet during training, they are potentially exposed to unverified medical knowledge that may include deliberately planted misinformation. Here, we perform a threat assessment that simulates a data-poisoning attack against The Pile, a popular dataset used for LLM development. We find that replacement of just 0.001% of training tokens with medical misinformation results in harmful models more likely to propagate medical errors. Furthermore, we discover that corrupted models match the performance of their corruption-free counterparts on open-source benchmarks routinely used to evaluate medical LLMs. Using biomedical knowledge graphs to screen medical LLM outputs, we propose a harm mitigation strategy that captures 91.9% of harmful content (F1 = 85.7%). Our algorithm provides a unique method to validate stochastically generated LLM outputs against hard-coded relationships in knowledge graphs. In view of current calls for improved data provenance and transparent LLM development, we hope to raise awareness of emergent risks from LLMs trained indiscriminately on web-scraped data, particularly in healthcare where misinformation can potentially compromise patient safety. Large language models can be manipulated to generate misinformation by poisoning of a very small percentage of the data on which they are trained, but a harm mitigation strategy using biomedical knowledge graphs can offer a method for addressing this vulnerability.

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
毛毛弟完成签到 ,获得积分10
18秒前
20秒前
所所应助科研渣渣采纳,获得10
25秒前
研友_8QQlD8发布了新的文献求助10
26秒前
mingjie完成签到,获得积分10
31秒前
研友_5Zl4VZ完成签到,获得积分10
31秒前
大海完成签到 ,获得积分10
40秒前
wanci应助研友_8QQlD8采纳,获得10
41秒前
43秒前
科研渣渣发布了新的文献求助10
46秒前
沫柠完成签到 ,获得积分0
48秒前
科研渣渣完成签到,获得积分10
56秒前
海之恋心完成签到 ,获得积分10
1分钟前
虞无声完成签到,获得积分10
1分钟前
Laser_eyes完成签到,获得积分10
1分钟前
1分钟前
笑ige发布了新的文献求助10
1分钟前
1分钟前
笑ige完成签到,获得积分10
1分钟前
latourr完成签到,获得积分10
1分钟前
3719left完成签到,获得积分10
1分钟前
huluwa完成签到,获得积分10
2分钟前
路人甲完成签到 ,获得积分10
2分钟前
橘子完成签到,获得积分10
2分钟前
livra1058发布了新的文献求助10
2分钟前
2分钟前
默默然完成签到 ,获得积分10
2分钟前
apt完成签到 ,获得积分10
2分钟前
斯卡蒂发布了新的文献求助10
3分钟前
kittykitten完成签到 ,获得积分10
3分钟前
nick完成签到,获得积分10
3分钟前
xiaoze完成签到 ,获得积分10
3分钟前
Tianya完成签到,获得积分10
3分钟前
赘婿应助斯卡蒂采纳,获得10
3分钟前
tfonda完成签到 ,获得积分10
3分钟前
Qinzhiyuan1990完成签到 ,获得积分10
3分钟前
思源应助科研通管家采纳,获得10
3分钟前
来生发布了新的文献求助10
3分钟前
Hao完成签到,获得积分0
4分钟前
HHW完成签到,获得积分10
4分钟前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Introduction to Helicopter and Tiltrotor Flight Simulation, Second Edition 2500
卤化钙钛矿人工突触的研究 2000
Моделирование процессов самоорганизации в кристаллообразующих системах 1000
History of U.S. Space Surveillance and Satellite Cataloging 1000
Malcolm Fraser : a biography 700
Signals, Systems, and Signal Processing 610
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6508266
求助须知:如何正确求助?哪些是违规求助? 8301263
关于积分的说明 17721442
捐赠科研通 5608932
什么是DOI,文献DOI怎么找? 2921674
邀请新用户注册赠送积分活动 1898887
关于科研通互助平台的介绍 1761450