Extracting structured information from unstructured histopathology reports using generative pre‐trained transformer 4 (GPT‐4)

非结构化数据 计算机科学 人工智能 基本事实 工作量 通俗的语言 变压器 自然语言处理 病理 机器学习 数据挖掘 医学 大数据 工程类 语言学 哲学 电压 电气工程 操作系统
作者
Daniel Truhn,Chiara ML Loeffler,Gustav Müller‐Franzes,Sven Nebelung,Katherine Hewitt,Sebastian Brandner,Keno K. Bressem,Sebastian Foersch,Jakob Nikolas Kather
标识
DOI:10.1002/path.6232
摘要

Abstract Deep learning applied to whole‐slide histopathology images (WSIs) has the potential to enhance precision oncology and alleviate the workload of experts. However, developing these models necessitates large amounts of data with ground truth labels, which can be both time‐consuming and expensive to obtain. Pathology reports are typically unstructured or poorly structured texts, and efforts to implement structured reporting templates have been unsuccessful, as these efforts lead to perceived extra workload. In this study, we hypothesised that large language models (LLMs), such as the generative pre‐trained transformer 4 (GPT‐4), can extract structured data from unstructured plain language reports using a zero‐shot approach without requiring any re‐training. We tested this hypothesis by utilising GPT‐4 to extract information from histopathological reports, focusing on two extensive sets of pathology reports for colorectal cancer and glioblastoma. We found a high concordance between LLM‐generated structured data and human‐generated structured data. Consequently, LLMs could potentially be employed routinely to extract ground truth data for machine learning from unstructured pathology reports in the future. © 2023 The Authors. The Journal of Pathology published by John Wiley & Sons Ltd on behalf of The Pathological Society of Great Britain and Ireland.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
andy_lee发布了新的文献求助10
刚刚
1秒前
司徒水绿完成签到 ,获得积分10
1秒前
嘻嘻嘻发布了新的文献求助10
1秒前
削皮柚子发布了新的文献求助10
2秒前
俭朴蜜蜂发布了新的文献求助200
3秒前
依夏祭完成签到,获得积分10
4秒前
cc完成签到 ,获得积分10
4秒前
4秒前
天天快乐应助粤十一采纳,获得10
5秒前
YiJin_Wang发布了新的文献求助10
6秒前
乐情发布了新的文献求助20
6秒前
9秒前
wxs发布了新的文献求助10
9秒前
可爱的函函应助酷酷巧蟹采纳,获得10
10秒前
10秒前
blablawindy发布了新的文献求助10
11秒前
科研小白发布了新的文献求助10
12秒前
李爱国应助嘿咻采纳,获得10
12秒前
12秒前
12秒前
Steven发布了新的文献求助10
13秒前
13秒前
迟有朝完成签到,获得积分10
15秒前
崔佳慧发布了新的文献求助10
15秒前
粤十一完成签到,获得积分10
16秒前
17秒前
angelinazh完成签到,获得积分10
17秒前
粤十一发布了新的文献求助10
18秒前
18秒前
桐桐应助pura卷卷采纳,获得10
18秒前
19秒前
无花果应助端庄的如花采纳,获得10
20秒前
Hello应助咸鱼咸采纳,获得10
21秒前
张铁柱完成签到,获得积分10
21秒前
天天快乐应助崔佳慧采纳,获得10
21秒前
卢卢完成签到,获得积分10
23秒前
foreverchoi发布了新的文献求助10
23秒前
酷酷巧蟹发布了新的文献求助10
23秒前
23秒前
高分求助中
(应助此贴封号)【重要!!请各用户(尤其是新用户)详细阅读】【科研通的精品贴汇总】 10000
Manipulating the Mouse Embryo: A Laboratory Manual, Fourth Edition 1000
Comparison of spinal anesthesia and general anesthesia in total hip and total knee arthroplasty: a meta-analysis and systematic review 500
INQUIRY-BASED PEDAGOGY TO SUPPORT STEM LEARNING AND 21ST CENTURY SKILLS: PREPARING NEW TEACHERS TO IMPLEMENT PROJECT AND PROBLEM-BASED LEARNING 500
Founding Fathers The Shaping of America 500
Distinct Aggregation Behaviors and Rheological Responses of Two Terminally Functionalized Polyisoprenes with Different Quadruple Hydrogen Bonding Motifs 460
Writing to the Rhythm of Labor Cultural Politics of the Chinese Revolution, 1942–1976 300
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 纳米技术 计算机科学 内科学 化学工程 复合材料 物理化学 基因 催化作用 遗传学 冶金 电极 光电子学
热门帖子
关注 科研通微信公众号,转发送积分 4578059
求助须知:如何正确求助?哪些是违规求助? 3997093
关于积分的说明 12374500
捐赠科研通 3671156
什么是DOI,文献DOI怎么找? 2023295
邀请新用户注册赠送积分活动 1057253
科研通“疑难数据库(出版商)”最低求助积分说明 944206