亲爱的研友该休息了!由于当前在线用户较少,发布求助请尽量完整地填写文献信息,科研通机器人24小时在线,伴您度过漫漫科研夜!身体可是革命的本钱,早点休息,好梦!

Large language models overcome the challenges of unstructured text data in ecology

工作流程 计算机科学 鉴定(生物学) 介绍(产科) 任务(项目管理) 数据提取 数据科学 非结构化数据 情报检索 结构化 自然语言处理 生态学 数据挖掘 大数据 数据库 生物 医学 生物化学 管理 梅德林 放射科 财务 经济
作者
Andry Castro,João Pinto,Luís Reino,Pavel Pipek,César Capinha
标识
DOI:10.1101/2024.01.23.576654
摘要

Abstract The vast volume of currently available unstructured text data, such as research papers, news, and technical report data, shows great potential for ecological research. However, manual processing of such data is labour-intensive, posing a significant challenge. In this study, we aimed to assess the application of three state-of-the-art prompt-based large language models (LLMs), GPT 3.5, GPT 4, and LLaMA-2-70B, to automate the identification, interpretation, extraction, and structuring of relevant ecological information from unstructured textual sources. We focused on species distribution data from two sources: news outlets and research papers. We assessed the LLMs for four key tasks: classification of documents with species distribution data, identification of regions where species are recorded, generation of geographical coordinates for these regions, and supply of results in a structured format. GPT 4 consistently outperformed the other models, demonstrating a high capacity to interpret textual data and extract relevant information, with the percentage of correct outputs often exceeding 90% (average accuracy across tasks: 87–100%). Its performance also depended on the data source type and task, with better results achieved with news reports, in the identification of regions with species reports and presentation of structured output. Its predecessor, GPT 3.5, exhibited reasonably low accuracy across all tasks and data sources (average accuracy across tasks: 81–97%), whereas LLaMA-2-70B showed the worst performance (37– 73%). These results demonstrate the potential benefit of integrating prompt-based LLMs into ecological data assimilation workflows as essential tools to efficiently process large volumes of textual data.

科研通智能强力驱动
Strongly Powered by AbleSci AI

祝大家在新的一年里科研腾飞
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
虚拟的清炎完成签到 ,获得积分10
3秒前
russing完成签到 ,获得积分10
3秒前
9秒前
12秒前
mmm发布了新的文献求助10
12秒前
橙子雨完成签到,获得积分10
25秒前
27秒前
李剑鸿完成签到,获得积分10
28秒前
shentaii完成签到,获得积分10
36秒前
cc完成签到 ,获得积分10
38秒前
40秒前
40秒前
FashionBoy应助科研通管家采纳,获得10
46秒前
整齐的不评完成签到,获得积分10
47秒前
矜持完成签到 ,获得积分10
58秒前
ghost完成签到 ,获得积分10
1分钟前
xiaoxuey完成签到 ,获得积分10
1分钟前
1分钟前
ccc完成签到 ,获得积分10
1分钟前
hahasun发布了新的文献求助10
1分钟前
mmm完成签到,获得积分10
1分钟前
寒梅恋雪完成签到 ,获得积分10
1分钟前
2分钟前
2024dsb完成签到 ,获得积分10
2分钟前
科研通AI6.2应助hahasun采纳,获得30
2分钟前
於傲松完成签到,获得积分10
2分钟前
2分钟前
2分钟前
liujingyi发布了新的文献求助10
2分钟前
Hello应助liujingyi采纳,获得10
2分钟前
叮叮当当当完成签到 ,获得积分10
2分钟前
qqym完成签到 ,获得积分10
2分钟前
2分钟前
爆米花应助小明采纳,获得10
2分钟前
赎罪完成签到 ,获得积分10
3分钟前
automan发布了新的文献求助50
3分钟前
LONG完成签到 ,获得积分10
3分钟前
苗条盼山完成签到,获得积分10
3分钟前
木目丶完成签到 ,获得积分10
4分钟前
4分钟前
高分求助中
Yangtze Reminiscences. Some Notes And Recollections Of Service With The China Navigation Company Ltd., 1925-1939 800
Common Foundations of American and East Asian Modernisation: From Alexander Hamilton to Junichero Koizumi 600
Signals, Systems, and Signal Processing 510
Discrete-Time Signals and Systems 510
T/SNFSOC 0002—2025 独居石精矿碱法冶炼工艺技术标准 300
The Impact of Lease Accounting Standards on Lending and Investment Decisions 250
Modern Relationships 200
热门求助领域 (近24小时)
化学 材料科学 生物 医学 工程类 计算机科学 有机化学 物理 生物化学 纳米技术 复合材料 内科学 化学工程 人工智能 催化作用 遗传学 数学 基因 量子力学 物理化学
热门帖子
关注 科研通微信公众号,转发送积分 5849816
求助须知:如何正确求助?哪些是违规求助? 6252396
关于积分的说明 15624826
捐赠科研通 4966219
什么是DOI,文献DOI怎么找? 2677814
邀请新用户注册赠送积分活动 1622137
关于科研通互助平台的介绍 1578211