清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Extracting Financial Data from Unstructured Sources: Leveraging Large Language Models

非结构化数据 计算机科学 语言模型 财务 数据科学 自然语言处理 数据挖掘 大数据 业务
作者
Huaxia Li,Haoyun Gao,Chengzhang Wu,Miklos A. Vasarhelyi
出处
期刊:Journal of Information Systems [American Accounting Association]
卷期号:: 1-22 被引量:2
标识
DOI:10.2308/isys-2023-047
摘要

ABSTRACT This research addresses the challenge of extracting financial data from unstructured sources, a persistent issue for accounting researchers, investors, and regulators. Leveraging large language models (LLMs), this study introduces a novel framework for automated financial data extraction from Portable Document Format (PDF)-formatted files. Following a design science methodology, this research develops the framework through a combination of text mining and prompt engineering techniques. The framework is subsequently applied to analyze governmental annual reports and corporate environmental, social, and governance reports, which are presented in PDF format. Test results indicate that the framework achieves an average 99.5 percent accuracy rate in a notably short time span when extracting key financial indicators. A subsequent large out-of-sample test reveals an overall accuracy rate converging around 96 percent. This study contributes to the evolving literature on applying LLMs in accounting and offers a valuable tool for both academic and industrial applications. Data Availability: Data are available upon request. JEL Classifications: M41; O31; C81.

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
哇咔咔完成签到 ,获得积分10
3分钟前
嗯嗯嗯哦哦哦完成签到 ,获得积分10
3分钟前
科研通AI2S应助科研通管家采纳,获得30
3分钟前
宇文非笑完成签到 ,获得积分10
3分钟前
橙橙完成签到,获得积分10
3分钟前
自信号厂完成签到 ,获得积分10
5分钟前
fareless完成签到 ,获得积分10
5分钟前
5分钟前
5分钟前
6分钟前
川藏客完成签到 ,获得积分10
7分钟前
DD完成签到 ,获得积分10
7分钟前
打打应助shaohua2011采纳,获得10
8分钟前
9分钟前
卷发生长因子完成签到,获得积分10
9分钟前
MOF完成签到 ,获得积分10
10分钟前
11分钟前
不知道完成签到,获得积分10
11分钟前
shaohua2011发布了新的文献求助10
11分钟前
shaohua2011完成签到,获得积分10
12分钟前
滕皓轩完成签到 ,获得积分10
14分钟前
大个应助小马采纳,获得10
16分钟前
烟消云散发布了新的文献求助30
16分钟前
xz完成签到 ,获得积分10
16分钟前
lixuebin完成签到 ,获得积分10
16分钟前
16分钟前
小马发布了新的文献求助10
16分钟前
2024kyt完成签到 ,获得积分10
17分钟前
17分钟前
烟消云散发布了新的文献求助20
17分钟前
Yx完成签到,获得积分10
17分钟前
乐乐应助聪聪great采纳,获得10
17分钟前
852应助土了吧唧的采纳,获得10
18分钟前
俊俊完成签到,获得积分10
19分钟前
19分钟前
俊俊发布了新的文献求助10
19分钟前
19分钟前
19分钟前
土了吧唧的完成签到,获得积分20
19分钟前
Richard完成签到 ,获得积分10
20分钟前
高分求助中
Histotechnology: A Self-Instructional Text 5th Edition 2000
Rock-Forming Minerals, Volume 3C, Sheet Silicates: Clay Minerals 2000
The late Devonian Standard Conodont Zonation 2000
Nickel superalloy market size, share, growth, trends, and forecast 2023-2030 2000
The Lali Section: An Excellent Reference Section for Upper - Devonian in South China 1500
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 800
The Healthy Socialist Life in Maoist China 600
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3275137
求助须知:如何正确求助?哪些是违规求助? 2914185
关于积分的说明 8371616
捐赠科研通 2584956
什么是DOI,文献DOI怎么找? 1407338
科研通“疑难数据库(出版商)”最低求助积分说明 656880
邀请新用户注册赠送积分活动 637380