Domain-specific language models pre-trained on construction management systems corpora

计算机科学 领域(数学分析) 自然语言处理 人工智能 领域特定语言 施工管理 软件工程 工程类 数学 数学分析 土木工程
作者
Yunshun Zhong,Sebastian D. Goodfellow
出处
期刊:Automation in Construction [Elsevier BV]
卷期号:160: 105316-105316 被引量:35
标识
DOI:10.1016/j.autcon.2024.105316
摘要

The rising demand for automated methods in the Construction Management Systems (CMS) sector highlights opportunities for the Transformer architecture, which enables pre-training Deep Learning models on large, unlabeled datasets for Natural Language Processing (NLP) tasks, outperforming traditional Recurrent Neural Network models. However, their potential in the CMS domain remains underexplored. Therefore, this research produced the first CMS domain corpora from academic papers and introduced an end-to-end pipeline for pre-training and fine-tuning domain-specific Pre-trained Language Models. Four corpora were constructed and transfer learning was employed to pre-train BERT and RoBERTa using the corpora. The best-performing models were then fine-tuned and outperformed models pre-trained on general corpora. In two key NLP tasks, text classification using an infrastructure condition prediction dataset and named entity recognition using an automatic construction control dataset, domain-specific pre-training improved F1 scores by 5.9% and 8.5%, respectively. These promising results demonstrate extended applicability beyond CMS to the Architecture, Engineering, and Construction sectors.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
刚刚
刚刚
义气笑容发布了新的文献求助10
刚刚
豆沙包子完成签到,获得积分10
1秒前
1秒前
吾星安处发布了新的文献求助10
1秒前
1秒前
bkagyin应助知行合一采纳,获得50
1秒前
youyyuy发布了新的文献求助10
1秒前
molihuakai应助cookie采纳,获得10
1秒前
12发布了新的文献求助30
2秒前
ustcliyang发布了新的文献求助10
2秒前
3秒前
3秒前
欧阳完成签到,获得积分10
4秒前
无花果应助dryy采纳,获得10
4秒前
t65t6y完成签到 ,获得积分10
5秒前
5秒前
文艺的从筠完成签到,获得积分10
5秒前
5秒前
6秒前
my196755完成签到,获得积分10
6秒前
小白发布了新的文献求助10
7秒前
zzz发布了新的文献求助10
7秒前
Yvonne发布了新的文献求助10
7秒前
牧青发布了新的文献求助50
8秒前
8秒前
人语发布了新的文献求助10
8秒前
花的微笑发布了新的文献求助20
8秒前
8秒前
9秒前
思源应助自觉的绿蝶采纳,获得30
9秒前
Picky发布了新的文献求助20
10秒前
坐等时光看轻自己完成签到,获得积分0
10秒前
张小鱼发布了新的文献求助10
11秒前
科研通AI2S应助张雅露采纳,获得10
11秒前
祁可爱应助闪闪的忆枫采纳,获得10
11秒前
xiaoli完成签到,获得积分10
12秒前
12秒前
12秒前
高分求助中
Overcoming Stigma and Bias in Obesity Management 800
Malcolm Fraser : a biography 700
Signals, Systems, and Signal Processing 610
Materials selection in mechanical design 500
Bounds for Statistical Estimation in Semiparametric Models 500
Climate change and sports: Statistics report on climate change and sports 500
Forced degradation and stability indicating LC method for Letrozole: A stress testing guide 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 纳米技术 工程类 有机化学 化学工程 生物化学 计算机科学 物理 内科学 复合材料 催化作用 物理化学 光电子学 电极 细胞生物学 基因 无机化学
热门帖子
关注 科研通微信公众号,转发送积分 6477427
求助须知:如何正确求助?哪些是违规求助? 8279331
关于积分的说明 17656998
捐赠科研通 5559556
什么是DOI,文献DOI怎么找? 2910834
邀请新用户注册赠送积分活动 1887790
关于科研通互助平台的介绍 1741254