Quantifying uncertainty in random forests via confidence intervals and hypothesis tests

自举(财务) 估计员 随机森林 引导聚合 推论 计算机科学 统计假设检验 统计推断 统计的 置信区间 差异(会计) 集合(抽象数据类型) 机器学习 统计 特征(语言学) 集成学习 数学 人工智能 预测区间 计量经济学 业务 哲学 会计 程序设计语言 语言学
作者
Lucas Mentch,Giles Hooker
出处
期刊:Journal of Machine Learning Research [Crossref Test]
卷期号:17 (1): 841-881 被引量:119
链接
摘要

This work develops formal statistical inference procedures for predictions generated by supervised learning ensembles. Ensemble methods based on bootstrapping, such as bagging and random forests, have improved the predictive accuracy of individual trees, but fail to provide a framework in which distributional results can be easily determined. Instead of aggregating full bootstrap samples, we consider predicting by averaging over trees built on subsamples of the training set and demonstrate that the resulting estimator takes the form of a U-statistic. As such, predictions for individual feature vectors are asymptotically normal, allowing for confidence intervals to accompany predictions. In practice, a subset of subsamples is used for computational speed; here our estimators take the form of incomplete U-statistics and equivalent results are derived. We further demonstrate that this setup provides a framework for testing the significance of features. Moreover, the internal estimation method we develop allows us to estimate the variance parameters and perform these inference procedures at no additional computational cost. Simulations and illustrations on a real data set are provided.

科研通智能强力驱动
Strongly Powered by AbleSci AI

祝大家在新的一年里科研腾飞
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
三也完成签到 ,获得积分10
刚刚
英姑应助nanno采纳,获得30
刚刚
刚刚
南佳给南佳的求助进行了留言
刚刚
greentea应助Xiexi采纳,获得10
1秒前
舒克发布了新的文献求助10
1秒前
十令完成签到,获得积分10
1秒前
2秒前
2秒前
Acid完成签到 ,获得积分10
2秒前
manyi1972完成签到,获得积分10
4秒前
li发布了新的文献求助10
5秒前
111发布了新的文献求助10
5秒前
Lucas应助YDL采纳,获得10
5秒前
6秒前
ygr应助我要7甜瓜采纳,获得20
8秒前
Yogi完成签到,获得积分10
8秒前
百年烤鸭店完成签到,获得积分10
8秒前
爆米花应助一千岛采纳,获得10
8秒前
肥猫啊平发布了新的文献求助10
9秒前
9秒前
我是老大应助啊呜采纳,获得10
9秒前
9秒前
李健的小迷弟应助胖橘采纳,获得10
10秒前
10秒前
Hello应助onedowmsk采纳,获得10
10秒前
VDC发布了新的文献求助200
10秒前
wu完成签到,获得积分10
10秒前
小二郎应助研友_LOKkaL采纳,获得10
11秒前
三十七完成签到,获得积分20
11秒前
xiaowu完成签到,获得积分10
11秒前
吓我一跳完成签到,获得积分20
13秒前
13秒前
13秒前
火神杯发布了新的文献求助10
14秒前
mayufei发布了新的文献求助10
14秒前
yn发布了新的文献求助10
15秒前
15秒前
小蘑菇应助bofu采纳,获得10
16秒前
顾矜应助畅快芝麻采纳,获得10
16秒前
高分求助中
Востребованный временем 2500
The Three Stars Each: The Astrolabes and Related Texts 1500
Les Mantodea de Guyane 800
Mantids of the euro-mediterranean area 700
有EBL数据库的大佬进 Matrix Mathematics 500
Plate Tectonics 500
Igneous rocks and processes: a practical guide(第二版) 500
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 内科学 物理 纳米技术 计算机科学 遗传学 化学工程 基因 复合材料 免疫学 物理化学 细胞生物学 催化作用 病理
热门帖子
关注 科研通微信公众号,转发送积分 3411114
求助须知:如何正确求助?哪些是违规求助? 3014629
关于积分的说明 8864721
捐赠科研通 2702137
什么是DOI,文献DOI怎么找? 1481467
科研通“疑难数据库(出版商)”最低求助积分说明 684850
邀请新用户注册赠送积分活动 679374