Significance tests or confidence intervals: which are preferable for the comparison of classifiers?

置信区间 无效假设 计算机科学 统计假设检验 样本量测定 统计 光学(聚焦) 人工智能 统计显著性 机器学习 数学 光学 物理
作者
Daniel Berrar,José A. Lozano
出处
期刊:Journal of Experimental and Theoretical Artificial Intelligence [Taylor & Francis]
卷期号:25 (2): 189-206 被引量:22
标识
DOI:10.1080/0952813x.2012.680252
摘要

Null hypothesis significance tests and their p-values currently dominate the statistical evaluation of classifiers in machine learning. Here, we discuss fundamental problems of this research practice. We focus on the problem of comparing multiple fully specified classifiers on a small-sample test set. On the basis of the method by Quesenberry and Hurst, we derive confidence intervals for the effect size, i.e. the difference in true classification performance. These confidence intervals disentangle the effect size from its uncertainty and thereby provide information beyond the p-value. This additional information can drastically change the way in which classification results are currently interpreted, published and acted upon. We illustrate how our reasoning can change, depending on whether we focus on p-values or confidence intervals. We argue that the conclusions from comparative classification studies should be based primarily on effect size estimation with confidence intervals, and not on significance tests and p-values.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
PDF的下载单位、IP信息已删除 (2025-6-4)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
尊敬的夏槐完成签到,获得积分10
1秒前
2秒前
3秒前
Arui发布了新的文献求助20
3秒前
4秒前
4秒前
sopha完成签到,获得积分10
4秒前
4秒前
4秒前
4秒前
Lian发布了新的文献求助10
5秒前
wanci应助tyx采纳,获得10
5秒前
愉快的秋柔完成签到,获得积分10
6秒前
CipherSage应助任性的忆南采纳,获得10
6秒前
8秒前
8秒前
天天向上发布了新的文献求助10
9秒前
9秒前
ll应助JJQ采纳,获得10
9秒前
12秒前
FashionBoy应助aaaaaa采纳,获得10
12秒前
13秒前
Bao发布了新的文献求助10
14秒前
14秒前
14秒前
王王完成签到 ,获得积分10
15秒前
fuje发布了新的文献求助30
15秒前
小猪猪饲养员完成签到,获得积分10
15秒前
15秒前
教生物的杨教授完成签到,获得积分10
16秒前
16秒前
和平发展完成签到,获得积分10
16秒前
Cameron完成签到,获得积分0
17秒前
烟花应助张老师采纳,获得10
17秒前
nemo完成签到,获得积分20
17秒前
w王w发布了新的文献求助10
18秒前
18秒前
麦乐迪应助jerry采纳,获得10
19秒前
天天快乐应助jerry采纳,获得10
19秒前
英俊水池发布了新的文献求助10
20秒前
高分求助中
A new approach to the extrapolation of accelerated life test data 1000
Cognitive Neuroscience: The Biology of the Mind 1000
Technical Brochure TB 814: LPIT applications in HV gas insulated switchgear 1000
Immigrant Incorporation in East Asian Democracies 600
Nucleophilic substitution in azasydnone-modified dinitroanisoles 500
不知道标题是什么 500
A Preliminary Study on Correlation Between Independent Components of Facial Thermal Images and Subjective Assessment of Chronic Stress 500
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 遗传学 基因 物理化学 催化作用 冶金 细胞生物学 免疫学
热门帖子
关注 科研通微信公众号,转发送积分 3966681
求助须知:如何正确求助?哪些是违规求助? 3512151
关于积分的说明 11161937
捐赠科研通 3246996
什么是DOI,文献DOI怎么找? 1793640
邀请新用户注册赠送积分活动 874520
科研通“疑难数据库(出版商)”最低求助积分说明 804421