Correcting Misclassification Bias in Regression Models with Variables Generated via Data Mining

估计员 计算机科学 公制(单位) 线性回归 数据挖掘 回归分析 变量(数学) 回归 统计 数学 人工智能 计量经济学 机器学习 运营管理 数学分析 经济
作者
Mengke Qiao,Ke‐Wei Huang
出处
期刊:Information Systems Research [Institute for Operations Research and the Management Sciences]
卷期号:32 (2): 462-480 被引量:8
标识
DOI:10.1287/isre.2020.0977
摘要

There is a surge of interest in social science studies in applying data mining methods to construct variables for regression analysis. For example, text classification was applied to classify whether the review is subjective or objective. The derived review subjectivity was used as an independent variable in the regression to examine its impact on review helpfulness. In the classification phase of these studies, researchers need to subjectively choose a classification performance metric for optimization. No matter which performance metric is chosen, the constructed variable still includes classification error because the variable cannot be classified perfectly. The misclassification of constructed variables will lead to inconsistent estimators of regression coefficients in the following phase. To correct the estimation inconsistency, we summarize and modify existing proofs in econometrics to derive theoretical formulas of consistent estimators in generalized linear models. The main implication of our theoretical result is that the inconsistency can be corrected by theoretical formulas, even when the classification accuracy is poor. Therefore, we propose that a classification algorithm should be tuned to minimize the standard error of the focal coefficient derived based on the corrected formula. As a result, researchers derive a consistent and most precise estimator in generalized linear models.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
更新
大幅提高文件上传限制,最高150M (2024-4-1)

科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
我是老大应助朴实云朵采纳,获得10
刚刚
lsy发布了新的文献求助10
刚刚
陶醉薯片完成签到,获得积分10
刚刚
英俊的铭应助mf2002mf采纳,获得10
1秒前
鲤鱼新儿发布了新的文献求助200
1秒前
快乐梦安发布了新的文献求助10
2秒前
2秒前
2秒前
大模型应助熙若白采纳,获得10
3秒前
独特灵完成签到,获得积分10
3秒前
4秒前
abhiseka完成签到,获得积分10
5秒前
啦啦完成签到 ,获得积分10
5秒前
鱼鱼鱼完成签到 ,获得积分10
5秒前
善学以致用应助lsy采纳,获得10
5秒前
6秒前
6秒前
YZ发布了新的文献求助10
7秒前
7秒前
8秒前
cheese完成签到 ,获得积分10
8秒前
瑾风阳完成签到,获得积分10
9秒前
毛毛弟发布了新的文献求助10
11秒前
孟韩发布了新的文献求助10
12秒前
斯文绿凝发布了新的文献求助10
13秒前
13秒前
失眠的耳机完成签到,获得积分10
13秒前
13秒前
14秒前
嘿嘿完成签到,获得积分10
14秒前
桐桐应助zzm采纳,获得10
15秒前
CipherSage应助shenzhou9采纳,获得10
15秒前
金金完成签到,获得积分20
16秒前
Ar完成签到,获得积分10
16秒前
outsider发布了新的文献求助20
17秒前
17秒前
yyy发布了新的文献求助10
17秒前
17秒前
刘洋完成签到,获得积分10
18秒前
Starry完成签到 ,获得积分10
18秒前
高分求助中
Rock-Forming Minerals, Volume 3C, Sheet Silicates: Clay Minerals 2000
The late Devonian Standard Conodont Zonation 2000
Nickel superalloy market size, share, growth, trends, and forecast 2023-2030 2000
The Lali Section: An Excellent Reference Section for Upper - Devonian in South China 1500
Very-high-order BVD Schemes Using β-variable THINC Method 910
Mantiden: Faszinierende Lauerjäger Faszinierende Lauerjäger 800
PraxisRatgeber: Mantiden: Faszinierende Lauerjäger 800
热门求助领域 (近24小时)
化学 医学 生物 材料科学 工程类 有机化学 生物化学 物理 内科学 纳米技术 计算机科学 化学工程 复合材料 基因 遗传学 催化作用 物理化学 免疫学 量子力学 细胞生物学
热门帖子
关注 科研通微信公众号,转发送积分 3263114
求助须知:如何正确求助?哪些是违规求助? 2903756
关于积分的说明 8326840
捐赠科研通 2573786
什么是DOI,文献DOI怎么找? 1398511
科研通“疑难数据库(出版商)”最低求助积分说明 654203
邀请新用户注册赠送积分活动 632742