当前位置:
X-MOL 学术
›
Journal of Economic Perspectives
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Statistical Significance, p-Values, and the Reporting of Uncertainty
Journal of Economic Perspectives ( IF 6.9 ) Pub Date : 2021-07-29 , DOI: 10.1257/jep.35.3.157 Guido W. Imbens 1
Journal of Economic Perspectives ( IF 6.9 ) Pub Date : 2021-07-29 , DOI: 10.1257/jep.35.3.157 Guido W. Imbens 1
Affiliation
The use of statistical significance and p-values has become a matter of substantial controversy in various fields using statistical methods. This has gone as far as some journals banning the use of indicators for statistical significance, or even any reports of p-values, and, in one case, any mention of confidence intervals. I discuss three of the issues that have led to these often-heated debates. First, I argue that in many cases, p-values and indicators of statistical significance do not answer the questions of primary interest. Such questions typically involve making (recommendations on) decisions under uncertainty. In that case, point estimates and measures of uncertainty in the form of confidence intervals or even better, Bayesian intervals, are often more informative summary statistics. In fact, in that case, the presence or absence of statistical significance is essentially irrelevant, and including them in the discussion may confuse the matter at hand. Second, I argue that there are also cases where testing null hypotheses is a natural goal and where p-values are reasonable and appropriate summary statistics. I conclude that banning them in general is counterproductive. Third, I discuss that the overemphasis in empirical work on statistical significance has led to abuse of p-values in the form of p-hacking and publication bias. The use of pre-analysis plans and replication studies, in combination with lowering the emphasis on statistical significance may help address these problems.
中文翻译:
统计显着性、p 值和不确定性报告
在使用统计方法的各个领域中,统计显着性和 p 值的使用已成为一个具有重大争议的问题。甚至一些期刊禁止使用统计显着性指标,甚至禁止任何 p 值报告,在一种情况下,禁止提及置信区间。我讨论了导致这些经常激烈辩论的三个问题。首先,我认为在许多情况下,p 值和统计显着性指标并不能回答主要关注的问题。此类问题通常涉及在不确定的情况下做出(建议)决策。在这种情况下,以置信区间甚至更好的贝叶斯区间形式的点估计和不确定性度量通常是提供更多信息的汇总统计数据。事实上,在这种情况下,统计意义的存在与否本质上是无关紧要的,将它们包括在讨论中可能会混淆手头的问题。其次,我认为在某些情况下,检验零假设是一个自然目标,而 p 值是合理且适当的汇总统计数据。我的结论是,一般禁止它们会适得其反。第三,我讨论了过分强调统计显着性的实证工作导致了以 p-hacking 和发表偏差的形式滥用 p 值。使用预分析计划和复制研究,结合降低对统计显着性的强调,可能有助于解决这些问题。我认为,在某些情况下,检验零假设是一个自然目标,而 p 值是合理且适当的汇总统计数据。我的结论是,一般禁止它们会适得其反。第三,我讨论了过分强调统计显着性的实证工作导致了以 p-hacking 和发表偏差的形式滥用 p 值。使用预分析计划和复制研究,结合降低对统计显着性的强调,可能有助于解决这些问题。我认为,在某些情况下,检验零假设是一个自然目标,而 p 值是合理且适当的汇总统计数据。我的结论是,一般禁止它们会适得其反。第三,我讨论了过分强调统计显着性的实证工作导致了以 p-hacking 和发表偏差的形式滥用 p 值。使用预分析计划和复制研究,结合降低对统计显着性的强调,可能有助于解决这些问题。
更新日期:2021-07-29
中文翻译:
统计显着性、p 值和不确定性报告
在使用统计方法的各个领域中,统计显着性和 p 值的使用已成为一个具有重大争议的问题。甚至一些期刊禁止使用统计显着性指标,甚至禁止任何 p 值报告,在一种情况下,禁止提及置信区间。我讨论了导致这些经常激烈辩论的三个问题。首先,我认为在许多情况下,p 值和统计显着性指标并不能回答主要关注的问题。此类问题通常涉及在不确定的情况下做出(建议)决策。在这种情况下,以置信区间甚至更好的贝叶斯区间形式的点估计和不确定性度量通常是提供更多信息的汇总统计数据。事实上,在这种情况下,统计意义的存在与否本质上是无关紧要的,将它们包括在讨论中可能会混淆手头的问题。其次,我认为在某些情况下,检验零假设是一个自然目标,而 p 值是合理且适当的汇总统计数据。我的结论是,一般禁止它们会适得其反。第三,我讨论了过分强调统计显着性的实证工作导致了以 p-hacking 和发表偏差的形式滥用 p 值。使用预分析计划和复制研究,结合降低对统计显着性的强调,可能有助于解决这些问题。我认为,在某些情况下,检验零假设是一个自然目标,而 p 值是合理且适当的汇总统计数据。我的结论是,一般禁止它们会适得其反。第三,我讨论了过分强调统计显着性的实证工作导致了以 p-hacking 和发表偏差的形式滥用 p 值。使用预分析计划和复制研究,结合降低对统计显着性的强调,可能有助于解决这些问题。我认为,在某些情况下,检验零假设是一个自然目标,而 p 值是合理且适当的汇总统计数据。我的结论是,一般禁止它们会适得其反。第三,我讨论了过分强调统计显着性的实证工作导致了以 p-hacking 和发表偏差的形式滥用 p 值。使用预分析计划和复制研究,结合降低对统计显着性的强调,可能有助于解决这些问题。