統計學需要一場變革
統計分析的薄弱基礎導致了科學最骯臟的秘密和許多深層次的缺陷。在爭議聲中,實驗經濟學、生物醫學研究特別是心理學被卷入一場科學實驗可重復性的危機之中。盡管呼吁改革的力度越來越大,對于是否應該調整或徹底改革統計分析方法,學者們還存在分歧。
責任編輯:朱力遠
1925年,英國遺傳學家兼統計學家羅納德·菲舍爾(Ronald Fisher)出版了《研究者的統計方法》(Statistical Methods for Research Workers)一書。這本書的書名在當時看起來并不會“暢銷”,但實際上這本書卻取得了巨大的成功,而且還使菲舍爾成為現代統計學之父。在這本書中,他著眼于研究人員如何將統計檢驗理論應用于實際數據,以便基于數據得出他們所發現的結論。當使用某個統計假設來做檢驗時,該檢驗能夠概述數據與其假設的模型之間的兼容性,并生成一個p值。
菲舍爾建議,作為一個方便的指南,研究人員可以考慮將p值設為0.05。對于這一點,他專門論述道:“在判斷某個偏差是否應該被認為是顯著的時候,將這一閾值作為判斷標準是很方便的?!彼€建議,p值低于該閾值的結論是可靠的,因此不要把時間花在大于該閾值的統計結論上。因此,菲舍爾的這一建議誕生了p小于0.05等價于所謂的統計顯著性,這成了 “顯著”的數學定義。
菲舍爾的遺憾
近一個世紀之后,在科學研究的許多領域,p值小于0.05被認為是確定實驗數據可靠性的金標準。這個標準支持了大多數已發表的科學結論,違反這一標準的論文很難發表,而且也很難得到學術機構的資助。然而,即使是菲舍爾也明白,統計顯著性的概念以及支撐它的p值具有相當大的局限性。幾十年來,科學家也逐漸意識到了這些局限性。美國心理學家保爾·米爾(Paul Meehl)在1978年寫道:“過度依賴顯著性檢驗是一種糟糕的科學方法?!眕值經常被曲解,統計的顯著性不等于實際的顯著性。此外,為了讓數據更漂亮,很多研究人員有意無意地將p值向上或向下調整。美國加利福尼亞大學洛杉磯分校的名譽教授、統計學家和流行病學家桑德·格林蘭德(Sander Greenland)說:“你可以用統計學方法來證明任何事情?!彼呛粲踅y計學改革的科學家之一。只依靠達到統計顯著性的研究經常會得出不準確的科學結論,這種判斷標準可以把真的事情判斷為假的,也可以把假的事情判斷成真的。在菲舍爾退休,移居澳大利亞后,有人問他,在漫長的職業生涯中他是否有任何遺憾,他明確回答道:“當初不該提出0.05?!?/p>
在過去的十年里,關于統計重要性的爭論以不尋常的強度爆發。援引兩篇論文的觀點:一篇文章稱統計分析的薄弱基礎導致了“科學最骯臟的秘密”;另一篇則提到,在檢驗某些假設時,存在“許多深層次的缺陷”。在爭議聲中,實驗
登錄后獲取更多權限
網絡編輯:思考 校對:星歌