p值的陷阱:為何頂級方法論期刊決定禁用p值?

p值的陷阱:為何頂級方法論期刊決定禁用p值?
圖片來源:By User:Repapetilto @ Wikipedia & User:Chen-Pan Liao @ Wikipedia - File:P value.png, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=36661887
我們想讓你知道的是

近十多年來,學術界有很多文章討論傳統統計檢定方法、尤其是p值統計檢定的問題,甚至有位很有名的統計學者寫了篇〈科學的統計學危機〉,說是危機一點都不言過其實。

2016年夏天,林澤民老師在成大、政大、台大、中研院演講〈p值的陷阱〉,文章的結語提到:「統計學很快就會有很重大的改變,傳統的作法、用p值來作統計檢定的作法,大概再過幾年,就不容易再存在。」

不到兩年的時間,美國政治學頂級方法論學刊《Political Analysis》已經決定禁用p值。根據該刊的聲明,其主要原因是:「p值本身無法提供支持相關模式或假說之證據。」以《Political Analysis》在政治學之地位,其禁用p值的決定,將會引起連鎖效應,導致其他刊物跟進。

本文為2016/6/6在政大社科院的演講逐字稿修訂版之部分節錄,原題為〈看電影學統計:p值的陷阱〉,刊於《社會科學論叢》2016年10月第十卷第二期。

科學的統計學危機

為什麼要談論p值的問題?因為在近十多年來,不只是政治學界,而是很多學門——特別是在科學領域——有很多文章討論傳統統計檢定方法、尤其是p值統計檢定的問題,甚至有位很有名的統計學者Andrew Gelman寫了篇文章,題為〈科學的統計學危機〉(The Statistical Crisis in Science),說是危機一點都不言過其實。這就是為何我說:今天要討論的其實是很嚴肅的問題。

投影片上這些論點,大部分是說我們在傳統統計檢定的執行上,對p值有各種誤解跟誤用。現在很多人談到「p值的危險」、「p值的陷阱」、「p值的誤用」、還有「p值的誤解」。甚至有些學術期刊,也開始改變他們的編輯政策。像這本叫作Basic and Applied Social Psychology的心理學期刊,已經決定以後文章都不能使用p值,大家能夠想像嗎?我們作計量研究,都是用p值,各位一直用,在學界用了將近一百年,現在卻說不能用。甚至有些文章,說從前根據p值檢定做出來的研究成果都是錯的,有人更宣告p值已經死了。所以這是一個很嚴重的問題。

在這本期刊做出此決定後,美國統計學會(ASA)有一個回應,表示對於p值的問題,其實也沒這麼嚴重,大部分是誤解跟誤用所造成,只要避免誤解與誤用就好。可是在今年,ASA真的就發表了正式聲明,聲明裡面提出幾點,也是我今天要討論的主要內容,包括p值的真正的意義,以及大家如何誤用,換句話說就是:p值到底是什麼?它又不是什麼?(圖一)今天除了會深入探討這些議題之外,也請特別注意聲明的第三點提到:科學的結論,還有在商業上、政策上的決策,不應只靠p值來決定。大家就應該了解這問題影響有多大、多嚴重。

1
圖片來源:作者提供
圖一

我舉個例子,最近在台灣,大家都知道我們中研院翁院長涉入了浩鼎案,浩鼎案之所以出問題,就是因為解盲以後,發現實驗的結果不顯著。我今天不想評論浩鼎案,但就我的了解,食藥署、或者美國的FDA,他們在批准一項新藥時,一定要看實驗的結果,而且實驗結果必須在統計上要顯著。可是ASA卻告訴我們說,決策不該只根據統計的顯著性,大家就可想像這影響會有多大。甚至有其他這裡沒有列出來的文章,提到為何我們使用的各種藥物,都是經過這麼嚴格的p值檢定出來、具有顯著性,可是在真正臨床上,卻不見得很有用。其實很多對p值的質疑,都是從這裡出來的。

有關p值的討論,其實並非由政治學門,而是從生命科學、例如醫學等領域所產生的。ASA聲明的第四點說:正確的統計推論,必須要「full reporting and transparency」,這是什麼意思呢?這是說:不但要報告p值顯著的研究結果,也要報告p值不顯著的研究結果。但傳統方法最大的問題是:研究結果不顯著,通通都沒有報告。在英文有個詞叫cherry-picking,摘櫻桃。什麼叫摘櫻桃?摘水果,水果熟的才摘,把熟的水果送到水果攤上,大家在水果攤上看到的水果,都是漂亮的水果,其實有很多糟糕的水果都不見了。

我們在統計上也是,大家看到的都是顯著的結果,不顯著的結果沒有人看到。可是在過程中,研究者因為結果必須顯著,期刊才會刊登、新藥才會被批准,所以盡量想要擠出顯著的結果,這之中會出現一個很重大的問題:如果我們作了20個研究,這20個研究裡面,虛無假設都是對的,單獨的研究結果應該是不顯著。可是當我們作了20個統計檢定時,最少有一個結果顯著的或然率其實很高。雖然犯第一類型錯誤的或然率都控制在0.05,可是20個裡面最少有一個顯著的,或然率就不是0.05,大概是0.64。如果就報告這個顯著結果,這就是cherry-picking。ASA給的建議是:實驗者必須要full reporting and transparency,就是一個研究假如作了20個模型的檢定,最好20個模型通通報告,不能只報告顯著的模型。ASA這個聲明是今天要討論的主要內容。

p值是什麼?

p值是什麼?我想在座有很多專家比我都懂,但是也有一些同學在場,所以還是稍微解釋一下。p值是由Ronald Fisher在1920年代發展出來的,已將近一百年。p值檢定最開始,是檢定在一個model之下,實驗出來的data跟model到底吻合不吻合。這個被檢定的model,我們把它叫做虛無假設(null hypothesis),一般情況下,這個被檢定的model,是假設實驗並無系統性效應的,即效應是零,或是隨機狀態。在這個虛無假設之下,得到一個統計值,然後要算獲得這麼大(或這麼小)的統計值的機率有多少,這個或機率就是p值。

舉一個例子,比如說研究ESP──超感官知覺──時會用到比例(proportion)這個統計值。我們用大寫的P來代表比例,不要跟小寫的「p值」的p混淆。在p值的爭論裡,有一篇研究ESP的心理學文章被批評得很厲害。文章中提到了一個實驗,讓各種圖片隨機出現在螢幕的左邊或者右邊,然後讓受測者來猜圖片會出現在哪邊。我們知道如果受測者的猜測也是隨機的,也就是沒有ESP的效應,則猜對的或然率應該是一半一半,算比例應該是差不多P=0.5,這裡比例P=0.5就是我們的虛無假設。

但這個實驗──實驗者是一位知名心理學教授──他讓受測者用各種意志集中、力量集中的辦法,仔細地猜會出現在左邊還是右邊。結果發現,對於某種類型的圖片──不是所有圖片,而是對於某些類型的圖片,特別是色情圖片──受測者猜對的比例,高達53.1%,而且在統計上是顯著的。所以結論就是:有ESP,有超感官知覺。

這裡p值可以這樣算:就是先做一個比例P的sampling distribution──抽樣分配。如果虛無假設是對的,平均來講,P=0.5。0.5就是P的抽樣分配中間這一點,這個比例就是我們的虛無假設。在受測者隨機猜測的情況之下,P應該大約是0.5的。可是假如真正得到的P是0.531,抽樣分配告訴我們:如果虛無假設是對的,亦即如果沒有任何超自然的力量,沒有ESP存在,大家只是這樣隨機猜測的話,則猜對的比例大於或者等於0.531的機率,可以由抽樣分配右尾的這個面積來算。作單尾檢定,這面積就是所謂的p值。如果作雙尾檢定的話,這值還要乘以2。以上就是我們傳統講的p值的概念。

我們得到p值以後,要作統計檢定。我們相約成俗地設定一個顯著水準,叫做α,α通常都是0.05,有時候大家會嚴格一點用0.01,比較不嚴格則用0.10。如果我們的α=0.05,則若p<0.05,我們就可以拒絕虛無假設,並宣稱這個檢定在統計上是顯著的,否則檢定就不顯著,這是傳統的p值檢定方法。如果統計上顯著的話,我們就認為得到實驗結果的機會很小,所以就不接受虛無假設。

為什麼說p值很小,就不接受虛無假設?我個人的猜想,這是依據命題邏輯中,以否定後件來否定前件的推論,拉丁文稱作modus tollens,意思是以否定來否定的方法,也就是從「若P則Q」和「非Q」導出「非P」的推論,這相信大家都知道。p值檢定的邏輯是一種有或然性的modus tollens,是probabilistic modus tollens。「若H0為真,則p值檢定顯著的機率很小,只有0.05」,現在p值檢定顯著了,所以我們否定H0。

但是命題邏輯的modus tollens,「若P則Q」是沒有或然性、沒有任何誤差的餘地的。「若H0為真,則p值檢定不可能顯著」,這樣p值檢定顯著時,你可以否定H0,大家對此都不會有爭議。問題是假如容許或然性,這樣的推論方法還是對的嗎?舉一個例子:「若大樂透的開獎機制是完全隨機的,則每注中頭獎的機率很小,只有1/13,980,000」,現在你中獎了,你能推論說大樂透開獎的機制不是隨機的嗎?p值的問題,便是在於我們能不能夠因為p值很小,小到可能性很低,我們就用否定後件的方法來否定前件。我們用命題邏輯來作統計推論,但其實我們的推論方法跟命題邏輯卻不完全一樣,因為我們的α絕對不可能是零,如果α是零的話,就不是統計了。

p值不是什麼?

下面這個表是大家都熟悉的。(圖二)我們可以用這個表來呈現有關虛無假設是對或者不對,是被拒絕或者被接受的四種可能性,其中兩種是作出錯誤統計推論的情況。第一個情況,虛無假設是對的,但統計檢定是顯著的,因此虛無假設被推翻了。這種情況叫做Type I error,我們保留了α=0.05的機率容許它存在。

第二個情況,如果虛無假設是錯誤的,但統計檢定不顯著,所以它沒有被推翻,這個情況叫做Type II error。Type II error剛學統計的同學可能不太了解,因為我們通常都不會很清楚地去計算它的機率──所謂β。這個β跟α不一樣,不是你可以用相約成俗的方法來訂定,而是會受到若干因素的影響。簡單來講,在一定的顯著水準α之下,β跟樣本大小有關係;樣本太小的話,β會比較大。另外它跟實驗效應的大小也有關係,如果效應很小的話,β也會比較大。

換句話說,如果虛無假設跟研究假設的距離比較小的話,β會比較大。可是一般人不會去計算β,因為還沒做實驗之前,其實也不知道實驗的效應有多少。儘管如此,β是可以計算的。算出來了,則我們拒絕錯誤虛無假設,而作出正確統計推論的機率是1-β,這1-β我們就把它叫做「檢定的強度」──the power of the test──我待會兒會用到這個名詞。依此定義,β越小的話,power就越大。用醫學的術語來說,α,Type I error的機率,就是偽陽性的機率,而β,Type II error的機率,就是偽陰性的機率。

2
圖片來源:作者提供
圖二

我們可以開始討論:傳統用p值來作統計檢定方式,為什麼有問題?剛剛ASA的聲明說:p值do not measure the probability that the studied hypothesis is true。p值告訴你:如果虛無假設是對的,你「觀察到資料」的機率有多少,但它並沒有告訴你「虛無假設是對的」的機率有多少,或「研究假設是對的」的機率有多少。這是很不一樣的:前者是data的機率,後者是model的機率。

進一步說明,p值是在虛無假設為真的條件之下,你觀察到和你所觀察到的統計值一般大小(或更大/更小)的機率。但我們作檢定的時候,我們是看p值是不是小於你的統計水準α,如果p<α,我們就說統計是顯著的。換句話說,如果虛無假設為真,那麼你的檢定是顯著的機率是α=0.05。但這其實不是我們作研究最想回答的問題;這個機率只告訴我們,如果你的虛無假設為真,有百分之五的機率,data會跟它不合,但它沒有告訴我們虛無假設這個model為真的機率有多少,而這才是我們應該問的問題。

所以我們應該反過來問,如果你統計檢定是顯著的,在此條件之下,「虛無假設是對的」的機率有多少?如果我們把關於data這個偽陽性的機率記作α=Pr(Test=+|H0),大家可以看出這個關於model的機率其實是它倒反過來的:Pr(H0| Test=+),所以我把它稱作「偽陽性的反機率」。這兩個機率原則上不會相等;只有在α=0的時候,兩者才都是零而相等。

譬如今天你去健康檢查,醫生給你做很多篩檢,如果篩檢結果是陽性,其實先不要怕,因為你應該要問,如果篩檢出來是陽性,那麼你真正並沒有病的機率是多少?也就是偽陽性的反機率有多少?大家可能會很驚訝,偽陽性的反機率通常都很高,但是這個機率,p值並沒有告訴你。所以必須要去算在檢定是陽性的條件下,結果是一種偽陽性的反機率;這就必須要用「貝式定理」來算。

我們再來看另外一個跟統計檢定問題非常接近的例子。可以用剛剛身體檢查的例子,但我這裡用美國職棒大聯盟對球員的藥物檢查為例,也許比較有趣。這裡假設大約有6%的美國MLB的球員使用PED(performance enhancing drugs),這是一種可以增強體能表現的藥物,是類固醇之類的藥物。這個估計數字可能是真的,是我從網頁上抓下來的。這邊的6%即為我前面說的先驗機率:隨機選出一個球員,則他有使用PED的機率是0.06,沒有使用PED的機率是0.94。現在大聯盟的球員都要經過藥檢;舉大家熟知的火箭人Roger Clemens為例。他也是我心目中的棒球英雄,他被檢定有陽性的反應。

為了方便起見,假設藥檢的準確度是95%。所謂準確度95%的定義是:如果一個球員有使用藥物,他被檢定出來呈陽性反應的機率是0.95;如果一個球員沒有使用藥物,他被檢定出來呈陰性反應的機率也是0.95。也就是我假設兩種誤差類型的機率α跟β都是0.05。在這假設之下,使用貝式定理來計算,當球員被篩檢得到的結果是陽性,但他並不是PED使用者的後驗機率或反機率,其實高達0.45。大家可以從圖三看到貝氏定理如何可以算出這個機率。(圖三)

3
圖片來源:作者提供
圖三

使用貝式定理算出來的結果大家應該會覺得很詫異,因為我們藥物篩檢的工具應該是很準確的,0.95在我們想像中應該是很準確的,我們認為說我們錯誤的可能性只有5%,其實不然。檢定是陽性,但其實偽陽性的反機率可以高達45%!所以雖然我不是醫學專家,不過大家健康檢查,如果醫生說,你的檢查結果呈現陽性反應,大家先不要慌張,你要先問一下醫生檢驗的準確度大概有多少,如果一個真正有這種病的人來檢定,呈現偽陽性的機率有多少?如果一個沒有病的人來檢定,呈現偽陰性的機率有多少,然後再問他先驗機率大概有多少?然後自己用貝氏定理去算一下偽陽性的反機率。醫學上很多疾病,在所有人口裡面,得病的比例通常很小的。也就是說,得病的先驗機率通常都很小,所以偽陽性的反機率會很大。

現在換成了統計檢定,看下圖的表格。(圖四)這表格跟圖三的表格很像,只是把內容改成了圖二的內容:虛無假設是真的、或是假的,然後統計檢定是顯著、或是不顯著的。然後再加上一行先驗機率,就是「虛無假設是對的」的先驗機率有多少、「虛無假設是錯的」的先驗機率有多少,都用符號來代替數目。我們可以用貝式理得到一個公式,顯示偽陽性的反機率是統計水準α、檢定強度(power=1-β)、和研究假設之先驗機率(P(HA))的函數。α跟檢定強度都沒問題,但公式裡頭用到先驗機率。你會問:在統計檢定裡面,先驗機率是什麼?

4
圖片來源:作者提供
圖四

在此我必須要稍微說明一下,先驗機率,以淺白的話來講,跟你的理論有關係,怎麼說呢?如同剛剛提到ESP的實驗,好像只要就這樣用力去猜,你猜對的可能性就會比較高。發表這樣子的實驗報告,我們有沒有辦法告訴讀者,當受測者這樣皺著眉頭去想的時候,到底是什麼樣的一個因果機制,能夠去猜到圖片是出現在左邊還是右邊。

一般來說這種ESP的實驗,是沒有這種理論的,是在完全沒有理論的條件之下來做實驗。在此情況之下,我們可以說,此研究假設的先驗機率很小很小。當然我們作政治學的研究就不一樣,我們可能引用很多前人的著作,都有一個文獻回顧,我們也引用很多理論,然後我們說:我們的研究假設是很有可能展的。假如你有很好的理論,你的研究假設的先驗機率就會比較高,在這種情況之下,問題會比較小。

但是還有一個問題,就是如果從文獻裡面來建立理論,來判定你的研究假設的先驗機率有多少,問題出在於:通常文獻回顧是從學術期刊裡面得來,而現在所有的學術期刊,發表的都是顯著的結果,不顯著的結果通通都沒有發表,從學術期刊上來判斷研究假設的先驗機率有多少,這樣的判斷是有偏差的。這是我今天要講的第二個問題,現在先繼續討論偽陽性反機率的問題。

現在要詳細討論影響偽陽性反機率的因素,就是影響到「統計檢定是顯著的條件之下,虛無假設為真」這一個機率的因素。這裡再重覆一下,我們一般了解的統計推論,奠基於虛無假設為真時,p值顯著的機率,也就是偽陽性的機率被控制在α之內:Pr(Test=+|H0)=Pr(p<α|H0)=α。但我們現在要反過來問的是:統計檢定是顯著的情況下,H0為真的機率,也就是偽陽性的反機率:Pr(H0| Test=+)=Pr(H0| p<α),這好比篩檢結果為陽性、但其實球員並未使用PED、患者其實無病的機率。

如果α等於零,可以很清楚的發現,這兩個機率是一樣的,都是零;但α不等於零的時候,它們就不一樣。由下圖來看,偽陽性的反機率跟先驗機率──研究假設的先驗機率──以及檢驗的強度有關。(圖五、六)看圖可以得知,power越大,還有先驗機率越大的話,偽陽性的反機率就越小。可是當power越小的時候,還有先驗機率越小的時候,偽陽性的反機率就越大。

5
圖片來源:作者提供
圖五
6
圖片來源:作者提供
圖六

小結:當檢定強度或研究假設的先驗機率甚低的時候,α=0.05可能嚴重低估了偽陽性之反機率,也就是在p值檢定顯著的情況下,虛無假設H0仍然極有可能為真,而其為真的條件機率可能甚大於α。此時如果我們拒絕虛無假設,便作出了錯誤的統計推論。

「摘櫻桃」問題

再來我們講到「摘櫻桃」問題,如同剛剛所提到,研究假設的先驗機率是如此重要,我們要如何去判定?要怎麼知道它是多少?我們必須要做文獻的分析、要建構我們的理論,在這種情況之下,會出現摘櫻桃的問題。這裡就是要呈現給大家看,譬如我們作20個統計檢定,從作第一個開始,本來有一個model,但是p值不顯著,我們就改一下model,加一個變數、減一個變數,或是把一個變數平方,或是把一個變數取log,或者把樣本除去一些,增加一些,這樣慢慢去試驗,最後終於得到一個顯著的結果了!但這裡告訴你,做了20個這樣的檢定,我們以為每一個檢定的Type I error控制在0.05,可是20個裡面最少有一個顯著的或然率是多少?是0.64。(圖八)

8
圖片來源:作者提供
圖八

類似這種問題,其實我們日常生活中所在多有。以大樂透為例:你買了一注大樂透,你中頭獎的機率是1/13,980,000。如果你自己中獎,你也許會說這是命運,不是機率,因為中獎的機率近乎0。但全台灣賣了5,000,000注的大樂透,最少有一注中頭獎的機率其實是0.30。你不能舉出有人中獎的事實就否定大樂透開獎的隨機機制。

這就是cherry-picking,只抓住發生的事件,就來說因為有這麼多因果鏈,如果稍微有一點不一樣,這種事情就不會發生,這是錯誤的,因為它有很多其他的可能性同時存在。現在在統計學裡面,很多人很不在意這個問題,甚至主張這種問題不存在,而其實它可能比p值的誤用還要嚴重。這種問題叫做叫多重假說檢定(multiple hypothesis test)、多重比較(multiple comparison),我有同事對這種問題的反應十分強烈,主張所有的研究都必須要事先登記。

什麼叫做事先登記?並非申請研究經費、寫一個研究計畫這麼簡單,所謂事先登記(pre-registration)的觀念,就是在做任何研究之前,研究者必須要把研究計畫post在網站上,而且post上之後就不能改,現在其實已經有很多這種網站存在,將來研究者發表文章,如果跟預先登記的研究設計不一樣,其他人就可以對你發表的結果提出質疑。

小結:在多重假說檢定的情況下,即使H0為真,「至少有一p值檢定顯著」的機率常會甚大於單一p值檢定的顯著水平α。以「摘櫻桃」的方式只報告顯著的檢定結果常會導致錯誤的統計推論。

結語

圖九是ASA建議取代p值的其它途徑,在此沒有時間細講,大致上是要用其它方法,比如貝式統計學。(圖九)這邊提到的很多方法都跟貝式統計學有關係。我們現場有貝式統計學的專家,他們懂得怎麼用貝式統計學來分析資料。但對於還沒有學到貝式統計學的朋友,這邊ASA特別提到的confidence intervals──信心區間──是傳統統計學的方法。

ASA似乎認為使用信心區間比使用p值檢定要來得好。但是信心區間其實是連續性的p值檢定,如果只是看看虛無假設的理論值有沒有在信心區間之內,則檢定的結果跟p值檢定是一樣的。但如果把信心區間畫出來,至少有一個好處,它會清楚呈現出效應的大小,讓你不但能看出檢定結果的統計顯著性(statistical significance),也能看出估計值的實質顯著性或重要性(substantive significance)。我們使用信心區間,總比只用一顆星兩顆星來標明統計顯著性要好。

9
圖片來源:作者提供
圖九

如果一定要用幾顆星的話,大家就不要再用α=0.10了;p<0.10就不要再加星星了。我知道AJPS(American Journal of Political Science)已經不接受α=0.10這個顯著水準的統計檢定了;不管是單尾檢定或是雙尾檢定,用α=0.10已經不被接受了。0.05還可以,最好能用0.01,審稿人對你較難有所批評。

但是最重要的,如果我們不得不用傳統的統計方法,我們必須要增強我們的理論論述和脈絡描述,因為增強理論論述和脈絡描述,即會增強研究假設的先驗機率。當研究假設的先驗機率比較高時,其後驗機率──偽陽性的反機率──就會比較低。這好比你健康檢查某種疾病的篩檢出現陽性時,好的醫生會從你的性別、年齡、生活習慣、飲食作息、家庭病史、乃至於居住環境等脈絡來判斷你是否有充分的病因,以之來詮釋篩檢的陽性結果。這其實就是貝氏更新的道理。

我讀這些文獻後的想法是:統計學很快就會有很重大的改變,傳統的作法、用p值來作統計檢定的作法,大概再過幾年,就不容易再存在。所以大家必須要應變,這也是我這次回國來,希望能夠提醒大家注意的一個問題。

本文經林澤民授權刊登,原文刊載於此

責任編輯:朱家儀
核稿編輯:翁世航

或許你會想看
更多『評論』文章 更多『科學』文章 更多『林澤民』文章
Loader