頂尖期刊上的社科實驗結果也未必可靠,但這不是壞消息

頂尖期刊上的社科實驗結果也未必可靠,但這不是壞消息
Image Credit: Depositphotos
我們想讓你知道的是

一項計劃選取了21項在《自然》及《科學》上發表的社會科學研究,並嘗試重複當中的實驗結果,卻發現有8個結果無法複製,而專家似乎能準確判斷哪些結果可複製。

實驗是科學發展中的重要環節,那麼科學家如何能夠確定實驗結果可靠?這往往需要其他科學家重複實驗,檢視是否得出相同結果。假如實驗設計恰當,在多次類似的實驗後,累積的結果能讓科學界得出共識。

然而實驗偶爾會出現「假陽性」(false postivie)的結果——實際上沒有效應,卻剛好得出正面結果——這並非源於研究人員造假,而是結果按概率分布可能會出現的現象。舉個例子,假如有100個人各擲骰6次,而且骰子沒有做手腳,擲出1至6的結果應各佔約六分之一(即100次左右),不過總會有些人擲出來的點數較多,也有些較少,或許會有人剛好只擲出5和6——若只看單一人的結果,便會認為骰子做過手腳,多看幾個人的結果或多擲幾次才會並非如此。

現時每年有大量研究論文在期刊發表,要知道哪些結果可靠就變得更為重要。其中一種驗證方法,就是重複進行實驗。問題在於,期刊編輯可能較想刊出新發現,而非重複已知研究結果;在發表論文、申請資助的壓力下,研究人員也會傾向發表新結果,多於確認他人的研究。

此外,實驗樣本不足、數據不透明、誤用統計學(例如具爭議的p值)及出版偏誤(publication bias)等問題,亦會增加學術期刊中不準確的研究結果。使用更嚴格的統計工具、要求事先登記實驗以及重複實驗等,都有助令研究結果更可靠。

重複實驗的計劃

實驗是否可以重複得出結果——稱為實驗的「可重複性」(reproducibility)——這個問題,在科學界越來越受關注,甚至有人認為學界正面對不少研究結果無效的「可重複性危機」。除了進行重複實驗以驗證結果外,倡議者亦希望能夠有系統去研究重複實驗,以及增加誘因讓研究人員驗證實驗結果,務求改變學界文化。

近年不乏大型的重複實驗計劃,例如2015年在頂尖期刊《科學》發表論文的「可重複性計劃︰心理學」(The Reproducibility Project: Psychology, RPP)及隨後同樣在該期刊發表論文的「實驗經濟學複製計劃」(the Experimental Economics Replication Project, EERP)。

RPP由270名心理學家合作,嘗試重複過百項曾於頂尖心理學期刊發表過的實驗。結果發現,原本100項實驗中97項結果具統計顯著性,重複實驗中這數字降到36項,如果把兩次實驗的數據合起來則有68項,仍比原本的數字低。EPP複製了18項經濟學實驗,發現有61%實驗有原本研究相符的效應(但強弱未必一樣)。

研究頂尖期刊的研究

本周一(27日)在《自然—人類行為》(Nature Human Behaviour)發表的另一項研究,則檢視了2010年至2015年期間、在頂尖期刊《自然》及《科學》的21項社會科學研究,並按研究主要結果重複進行相關實驗,發現有6成至7成的實驗可重複結果,但效應較弱。另外,研究作者的調查發現,專家能夠準確事先評估實驗結果能否重複,顯示實驗結果能否複製,並非單純隨機因素所致。

這項研究稱為「社會科學複製計劃」(the Social Sciences Replication Project, SSRP),研究作者按照以下三個標準,從2010年至2015年間的《自然》和《科學》中選擇研究︰

  1. 研究測試參與者之間或內部的實驗介入效應;
  2. 研究測試最少一項清晰的假說,而且有統計上顯著的發現;
  3. 實驗在學生或其他容易找到的對象上進行。

最終他們找到21項合符標準的研究,再從中選取最重要的實驗來重複。

Business_Computer_Graphic
Image Credit: Depositphotos

為確保能夠盡量準確複製實驗,研究人員聯絡了這21項研究的作者,以取得相關的實驗資料,包括實驗所用的程式,以及在重複實驗後把報告的草稿傳給他們,讓原作者回應。只有一項研究的原作者未有提供資料及回應(其中一位作者於2013年逝世)以及一項研究的作者不同意報告,大多數作者都認可重複實驗的報告——不過研究作者強調,這不代表原作者同意最終結果或詮釋。

重複實驗的過程共分兩個階段,如果實驗在第一階段已得到跟原本研究一致的結果及75%的效應值(effect size)便告完成,否則會再進行第二階段,進一步收集數據,偵測有否原本研究的50%效應值。複製實驗的樣本數量較原本的研究多,在第一階段平均為原本實驗的3倍,第二階段則為6倍。

21項複製實驗當中,有13項(62%)的效應跟原本研究一致,另外8項(38%)的結果無法複製。成功複製結果的13項實驗中,平均的效應值為原本實驗的74.5%;至於8項無法複製結果的實驗,其平均效應值則為原本實驗的0.3%。作者特別指出,即使只看可重複的實驗,其效應值亦比原本的發現為弱。

假如結合重複實驗及原本實驗的數據,則總共有16項(76%)研究的效應跟原本研究一致,而且這樣計算亦假如原本的研究沒有偏差,高估了相關效應。

學界更接受重複實驗

領導研究的心理學家及開放科學中心執行總監路錫克(Brian Nosek)不認為這個結果反映學界有「可重複性危機」,他說︰「我不認為這是個危機,而是改革。社會科學界的研究嚴謹性及透明度急劇增加,我們正處於這個改變之中。」

2015年重複心理學實驗的RPP同樣由路錫克領導,他指過往嘗試重複實驗會招來敵意,但今次獲得原作者合作。他強調重複實驗並非要指責誰是差劣的研究員,又指學界的接受程度在過去5年完全改變︰「2012年時重複實驗感覺上像是攻擊,因為那時在科學界非常罕見。現在這已變得正常。」

有科學家在其實驗結果無法複製後表示「對原本發現失去信心」,甚至認為原本的研究樣本太少,在現時不能發表;亦有人承認對其結果無法複製感到失望,但認為這是科學的一部分,更是其進步的方法。

路錫克也指出,重複實驗得出相反結果,不代表原實驗完全無法重複,因為沒有單一研究能作出斷言。他說︰「科學實際上是減少不確定性的過程。」重複實驗結果有別,亦可能是因為研究方法的限制。

同行能猜中哪些實驗結果較可信?

SSRP除了重複21項實驗外,亦找來專家評估原本實驗結果的可信程度,參與調查的先決條件為擁有博士學位或正在攻讀博士。他們找到397人參與,所有參與者均獲得複製實驗的報告(在進行實驗前的版本,未有結果)以及原本研究的論文,並分組參與問卷調查或「預測市場」,以了解參與者對各個實驗的結果能否複製的信心。

研究人員發現,兩項調查得出對各個實驗的信心程度,跟該實驗是否可成功複製結果高度相關,他們指整體而言,同行能非常有效預測重複實驗會否成功。路錫克表示,也許我們能夠認真對待整個學術社群認為可能是真的研究。

41562_2018_399_Fig4_HTML
Image Credit: Nosek et al. 2018
圖表中可複製結果的實驗以藍色標示,否則以黃色標示;越靠右代表同行信心越高。圖中藍色點大致上在右邊,黃色則在左邊,可見同行信心調查和預測市場結果,跟實驗結果能否複製相關。

路錫克指「預測市場」的參與者基於對研究結果的評估——包括其可能性、統計證據的質素等——來作出判評,他說︰「假如原本研究結果令人驚訝,參與者會認為這較不可能是真的。因此才那句格言︰『非凡的宣稱需要非凡的證據』。」

學術界的文化改變

「可重複性危機」不侷限於心理學、經濟學及社會科學等領域,生物醫學、生態及演化、神經科學等學科的研究,也被質疑有不少結果無法複製。

《自然》曾進行一項問卷調查,收集1576位來自生物學、化學、醫學、物理學及工程等領域的研究人員的意見,有超過一半人認為學界存在明顯的「可重複性危機」,另外有38%人認為是個輕微的危機,僅有3%人認為危機不存在。

該調查中有超過一半的研究人員表示,他們曾無法複製別人的研究結果,與此同時,能夠把重複實驗的結果發表的人只佔少數——而且很多人不會嘗試發表。

研究心理學實驗可重複性的學者克萊因(Richard Klein)認為,期刊能夠設立規則,包括要求分享數據、訂立統計標準、公開更多資料,以促進學術界推動重複實驗。《自然》及《科學》的發言人都表示,他們嘗試鼓勵作者盡量詳細講解其研究方法,以協助評估和複製其研究工作。

克萊因稱學術界需要改變現時的文化,他認為強調創新、令人驚訝的發現,實際上會製造發表相關研究的誘因,卻不符合科學運作所需的循序漸進、謹慎的方式。他相信由下而上的方式去改善實驗可重複性,比起由上而下的指令更有效︰「大多數科學家都想做好科學,並發表他們認為真的研究。」

相關文章︰

資料來源︰

或許你會想看
更多『新聞』文章 更多『科學』文章 更多『Kayue』文章
Loader