手上只有錘仔,看什麼都像釘子:大數據的傲慢與偏見

手上只有錘仔,看什麼都像釘子:大數據的傲慢與偏見
Photo Credi: AP/達志影像
我們想讓你知道的是

大數據不缺福音傳播者,但我不是其中一員。大數據如何讓一些人如何在人生的重要關頭因此受到傷害,例如在報讀大學、申請貸款、被判入獄,或是求職(或希望保住工作)時。我們在這些領域莫不愈來愈受制於一些秘密運作的數學模型,可能莫名其妙地受到懲罰。歡迎認清大數據的黑暗面。

文:凱西.歐尼爾(Cathy O’Neil)
數字將說明一切?

一如多數情況,這個案例始於一個值得讚賞的目標。2007年,華盛頓特區新市長芬提(Adrian Fenty)決心改善該市表現不佳的學校。他的計畫大有道理:當時在華盛頓特區,九年級之後每兩名高中生只有一名能順利畢業,而八年級學生數學成績達到該年級標準的只有8%。芬提請來教育改革者李洋姬(Michelle Rhee)擔任一個掌握大權的新職位:華盛頓特區教育局長。

那時當局的想法是這樣的:學生學得不夠,是因為老師沒做好教學工作。因此在2009年,李洋姬推行一個方案,目的是除去表現最差的一批教師。這是全美各地有問題的學區的一個趨勢,而站在系統工程的角度,這種想法極有道理:教師的表現必須接受考核,表現最差的教師必須離職,表現出色的老師則應放在他們可以發揮最大作用的位置。採用數據科學家的說法,這麼做可以「優化」學校系統,而這理應可以改善學生的成績。除了「壞」老師,誰會質疑這種做法呢?李洋姬開發出一套名為IMPACT(譯註:字面意思為衝擊或影響)的教師評價系統,然後在2009至10學年結束時,華盛頓特區將表現最差的2%教師全部炒掉,翌年再炒掉5%的教師(206人)。

教五年級的韋索奇(Sarah Wysocki)看來完全不需要擔心。她在麥法蘭中學(MacFarland Middle School)只是教了兩年,但已經得到校長和學生家長非常好的評價。有人稱讚她很關心學生,還有人說她是「我見過的最佳教師之一」。

但是,2010至11學年結束時,IMPACT系統給韋索奇打了一個很差的分數。問題出在一個名為「增值模型」(value-added modeling)的新評分系統,該系統的目的是測量她教數學和語言技能的表現。增值模型由一種演算法產生分數,而該分數占她得到的總評價一半,結果完全抵銷了學校主管和學生家長對她的好評。因為韋索奇的IMPACT總分數達不到最低標準,華盛頓特區教育局只好炒掉她(另有205名教師因此失去教職)。

韋索奇看來不像是被迫害或遭報復。事實上,教育當局的做法有其道理。畢竟學校主管可能是壞老師的朋友,可能喜歡他們的作風或表面上的熱忱。壞老師確實可能裝得很像好老師。因此,一如許多其他地區,華盛頓特區決定盡可能防止人的偏見影響老師得到的評價,而辦法是倚重客觀數據:學生的數學和閱讀測驗分數。教育官員表示,數字將說明一切,而這是比較公平的做法。

韋索奇當然覺得她得到的分數極度不公平,而她希望知道分數是怎麼來的。她後來對我說:「我想沒有人明白那些數字。」一位好老師怎麼可能得到那麼差的分數呢?增值模型是在測量什麼?

嗯,韋索奇發現,事情相當複雜。華盛頓教育當局請了紐澤西州普林斯頓的數學政策研究(Mathematica Policy Research)當顧問,負責建立教師評價系統。該組織必須解決的難題,是測量華盛頓特區學生的學習進度,然後估算學生成績會進步或退步有多大程度是拜老師所賜。這當然不容易。學者知道,學生的成績受許多因素影響,包括學生的社經背景,以及學生是否有學習障礙。評價教師的演算法必須顧及這些差異,而這也是這些演算法變得非常複雜的原因之一。

演算法神祇發出的命令

本書討論的許多數學毀滅性武器,包括華盛頓特區教育體系的增值模型,便是這樣。它們界定自己的事實,並利用這些「事實」替它們產生的結果辯解。這種模型會自我延續,產生很大的禍害,而且它們非常普遍。

數學政策研究設計的評分系統認定韋索奇和另外205名教師為失敗者,教育當局便開除他們。但這個系統如何知道自己的判斷是否正確呢?它不會知道。系統本身認定這些人是失敗者,當局於是認定他們是失敗者。206名「壞」老師被開除了。光是這事實似乎便證明增值模型非常有效,因為這顯示華盛頓特區正在清除表現不佳的教師。系統不尋找真相,分數本身便代表真相。

這是數學毀滅性武器產生「回饋環路」(feedback loop)的一個例子。本書還將提供許多其他例子。例如目前愈來愈多雇主利用信用分數評估求職者。這些雇主認為及時支付帳單、不拖欠的人比較可能準時上班並遵守規矩。但事實上,不少負責任的人和好員工因為遇到某些不幸的事,信用分數大跌。雇主相信信用不佳的人工作表現通常也不好,結果是信用分數較低的人比較難找到工作。這些人可能因此失業,結果淪為窮人,導致信用分數進一步降低,因此更難找到工作。這是一種可怕的惡性循環。雇主可能永遠不知道自己因為太重視信用分數,錯過了多少好員工。在數學毀滅性武器中,許多有害的假設獲得數學的掩護,因此未經檢驗,也不受質疑。

這突顯了數學毀滅性武器的另一個常見特徵:它們傾向懲罰窮人。之所以如此,部分原因在於它們是設計來評估很多人的。它們專門處理大量個案,成本低廉。這是它們的賣點之一。相對之下,有錢有勢者往往可以受惠於私人提供的參考資訊。相對於快餐連鎖集團或資源不足的內城學區,顯赫的老牌律師事務所或貴族型學校請人或招生時,仰賴私人推薦和親身面談的程度會高得多。我們將一再看到,有錢有勢者有需要時,通常會有人處理他們的事,而大眾的許多事情則是由機器處理。

韋索奇得到的評分低得驚人,但她找不到一個可以向她解釋原因的人,這件事本身很能說明問題。數學毀滅性武器產生的結論,有如演算法神祇發出的命令。模型本身是個黑箱,其內容是相關業者極力保護的商業機密。顧問公司如數學政策研究因此得以收取較高的費用,但這還有另一種作用:相關業者認為,如果被評價的人不知道自己得到的評價是如何產生的,他們比較不會試圖鑽系統的漏洞。他們將只能努力工作,遵守規矩,然後祈求系統懂得欣賞他們的努力,給予好評價。但是,如果細節不公開,人們也將較難質疑或抗議系統產生的評價。

這與數學毀滅性武器有何關係?容我一一說明。首先,教師評價演算法是改變教師行為的有力工具。這正是這些演算法的目的,而在華盛頓特區的學校,它們既提供獎勵,也準備懲罰表現不佳的教師。教師知道,如果學生在標準測驗中表現太差,他們可能飯碗不保。教師因此有強烈的誘因確保學生在測驗中取得不錯的成績,尤其是在2008年金融危機後經濟大衰退打擊就業市場的情況下。在此同時,如果他們的學生表現出色,教師和學校主管有望獲得高達8,000美元的獎金。如果你考慮這些強大的誘因和相關證據(許多學校的答案卷擦改比例相當高,學生測驗分數也異常高),你會有理由懷疑四年級的教師出於恐懼或貪婪,竄改了學生的答案卷。

AP_06020105943
Photo Credi:AP/達志影像
教師知道,如果學生在標準測驗中表現太差,他們可能飯碗不保。教師因此有強烈的誘因確保學生在測驗中取得不錯的成績,尤其是在2008年金融危機後經濟大衰退打擊就業市場的情況下。你會有理由懷疑四年級的教師出於恐懼或貪婪,竄改了學生的答案卷。

我們因此有理由相信韋索奇所教的五年級生上一學年的測驗分數,因為有人做了手腳而被人為推高了。果真如此,他們本學年結束時的測驗成績將使他們看起來顯著退步了,而他們的老師將因此被視為表現不稱職。韋索奇確信這正是她遇到的情況。這理論符合家長、同事和校長對她的評價(也就是她確實是個好老師),也可以解開疑惑。韋索奇有很好的理由提出申訴。

但是,你無法向數學毀滅性武器申訴。這正是這種武器威力驚人的原因之一。它們不聽人講話,也不會屈服。它們不但不理會你的討好、威脅或誘騙,也不會聽你講道理──即使它們用來推出結論的資料顯然很有問題。沒錯,如果自動化系統顯然因為系統問題而不斷出錯,造成令人尷尬的情況,程式設計師確實會調整演算法。但在多數情況下,這些程式將產生堅定的判斷,而運用它們的人遇到有人抱怨時,只會聳聳肩,就像是說:「嘿,要不可以怎樣?」

這恰恰是韋索奇最終從學區官員那裡得到的回應。甘拉斯後來對《華盛頓郵報》表示,答案卷塗改情況相當可疑,韋索奇那班五年級生的分數的確可能有問題,但證據並不確鑿。他表示,韋索奇得到了公平的對待。

你看到這當中的矛盾了嗎?某個演算法處理了一些數據,估算出某個人不適合聘用、將會借錢不還、將參與恐怖活動或教學表現不稱職的機率,然後根據該機率算出一個分數,而該分數可能令當事人的生活天翻地覆。當事人試著反擊時,「很有意思的」反證無法證明自身清白,因為當局僅接受確鑿的證據。我們將一再看到,在證據標準這一點上,當局對數學毀滅性武器受害者的要求,遠高於對演算法的要求。

韋索奇對自己遭開除震驚不已,但她僅失業數天。因為很多人(包括校長)願意替她的教學表現作證,她很快便在維吉尼亞州北部某富裕社區一間學校找到了教職。因此,拜一個非常可疑的模型所賜,貧窮社區的學校失去了一名好老師,富裕社區一間不會根據學生的分數開除教師的學校,則得到了一名好老師。

設計不周的數學模型精細地管理著我們的經濟

數據科學家往往忽略了交易的另一方。他們無疑知道,數據分析程式一定會有某程度的錯誤率,結果令某個百分比的人被錯誤歸類,因此找不到工作,或因為借不到房貸而無法實現購屋夢。問題是管理數學毀滅性武器的人通常不理會這種錯誤。他們的回饋是金錢,而這也是他們的誘因。他們的系統是設計來分析更多數據的,而他們也會微調分析程式,但目的是賺更多錢。投資人當然也非常喜歡這種報酬,他們因此為數學毀滅性武器業者提供大量的資金。

那受害者又如何呢?嗯,企業內部的數據科學家可能會說,統計系統不可能是完美的。受害者是一種「連帶傷害」,而他們往往會像韋索奇那樣,被視為是可以犧牲的,不值得更好的對待。業者可能會說,先別理這些人,想想眾多受惠者,例如獲得推薦程式提供有用建議的人、在Pandora上找到心愛歌曲的人、在專業社群網站領英(LinkedIn)找到理想工作的人,或是在Match. com找到完美配偶的人。何不想想這些程式驚人的運作規模,就會包容難免的瑕疵?

大數據不缺福音傳播者,但我不是其中一員。本書將致力探索大數據的另一面,揭露數學毀滅性武器造成的損害和延續的不公。我們將提供一些案例,說明一些人如何在人生的重要關頭因此受到傷害,例如在報讀大學、申請貸款、被判入獄,或是求職(或希望保住工作)時。我們在這些領域莫不愈來愈受制於一些秘密運作的數學模型,可能莫名其妙地受到懲罰。

歡迎認清大數據的黑暗面。

書籍介紹

本文摘錄自《大數據的傲慢與偏見:一個「圈內數學家」對演算法霸權的警告與揭發》,大寫出版

*透過以上連結購書,《關鍵評論網》由此所得將全數捐贈兒福聯盟

作者:凱西.歐尼爾(Cathy O’Neil)
譯者:許瑞宋

這是個演算法包圍現代公民的時代!演算法在幕後影響著我們生活的各種決定,包括我們上什麼學校、能否借到汽車貸款,以及醫療保險必須支付多少保費,愈來愈多判斷是由數學模型,而非某些人所做出。這一切看似公平:因為所有人是根據相同的規則評斷,不受偏見影響。

對熱情的「問題解決者」來說,大數據像仙境,它蒐集資訊、再運用數學模型,使我們得以更有效地調配資源、篩選最優的人事物、並做出最好的決定,這些熱情的宣揚者更是四處宣傳大數據應用的威力。

作者指出這些數學模型不透明、不受管制,即便出錯,受害者往往無法申訴。最令人不安的是,這些模型會「強化歧視」,例如,貧窮學生在申請學貸時,可能因自家的郵遞區號,被審核貸款的數學模型視為還款高風險者,因而無法獲得貸款……。這類問題會形成惡性循環——獎勵幸運兒、懲罰遭踐踏的人,創造出危害民主的「有毒雞尾酒」。

在這個人人都被迫擁有自己在某種演算系統中持有「e化評分」的時代,那些建立模型的人應該為他們所創造出來的演算法負起更多責任,而政策制定者更應該負起監督管理的責任。這本重要著作使我們得以提出關鍵問題、揭露這些「數學毀滅性武器」的真相和要求變革。

0-2
Photo Credit: 大寫出版

責任編輯:黃郁齡
核稿編輯:翁世航

或許你會想看
更多『評論』文章 更多『科技』文章 更多『精選書摘』文章
Loader