即使照片「打格仔」,人工智能仍可辨認出來

Photo Credit: Banksy, retouched
你為什麼需要這則新聞

三名研究人員利用人工智能,成功辨認出不少模糊處理過的照片。這項結果顯示,人工智能技術對私隱帶來重大影響。

把照片、影像模糊化或「打格仔」(加馬賽克)處理,向來是保護私隱及敏感資料的重要手段。例如Google地圖的街景服務,會把照片中的人臉及車牌等部份模糊處理,以隱藏有關資訊。

然而這種後製處理手段,是否真的能夠把圖片中的資訊隱去,使其不被他人發現?德州大學奧斯汀分校及康奈爾科技學院的研究人員,就利用人工智能技術,成功辨認出經過各種模糊處理的不同照片。

先不用興奮或恐慌,他們沒有發現甚麼新方法去移除馬賽克、令照片回復原狀,而是透過頗為主流的「深度學習」(deep learning)技術,先提供圖片去「訓練」人工神經網絡,再進行測試,使其從中「學習」辨認圖片。

三名作者把論文預印本放上網絡存庫arXiv。其中一名作者Vitaly Shmatikov表示,他們在這篇論文中用到的技術在圖像識別領域中非常普遍,因此令人擔憂。網絡上不難找到有關教學,Shmatikov認為任何有一定知識的人都能夠做同樣的事,令不少人的私隱受到影響。

肉眼辨認不到的,讓電腦來

在這項研究中,作者選取了4組不同的圖片來源,分別是10張手寫數字照片的MNIST、10張彩色交通工具或動物照片的CIFAR-10、灰階人像照的AT&T(40人共400張圖片)以及過萬張名人照片的FaceScrub。

針對這4個圖片組別,作者分別使用不同方法去將照片作模糊處理,包括4種不同精細度——2×2、4×4、8×8及16×16——的馬賽克,將照片加上模糊濾鏡,以及採用「私隱圖片分享技術」(P3)——類近公鑰加密法,把照片分成「公開」及「私人」圖片的技術——中3個不同設定。

從以下圖表可以看到各種模糊處理方法的分別(P3的設定方面,數字越小越難辨認)︰

Defeating_Image_Obfuscation0
Photo Credit: McPherson et al. 2016

然後他們使用機械學習技術,訓練人工神經網絡辨認圖片(學習及測試用的圖片並不相同),再進行測試。結果人工智能的表現超出預期︰

Defeating_Image_Obfuscation1
Photo Credit: McPherson et al. 2016

上表中,Baseline一行的數字代表隨機猜中的比率,而其他數字則代表人工智能成功辨認的比率。Top 1代表人工智能第一選擇準確的比率,而Top 5則表示首5個選擇準確的比率。

從中可見,即使採用較不清晰的16×16馬賽克,人工智能的表現仍然不錯,例如在AT&T的人像圖片組中,準確度高達96.25%。而在範圍較大的FaceScrub中,仍然有高達57.56%的準確度——假如容許有5個選擇,準確度更超過7成。

在AT&T的圖片組中,研究人員亦利用YouTube內建的工具,把人臉照片模糊化處理︰

Defeating_Image_Obfuscation2
Photo Credit: McPherson et al. 2016

作者承認,只用肉眼看的話,他們完全無法辨認出原圖是哪一張,但他們訓練出來的人工神經網絡辨認準確度卻高達57.75%——首5個選擇的準確度更有87.75%,接近9成。

這項研究所使用的圖片較少,而且是從特定範圍內選擇答案——換言之人工智能只能從它「見過」的資料中找答案——在實際應用上,暫時未必能破解模糊圖片的隱藏資訊。

人工智能對私隱的威脅

不過結果已足以令人關注,人工智能在辨識技術上對私隱會帶來何等程度的威脅。舉例說,不少地方均有鏡頭監視,拍下的影像未必清晰,但利用網絡找來的海量圖片、臉部識別技術等,再結合此研究的技術,或能夠用作「起底」找到特定目標。

Shmatikov說︰「在保安及私隱領域,人們未能充分體會機械學習的力量。除非有人顯示現有的技術已足以造成私隱洩漏,否則他們不會意識到這一件事。」

論文指出,今次的實驗顯示,透過後期制作去隱藏圖片資訊有一定限制,雖然能夠使人類無法辨認部份敏感資訊,但這些圖片往往仍保留充份訊息,讓人工智能可以辨認出來。

作者建認研究保護私隱技術的人員,不應只靠人眼觀察是否能認出資訊,而應該測試利用頂尖圖像識別技術可以尋回多少訊息。他們又認為,設計出能夠保護私隱又保留圖片新聞價值的技術,將會是未來其中一個重要的研究題目。

相關文章︰

資料來源︰

或許你會想看
更多『新聞』文章 更多『科技』文章 更多『Kayue』文章
Loader