面部識(shí)別技術(shù)成為整個(gè) AI 行業(yè)最為常見(jiàn)的技術(shù)應(yīng)用之一;不過(guò),在識(shí)別效率越來(lái)越高的同時(shí),人們也開(kāi)始擔(dān)心面部識(shí)別技術(shù)發(fā)展過(guò)程中的隱私安全問(wèn)題。比如說(shuō)最近 IBM 利用 Flickr 下載的圖片來(lái)進(jìn)行面部識(shí)別訓(xùn)練,就引起了人們的質(zhì)疑;NBC News 針對(duì)此事進(jìn)行了詳細(xì)的報(bào)道,雷鋒網(wǎng)對(duì)這篇報(bào)道進(jìn)行了不改變?cè)獾木幾g。
近些年來(lái),面部識(shí)別技術(shù)得到了長(zhǎng)足發(fā)展,除了幫你解鎖 iPhone,還能讓執(zhí)法機(jī)關(guān)在人山人海中“一眼”就認(rèn)出犯罪分子,商店甚至用它來(lái)識(shí)別自己的“死忠”客戶。不過(guò),法律專家卻警告稱,大量未經(jīng)允許濫用網(wǎng)絡(luò)照片最終會(huì)畫(huà)地為牢,反過(guò)來(lái)成為監(jiān)控你的“幫兇”。
現(xiàn)在的面部識(shí)別技術(shù)還不完美,它工作時(shí)靠的是算法,目標(biāo)則很簡(jiǎn)單——認(rèn)出那張獨(dú)一無(wú)二的臉。
想把這個(gè)任務(wù)完成好,技術(shù)人員就必須提前“喂給”算法“養(yǎng)料”,即天量的面部照片。那么這些照片從哪來(lái)呢?當(dāng)然是互聯(lián)網(wǎng)。
起初,算法學(xué)習(xí)的照片都會(huì)按照不同的標(biāo)準(zhǔn)進(jìn)行分類,比如年齡、性別、膚色等,但經(jīng)過(guò)一段時(shí)間的學(xué)習(xí)后,它的能力開(kāi)始變得有些嚇人了,于是法律和人權(quán)專家開(kāi)始大聲疾呼,他們擔(dān)心技術(shù)人員對(duì)普通人照片的濫用會(huì)帶來(lái)“反噬”效果。
“這是 AI 訓(xùn)練數(shù)據(jù)集背后的骯臟小秘密。技術(shù)人員可不管三七二十一,只要能用的照片他們都不放過(guò)?!奔~約大學(xué)法學(xué)院教授 Jason Schultz 說(shuō)道。
最近 IBM 公司也進(jìn)了“暴風(fēng)圈”,今年 1 月它們向研究人員分享了自己的數(shù)據(jù)集,包含了 Flickr 上近 100 萬(wàn)張照片,雖然 IBM 號(hào)稱此舉是為了減少面部識(shí)別的偏差。
了解真相后的攝影師們不愿意了,因?yàn)?IBM 在他們的作品上加了各種細(xì)節(jié)注釋,包括面部幾何結(jié)構(gòu)、膚色等信息,而這些照片最終可能會(huì)成為面部識(shí)別算法的“養(yǎng)料”。
“我拍過(guò)的人可沒(méi)想過(guò),自己的照片居然會(huì)被用在面部識(shí)別算法訓(xùn)練上。”公關(guān)經(jīng)理 Greg Peverill-Conti 氣憤地說(shuō)道,他有 700 多張照片被收錄在了 IBM 的“訓(xùn)練數(shù)據(jù)集”中。“IBM 太草率了吧,它們?cè)趺茨懿唤?jīng)同意就使用這些照片”。
IBM 公司 AI 研究主管 John Smith 則表示,公司“致力于保護(hù)個(gè)人隱私”,如果誰(shuí)想從數(shù)據(jù)集中移除照片,盡管聯(lián)系 IBM。
雖然 IBM 信誓旦旦的保證 Flickr 用戶可以隨時(shí)移除數(shù)據(jù)集中的照片,但事情哪有那么簡(jiǎn)單,這本就是個(gè)有來(lái)無(wú)回的“不歸路”。因?yàn)?IBM 需要拍攝者發(fā)送想要移除圖片的鏈接(光靠 Flickr 賬號(hào)不管用),而它們卻從沒(méi)分享過(guò)到底這個(gè)數(shù)據(jù)集用了誰(shuí)的 Flickr 照片,所以你大概率會(huì)被蒙在鼓里。
對(duì)于這個(gè)數(shù)據(jù)集,IBM 有自己冠冕堂皇的理由——它將用于學(xué)術(shù)工作,且擔(dān)負(fù)著讓面部識(shí)別變得更加公平的重任。當(dāng)然,在網(wǎng)絡(luò)照片濫用方面,IBM 并不是獨(dú)一家,數(shù)十家其他研究機(jī)構(gòu)或公司也在采集網(wǎng)絡(luò)照片訓(xùn)練自己的面部識(shí)別系統(tǒng)。
一些法律專家認(rèn)為,這不僅僅是對(duì)數(shù)百萬(wàn)人肖像權(quán)和隱私權(quán)的侵犯,它還加重了人們對(duì)面部識(shí)別技術(shù)的擔(dān)憂,也許有一天執(zhí)法部門會(huì)讓它“雙手沾滿鮮血”。
面部識(shí)別技術(shù)的進(jìn)化歷程
面部識(shí)別工具剛剛誕生時(shí),研究人員會(huì)付錢請(qǐng)人來(lái)試驗(yàn)室“幫忙“,這些人拿錢辦事,將自己不同姿態(tài)和光照角度下的照片留了下來(lái)以供研究之用。不過(guò),這樣的方案成本高還浪費(fèi)時(shí)間,因此早期的數(shù)據(jù)集往往只有數(shù)百個(gè)樣本。
進(jìn)入新世紀(jì)后,互聯(lián)網(wǎng)飛速發(fā)展,研究人員突然意識(shí)到,面部識(shí)別的好時(shí)光來(lái)了,因?yàn)榫W(wǎng)上有天量的照片可供使用。
“直接打開(kāi)搜索引擎,輸入名人的姓名,然后下載各種 360 度無(wú)死角的照片既可。”美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)局?jǐn)?shù)據(jù)集采集人員 P. Jonathon Phillips 說(shuō)道。
隨著社交網(wǎng)絡(luò)的興盛和自媒體的發(fā)展,普通人的照片也突然多了起來(lái)。研究人員默認(rèn)這些照片是對(duì)所有人開(kāi)放的,有時(shí)他們甚至?xí)?YouTube 的視頻中抓取面部圖片。
由于工作的非經(jīng)營(yíng)性質(zhì),學(xué)術(shù)人員用起照片來(lái)絕對(duì)是近水樓臺(tái),因?yàn)樗麄兡芾@過(guò)版權(quán)問(wèn)題了,而 Flickr 的性質(zhì)更是讓它們成了研究人員絕對(duì)的安全之選。
為了保證數(shù)據(jù)集的多樣性,IBM 其實(shí)從 Flickr 上 Down 了超過(guò) 1 億張照片,隨后又精選了 100 萬(wàn)張有注釋的面部照片。為了力求精確,它們甚至為這些照片定了 200 多種分類標(biāo)準(zhǔn)。
谷歌學(xué)術(shù)指出,這種研究方法在業(yè)內(nèi)幾乎已經(jīng)是盡人皆知,因?yàn)橛袛?shù)百篇學(xué)術(shù)論文都在靠照片采集來(lái)佐證自己的論點(diǎn),沒(méi)人敢說(shuō)自己是完全清白的,或者拿到了授權(quán)或同意。因此,面部識(shí)別準(zhǔn)確性的提高和分析工具的進(jìn)步主要就是靠這些“野路子”來(lái)的照片。
IBM 真沒(méi)拿面部數(shù)據(jù)集賺錢?
“要想讓面部識(shí)別系統(tǒng)超常發(fā)揮,訓(xùn)練數(shù)據(jù)必須足夠多樣化,而且覆蓋范圍足夠廣?!盜BM 的 John Smith 說(shuō)道。
在 IBM 看來(lái),自己的數(shù)據(jù)集并未將圖片中的人臉和具體的名字聯(lián)系起來(lái),這就意味著系統(tǒng)不會(huì)侵犯人們的隱私。不過(guò),依然有人質(zhì)疑 IBM 的動(dòng)機(jī),因?yàn)樗鼈兛墒窍蛘鍪圻^(guò)監(jiān)控工具。
舉例來(lái)說(shuō),911 襲擊發(fā)生后,IBM 就將面部識(shí)別技術(shù)賣給了紐約警方,執(zhí)法部門通過(guò)搜索監(jiān)控錄像就能識(shí)別出特殊的膚色或發(fā)色。IBM 還曾推出過(guò)“智能視頻分析”產(chǎn)品,它們能通過(guò)監(jiān)控?cái)z像頭給人們加標(biāo)簽(亞裔、黑人或白人)。
如今,IBM 則有了 Waston 視覺(jué)識(shí)別系統(tǒng),通過(guò)圖片算法就能識(shí)別出人的年齡和性別。配合正確的訓(xùn)練算法,客戶就能從圖片或視頻中識(shí)別出特定的人。在被問(wèn)到 Waston 用了什么訓(xùn)練數(shù)據(jù)時(shí),IBM 稱數(shù)據(jù)有多個(gè)來(lái)源,不過(guò)卻拒絕披露具體的數(shù)據(jù)來(lái)源,并美其名曰保護(hù)知識(shí)產(chǎn)權(quán)。
一再逼問(wèn)下,IBM 稱從 Flickr 拿到的相片數(shù)據(jù)集僅用于研究,不會(huì)用來(lái)提升公司的商用面部識(shí)別工具。不過(guò),有專家指出,類似 IBM 和 Facebook 這樣的公司,其研發(fā)和商業(yè)運(yùn)營(yíng)部門之間的界限非常模糊,而且研發(fā)部門的知識(shí)產(chǎn)權(quán)均歸 IBM 所有。因此,面部識(shí)別公司 Kairos 前 CEO Brian Brackeen 斷言,即使學(xué)術(shù)部門研發(fā)的算法有其非商業(yè)化性質(zhì),這些算法最終還是會(huì)被拿來(lái)賺錢。
他還打了個(gè)形象的比喻,“你可以把它看做拿面部識(shí)別技術(shù)洗錢,公司將網(wǎng)上的照片洗成了自己的知識(shí)產(chǎn)權(quán)。”
“被選中”的攝影師們?cè)趺聪?
澳大利亞攝影師 Georg Holzer 將自己的作品上傳 Flickr 是為了記錄自己聲明中的精彩瞬間,他也簽署了創(chuàng)意認(rèn)證,只要是非營(yíng)利性項(xiàng)目,就能免費(fèi)使用他的照片。不過(guò),他沒(méi)想到自己的照片會(huì)成為面部識(shí)別技術(shù)的“養(yǎng)料”。
“我了解技術(shù)能造成的傷害。”Holzer 說(shuō)道。“當(dāng)然,面部識(shí)別技術(shù)也有其積極的一面,但如果用得不對(duì),它也能剝奪人的基本權(quán)利和隱私。我是無(wú)法接受這項(xiàng)技術(shù)廣泛應(yīng)用的。”
“我覺(jué)得 IBM 可不是家慈善公司,最終它們還是會(huì)用這項(xiàng)技術(shù)牟利,所以面部識(shí)別技術(shù)還是會(huì)進(jìn)入商業(yè)市場(chǎng)?!盚olzer 說(shuō)道。
Dolan Halbrook 也有 452 張照片被 IBM 的數(shù)據(jù)集“侵吞”,他也認(rèn)為 IBM 在使用這些照片時(shí)應(yīng)該征得自己的同意。
當(dāng)然,也有攝影師覺(jué)得自己的照片能被 IBM 選中并用在推動(dòng)面部識(shí)別發(fā)展上是一大幸事。
瑞士的 Guillaume Boppe 就表示:“如果我的照片能幫助 AI 進(jìn)化,降低探測(cè)錯(cuò)誤率并最終提升全球安全指數(shù),我舉雙手贊同。”
想從數(shù)據(jù)集中刪圖?沒(méi)那么容易
如果你不同意 IBM 將自己的照片當(dāng)成訓(xùn)練數(shù)據(jù),也可以聯(lián)系它們刪除,但操作起來(lái)沒(méi)那么容易。一位被抓取 1000 多張照片的攝影師忙活了半天,也只刪除了 4 張照片,因?yàn)樗麩o(wú)法找到所有照片的鏈接,而 Flickr 賬號(hào) IBM 可不認(rèn)。
此外,即使從 IBM 的數(shù)據(jù)集中刪除了照片,IBM 研究伙伴拿到的數(shù)據(jù)集也無(wú)法一并刪除(已經(jīng)有 250 多家組織和機(jī)構(gòu)接入了 IBM 的數(shù)據(jù)集)。
顯然,IBM 的數(shù)據(jù)集不是公共場(chǎng)所,沒(méi)法想來(lái)就來(lái)想走就走。
好在,各國(guó)對(duì)隱私數(shù)據(jù)的保護(hù)正在加強(qiáng)。舉例來(lái)說(shuō),歐洲就將照片看做“敏感個(gè)人數(shù)據(jù)”,如果 IBM 不按規(guī)定刪圖,可能就會(huì)被歐盟重罰。在美國(guó),也有一些州有了相關(guān)規(guī)定,在不征得當(dāng)事人同意的情況下采集、存儲(chǔ)和分享生物信息屬違法行為,而生物信息包含指紋、虹膜和面部幾何結(jié)構(gòu)等。
近期,芝加哥的律師 Jay Edelson 就向 Facebook 發(fā)起了集體訴訟,稱其面部識(shí)別工具觸犯了相關(guān)法律。
至于典型的法院判例,現(xiàn)在還是一片空白。
原文標(biāo)題:面部識(shí)別技術(shù)背后,有什么“骯臟的小秘密”?
文章出處:【微信號(hào):WW_CGQJS,微信公眾號(hào):傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。