服務(wù)熱線：13728883399
wangyp@shangeai.com

以大數(shù)據(jù)為基礎(chǔ)，分析人臉識別技術(shù)的未來

時間：2019-03-27 13:50:12點擊：1182次

本篇大家整理的是來自上海交通大學(xué)人工智能研究院副院長、華東師范大學(xué)特聘教授,國家杰出青年基金獲得者馬利莊主題為《基于大數(shù)據(jù)的人臉識別技術(shù)進(jìn)展與展望》的精彩演講。馬院長參與了騰訊優(yōu)圖人臉識別、微眾銀行刷臉驗證、商湯3D人體姿態(tài)估計等項目,具有豐富的理論和實踐經(jīng)驗。

馬利莊

上海交通大學(xué)人工智能研究院副院長、華東師范大學(xué)特聘教授,國家杰出青年基金獲得者

以下內(nèi)容根據(jù)速記進(jìn)行整理,經(jīng)過馬利莊本人校對。

我匯報提綱包括七個內(nèi)容。首先回顧一下過去十幾年發(fā)生的事情。一個是數(shù)字化時代興起,它催生了互聯(lián)網(wǎng),這是我們時代的主流大趨勢。許多的產(chǎn)業(yè),像數(shù)字媒體業(yè),數(shù)字相機(jī),VR/AR的技術(shù)興起。當(dāng)然我們也知道伴隨著一些行業(yè)的衰落,像膠卷等一些傳統(tǒng)的行業(yè)。早的時候,我們計算機(jī)還有很多的硬盤拷貝等等,這些現(xiàn)在都沒有了。就是因為數(shù)字化的時代催生了互聯(lián)網(wǎng)的時代。

我們剛才看到動動三維這個創(chuàng)意設(shè)計,里面也把一些創(chuàng)意工作放在網(wǎng)上去了,數(shù)字化,利用圖形圖像技術(shù)來展現(xiàn)。互聯(lián)網(wǎng)時代催生了大數(shù)據(jù)。我們知道有眾多的新媒體產(chǎn)生,如微信,幾乎每個人都在使用,平均花2個小時到3個小時,都是數(shù)據(jù)的使用者,同時也是產(chǎn)生者,自然形成了社交大數(shù)據(jù)。微信不僅是社交的工具,也是一個工作的工具;同時成為了一個游戲,這是個深刻改變了人們生活形態(tài)的互聯(lián)網(wǎng)時代。同樣,有一些產(chǎn)業(yè)衰落。我們看到街頭的小商店,小商品市場不景氣。我印象最深刻的是義烏的小商品市場,現(xiàn)在日子很不好過。

互聯(lián)網(wǎng)以及伴隨產(chǎn)生的大數(shù)據(jù)催生了人工智能時代!人工智能有三個要素:

一個是大數(shù)據(jù),有大數(shù)據(jù)作為原料;

第二個是計算能力,主要是GPU與CPU等;

最后是核心的算法,深度學(xué)習(xí)/卷積神經(jīng)網(wǎng)絡(luò)算法。

我1992年在浙大人工智能研究所做博士后,當(dāng)時跟何志均先生,潘云鶴教授是人工智能研究所的所長,那時就研究人工智能,但三起三落,人工智能的發(fā)展是螺旋式演進(jìn)的。當(dāng)時人工智能的發(fā)展為什么非常曲折和起伏,原因主要是缺少一個大數(shù)據(jù)的原料,缺少大量的算力,同時缺少深度學(xué)習(xí)等卷積神經(jīng)網(wǎng)絡(luò)新算法。當(dāng)時計算能力限制,算法處理不了現(xiàn)在大量復(fù)雜的數(shù)據(jù)或者大數(shù)據(jù)。像人臉識別的深度學(xué)習(xí)算法,需要要標(biāo)注數(shù)據(jù),我們與騰訊的優(yōu)圖人臉項目中,用了近百萬級別的人臉標(biāo)注。在當(dāng)時九十年代,這是難以想象的規(guī)模。

當(dāng)時有軟盤,只有1兆多,現(xiàn)在一幅超高清的圖像都是幾兆數(shù)據(jù),甚至更高。我們做AI+醫(yī)療的研究,分析腫瘤的病理切片。一張圖片有上百兆數(shù)據(jù),包括深度學(xué)習(xí)時涉及的相關(guān)參數(shù),算法實現(xiàn)過程顯示內(nèi)存很可能不夠。

人工智能時代催生智能手機(jī),智能安防,智能社區(qū),智能語音與機(jī)器人等。在座的各位比較幸運,因為人工智能時代中長久興旺的是軟件行業(yè),創(chuàng)意創(chuàng)新。智能創(chuàng)意不可能被AI替代。但目標(biāo)明確,規(guī)則清晰的行業(yè)就非?？赡鼙籄I替代。

9億的微信用戶,每天有10多億的圖像和視頻數(shù)據(jù)傳輸。阿里巴巴改寫了商業(yè)版圖,伴隨大數(shù)據(jù),人工智能興起。在座的可能在股市中投資,過去幾年,NVDIA和AMD的股價漲了十倍,重要的因素是AI對計算能力的需求大幅增長,當(dāng)然另外的原因是比特幣和區(qū)塊鏈的熱潮中,大量挖礦對算力的海量需求。

互聯(lián)網(wǎng)的極速發(fā)展,自然匯聚了可視媒體大數(shù)據(jù)。這些信息的增長改變了我們的生活方式,例如社交網(wǎng)絡(luò)中的微信。當(dāng)然也有挑戰(zhàn),大數(shù)據(jù)體量已經(jīng)超越了現(xiàn)有的硬件處理條件,比如說存儲空間,和計算資源的不足。我們認(rèn)為該領(lǐng)域的科學(xué)問題包括:數(shù)據(jù)的高效表達(dá),智能的處理以及結(jié)構(gòu)化,深度學(xué)習(xí)與感知理論,基于視覺感知的失真度量,不確定環(huán)境下的任務(wù)感知與理解等。

現(xiàn)在有理論研究證明深度學(xué)習(xí)模型合適條件下可以收斂到全局最優(yōu)解。這是目前為止深度學(xué)習(xí)中最新的一個理論成果。我們在座各位要重視。以前我們調(diào)侃各種深度學(xué)習(xí)模型重要的是調(diào)參數(shù),有人運氣好,會調(diào)出好的結(jié)果,但現(xiàn)在有理論依據(jù)和保障。

技術(shù)的突破源于需求。城市大數(shù)據(jù),有很多交通、環(huán)境的感知數(shù)據(jù)等。金融大數(shù)據(jù),阿里、騰訊、百度都有積極的介入,希望提升運用效率和結(jié)構(gòu)效率?；ヂ?lián)網(wǎng)金融中,還有所謂的萬物互聯(lián);徐教授也講了,不光是視覺,聽覺,還有嗅覺,味覺等等相關(guān)的感知數(shù)據(jù)。將人、路由器,服務(wù)器,業(yè)務(wù)系統(tǒng)等等作為研究對象,以網(wǎng)絡(luò)地圖的方式實現(xiàn)網(wǎng)絡(luò)空間態(tài)勢感知,服務(wù)于網(wǎng)絡(luò)攻防戰(zhàn)。這就是斯諾登揭示的棱鏡項目。

回到主題,智慧城市以人為中心,我們?nèi)斯ぶ悄苁且Ｕ蟼€體的信息安全,提高人的生活質(zhì)量,讓生活更美好。2010年世博會,上海提出城市讓生活更美好,非常符合我們智慧城市的總體目標(biāo)。個體信息安全就涉及到身份的認(rèn)證和門禁、監(jiān)控等。所以人臉識別和行為姿態(tài)識別是關(guān)鍵技術(shù)。

現(xiàn)在講一個比較形象的術(shù)語就是刷臉技術(shù)。很多人都知道,早幾年的時候,我們跟騰訊合作研發(fā)微眾銀行的刷臉技術(shù),微眾銀行只需一個總部即可,不像工商銀行一樣有幾萬的分支機(jī)構(gòu)。它只要一個總部,其業(yè)務(wù)都可以通過遠(yuǎn)程核身和身份認(rèn)證可以實現(xiàn)。當(dāng)時總理親歷了刷臉技術(shù)過程。刷臉驗證,出租司機(jī)獲得了3.5萬元的貸款。這是微眾銀行的第一筆互聯(lián)網(wǎng)銀行的放貸業(yè)務(wù)。

互聯(lián)網(wǎng)人臉識別技術(shù)跟傳統(tǒng)銀行不同。銀行里面我們知道有“三親”原則。這是互聯(lián)網(wǎng)金融這塊必須考慮的問題,親見申請人本人,親核申請人身份證原件,親見申請人本人簽字。我們可以通過遠(yuǎn)程核身技術(shù)做到。

傳統(tǒng)的方法是人工成本高。剛才講的刷臉技術(shù)用于銀行中的互聯(lián)網(wǎng)金融,刷臉準(zhǔn)確率99.9%還是不夠。生物識別技術(shù)有很多種,我們要融合多元特征,例如臉部表情、聲音或聲紋,還有人臉的特征,提高身份遠(yuǎn)程核身的可靠性和準(zhǔn)確率。人臉識別是最為自然的交互技術(shù),現(xiàn)在可以做到非常高的精度。我們知道讓你按一個手印,可能你感覺像罪犯,因為身體的接觸,很多人比較忌諱。目前人臉識別技術(shù)有門檻。我們跟騰訊優(yōu)圖合作來,在LFW數(shù)據(jù)集上可以達(dá)到99.65%和99.8%。

人臉識別技術(shù)挑戰(zhàn)與難點,主要是圖像的采集質(zhì)量;其次是光照環(huán)境和姿態(tài)。因為識別分為主動式和被動式;金融支付里面是人會主動配合采集設(shè)備,圖像質(zhì)量和人臉姿態(tài)好。這種情形,識別率可以達(dá)到99%。但很多時候,人臉會在不同的光照條件下,產(chǎn)生大的差異,比如說昨天晚上我們部分智能創(chuàng)意與數(shù)字藝術(shù)的專委會人員合影的時候,背影強(qiáng)光,人臉拍出來就很暗,姿態(tài)也各異等等。還有年齡跨度問題等。身份證有效期有15年或20年。還有院士說豬臉的識別,豬臉狀態(tài)是短暫的,或者快速變化的,因為生長周期一般只有半年,其識別率會大大下降。我們知道蠟像,外形幾乎跟你做的一模一樣。當(dāng)然蠟像缺乏臉部表情,讓他對話就露餡了。我們捕捉臉部表情的微變化這個就可以防御有人用它來欺騙攻擊系統(tǒng)。

目前我們的研究方向包括深度學(xué)習(xí)技術(shù),基于人臉物理性質(zhì)的推理和人臉語義或表情的推理;人臉監(jiān)測,特征跟蹤,跨年齡的人臉識別,以及三維人臉識別。我們重點攻克三維人臉識別。一張正面的照片,可以生成一張逼真的三維人臉。

活體檢測可以真正提高我們這個識別系統(tǒng)的安全性。有的公司號稱是采用人臉識別技術(shù),其實用一張大照片就能通過驗證。這說明他們沒有采用活體檢測,也沒有用三維光照變化的信息,以及綜合人臉表情、聲紋來辨別真假。

下面我講講互聯(lián)網(wǎng)金融視頻監(jiān)控中取得的進(jìn)展。

大的框架,我們看看人臉識別上面。這是我們跟騰訊的優(yōu)圖組一起合作,基于騰訊云平臺和相關(guān)的人臉識別技術(shù)。2014年的時候,在FDDB數(shù)據(jù)集上人臉檢測達(dá)到了世界第一,人臉識別率在LFW數(shù)據(jù)集上刷新世界紀(jì)錄99.65%。采用的主要是標(biāo)注大量的人臉圖片與非人臉圖片的數(shù)據(jù)(近百萬級別)。這在20年以前是難以想象的。騰訊優(yōu)圖有很多的實習(xí)生,認(rèn)真的標(biāo)注。我們采用VIOLA-Jones瀑布流框架的算法優(yōu)化。

大規(guī)模小人臉的檢測方面。這張照片里面人臉數(shù)目上千。計算機(jī)視覺算法可以識別超860個人臉。以前的方法是無法想象的。一般的人能夠識別到兩百多個,已經(jīng)非常很難。主要是用的這個DSFD人臉檢驗算法,包括了特征增強(qiáng)模塊、分層錨點漸進(jìn)式LOSS的算法。

根據(jù)人臉識別的身份認(rèn)證。我們用百萬級人臉數(shù)據(jù)庫訓(xùn)練,多個數(shù)百層深度學(xué)習(xí)模型集成。目前有一個權(quán)威數(shù)據(jù)集MegaFace,我們項目組取得了83.29%的準(zhǔn)確率,位列榜首。我們提出了新的光線活體提高識別方法的安全性。大家知道安全性非常重要,真正用于安全監(jiān)控以及公安系統(tǒng)的時候,不光是識別人臉模型,還要考慮防偽和防攻擊。我們這次進(jìn)博會刷臉系統(tǒng)應(yīng)用,每天差不多30萬人進(jìn)出場館。我們知道6位的金融密碼,其實試一百萬次就一定有你正確的密碼。30萬人中,臉長得非常像的概率是很大的,特別是有些雙胞胎,很難識別。我們要用到多生物特征技巧,達(dá)到安全、簡便、高速、通用等要求。

安防監(jiān)控里面,我們需要找到不同攝像頭里的同一個人物。我們以前出了事情后期檢驗,看問題在哪;現(xiàn)在要同步進(jìn)行。該任務(wù)下一個路徑到哪一個地方等等。人的姿態(tài)會有很大差異,同一個人的姿態(tài)變化也很多。人體重識別方面,我們在三個主流數(shù)據(jù)上獲得第一。主要方法是通過了多任務(wù)交替訓(xùn)練,基于分塊的金字塔模型。

我們與商湯也是開展了這方面的合作,跟騰訊的合作已經(jīng)七年多。人體跟蹤方面,追蹤視頻中行人并對其運動軌跡做出預(yù)判。項目組的人體跟蹤技術(shù),在權(quán)威測評MOT challenge上取得了兩項記錄。采用的技術(shù)方法,包括基于圖匹配模型的目標(biāo)關(guān)聯(lián)算法,基于有效動態(tài)差分的運動相似度計算算法,以及基于行人再識別技術(shù)的特征相似度模型等。還有其他的應(yīng)用,基于深度學(xué)習(xí)的人臉識別技術(shù),以及顏值測算,可用于社交娛樂。

我們前年的時候,用了1300臺服務(wù)器,每天1億人臉計算平臺。還有天天P圖,人臉美化等分析技術(shù)。

我們跟商湯合作開展3D人體姿態(tài)估計。通過單張圖片,估計人體的姿態(tài)模型?；诙S圖像序列估計3D人體姿態(tài)是非常實用的。在最大的人體姿態(tài)數(shù)據(jù)集Human3.6M上,我們?nèi)〉萌椫笜?biāo)第一。這個成果還在保密階段,主要是對人體的快速估計。還有像素級別的語義分割,GTAV和SYNTHIA數(shù)據(jù)集作為源數(shù)據(jù)集,Cityscape作為目標(biāo)數(shù)據(jù)集,相關(guān)的指標(biāo)Mean IoU提高10個百分點。還有一個是預(yù)測RGB圖片上每個像素對應(yīng)位置的深度值。該項研究非常重要。我們在座的肯定有很多搞創(chuàng)意設(shè)計,會涉及到二維三維的。我想做個革命性預(yù)測,因為有了深度相機(jī)以后,基于很好的三維重構(gòu)技術(shù)將來每個普通的人都可以生成三維的場景;普通人拍一段視頻就能生成三維的,自然形成海量的三維動畫視頻數(shù)據(jù),這是未來大發(fā)展方向。

我很簡單的講一下視覺無損壓縮技術(shù)?；谌祟惖囊曈X特性,對圖像進(jìn)行極限程度的壓縮。只要人的視覺感受不出差別,我們對其做一個最大程度的壓縮,非常實用。我們在2014年的時候,就處理了1200億張圖片的壓縮。這個例子中,左邊是3M,右邊是700多K,但是肉眼分辨不出哪一個是原始圖像。還有相關(guān)研究如自動上色和風(fēng)格化。中國傳統(tǒng)文化中有所謂的面像學(xué)。相由心生,從大數(shù)據(jù)的概念,從面部特征包括耳垂,眼眉間距等,找出相關(guān)的統(tǒng)計規(guī)律。人臉配準(zhǔn)和識別可以用于望診。我們跟上海兒童醫(yī)學(xué)研究院做一個兒童罕見遺傳基因缺損癥研究項目。例如唐氏綜合癥,我詫異的是什么呢?兩個兒童得了某種基因缺損癥,他們沒有任何血緣關(guān)系,但是臉部的共同特征非常明顯。我做基因檢測,有將近兩千多種的基因缺損癥,這個太費錢費時。我用照片篩選一下,判斷一下你的某一個基因可能是缺損的,那么再去做對應(yīng)的DNA檢測。

中醫(yī)四診望聞問切,是辨證論治,可采用典型的專家系統(tǒng)方法。比較重要的應(yīng)用需求就是眼底黃斑病變的AI算法。到了一定年齡以后,人眼普遍會有一定的問題。信息社會,人的視覺消耗太大了。每天手機(jī)屏幕那么小,我們在眼底黃斑定位上取得了一個比賽的第一。肺病診斷方面的重大應(yīng)用需求。現(xiàn)在非常明確的事實,通過AI+醫(yī)療智能化算法判別的準(zhǔn)確率,比專家級醫(yī)生提高10多個百分點。我是比較樂觀的,計算機(jī)AI算法一定會超過專家醫(yī)生的水平,高精尖的醫(yī)生永遠(yuǎn)需要,但工作強(qiáng)度大大降低。

大數(shù)據(jù)和強(qiáng)大的算力使得深度學(xué)習(xí)技術(shù)有了用武之地。國家對人工智能的期望非常大,我們的壓力也很大,到底有多少人工智能的產(chǎn)業(yè)能夠落地。我想計算機(jī)視覺有很多落地的重大應(yīng)用,也包括部分自然語言處理方面的技術(shù)。

人工智能重大需求,一個是純的互聯(lián)網(wǎng)銀行;第二個是智能安防與公共安全。智慧城市中的異常檢測,復(fù)雜的場景下的身份認(rèn)證和行為識別等需要研究。還有一個是新的獲取手段,包括深度數(shù)碼相機(jī)。剛才講的智能動畫創(chuàng)作,大眾化的創(chuàng)意設(shè)計,人工智能+AR/VR。創(chuàng)意設(shè)計是我們這個大會的主題之一,這塊將有大的進(jìn)展?？傊斯ぶ悄懿蛔兊氖翘魬?zhàn)和機(jī)遇。

上一篇：視頻AI進(jìn)化論：從“人臉識別1.0”到“智能視覺2.0”
下一篇：不要輕易的去刷臉了危險正在向你走來

打印

中国一级毛片国产高清,99精品国产一区二区高清,国产变态调教果冻,亚洲国产综合无码视频

以大數(shù)據(jù)為基礎(chǔ)，分析人臉識別技術(shù)的未來

人臉識別

深度學(xué)習(xí)

AI

人工智能

VR

AR

以大數(shù)據(jù)為基礎(chǔ)，分析人臉識別技術(shù)的未來