馬穎君
雖然刷臉支付在日常生活中還沒出現(xiàn),但至少馬云可以用他的手機(jī)這么做了。
2015年3月15日,在德國(guó)漢諾威IT博覽會(huì)(CeBIT)上,馬云通過刷臉支付的方式為德國(guó)總理默克爾買了一枚1948年的漢諾威紀(jì)念郵票。
這項(xiàng)刷臉支付技術(shù)由曠視科技和螞蟻金服柒車間合作開發(fā),曠視科技提供核心算法,將刷臉支付模塊內(nèi)置到了馬云的手機(jī)中。曠視科技是一家專注于圖像識(shí)別和深度學(xué)習(xí)的技術(shù)公司,目前為螞蟻金服、平安銀行、小米金融、公安等公司和部門提供人臉識(shí)別的技術(shù)服務(wù)。
在創(chuàng)立曠視科技之前,公司的3位創(chuàng)始人中只有印奇有過正式的工作經(jīng)歷。本科畢業(yè)以后,印奇進(jìn)入到微軟亞洲研究院工作,唐文斌和楊沐繼續(xù)在清華讀書。印奇在微軟亞洲研究院人臉識(shí)別項(xiàng)目擔(dān)任一個(gè)小組的組 長(zhǎng)。
搭載著前置攝像頭的iPhone 4發(fā)售后不久,他們便開發(fā)了一款基于iOS系統(tǒng)的游戲“烏鴉來了”,這款游戲曾進(jìn)入中國(guó)區(qū)App Store排行榜的Top 5。與此同時(shí),這款游戲還為他們贏得了聯(lián)想幾百萬(wàn)元的天使融資。2011年,曠視科技成立。
創(chuàng)業(yè)是3個(gè)人一直以來的打算,拿到融資讓他們有了創(chuàng)業(yè)的資本,還有一個(gè)更重要的因素就是時(shí)機(jī)?!拔覀兊睦硐胧亲鲆患覀ゴ蟮募夹g(shù)公司,但有個(gè)前提是,你要在技術(shù)發(fā)生突變的那個(gè)點(diǎn)?!庇∑鎸?duì)《第一財(cái)經(jīng)周刊》 說。
2006年,加拿大多倫多大學(xué)教授Geoffrey Hinton教授發(fā)表了人工智能領(lǐng)域具有里程碑意義的論文。論文中,他提出了深度神經(jīng)網(wǎng)絡(luò)模型。此后,深度學(xué)習(xí)算法和模型進(jìn)入到一個(gè)快速迭代的周期。在這其中,關(guān)于圖像識(shí)別的算法迭代尤為迅速。
以人臉識(shí)別為例,深度學(xué)習(xí)算法讓機(jī)器有了自學(xué)能力。以往,程序員會(huì)編寫一些人臉的特征,“畫”好人臉的畫像,然后讓計(jì)算機(jī)“按圖索臉”。但是這種手把手的教學(xué)方式很難讓計(jì)算機(jī)認(rèn)識(shí)更多的事物或者自動(dòng)提高識(shí)別準(zhǔn)確度。Geoffrey Hinton在論文中提倡的無監(jiān)督學(xué)習(xí),對(duì)于人臉識(shí)別來說,就是讓機(jī)器先去看大量人臉圖片,讓其自行總結(jié)人臉有什么特點(diǎn),進(jìn)而機(jī)器就具備了識(shí)別人臉的能力。
在微軟亞洲研究院實(shí)習(xí)和工作的3年內(nèi),印奇見證了人臉識(shí)別系統(tǒng)準(zhǔn)確率不斷提高的過程?!霸谖④浀臅r(shí)候,(人臉識(shí)別的準(zhǔn)確率)做到了80%,這已經(jīng)是一個(gè)巨大的提升,但這個(gè)準(zhǔn)確率用到產(chǎn)品上是不夠的?!庇∑嬲f。幾個(gè)人認(rèn)為以后市場(chǎng)對(duì)這項(xiàng)技術(shù)的巨大需求,然后他們就決定要自己做一家公司,要把人臉識(shí)別的準(zhǔn)確率做到99%。
曠視科技的3個(gè)創(chuàng)始人背景相似,對(duì)算法比較擅長(zhǎng),但對(duì)硬件并不十分了解。為了彌補(bǔ)這方面的短板,印奇在公司成立以后就辭去了微軟的工作,到哥倫比亞大學(xué),攻讀3D相機(jī)方向的博士。唐文斌和楊沐則留在國(guó)內(nèi),延續(xù)之前的老路,開發(fā)一些游戲。
但是在接下來的游戲開發(fā)中,他們發(fā)現(xiàn),游戲中的人臉識(shí)別并沒有發(fā)揮最主要的作用,情節(jié)設(shè)計(jì)和畫面更為重要—畢竟對(duì)于游戲來說,好玩才是關(guān)鍵。對(duì)于他們3個(gè)人來說,怎么把游戲做得更有趣、畫面更好看并不是他們的強(qiáng)項(xiàng),他們更關(guān)注從技術(shù)層面上,怎么讓人臉識(shí)別的準(zhǔn)確率更高,然而當(dāng)時(shí)他們并不知道具體應(yīng)該做些什么。
一件事情讓他們找到了方向。
2013年6月,F(xiàn)acebook收購(gòu)了以色列人臉識(shí)別技術(shù)公司Face.com,并很快關(guān)閉了后者的API。在此之前,大量軟件通過API使用該公司的人臉識(shí)別技術(shù)。
關(guān)閉API給大量開發(fā)者帶來了不便,而人臉識(shí)別的技術(shù)門檻較高,對(duì)于一個(gè)普通的開發(fā)團(tuán)隊(duì)來說,短時(shí)間內(nèi)難以具備這項(xiàng)能力。2013年9月,曠視科技決定放棄游戲開發(fā),轉(zhuǎn)型為人臉識(shí)別技術(shù)平臺(tái)。
10月,F(xiàn)ace++1.0版本正式上線。3周后,F(xiàn)ace++吸引了1000多名開發(fā)者,API調(diào)用量25萬(wàn)次。不久后,他們拿到了創(chuàng)新工廠數(shù)百萬(wàn)美元的A輪投資。
2013年,移動(dòng)互聯(lián)網(wǎng)興起,用戶隨時(shí)可以拍照并將照片傳到App上去,圖片數(shù)據(jù)爆發(fā)式增長(zhǎng)。Face++在為開發(fā)者提供人臉識(shí)別技術(shù)的同時(shí)也為自己積累了大量圖片,目前,上傳至Face++的圖片數(shù)量已經(jīng)超過12億,API的調(diào)用次數(shù)超過1467億。Face++則借用這些圖片及其標(biāo)注信息進(jìn)行算法學(xué)習(xí),不斷優(yōu)化系統(tǒng)。
Face++不僅給曠世科技帶來了大量的圖片,還積累了很多潛在客戶。美圖秀秀最初是Face++的免費(fèi)用戶,一段時(shí)間后,美圖秀秀找到曠視科技,希望它能為自己提供更多服務(wù)。曠視科技根據(jù)美圖秀秀的要求,提供了人臉檢測(cè)和關(guān)鍵點(diǎn)檢測(cè)技術(shù),在照片中精準(zhǔn)定位人臉和五官的位置,以便美圖秀秀做美白、五官美化等處理。除了給美圖類的軟件提供技術(shù)支持,曠世科技還為小米和美圖手機(jī)等做相冊(cè)優(yōu)化,幫助用戶把相冊(cè)中同一個(gè)人的照片聚集起來。
不過識(shí)別精度的提升并不是一帆風(fēng)順的。
為了讓員工直觀感受到公司人臉識(shí)別系統(tǒng)的識(shí)別精度,曠視科技在公司進(jìn)門處安裝了一個(gè)刷臉門禁。當(dāng)時(shí)系統(tǒng)識(shí)別人臉的準(zhǔn)確率并不高,員工經(jīng)常被鎖在門外,有些人認(rèn)為裝了還不如不裝。隨著用戶上傳的圖片越來越多,以及算法的不斷迭代,人臉識(shí)別準(zhǔn)確率也越來越高。在一次技術(shù)迭代之后,員工們忽然發(fā)現(xiàn)刷臉進(jìn)門的體驗(yàn)變得很流暢了?!斑@是一個(gè)很愉快的感覺,那個(gè)時(shí)候我們就覺得這個(gè)東西有價(jià)值了?!庇∑嬲f。
而在另外一次技術(shù)迭代后,機(jī)器的識(shí)別能力甚至“超過”了人眼。系統(tǒng)在測(cè)試中通常會(huì)做錯(cuò)一些題目,公司的研究員會(huì)從中挑出一些題目做分析。最初研究員會(huì)覺得“機(jī)器怎么這么笨,這么清楚都認(rèn)不出來”,但隨著系統(tǒng)識(shí)別能力越來越強(qiáng),識(shí)別不出來的圖片也變得越來越模糊。直到有一次迭代后,研究員發(fā)現(xiàn),機(jī)器識(shí)別不出來的圖片他自己也識(shí)別不出來了。
“當(dāng)然,我并不認(rèn)為機(jī)器識(shí)別人臉的能力已經(jīng)超過了人眼,”印奇說,“人類判斷究竟是誰(shuí)的時(shí)候,并不僅僅靠著視覺,我只是說,在辨別圖片中的人臉上,機(jī)器已經(jīng)能夠超越人眼了?!?/p>
2014年上半年,曠世科技連續(xù)在3個(gè)重要的人臉識(shí)別比賽中獲得排名第一的成績(jī),其中,在最重要的LFW測(cè)試比賽中,曠世科技的測(cè)試識(shí)別率達(dá)到97.27%,超過Facebook的97.25%獲得冠軍。
這些成績(jī)讓螞蟻金服的皮東注意到了曠視科技。皮東是“柒車間”的負(fù)責(zé)人,柒車間是螞蟻金服中專職研究生物識(shí)別技術(shù)的團(tuán)隊(duì)。刷臉登錄和刷臉支付一直是螞蟻金服想要達(dá)到的目標(biāo),皮東一直在尋找合適的合作團(tuán)隊(duì)。
當(dāng)他去曠視科技考察的時(shí)候,門口的刷臉門禁系統(tǒng)讓他非常感興奮,因?yàn)檫@是一款“可以讓人臉識(shí)別技術(shù)落地”的產(chǎn)品,這給他留下了不錯(cuò)的第一印象。皮東在選擇合作對(duì)象的時(shí)候主要考察兩點(diǎn),是否有自己搭建的完整算法,以及是否有足夠多的數(shù)據(jù)。
Face++有大量第三方應(yīng)用的上傳的圖片,因此曠視科技的系統(tǒng)能看到不同場(chǎng)景下的人臉。“系統(tǒng)要各種臉都見過,識(shí)別能力才能強(qiáng)?!逼|說。很多上傳到支付寶的照片并不規(guī)范,有的人戴著帽子擋住了臉,有的人在拍照的時(shí)候還沒刮完胡子。
盡管如此,在第一次的測(cè)試中,F(xiàn)ace++的測(cè)試準(zhǔn)確率僅在70%以下。Face++見過的大多是清晰的自拍照,對(duì)身份證上的人臉識(shí)別并不是很擅長(zhǎng)?!澳莻€(gè)時(shí)候大家比較沒信心,不知道這個(gè)技術(shù)到底能不能用在金融方面。”印奇回憶道。
皮東根據(jù)數(shù)據(jù)特點(diǎn)提了幾個(gè)改進(jìn)方向。他最開始判斷,曠視科技可能會(huì)在3個(gè)月以后給出改進(jìn)方案,沒想到3周后,曠視科技就提供了修改后的算法?!八麄儓F(tuán)隊(duì)讓我印象非常深刻,年輕有激情,而且執(zhí)行力很強(qiáng)。”皮東如此評(píng)價(jià)。隨后,曠視科技將機(jī)器布局到了支付寶內(nèi)部,3個(gè)月后,將識(shí)別準(zhǔn)確率提升到了90%以 上。
和支付寶的合作給曠視科技帶來了幾千萬(wàn)元的收入和巨大的品牌背書。3位創(chuàng)始人都認(rèn)為刷臉技術(shù)是可以用在金融領(lǐng)域的,但他們并不清楚什么時(shí)候這個(gè)時(shí)間點(diǎn)才能到來,也不清楚金融領(lǐng)域究竟需要多高的識(shí)別率?!霸谶@之前我們做的都是nice to have的應(yīng)用,就是非剛需的應(yīng)用。到后來都是非常剛需的應(yīng)用,向金融和安防兩個(gè)垂直領(lǐng)域發(fā)展都是從那個(gè)節(jié)點(diǎn)開始的,這也意味著我們的準(zhǔn)確率有了本質(zhì)的飛躍?!庇∑鎸?duì)《第一財(cái)經(jīng)周刊》說。
隨后,曠視科技和支付寶合作研發(fā)了Smile to Pay的支付認(rèn)證技術(shù),這項(xiàng)技術(shù)保證了馬云能夠刷臉支付成 功。
不過,馬云能刷臉支付并不意味著所有用戶都可以這么做。目前人臉識(shí)別在金融領(lǐng)域扮演的仍是輔助認(rèn)證的角色,刷臉支付功能也并沒有被大規(guī)模推廣?!霸谥Ц哆@個(gè)環(huán)節(jié)上,我們主要考慮安全性和便利性兩點(diǎn),實(shí)際上刷臉不一定比指紋支付方便?!逼|說。
和支付寶合作以后,曠視科技開始嘗試和傳統(tǒng)銀行和互聯(lián)網(wǎng)金融公司接觸。
“傳統(tǒng)銀行和互聯(lián)網(wǎng)金融遇到的問題都很類似,就是沒有辦法在線上證明客戶的身份?!庇∑嬲f。以平安銀行為例,平安銀行的線上貸款業(yè)務(wù)需要客戶提交身份證照片、電話、家庭住址等信息。但是,僅填寫信息和提交身份證照片并不能完全保證提交身份證的就是本人,這就增加了貸款風(fēng)險(xiǎn)。為了確認(rèn)身份,在客戶提交了貸款需求和身份信息之后,平安銀行的工作人員還需要在線下約貸款申請(qǐng)者見面。但是在加入人臉識(shí)別技術(shù)后,用戶只需要對(duì)著攝像頭做幾個(gè)動(dòng)作,便可以通過身份核實(shí)。驗(yàn)證的過程直接由線下搬到了線上,加快了貸款的審批速度。
由于金融公司在身份驗(yàn)證方面痛點(diǎn)比較集中,曠視科技緊接著也給中信銀行、宜人貸、積木盒子等提供了人臉識(shí)別服務(wù)。目前,公司的付費(fèi)客戶在150個(gè)左右,傳統(tǒng)銀行和互聯(lián)網(wǎng)金融公司則是大額訂單最重要的貢獻(xiàn) 者。
從商業(yè)的角度來說,曠視科技需要在已經(jīng)熟悉的行業(yè)中開拓出更多客戶,而對(duì)于不太熟悉的行業(yè),曠視科技則“需要很多的行業(yè)know-how”,去了解更多的行業(yè)和業(yè)務(wù)細(xì)節(jié)。而作為一個(gè)技術(shù)驅(qū)動(dòng)的公司,他們還想進(jìn)一步提高識(shí)別的準(zhǔn)確率。
“這并不容易做到,”印奇說,“如果想把識(shí)別精度從99.9%提升到99.99%,可能需要10倍于之前的學(xué)習(xí)樣本。越往后需要更多數(shù)據(jù)量,所以提升識(shí)別率越來越 難?!?