目前,人工智能面臨的挑戰(zhàn)有:一、人工智能很難定義問題;二、不能完全自動(dòng)化地收集數(shù)據(jù);三、好的應(yīng)用模型還不能和業(yè)務(wù)邏輯完美結(jié)合。
—微眾銀行首席人工智能官楊強(qiáng)
首先,我們把人類學(xué)習(xí)和機(jī)器學(xué)習(xí)進(jìn)行對比。人的大腦由很多個(gè)神經(jīng)元組成,我們的神經(jīng)元組成我們的機(jī)制。不同的神經(jīng)元之間可能有連接,連接管道的粗細(xì)代表我們學(xué)習(xí)的強(qiáng)度。
人類學(xué)習(xí)新知識(shí)的時(shí)候,經(jīng)常會(huì)接觸一些新的概念,大腦會(huì)加強(qiáng)對新概念、新知識(shí)的記憶。我們可以把這個(gè)理念賦予計(jì)算機(jī),形成我們熟知的計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò),也是我們今天深度學(xué)習(xí)得以成功的一個(gè)最基本的單元。一個(gè)神經(jīng)網(wǎng)絡(luò)有輸入,也有輸出,輸入和輸出之間的學(xué)習(xí)過程,會(huì)把兩個(gè)神經(jīng)元之間的連接加強(qiáng)或者減弱,形成一個(gè)網(wǎng)絡(luò)。
人工智能的成功不僅取決于算法的成功,更取決于硬件方面的突破,以及大數(shù)據(jù)技術(shù)的發(fā)展。
人工智能算法的設(shè)計(jì)需要很多模型的支持,包括神經(jīng)元和神經(jīng)元之間的連接、深度學(xué)習(xí)網(wǎng)絡(luò)等。那么由誰來搭建這樣一個(gè)網(wǎng)絡(luò)?這就需要人工智能工程師。
我們知道,人工智能領(lǐng)域的人才少、培養(yǎng)時(shí)間長、投入成本高。我們很自然會(huì)提出這樣的問題,我們有沒有可能用AI設(shè)計(jì)AI?這可以解決很多企業(yè)、行業(yè)所面臨的AI人才嚴(yán)重不足的問題。要解決這樣的問題,我們不妨看看人工智能解決此類問題的流程。
首先,我們要定義問題。我們把一個(gè)問題從現(xiàn)實(shí)場景,如金融、制作,變成人工智能的目標(biāo),我們把它稱之為目標(biāo)函數(shù)。同時(shí),我們要定義問題解決時(shí)的約束條件,我們把這些約束條件變成數(shù)學(xué)公式,把行業(yè)中遇到的問題變成一個(gè)數(shù)學(xué)問題,這個(gè)過程就像藝術(shù)一樣。但是這個(gè)過程很難自動(dòng)化,很難用人工智能的方式進(jìn)行改造。
其次,我們要收集數(shù)據(jù)。收集數(shù)據(jù)看上去很簡單,但實(shí)際上需要很多人的力量。數(shù)據(jù)不一定在本地存儲(chǔ),很多數(shù)據(jù)需要通過人與人的溝通來獲得,或者通過兩個(gè)不同機(jī)構(gòu)之間的戰(zhàn)略聯(lián)系來獲得。并且因?yàn)楸O(jiān)管的緣故,數(shù)據(jù)不能很簡單地從一個(gè)地方傳到另一個(gè)地方。所以,收集數(shù)據(jù)是不能實(shí)現(xiàn)完全自動(dòng)化的。
假設(shè)我們有了足夠的數(shù)據(jù),我們還要在數(shù)據(jù)里抽取足夠多的特征,形成可以訓(xùn)練模型的數(shù)據(jù),再進(jìn)行模型的訓(xùn)練和評(píng)估。特征的提煉工程、模型訓(xùn)練和模型評(píng)估,這三部分是可以實(shí)現(xiàn)自動(dòng)化的。
最后,我們要凝聚力量來形成好的模型應(yīng)用。因?yàn)檫@個(gè)應(yīng)用要和業(yè)務(wù)的邏輯相結(jié)合,業(yè)務(wù)邏輯本身存儲(chǔ)在很多人的大腦里,現(xiàn)在還不能用一個(gè)數(shù)學(xué)公式來表示。
現(xiàn)在有一個(gè)新的人工智能方向—AutoML,主要思想是把數(shù)據(jù)處理、特征處理、模型選擇和模型優(yōu)化全部自動(dòng)化。不僅如此,它還需要把網(wǎng)絡(luò)架構(gòu)部分自動(dòng)化,比如這些網(wǎng)絡(luò)是如何連接的,他們連接的頻度,對內(nèi)和對外應(yīng)該怎么設(shè)計(jì)才能使數(shù)學(xué)公式得到最佳的優(yōu)化。
在只有小數(shù)據(jù)的情況下,如何享受到人工智能的紅利?在企業(yè),數(shù)據(jù)分散在不同的部門,不同的企業(yè)有不同的分散數(shù)據(jù)。比如在醫(yī)療上,如果利用人工智能,我們會(huì)發(fā)現(xiàn)不同的醫(yī)院有不同的圖像數(shù)據(jù),現(xiàn)在還沒有比較好的辦法把這些分散的數(shù)據(jù)聚集在一起形成大數(shù)據(jù)。針對這個(gè)問題,人工智能技術(shù)設(shè)計(jì)者自然會(huì)設(shè)想一些新的算法。現(xiàn)在有一個(gè)算法可以很好地解決小數(shù)據(jù)的問題—遷移學(xué)習(xí),所謂遷移學(xué)習(xí)就是用類比的方法把一個(gè)已經(jīng)建立好的模型和一個(gè)有大數(shù)據(jù)的領(lǐng)域的知識(shí)遷移到只有小數(shù)據(jù)的領(lǐng)域。我們發(fā)現(xiàn)在成熟領(lǐng)域數(shù)據(jù)足夠大的前提下,我們可以非常好地實(shí)現(xiàn)遷移學(xué)習(xí)。
我們的最終目的是獲得一個(gè)好的模型,我們把這個(gè)模型類比成一只被飼養(yǎng)的羊,數(shù)據(jù)就像草一樣,要想讓羊吃到草,我們就要收集在不同的地方的草,就像我們到不同企業(yè)收集數(shù)據(jù)一樣。但是現(xiàn)在我們不能把數(shù)據(jù)就像草一樣堆集起來,我們就可以用另一種辦法,讓這只羊在草堆里走來走去,使得羊在草不挪地兒的情況下同樣可以長大,這種做法就是聯(lián)邦學(xué)習(xí)(Federated Learning)。
在云端的用戶群中,每個(gè)手機(jī)其實(shí)都是一個(gè)用戶,這些用戶之間有很大的重疊性,因?yàn)槊總€(gè)手機(jī)收集的數(shù)據(jù)是差不多的,我們要利用橫向?qū)W習(xí)建立剛才說的聯(lián)邦學(xué)習(xí)模型,收集不同的用戶特征,兼顧用戶群的重疊性,利用這些重疊的用戶不同的特征建立一個(gè)更好的模型。當(dāng)用戶和特征沒有重疊,我們也有辦法,我們將遷移學(xué)習(xí)和聯(lián)邦學(xué)習(xí)結(jié)合起來,稱之為聯(lián)邦遷移學(xué)習(xí)。
最后,我要向大家介紹微眾銀行的AI。微眾是一家互聯(lián)網(wǎng)銀行,7×24小時(shí)在線上運(yùn)營?,F(xiàn)在它的用戶群數(shù)量在1.5億以上,主要面向數(shù)百萬的小微企業(yè)服務(wù)。
我們的AI部門現(xiàn)在的發(fā)力方向包括人臉識(shí)別、反欺詐、AI+廣告營銷、AI+新型數(shù)據(jù),以及用聯(lián)邦學(xué)習(xí)做風(fēng)險(xiǎn)控制模型等。
聯(lián)邦學(xué)習(xí)的例子有很多,比如與供應(yīng)鏈的結(jié)合、和新零售的結(jié)合等。同時(shí)我們發(fā)布了世界上第一個(gè)聯(lián)邦學(xué)習(xí)的開源軟件,并被Linux基金會(huì)承認(rèn)接受。
(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)