臧根林
由谷歌(Google)旗下DeepMind公司戴密斯.哈薩比斯領(lǐng)銜的團(tuán)隊(duì)開發(fā)的阿爾法圍棋(AlphaGo)人工智能機(jī)器人在2016年3月與圍棋世界冠軍、職業(yè)九段棋手李世石進(jìn)行圍棋人機(jī)大戰(zhàn),以4比1的總比分獲勝,引爆了新一輪人工智能熱潮。人工智能研究從1956年開始,經(jīng)過三起三落,至今已經(jīng)60多年了,但始終發(fā)展沒有達(dá)到我們的期望,現(xiàn)在有了大數(shù)據(jù)技術(shù),在機(jī)器學(xué)習(xí)模型訓(xùn)練方面有了重大提升,在語義理解、圖像識(shí)別等方面都有了不少突破,也出現(xiàn)了AI播音員等,但我們發(fā)現(xiàn)要實(shí)際運(yùn)用的時(shí)候,人工智能離我們還有相當(dāng)遠(yuǎn)的距離。比如無人駕駛汽車,試驗(yàn)階段是沒有問題的,真正上路為我們服務(wù),能在復(fù)雜路況下像老司機(jī)一樣安全駕駛,誰也說不清還需要等多少年。
怎么樣才能讓人工智能為人類服務(wù)?我認(rèn)為這個(gè)問題非常像把一條狗訓(xùn)練成警犬的過程。狗的智商不如人類,但在“硬件”方面有優(yōu)勢(shì),比如奔跑速度、嗅覺等等,我們要訓(xùn)練一條狗成為警犬,就必須讓它學(xué)習(xí),能理解人類的意圖,知道要它做什么。訓(xùn)練狗的過程實(shí)際上是知識(shí)降維的過程,我們?nèi)祟惸X子里的知識(shí)結(jié)構(gòu)非常復(fù)雜,其存儲(chǔ)結(jié)構(gòu)、關(guān)聯(lián)思維、決策判斷過程至今也無法完全研究明白。要把這么復(fù)雜的知識(shí)結(jié)構(gòu)讓狗能理解,只能把維度降下來,比如找出一包毒品可以得到一份食物的獎(jiǎng)勵(lì),也就是將毒品這個(gè)實(shí)體和它喜歡的食品這個(gè)實(shí)體建立了關(guān)系。訓(xùn)練人工智能其實(shí)也就是這樣,計(jì)算機(jī)的計(jì)算、存儲(chǔ)能力可擴(kuò)展,超級(jí)計(jì)算機(jī)可以實(shí)現(xiàn)我們?nèi)祟悷o法達(dá)到的高性能計(jì)算,但無法完全模擬我們?nèi)祟惖乃季S,只有我們把知識(shí)結(jié)構(gòu)降維,形成一個(gè)計(jì)算機(jī)能看懂的結(jié)構(gòu),它的優(yōu)勢(shì)才能發(fā)揮。這樣降維后形成的知識(shí),基本上圍繞著實(shí)體、實(shí)體的屬性、實(shí)體之間的關(guān)系這三個(gè)要素展開,這種知識(shí)架構(gòu)就是知識(shí)圖譜。特別是現(xiàn)實(shí)世界中的大量知識(shí)是非結(jié)構(gòu)化的,如聲音、圖像等,而計(jì)算機(jī)擅長處理的是結(jié)構(gòu)化數(shù)據(jù)。知識(shí)圖譜可以實(shí)體的結(jié)構(gòu)化信息和非結(jié)構(gòu)信息關(guān)聯(lián)起來。所以有一種說法,叫知識(shí)圖譜是大數(shù)據(jù)走向人工智能的階梯。
知識(shí)圖譜本質(zhì)上就是一個(gè)用圖數(shù)據(jù)結(jié)構(gòu)等技術(shù)作載體,描述客觀事物及其關(guān)系的大型知識(shí)庫。在具體實(shí)現(xiàn)上,知識(shí)圖譜用語義網(wǎng)(Semantic Web)中的資源描述框架(Resource Description Framework,RDF)對(duì)知識(shí)體系和實(shí)例數(shù)據(jù)二個(gè)層面的內(nèi)容進(jìn)行統(tǒng)一表示,共同構(gòu)成一個(gè)完整的知識(shí)系統(tǒng)。
世界本身不存在結(jié)構(gòu)化或非結(jié)構(gòu)化問題,在信息化時(shí)代之前也沒有人去區(qū)分結(jié)構(gòu)化或非結(jié)構(gòu)化,但人類進(jìn)入信息化時(shí)代,什么都想通過計(jì)算來得到結(jié)果,就產(chǎn)生了信息是否結(jié)構(gòu)化問題。所以這個(gè)問題是人類為了將就計(jì)算機(jī)而產(chǎn)生的問題。知識(shí)圖譜把這個(gè)問題進(jìn)一步加深了,因?yàn)槲覀儾粌H僅想讓計(jì)算機(jī)幫我們計(jì)算信息,還想讓計(jì)算機(jī)學(xué)會(huì)跟我們?nèi)祟愐粯尤ニ伎既ヅ袛?,也就是現(xiàn)在很熱門的人工智能。為了教育計(jì)算機(jī)看懂人類的知識(shí),我們類似給幼兒設(shè)計(jì)看圖識(shí)字本一樣,將知識(shí)整理成知識(shí)圖譜。
知識(shí)圖譜的本質(zhì)是具有有向圖結(jié)構(gòu)的知識(shí)庫,知識(shí)圖譜是人工智能應(yīng)用不可或缺的基礎(chǔ)資源。知識(shí)圖譜分為兩類:通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜。通用的知識(shí)圖譜可以認(rèn)為是百科全書,比如Google 知識(shí)圖譜、DBpedia、YAGO和Freebase等;領(lǐng)域知識(shí)圖譜是基于領(lǐng)域數(shù)據(jù)構(gòu)建的知識(shí)圖譜,用于領(lǐng)域分析研究工作。通用知識(shí)圖譜的本體根類型,基本上就是實(shí)體(entity),然后再分類。通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜,從基礎(chǔ)架構(gòu)上基本相同,但由于領(lǐng)域知識(shí)圖譜面向更為復(fù)雜的領(lǐng)域數(shù)據(jù)和場(chǎng)景,從構(gòu)建和應(yīng)用上來講更加復(fù)雜。
雖然知識(shí)圖譜概念由美國谷歌公司在2012年5月首次提出,但知識(shí)圖譜這樣的理念和表達(dá)思路在中國已經(jīng)存在超過二千年,五行理論和相生相克圖就是一個(gè)典型的知識(shí)圖譜結(jié)構(gòu)。知識(shí)圖譜描述的關(guān)鍵三要素是實(shí)體、屬性和實(shí)體之間的關(guān)系,五行相生相克圖(圖1)正是完整表達(dá)了這樣的三個(gè)要素,金、木、水、火、土每個(gè)字不但表達(dá)一種類型實(shí)體,而且字面本身已經(jīng)蘊(yùn)含了屬性解釋,如“水”字自然就是指世界上一切液體性質(zhì)的實(shí)體,每個(gè)實(shí)體都和另外四個(gè)發(fā)生聯(lián)系,四條連線代表了實(shí)體之間相生或相克的關(guān)系。
在很多領(lǐng)域的知識(shí)圖譜,其實(shí)和五行相生相克圖都有相似之處,圖2就是是公安部門數(shù)據(jù)存儲(chǔ)的常用分類,將數(shù)據(jù)分為人(人口信息)、地址(門牌樓等)、案件、物品(刀、槍、毒品等)及組織(某黑社會(huì)、邪教組織等)。
知識(shí)圖譜可以用于各個(gè)行業(yè)領(lǐng)域,用于領(lǐng)域的數(shù)據(jù)整合和業(yè)務(wù)分析,比如政府輔助決策、媒體分析、電商分析、金融分析、公安情報(bào)分析、學(xué)術(shù)領(lǐng)域、學(xué)科分析、軍事信息搜索等。面向不同領(lǐng)域有不同的領(lǐng)域本體(Domain Ontoloty),領(lǐng)域本體是領(lǐng)域知識(shí)圖譜的基礎(chǔ)概念。在領(lǐng)域知識(shí)圖譜工程中,最先需要確定的是本體中的對(duì)象類型。各個(gè)領(lǐng)域都有自己關(guān)注的主要對(duì)象,領(lǐng)域的信息化是圍繞這些對(duì)象而產(chǎn)生和收集數(shù)據(jù),所以在構(gòu)建領(lǐng)域知識(shí)圖譜中,這些主要對(duì)象就是知識(shí)圖譜中主要的對(duì)象類型。
領(lǐng)域知識(shí)圖譜構(gòu)建的過程,就是分別將領(lǐng)域中的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)加工成知識(shí)對(duì)象和關(guān)系的過程,針對(duì)三種類型的數(shù)據(jù)分別構(gòu)建,構(gòu)建后的文本類型和多媒體類型的對(duì)象,又可以通過人工或機(jī)器的方式進(jìn)行知識(shí)加工,從中提取有價(jià)值的實(shí)體、事件和關(guān)系。圖3顯示的就是領(lǐng)域知識(shí)圖譜構(gòu)建和知識(shí)加工原理。
大數(shù)據(jù)技術(shù)發(fā)展非??焖伲?012年在中國開始提出大數(shù)據(jù),短短幾年時(shí)間已經(jīng)從一種高大上的技術(shù)變成了基礎(chǔ)性的技術(shù),各行各業(yè)都在使用大數(shù)據(jù)。但如何讓大數(shù)據(jù)發(fā)揮更大價(jià)值,大家都把目光轉(zhuǎn)向人工智能的時(shí)候,發(fā)現(xiàn)人工智能離自己實(shí)際使用有相當(dāng)?shù)木嚯x,甚至無從下手。其實(shí),先把大數(shù)據(jù)構(gòu)建成自己領(lǐng)域的知識(shí)圖譜,形成機(jī)器學(xué)習(xí)、模型訓(xùn)練的知識(shí)資源,正是通往人工智能的階梯。