知識(shí)降維作圖譜人工智能有階梯

2019-04-25 17:15臧根林

中國信息化 2019年4期

臧根林

由谷歌（Google）旗下DeepMind公司戴密斯.哈薩比斯領(lǐng)銜的團(tuán)隊(duì)開發(fā)的阿爾法圍棋（AlphaGo）人工智能機(jī)器人在2016年3月與圍棋世界冠軍、職業(yè)九段棋手李世石進(jìn)行圍棋人機(jī)大戰(zhàn)，以4比1的總比分獲勝，引爆了新一輪人工智能熱潮。人工智能研究從1956年開始，經(jīng)過三起三落，至今已經(jīng)60多年了，但始終發(fā)展沒有達(dá)到我們的期望，現(xiàn)在有了大數(shù)據(jù)技術(shù)，在機(jī)器學(xué)習(xí)模型訓(xùn)練方面有了重大提升，在語義理解、圖像識(shí)別等方面都有了不少突破，也出現(xiàn)了AI播音員等，但我們發(fā)現(xiàn)要實(shí)際運(yùn)用的時(shí)候，人工智能離我們還有相當(dāng)遠(yuǎn)的距離。比如無人駕駛汽車，試驗(yàn)階段是沒有問題的，真正上路為我們服務(wù)，能在復(fù)雜路況下像老司機(jī)一樣安全駕駛，誰也說不清還需要等多少年。

怎么樣才能讓人工智能為人類服務(wù)？我認(rèn)為這個(gè)問題非常像把一條狗訓(xùn)練成警犬的過程。狗的智商不如人類，但在“硬件”方面有優(yōu)勢(shì)，比如奔跑速度、嗅覺等等，我們要訓(xùn)練一條狗成為警犬，就必須讓它學(xué)習(xí)，能理解人類的意圖，知道要它做什么。訓(xùn)練狗的過程實(shí)際上是知識(shí)降維的過程，我們?nèi)祟惸X子里的知識(shí)結(jié)構(gòu)非常復(fù)雜，其存儲(chǔ)結(jié)構(gòu)、關(guān)聯(lián)思維、決策判斷過程至今也無法完全研究明白。要把這么復(fù)雜的知識(shí)結(jié)構(gòu)讓狗能理解，只能把維度降下來，比如找出一包毒品可以得到一份食物的獎(jiǎng)勵(lì)，也就是將毒品這個(gè)實(shí)體和它喜歡的食品這個(gè)實(shí)體建立了關(guān)系。訓(xùn)練人工智能其實(shí)也就是這樣，計(jì)算機(jī)的計(jì)算、存儲(chǔ)能力可擴(kuò)展，超級(jí)計(jì)算機(jī)可以實(shí)現(xiàn)我們?nèi)祟悷o法達(dá)到的高性能計(jì)算，但無法完全模擬我們?nèi)祟惖乃季S，只有我們把知識(shí)結(jié)構(gòu)降維，形成一個(gè)計(jì)算機(jī)能看懂的結(jié)構(gòu)，它的優(yōu)勢(shì)才能發(fā)揮。這樣降維后形成的知識(shí)，基本上圍繞著實(shí)體、實(shí)體的屬性、實(shí)體之間的關(guān)系這三個(gè)要素展開，這種知識(shí)架構(gòu)就是知識(shí)圖譜。特別是現(xiàn)實(shí)世界中的大量知識(shí)是非結(jié)構(gòu)化的，如聲音、圖像等，而計(jì)算機(jī)擅長處理的是結(jié)構(gòu)化數(shù)據(jù)。知識(shí)圖譜可以實(shí)體的結(jié)構(gòu)化信息和非結(jié)構(gòu)信息關(guān)聯(lián)起來。所以有一種說法，叫知識(shí)圖譜是大數(shù)據(jù)走向人工智能的階梯。

知識(shí)圖譜本質(zhì)上就是一個(gè)用圖數(shù)據(jù)結(jié)構(gòu)等技術(shù)作載體，描述客觀事物及其關(guān)系的大型知識(shí)庫。在具體實(shí)現(xiàn)上，知識(shí)圖譜用語義網(wǎng)（Semantic Web）中的資源描述框架（Resource Description Framework，RDF）對(duì)知識(shí)體系和實(shí)例數(shù)據(jù)二個(gè)層面的內(nèi)容進(jìn)行統(tǒng)一表示，共同構(gòu)成一個(gè)完整的知識(shí)系統(tǒng)。

世界本身不存在結(jié)構(gòu)化或非結(jié)構(gòu)化問題，在信息化時(shí)代之前也沒有人去區(qū)分結(jié)構(gòu)化或非結(jié)構(gòu)化，但人類進(jìn)入信息化時(shí)代，什么都想通過計(jì)算來得到結(jié)果，就產(chǎn)生了信息是否結(jié)構(gòu)化問題。所以這個(gè)問題是人類為了將就計(jì)算機(jī)而產(chǎn)生的問題。知識(shí)圖譜把這個(gè)問題進(jìn)一步加深了，因?yàn)槲覀儾粌H僅想讓計(jì)算機(jī)幫我們計(jì)算信息，還想讓計(jì)算機(jī)學(xué)會(huì)跟我們?nèi)祟愐粯尤ニ伎既ヅ袛?，也就是現(xiàn)在很熱門的人工智能。為了教育計(jì)算機(jī)看懂人類的知識(shí)，我們類似給幼兒設(shè)計(jì)看圖識(shí)字本一樣，將知識(shí)整理成知識(shí)圖譜。

知識(shí)圖譜的本質(zhì)是具有有向圖結(jié)構(gòu)的知識(shí)庫，知識(shí)圖譜是人工智能應(yīng)用不可或缺的基礎(chǔ)資源。知識(shí)圖譜分為兩類：通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜。通用的知識(shí)圖譜可以認(rèn)為是百科全書，比如Google 知識(shí)圖譜、DBpedia、YAGO和Freebase等；領(lǐng)域知識(shí)圖譜是基于領(lǐng)域數(shù)據(jù)構(gòu)建的知識(shí)圖譜，用于領(lǐng)域分析研究工作。通用知識(shí)圖譜的本體根類型，基本上就是實(shí)體（entity），然后再分類。通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜，從基礎(chǔ)架構(gòu)上基本相同，但由于領(lǐng)域知識(shí)圖譜面向更為復(fù)雜的領(lǐng)域數(shù)據(jù)和場(chǎng)景，從構(gòu)建和應(yīng)用上來講更加復(fù)雜。

雖然知識(shí)圖譜概念由美國谷歌公司在2012年5月首次提出，但知識(shí)圖譜這樣的理念和表達(dá)思路在中國已經(jīng)存在超過二千年，五行理論和相生相克圖就是一個(gè)典型的知識(shí)圖譜結(jié)構(gòu)。知識(shí)圖譜描述的關(guān)鍵三要素是實(shí)體、屬性和實(shí)體之間的關(guān)系，五行相生相克圖（圖1）正是完整表達(dá)了這樣的三個(gè)要素，金、木、水、火、土每個(gè)字不但表達(dá)一種類型實(shí)體，而且字面本身已經(jīng)蘊(yùn)含了屬性解釋，如“水”字自然就是指世界上一切液體性質(zhì)的實(shí)體，每個(gè)實(shí)體都和另外四個(gè)發(fā)生聯(lián)系，四條連線代表了實(shí)體之間相生或相克的關(guān)系。

在很多領(lǐng)域的知識(shí)圖譜，其實(shí)和五行相生相克圖都有相似之處，圖2就是是公安部門數(shù)據(jù)存儲(chǔ)的常用分類，將數(shù)據(jù)分為人（人口信息）、地址（門牌樓等）、案件、物品（刀、槍、毒品等）及組織（某黑社會(huì)、邪教組織等）。

知識(shí)圖譜可以用于各個(gè)行業(yè)領(lǐng)域，用于領(lǐng)域的數(shù)據(jù)整合和業(yè)務(wù)分析，比如政府輔助決策、媒體分析、電商分析、金融分析、公安情報(bào)分析、學(xué)術(shù)領(lǐng)域、學(xué)科分析、軍事信息搜索等。面向不同領(lǐng)域有不同的領(lǐng)域本體（Domain Ontoloty），領(lǐng)域本體是領(lǐng)域知識(shí)圖譜的基礎(chǔ)概念。在領(lǐng)域知識(shí)圖譜工程中，最先需要確定的是本體中的對(duì)象類型。各個(gè)領(lǐng)域都有自己關(guān)注的主要對(duì)象，領(lǐng)域的信息化是圍繞這些對(duì)象而產(chǎn)生和收集數(shù)據(jù)，所以在構(gòu)建領(lǐng)域知識(shí)圖譜中，這些主要對(duì)象就是知識(shí)圖譜中主要的對(duì)象類型。

領(lǐng)域知識(shí)圖譜構(gòu)建的過程，就是分別將領(lǐng)域中的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)加工成知識(shí)對(duì)象和關(guān)系的過程，針對(duì)三種類型的數(shù)據(jù)分別構(gòu)建，構(gòu)建后的文本類型和多媒體類型的對(duì)象，又可以通過人工或機(jī)器的方式進(jìn)行知識(shí)加工，從中提取有價(jià)值的實(shí)體、事件和關(guān)系。圖3顯示的就是領(lǐng)域知識(shí)圖譜構(gòu)建和知識(shí)加工原理。

大數(shù)據(jù)技術(shù)發(fā)展非?？焖伲?012年在中國開始提出大數(shù)據(jù)，短短幾年時(shí)間已經(jīng)從一種高大上的技術(shù)變成了基礎(chǔ)性的技術(shù)，各行各業(yè)都在使用大數(shù)據(jù)。但如何讓大數(shù)據(jù)發(fā)揮更大價(jià)值，大家都把目光轉(zhuǎn)向人工智能的時(shí)候，發(fā)現(xiàn)人工智能離自己實(shí)際使用有相當(dāng)?shù)木嚯x，甚至無從下手。其實(shí)，先把大數(shù)據(jù)構(gòu)建成自己領(lǐng)域的知識(shí)圖譜，形成機(jī)器學(xué)習(xí)、模型訓(xùn)練的知識(shí)資源，正是通往人工智能的階梯。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

知識(shí)降維作圖譜 人工智能有階梯

知識(shí)降維作圖譜人工智能有階梯