技術宅
現在無論是在微信朋友圈、PPT還是很多新聞中,我們都可以看到大量的知識圖譜。這些媒介通過一張張簡單的圖譜闡述了很多原來需要很多筆墨才能表達清楚的事物(圖1)。那么什么是知識圖譜?它可以應用在什么地方?對于一般人來說構建知識圖譜又有什么實際意義?
科技掃盲——認識知識圖譜
如上所述,現在我們經常在各種媒介上看到知識圖譜。它是將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,并利用可視化的圖譜進行展示的一種技術。實際上如果單從表面看,知識圖譜其實就是一張包含各種知識結構的圖片,當然我們也可以理解成一張由知識點相互連接而成的語義網絡。知識圖譜其實和我們生活中小孩玩的磁力棒游戲很類似,它包含各個知識節(jié)點(鋼珠)和節(jié)點關系(磁力棒),這樣這些鋼珠和磁力棒就組成一張知識圖譜(圖2)。
那么知識圖譜是怎么出現的?嚴格來說“知識圖譜”是一個舶來品,2012年5月負責Google搜索引擎的大神Amit Singhal在一篇《Introducing the Knowledge Graph: things, not strings》博客文章中提出“Knowledge Graph”(即知識圖譜)的概念,這篇文章被國內媒體廣泛轉載,知識圖譜概念就逐漸開始在國內傳播,因此“知識圖譜”最早是在搜索引擎中應用的。
知識圖譜的構建——認識圖譜背后的秘密
如上所述,“知識圖譜”最早是在搜索引擎中應用的。那么搜索引擎服務商為什么要在搜索引擎中引入“知識圖譜”的概念?它又是怎樣建立起來的呢?
大家知道隨著互聯網的普及,我們大量的信息是通過互聯網獲取的。在這個網絡中,每張包含信息的網頁就像是上述圖片中的“鋼珠”,網頁之間通過“磁力棒”(超鏈接)建立關聯關系。為了獲取到自己所需的信息,人們主要通過在搜索引擎中輸入關鍵字進行搜索,然后在搜索結果中找到自己所需的信息。但是大家知道,現在互聯網上的信息數以億計,為了能夠讓人們在海量的搜索結果中快速找到所需的信息,搜索引擎廠商們就引入了“知識圖譜”這個概念。當然除了谷歌,現在百度、搜狗等搜索引擎也在使用“知識圖譜”,以搜狗搜索為例。
當我們打開https://w w w. sogou.com/輸入“比爾·蓋茨”作為關鍵字,這樣在搜索結果頁面右側就會出現和比爾·蓋茨相關的知識圖譜,如比爾·蓋茨的親情、友情、愛情,以及與其相關的經濟人物、書籍等內容,這就是一個典型的知識圖譜的應用(圖3)。
那么這個圖譜是怎么建立?知識圖譜的關鍵是節(jié)點和節(jié)點聯系,以上述搜索為例,這里的節(jié)點就是各個搜索關鍵詞的頁面。作為搜索引擎它會通過網絡爬蟲收集海量的網頁數據作為節(jié)點,有了這些節(jié)點數據后關鍵就是如何將相關聯的節(jié)點數據建立對應的聯系。
搜索引擎要為用戶建立知識圖譜,關鍵是要理解用戶的搜索意圖。還是以上述搜索為例,搜索引擎在響應用戶輸入關鍵詞“比爾·蓋茨”后,除了可以展示直接的搜索結果(“比爾·蓋茨”的搜狗百科內容),還可以將“比爾·蓋茨”相關的關系以圖解方式列出知識圖譜。這是因為搜索引擎可以對用戶輸入的關鍵詞進行智能學習和判斷。比如搜索引擎可以根據用戶之前搜索的大數據進行分析和學習,知道用戶在輸入類似“比爾·蓋茨”關鍵詞時,很多用戶還希望了解“比爾·蓋茨”相關的數據,如其妻子、合作伙伴,甚至和其地位相似的經濟人物等。當然搜索引擎還會通過深度學習(通過人工輸入特定關鍵詞,或者抓取搜索大數據),了解到用戶普遍的搜索需求,從而可以在用戶輸入關鍵詞后能夠對自身存儲的數據進行關聯(如上例列出“比爾·蓋茨”的親情、友情、愛情關系圖譜),迅速將相應的知識圖譜展現在用戶屏幕上。顯然知識圖譜的建立是大數據分析、深度學習、人工智能這些先進技術的結晶(圖4)。
知識圖譜 不僅應用在搜索引擎
通過上述例子我們知道知識圖譜在搜索引擎中的應用,顯然通過知識圖譜我們可以獲得比較全面的搜索結果。雖然知識圖譜在搜索引擎中率先應用,但是隨著知識圖譜的普及,它也逐漸應用在我們的日常生活中。
比如很多朋友在進行互聯網金融投資(P2P)時,為了避免踩到平臺自融的雷,我們一般會通過工商查詢系統(tǒng)查看股東關系,很多平臺股東會在多個公司交叉持股。為了能夠更方便地對股東交叉持股的關系有個清晰的了解,此時使用知識圖譜來表示持股信息就是一個很好的方法。通過預先查詢特定股東參股的公司,然后根據實際持股信息繪制知識圖表,這樣股東持股信息就一目了然了(圖5)。
顯然利用知識圖譜可以將一些關系復雜、書面語言難以描述的關系利用知識圖表清晰地表達出來。同樣我們可以將其運用在很多方面,比如記憶單詞的時候,很多朋友喜歡使用一些基本詞根來進行擴展記憶,那么我們可以利用詞根來制作一張知識圖譜幫助我們記憶單詞(圖6)。