劉永生 廖 軍 李亞夢 王 巍
中國聯(lián)通研究院 北京 100048
知識圖譜是一種表示、處理和應(yīng)用知識的技術(shù),最早由谷歌公司在2012年提出,用來提升搜索引擎的智能。知識圖譜由節(jié)點和邊組成,節(jié)點表示實體,邊表示實體與實體之間的關(guān)系。近幾年深度學(xué)習(xí)的熱潮對知識圖譜發(fā)展起到了強(qiáng)大的推動作用,同時知識圖譜也被認(rèn)為是感知智能向認(rèn)知智能過渡的關(guān)鍵技術(shù)之一。
目前國內(nèi)外已經(jīng)開發(fā)了一大批知識圖譜。國外具有代表性的大規(guī)模知識圖譜有DBpedia、Freebase、Knowledge Vault等;國內(nèi)具有代表性的大規(guī)模知識圖譜有Zhishi.me、OpenKN、CN-DBpedia等。同時,行業(yè)知識圖譜也相繼出現(xiàn),具有代表性的有電影領(lǐng)域的IMDB、醫(yī)藥領(lǐng)域的DrugBank、學(xué)術(shù)領(lǐng)域的acemap等[1]。
知識譜圖的價值主要可以歸納為以下三點:1)智能高效的知識檢索能力,得益于自然語言處理和互聯(lián)網(wǎng)的發(fā)展,知識圖譜能夠提供智能搜索、智能問答、智能推理等能力;2)廣泛的行業(yè)應(yīng)用,很多行業(yè)發(fā)展了行業(yè)知識圖譜,應(yīng)用普遍的行業(yè)包括金融、電商、醫(yī)療等,各個行業(yè)嘗試使用知識圖譜實現(xiàn)知識的積累和靈活使用[2];3)認(rèn)知智能的基石,近幾年蓬勃發(fā)展的深度學(xué)習(xí)屬于感知智能階段,存在的一個主要問題是“黑箱”的不可解釋,解決該問題的方式之一是知識驅(qū)動,因此知識圖譜被認(rèn)為是從感知智能向認(rèn)知智能發(fā)展的基石,最新的研究進(jìn)展包括認(rèn)知圖譜[3-4]。
電信行業(yè)正在進(jìn)行數(shù)字化轉(zhuǎn)型,實現(xiàn)企業(yè)的高質(zhì)量發(fā)展,知識圖譜在數(shù)字化轉(zhuǎn)型過程中發(fā)揮重要作用。網(wǎng)絡(luò)的自動駕駛是未來5到10年的演進(jìn)目標(biāo),行業(yè)內(nèi)已經(jīng)提出了自動駕駛網(wǎng)絡(luò)的分級標(biāo)準(zhǔn)[5],網(wǎng)絡(luò)運營維護(hù)知識積累形成網(wǎng)絡(luò)知識圖譜,將助力自動駕駛網(wǎng)絡(luò)的演進(jìn)。同時,知識圖譜在企業(yè)服務(wù)和管理方面也具有重要作用,典型的代表是知識圖譜的智能問答代替人工服務(wù)等。
目前對知識圖譜沒有統(tǒng)一的定義,文獻(xiàn)[6]給出的定義為:知識圖譜是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系。其基本組成單位是“實體-關(guān)系-實體”三元組,以及實體及其相關(guān)屬性,實體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)。
知識圖譜中知識的表示方法主要有3類[7]:1)基于數(shù)理邏輯的知識表示,較早期的知識表示方法,該方法以符號邏輯為基礎(chǔ)的表示知識,優(yōu)點是易于表達(dá)顯性、離散的知識,缺點是很難使用機(jī)器生成推理規(guī)則,數(shù)據(jù)規(guī)模大時計算效率低;2)基于語義網(wǎng)絡(luò)的知識表示,工業(yè)界使用廣泛的一種表示方法,W3C制定的資源描述框架,使用三元組(s,p,o)來記錄各種事物及其相互關(guān)系,s和o表示實體,p表示關(guān)系,則(s,p,o)表示實體s和實體o之間存在關(guān)系p的知識;3)基于向量空間的分布式知識表示,將知識圖譜中的實體和關(guān)系嵌入到低維連續(xù)的向量空間,并且在該向量空間中完成語義計算。這種表示方法可以有效地挖掘隱形知識,對知識庫的構(gòu)建、推理、融合以及應(yīng)用具有重要意義,具有代表性的方法包括TransE模型[8]和RESCAL模型[9]。
知識圖譜的構(gòu)建是從原始的數(shù)據(jù)開始,經(jīng)過知識抽取、知識融合、知識加工的步驟,最終得到知識圖譜的過程,每個步驟中涉及具體的操作內(nèi)容,如圖1所示,下面對每個步驟的內(nèi)容及研究進(jìn)展進(jìn)行詳細(xì)介紹。
圖1 知識圖譜構(gòu)建技術(shù)
1.2.1 知識抽取
知識抽取是指從海量的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)中提取知識的過程,涉及的技術(shù)包括:實體抽取、關(guān)系抽取、屬性抽取。其中,實體屬性可以看作是實體與屬性值之間的關(guān)系,可以采用關(guān)系抽取的方法來獲得。
1)實體抽取
實體抽取是指從數(shù)據(jù)中識別實體。文獻(xiàn)[1]將實體抽取的方法分為3種:①基于規(guī)則與詞典的方法,利用人工制定的規(guī)則與詞典從數(shù)據(jù)中識別出實體。該方法抽取的實體準(zhǔn)確率高,通常面向單一領(lǐng)域,但是擴(kuò)展性比較差,難以滿足數(shù)據(jù)變化的需求。②基于統(tǒng)計機(jī)器學(xué)習(xí)的方法,利用數(shù)據(jù)對機(jī)器學(xué)習(xí)中模型進(jìn)行訓(xùn)練,使用訓(xùn)練好的模型來識別實體。比如Liu等將K臨近算法和線性條件隨機(jī)場模型結(jié)合來識別實體[10]。該方法需要足夠數(shù)量的訓(xùn)練數(shù)據(jù),當(dāng)數(shù)據(jù)量較小時,準(zhǔn)確率會受到影響。③面向開放域的抽取方法,針對海量網(wǎng)絡(luò)數(shù)據(jù)識別實體。該方法需要建立一個科學(xué)完整的命名實體分類體系。
2)關(guān)系抽取
關(guān)系抽取是指從海量數(shù)據(jù)中提取出實體之間的關(guān)系。關(guān)系抽取可以分為3類[7]:1)基于模板的關(guān)系抽取,使用模板通過人工或機(jī)器學(xué)習(xí)的方法抽取實體關(guān)系。該方法準(zhǔn)確率高且針對性強(qiáng),但是對大規(guī)模數(shù)據(jù)效果差,召回率低;2)基于監(jiān)督學(xué)習(xí)的關(guān)系抽取,使用人工標(biāo)注的數(shù)據(jù)集訓(xùn)練模型,使用訓(xùn)練好的模型抽取關(guān)系。比如Sun等提出的FTK模型,計算關(guān)系相似度并通過支持向量機(jī)對關(guān)系進(jìn)行分類[11];3)基于半監(jiān)督或無監(jiān)督學(xué)習(xí)的關(guān)系抽取,使用少量人工標(biāo)注的數(shù)據(jù)或者無標(biāo)注數(shù)據(jù)來學(xué)習(xí)關(guān)系。比如Feng等提出了基于強(qiáng)化學(xué)習(xí)的關(guān)系分類模型CNN-RL[12]。
1.2.2 知識融合
通過知識抽取獲得了大量的知識,因為數(shù)據(jù)來源不同等原因,同一實體、關(guān)系、屬性的描述信息存在差異,知識存在冗余信息。有必要對知識抽取的結(jié)果進(jìn)行清理和整合,這就是知識融合。另外,知識融合也包括引入第三方知識庫來增加知識的存量。
1)實體消岐
同一名稱在不同的語境下存在指代不同實體的情況,比如,李寧既可以指運動員,也可以表示品牌。實體消岐就是為了保證每一個實體具有清晰的名稱。實體消岐的方法大致可以分為2類:①基于聚類技術(shù)的消岐方法,基本思路是度量實體的名稱和語境相似度,將指向同一實體的名稱聚為一類。傳統(tǒng)的方法采用詞袋模型,后續(xù)的研究主要針對如何挖掘準(zhǔn)確全面的語義知識來尋找突破;②基于實體鏈接技術(shù)的消岐方法,基本思路是將數(shù)據(jù)中實體鏈接到知識庫中的正確詞條,來明確其真實含義,從而達(dá)到實體消岐的目標(biāo)。
2)共指消解
與歧義相對應(yīng),在抽取的知識中可能存在不同名稱表示同一實體,比如:“中國聯(lián)通”和“中國聯(lián)合網(wǎng)絡(luò)通信有限公司”其實是一個實體的兩個不同的名稱。共指消解技術(shù)就將這些不同的名稱指向同一實體的技術(shù)。研究進(jìn)展大致可以分為3類:①以特征為基礎(chǔ)的消解,特征可以是詞匯、距離、一致性、語法、語義等;②以句法分析為基礎(chǔ)的消解,代表方法是Hobbs算法和向心理論;③以統(tǒng)計機(jī)器學(xué)習(xí)為基礎(chǔ)的消解,典型的方法包括C4.5決策樹算法的引入和實體相似性測度模型。
3)知識合并
知識合并是現(xiàn)有知識庫的引入技術(shù),擴(kuò)充知識圖譜的容量。知識合并主要涉及2方面的內(nèi)容[6]:①合并外部知識庫,將外部知識庫合并到本地的知識圖譜,Mendes等提出了開放數(shù)據(jù)集成框架用于知識庫合并的標(biāo)準(zhǔn)化;②合并關(guān)系數(shù)據(jù)庫,企業(yè)現(xiàn)存的關(guān)系數(shù)據(jù)庫是知識圖譜的重要知識來源,將關(guān)系數(shù)據(jù)庫轉(zhuǎn)化成資源描述框架的形式是一種流行的操作,目前已經(jīng)出現(xiàn)了大量轉(zhuǎn)化的工具(比如Triplify、OpenLink等)。
1.2.3 知識加工
知識加工專注于優(yōu)化知識圖譜的邏輯關(guān)系,經(jīng)過知識加工后的知識圖譜具有較高的邏輯性。知識加工的技術(shù)主要包括:本體構(gòu)建、知識推理和質(zhì)量評估。
1)本體構(gòu)建
本體是一個通用的數(shù)據(jù)模型,相當(dāng)于知識圖譜的模具,通過定義規(guī)則和約束條件等來規(guī)范實體、關(guān)系以及實體的類型和屬性等之間的聯(lián)系。本體構(gòu)建的技術(shù)主要分為兩種:①人工構(gòu)建,依靠本領(lǐng)域?qū)<液捅姲姆绞剑斯?gòu)建工作量大而且適合的專家難以尋找;②數(shù)據(jù)驅(qū)動的自動化構(gòu)建,主要包括實體并列關(guān)系相似度計算、實體上下位關(guān)系抽取、本體生成的步驟[6]。
2)知識推理
知識推理是指從已有的實體關(guān)系出發(fā),經(jīng)過邏輯計算,建立實體間的新關(guān)聯(lián),從而拓展和豐富知識。知識推理的方法可以分為4類:①基于規(guī)則的推理,利用簡單的規(guī)則、統(tǒng)計特征等進(jìn)行推理,該方法可解釋性強(qiáng),準(zhǔn)確率高,但是規(guī)則不易獲得,抗干擾比差;②基于分布式表示的推理,將知識圖譜映射為低維向量表示,通過向量操作進(jìn)行推理,該方法計算方便,但是未深入考慮語義信息推理能力受限;③基于神經(jīng)網(wǎng)絡(luò)的推理,利用神經(jīng)網(wǎng)絡(luò)計算得到最優(yōu)的實體和關(guān)系,該方法推理能力強(qiáng),但是復(fù)雜度高可解釋性差;④混合推理,混合以上推理方法,該方法綜合各個方法的優(yōu)勢,但目前只是簡單的淺層混合。
3)質(zhì)量評估
質(zhì)量評估是在知識加入知識圖譜之前,對知識的可信度進(jìn)行評估,舍棄低質(zhì)量的知識?,F(xiàn)有質(zhì)量評估方法主要是利用數(shù)據(jù)來源的可信度來判別知識的質(zhì)量。谷歌提出了一種依據(jù)用戶貢獻(xiàn)歷史和領(lǐng)域,以及問題的難易程度進(jìn)行自動評估用戶貢獻(xiàn)知識質(zhì)量的方法,使用該方法對大規(guī)模用戶貢獻(xiàn)知識評估準(zhǔn)確率達(dá)到91%,召回率達(dá)到80%[6]。
人工智能的發(fā)展正在處于感知智能的階段,即數(shù)據(jù)驅(qū)動的智能,三要素是數(shù)據(jù)、算法和算力,主要研究深度神經(jīng)網(wǎng)絡(luò)及其應(yīng)用,并且在聲圖文等某些領(lǐng)域達(dá)到甚至超過了人類的識別水平,但是以深度神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)算法存在不可解釋的“黑箱”和不安全等問題,這些問題來自于數(shù)據(jù)驅(qū)動的智能的先天性缺陷。為解決上述問題,人工智能將邁向認(rèn)知智能階段,也被稱為第三代人工智能[13],核心是知識和數(shù)據(jù)共同驅(qū)動的智能,技術(shù)上可以將深度學(xué)習(xí)與大規(guī)模知識結(jié)合起來,實現(xiàn)認(rèn)知推理和邏輯表達(dá),最新的成果是認(rèn)知圖譜。
認(rèn)知圖譜是一個全新的概念,文獻(xiàn)[14]提出認(rèn)知圖譜可以被解釋為基于原始文本數(shù)據(jù),針對特定問題情境,使用強(qiáng)大的機(jī)器學(xué)習(xí)模型動態(tài)構(gòu)建的,節(jié)點帶有上下文語義信息的知識圖譜。認(rèn)知圖譜主要內(nèi)容包括以下4個方面[15]:①融合表示學(xué)習(xí)與符號邏輯的知識表示;②多源、動態(tài)、異質(zhì)碎片化知識的在線獲取和動態(tài)融合;③基于時空特性的知識演化和多粒度知識推理;④富知識的用戶理解和交互式知識適配。
文獻(xiàn)[3]提出了一種認(rèn)知圖譜的應(yīng)用框架,如圖2所示,由2個系統(tǒng)組成,系統(tǒng)1負(fù)責(zé)經(jīng)驗性的直覺判斷,這一黑盒過程提取重要信息,并動態(tài)構(gòu)建認(rèn)知圖譜;系統(tǒng)2則在圖上進(jìn)行關(guān)系推理,由于認(rèn)知圖譜保留了實體節(jié)點上語義信息的隱表示,所以在符號邏輯之外,也可以使用圖神經(jīng)網(wǎng)絡(luò)。本質(zhì)上,認(rèn)知圖譜的改進(jìn)思路是減少知識圖譜構(gòu)建時的信息損失,將信息處理壓力轉(zhuǎn)移給檢索和自然語言理解算法,同時保留圖結(jié)構(gòu)進(jìn)行可解釋關(guān)系推理。
圖2 認(rèn)知圖譜的應(yīng)用框架
文獻(xiàn)[16]基于認(rèn)知圖譜構(gòu)建了一個電商領(lǐng)域的推薦系統(tǒng):認(rèn)知智能計算平臺。該平臺主要包括基礎(chǔ)數(shù)據(jù)層、推理引擎層和用戶交互層。基礎(chǔ)數(shù)據(jù)層在構(gòu)建跨領(lǐng)域知識圖譜的同時理解數(shù)據(jù)背后的含義,推理引擎層使用超大規(guī)模圖神經(jīng)網(wǎng)絡(luò)對消費者意圖進(jìn)行推理,用戶交互層基于用戶交互的視覺智能和文本智能,理解消費者意圖,助力消費者決策。
電信行業(yè)正在進(jìn)行數(shù)字化轉(zhuǎn)型,實現(xiàn)企業(yè)的高質(zhì)量發(fā)展,以知識圖譜和認(rèn)知圖譜為代表的人工智能技術(shù)在電信行業(yè)擁有廣泛的應(yīng)用前景。一方面,政府報告多次要求電信企業(yè)“提速降費”,電信企業(yè)需要主動降低運營成本,知識圖譜等新技術(shù)的引入將會提升企業(yè)運行效率、替代部分人力。另一方面,國內(nèi)市場已經(jīng)進(jìn)入存量競爭的時代,不斷提升服務(wù)質(zhì)量成為競爭的關(guān)鍵所在,知識圖譜等新技術(shù)的引入將為客戶提供更加人性化和周到的服務(wù)。
1)電信詐騙預(yù)防與挖掘
隨著互聯(lián)網(wǎng)金融的發(fā)展,電信詐騙行為呈現(xiàn)爆發(fā)式增長,給用戶帶來巨大的經(jīng)濟(jì)損失,知識圖譜為解決電信詐騙提供了新的手段。文獻(xiàn)[4]基于事理認(rèn)知圖譜實現(xiàn)了一個預(yù)防網(wǎng)絡(luò)詐騙系統(tǒng),測試數(shù)據(jù)為運營商的10萬條用戶群在線交互信息,采用事理相關(guān)性推斷分析、博弈演化評估等技術(shù),代替人工審核,進(jìn)而總結(jié)出各種網(wǎng)絡(luò)電話詐騙手段運作規(guī)律,從歷史序列值和當(dāng)前序列值中合理推斷出未來發(fā)生可能的概率,找出欺詐者的蛛絲馬跡,挖掘其數(shù)據(jù)的矛盾點和可疑點,結(jié)果顯示預(yù)測準(zhǔn)確率達(dá)到95%。文獻(xiàn)[17]使用電信詐騙的數(shù)據(jù)構(gòu)建了知識圖譜,然后使用圖遍歷及圖算法、混合高斯模型,從聯(lián)系鏈路、必要人物、核心人物的發(fā)現(xiàn)以及社會關(guān)系識別的維度進(jìn)行分析挖掘。
2)疫情防控
2019年突發(fā)全球性的新冠疫情,嚴(yán)重影響了人們的生產(chǎn)和生活習(xí)慣,剛開始由于對新冠病毒的不了解,導(dǎo)致了人們的恐慌,同時每天有大量來自于官方、媒體、研究的新冠信息,對這些信息進(jìn)行整合,構(gòu)建新冠知識圖譜將極大的助力疫情的防控。電信運營商為用戶提供了互聯(lián)網(wǎng)的接入服務(wù)及相關(guān)的增值服務(wù),利用新冠知識圖譜,電信運營商可以為用戶提供疫情的查詢服務(wù),包括新冠病毒知識、辟謠信息、疫情人數(shù)、患者車次等疫情相關(guān)的知識問答,國內(nèi)中高風(fēng)險地區(qū)查詢,國內(nèi)外疫情人數(shù)查詢。疫情查詢服務(wù)為知識普及、疫情防控、社會穩(wěn)定做出重要貢獻(xiàn)。同時還可以結(jié)合人工智能的語音識別技術(shù),依靠多輪對話機(jī)器人可以更加方便為用戶提供服務(wù)。
電信運營商管理著非常龐大和復(fù)雜的網(wǎng)絡(luò),為了更加便利的管理,劃分成了接入網(wǎng)、承載網(wǎng)、傳輸網(wǎng)、核心網(wǎng)等不同的網(wǎng)絡(luò)域,不同的網(wǎng)路域具有專業(yè)的知識,近年來隨著SDN/NFV、云原生、人工智能等新技術(shù)的引入,網(wǎng)絡(luò)結(jié)構(gòu)出現(xiàn)更多的變化。專業(yè)的知識和復(fù)雜的網(wǎng)絡(luò)為網(wǎng)絡(luò)故障的診斷帶來了極大的困難。網(wǎng)絡(luò)知識圖譜可以將網(wǎng)絡(luò)各個專業(yè)知識、運維專家的經(jīng)驗、設(shè)備的產(chǎn)品信息等數(shù)據(jù)進(jìn)行積累,對于新技術(shù)的數(shù)據(jù)可以進(jìn)行及時補(bǔ)充,形成強(qiáng)大的網(wǎng)絡(luò)知識庫。一方面,網(wǎng)絡(luò)知識圖譜可以為運維人員提供即時的智能查詢服務(wù),包括各類基礎(chǔ)知識和常見運維知識,提供多輪查詢功能,不斷的明確問題。另一方面,文獻(xiàn)[18]利用網(wǎng)絡(luò)知識圖譜的知識推理功能,設(shè)計了一種智能化的故障診斷系統(tǒng),融合專家經(jīng)驗和文檔知識,實現(xiàn)智能化的根因推導(dǎo)。
電信行業(yè)的數(shù)字化轉(zhuǎn)型也改變了企業(yè)的人才結(jié)構(gòu),由以CT人才為主轉(zhuǎn)向CT和IT的更多領(lǐng)域人才,云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等人才不斷涌現(xiàn),人才專業(yè)跨度在增大。同時人才的能力層次各不相同,來源渠道各異。知識圖譜為人才高效管理提供了可行方法,文獻(xiàn)[19]提出基于知識圖譜構(gòu)建的人才能力標(biāo)簽圖譜,有效挖掘深層次的人才能力,發(fā)揮專家人才支撐服務(wù)一線、經(jīng)驗技術(shù)分享的作用,為人力在人崗匹配和晉升培養(yǎng)等方面提供幫助。
深度學(xué)習(xí)的發(fā)展為知識圖譜的研究帶來了新的思路,特別是在知識抽取和知識推理過程中具有很好的泛華能力,但仍然存在可解釋性差的問題。同時,知識圖譜也被認(rèn)為從感知智能向認(rèn)知智能發(fā)展的技術(shù)之一,將深度學(xué)習(xí)和知識圖譜結(jié)合在一起出現(xiàn)了認(rèn)知圖譜,在學(xué)術(shù)界和產(chǎn)業(yè)界引起了廣泛關(guān)注。電信行業(yè)正在進(jìn)行數(shù)字化轉(zhuǎn)型,知識圖譜和認(rèn)知圖譜具有廣闊的應(yīng)用前景,主要體現(xiàn)在企業(yè)運營的降本增效,本文列舉了幾項電信領(lǐng)域的典型應(yīng)用,包括:電信詐騙預(yù)防與挖掘、疫情防控、網(wǎng)絡(luò)故障智能查詢和診斷、人才管理。