龔海波 陸渝 劉波 劉小菁
廣西產研院人工智能與大數(shù)據(jù)應用研究所有限公司 廣西 南寧 530201
隨著人工智能和大數(shù)據(jù)技術發(fā)展日益成熟,以知識圖譜為代表的應用模式開始受到廣泛關注。知識圖譜是以結構化形式描繪實體以及其相關元素之間關系的語義網絡,包括語義、邏輯含義和規(guī)則,通過三元組即“實體-關系-屬性”集合的形式來描述事物之間的關系。知識圖譜在多個領域已有應用,如我們日常使用新聞資訊信息流、短視頻應用的智能推薦等都運用了知識圖譜。本文主要介紹知識圖譜的相關技術特點,以及結合柔性數(shù)據(jù)治理策略下的知識圖譜構建過程。
知識圖譜(Knowledge Graph)的概念由谷歌在2012年提出,是以結構化形式描述的知識元素及其聯(lián)系的集合,主要由實體、概念及其之間的各種關系組成的大規(guī)模語義網絡。
知識圖譜的實體可以是現(xiàn)實世界中獨立存在的具體對象,也可以是一種抽象概念,對應知識圖譜中的節(jié)點/頂點(Point/Vertex)。實體與實體之間的外部聯(lián)系,對應知識圖譜中的邊(Edge)。屬性是指實體內部的本質特征,是實體的固有特性,一般不體現(xiàn)在圖表征結構中,而是蘊藏在實體內部或關系內。
知識圖譜平臺可分為4層結構,即基礎服務層、存儲服務層、圖譜服務層、圖譜應用層,基于此模式下構建的知識圖譜平臺,可以支撐多種業(yè)務場景的應用。
1.2.1 基礎服務層?;A服務層主要提供平臺的服務器資源、網絡資源等底層的基礎服務能力。根據(jù)不同的場景特性,可以使用公有云、私有云或者混合云模式。為更好地與上層服務對接適配,應構建IaaS適配器實現(xiàn)多種服務模式整合與適配。
1.2.2 存儲服務層。存儲服務層實現(xiàn)知識數(shù)據(jù)的存儲相關服務。根據(jù)不同的數(shù)據(jù)類型,提供多種數(shù)據(jù)庫的存儲服務支撐,如非關系型數(shù)據(jù)MongoDB、關系型數(shù)據(jù)庫MySQL等?;诮y(tǒng)一、標準化和規(guī)范化的SQL語言,可以實現(xiàn)平臺存儲服務的國產化適配,如對達夢數(shù)據(jù)庫、人大金倉等國產數(shù)據(jù)庫服務商的數(shù)據(jù)庫產品實現(xiàn)兼容或切換。
1.2.3 圖譜服務層。圖譜服務是知識圖譜平臺的核心,實現(xiàn)了完整的數(shù)據(jù)匯聚處理、知識抽取、知識融合、知識加工等圖譜構建和應用過程。在此過程中,知識管理模塊實現(xiàn)監(jiān)控和管理,保障知識圖譜構建全流程順利執(zhí)行。此外,知識質量評估模塊負責對知識在使用過程中進行評估,從而實現(xiàn)知識的迭代更新,持續(xù)提升知識圖譜的服務質量。
1.2.4 圖譜應用層。依托圖譜服務層對知識數(shù)據(jù)進行融合和加工處理,圖譜應用層可以提供直觀可視化方式或符號形式的應用,支撐不同業(yè)務場景的需求。如基于警務大數(shù)據(jù)構建的知識圖譜,可通過鏈路預測、最短路徑等圖算法,深度挖掘實體復雜的網絡關系,應用在公安系統(tǒng)中實現(xiàn)嫌疑人行為的關聯(lián)分析。在個人消費者領域,基于知識圖譜可以搭建智能客服系統(tǒng),通過分析用戶自然語言問題的語義,進而在已構建的知識圖譜中通過檢索、匹配和推理等方式,獲取正確答案,自動化、智能化解決用戶問題。
以政務大數(shù)據(jù)治理為例,現(xiàn)有政務數(shù)據(jù)治理和云服務平臺在系統(tǒng)構架擴展性、定制性(彈性)方面存在較大問題,使得系統(tǒng)難以修改和擴展,難以快速響應用戶/業(yè)務部門對功能的修改和功能擴展需求。
現(xiàn)有政務系統(tǒng)存在各部門數(shù)據(jù)共享及業(yè)務互通性差的問題,一是系統(tǒng)開發(fā)者對業(yè)務不熟悉,缺乏對各部門業(yè)務和數(shù)據(jù)的統(tǒng)一梳理。二是各系統(tǒng)在數(shù)據(jù)格式和標準上的不一致,導致互通和共享有困難。三是現(xiàn)有系統(tǒng)在技術構架上沒有一套能適應各種來源數(shù)據(jù)共享和互通方面的機制,對新的子系統(tǒng)的增加不能很好地融合。
柔性治理策略為解決數(shù)據(jù)治理難題帶來新的思路?!耙匀藶橹行摹钡恼嵝灾卫砝砟?,就是減少控制性手段,增加管理彈性。在政務數(shù)據(jù)領域,多元數(shù)據(jù)主體標準不一,存在較多模糊與不確定性。通過柔性治理策略,實現(xiàn)構建多元主體之間的動態(tài)的,扁平化、網絡化的關系結構,可以主動適應變化,支持柔性靈活的治理結構,實現(xiàn)動態(tài)平衡的治理生態(tài)。
柔性治理技術架構為處理這種柔性關系結構創(chuàng)造條件和平臺,有效支撐多主體之間更加快速有效的合作互動,也同時輔助實現(xiàn)多元主體在這種相互依賴關系中充分信息共享,資源交換,保障協(xié)作治理過程的開放、透明和包容,既實現(xiàn)協(xié)作的協(xié)同一致,又保持各自獨立性。
柔性治理從3個方面為上述難點提供解決方案:柔性流程管理、柔性功能定制、柔性數(shù)據(jù)管理。通過將基于流程模板化(及可視化)定制和自動化生成技術,對流程審批等流程管理功能進行快速定制和開發(fā),實現(xiàn)數(shù)據(jù)治理流程服務的柔性定制開發(fā);基于參數(shù)配置和腳本自定義的技術框架,快速實現(xiàn)對功能模塊的修改和自定義,實現(xiàn)柔性功能定制[1]。在柔性數(shù)據(jù)管理上方面建立一套過程數(shù)據(jù)和知識數(shù)據(jù)分離的數(shù)據(jù)存儲和管理構架,同時對業(yè)務數(shù)據(jù)進行解耦和關聯(lián)性分析,在對公用數(shù)據(jù)和專用數(shù)據(jù)進行分類的基礎上,建立適應各種業(yè)務數(shù)據(jù)的數(shù)據(jù)結構、數(shù)據(jù)存儲形態(tài)和數(shù)據(jù)交換標準及接口,解決數(shù)據(jù)交換和共享問題。通過使用柔性治理技術框架,結合微服務和松耦合技術構架,全面提高系統(tǒng)的定制能力、可擴展性和運行性能。
目前傳統(tǒng)大數(shù)據(jù)平臺難以真正落到應用的根本原因在于缺少智能化的手段,平臺匯聚的大量數(shù)據(jù)無法有效組織,缺少能像人腦一樣能夠理解數(shù)據(jù)內涵的知識引擎。知識圖譜則是構建這樣的知識引擎來實現(xiàn)大數(shù)據(jù)應用落地。通過提煉、萃取、關聯(lián)、整合數(shù)據(jù),重組和鏈接各個數(shù)據(jù)單元之間的聯(lián)系,以類似人腦神經元細胞的方式呈現(xiàn)數(shù)據(jù)實體關系,知識圖譜已經成為知識引擎的核心,成為大數(shù)據(jù)落地應用關鍵技術之一。
知識圖譜構建和應用過程,主要分為4個階段,即知識匯聚階段、知識抽取階段、知識融合階段、知識加工階段,最終為各種場景下的應用提供知識服務能力。
數(shù)據(jù)是知識圖譜的基礎。數(shù)據(jù)類型包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)。在知識匯聚階段的主要工作就是通過數(shù)據(jù)處理技術實現(xiàn)數(shù)據(jù)的統(tǒng)一化,標準化和結構化。在實際應用中,多源異構的數(shù)據(jù)存在歧義沖突、噪聲大、質量不高等問題。不同來源的數(shù)據(jù)有著不同的質量,需要不同的數(shù)據(jù)加工方式。常用的數(shù)據(jù)加工技術包括數(shù)據(jù)結構化、數(shù)據(jù)識別、數(shù)據(jù)清洗和數(shù)據(jù)轉換等,如對于政策制度、法律文書、協(xié)議合同等長文本類型的半結構化數(shù)據(jù),一般采用NLP技術實現(xiàn)關鍵信息的結構化處理;對于視頻、音頻等非結構化數(shù)據(jù),則需要通過視頻分析、語義分割等技術實現(xiàn)結構化轉換。
知識抽取是構建知識圖譜“實體-關系-屬性”三元組的過程。主要包括實體抽取、關系抽取、屬性抽取、事件抽取等。通過以下步驟實現(xiàn):①從數(shù)據(jù)集中識別出實體;②抽取實體之間的關系,形成關系網絡;③從不同的信息源中采集特定的屬性信息。目前知識抽取主要采用基于神經網絡的方法,如通過構建預訓練語言模型BERT進行編碼,并結合CNN、RNN等算法進行抽取。知識建模階段需要行業(yè)專家參與支持模式設計、業(yè)務場景構建等工作。在專家的指導下進行知識抽取和構建,若涉及文本抽取工作還需要行業(yè)專家進行數(shù)據(jù)標注,整個知識抽取流程不僅涉及知識圖譜算法,還涉及底層的圖數(shù)據(jù)存儲與數(shù)據(jù)治理、NLP文本抽取和語義轉換,同時各環(huán)節(jié)都需結合機器學習相關的底層人工智能技術,需要多個技術領域的專業(yè)人員協(xié)同合作。
因為知識抽取來源多樣,不同的來源得到的知識不盡相同,知識融合階段需要完成實體對齊、屬性融合、值規(guī)范化等工作,將來自不同的知識源的知識在同一框架規(guī)范下進行異構數(shù)據(jù)整合、消歧、加工、推理驗證、更新等步驟,達到數(shù)據(jù)、信息、方法、經驗以及人的思想的融合,形成高質量的知識庫。主要通過以下步驟進行[2]:①完成指示代詞與先行詞的合并;②完成同一實體的歧義消除;③將已識別的實體對象,無歧義地指向知識庫中的目標實體。實體沖突處理用來判斷知識庫中的同名實體是代表同一含義、是否有其他實體也表示相同含義,識別不同來源的同一實體。解決同名實體產生沖突和歧義,通常采用聚類法、空間向量模型、語義模型等。屬性歸一是識別同一屬性的不同描述。不同來源的數(shù)據(jù)值通常有不同的格式、不同的單位或者不同的描述形式。比如日期、地址等表達方式,這些需要規(guī)范化到統(tǒng)一格式。
知識加工的主要任務包括知識推理和知識質量評估。主要包括以下步驟:①構建知識概念模塊,抽取本體;②進行知識圖譜推理,通過知識推理識別和推斷出隱藏或未知的語義,并構建新的知識網絡;③對知識圖譜的可信度進行量化質量評估,評估過關的知識圖譜可以流入知識圖譜庫中存儲,評估不過關的知識圖譜需要返回數(shù)據(jù)環(huán)節(jié)進行調整,而后重復相同環(huán)節(jié)直到評估過關。
柔性治理的策略在知識加工環(huán)節(jié)應用尤為重要[3]。對于已經構建完成的知識圖譜,其知識網絡并非“剛性不變”的,需要實現(xiàn)柔性化機制,以適應知識網絡的迭代更新。在知識圖譜使用過程中,通過建立反饋模塊獲取知識更新要素,并結合知識加工流程,將更新的知識要素通過知識推理進行重新識別和推斷語義,以更新的知識網絡,最終實現(xiàn)知識圖譜的迭代更新。
知識圖譜在行業(yè)的落地應用需要有業(yè)務知識和技術背景的專業(yè)人員來實現(xiàn)。由業(yè)務專家參與支持模式設計、業(yè)務場景構建,與技術人員進行深入溝通,依托知識圖譜平臺,將業(yè)務與技術團隊協(xié)同推進,才能完成知識圖譜的構建和應用。
從知識圖譜的構建技術看,它經歷了由人工構建到自動獲取、構建的過程。人工構建是早期知識圖譜構建的主要方法,得益于結構化和半結構化數(shù)據(jù)的積累,結合特征工程機器學習算法,已經能夠逐步實現(xiàn)自動化構建知識。在一些數(shù)據(jù)質量要求較高領域,如醫(yī)療、安全和金融等,仍需通過人工審核保證準確性。這是知識圖譜技術發(fā)展需要經歷的一個過程,隨著知識圖譜持續(xù)增大,數(shù)據(jù)節(jié)點同步增加,邊和屬性同步會帶來幾何倍增長,人力方式已經無法支撐校驗知識圖譜的質量,這將要求技術演進逐步實現(xiàn)算法自動進行校驗,最終實現(xiàn)自動化構建。
知識圖譜目前已經廣泛應用于政務服務場景和企業(yè)服務領域。如在政務服務場景,依托物聯(lián)網感知設備構建的對大氣、水利、土壤等空天地環(huán)境監(jiān)測網絡,通過海量原始數(shù)據(jù)的采集,構建知識圖譜[4]。應用知識圖譜實現(xiàn)可視化結構復雜的原始環(huán)境數(shù)據(jù),梳理挖掘環(huán)保對象、環(huán)保流程、環(huán)保措施等數(shù)據(jù)之間的關系并轉化為知識庫,對環(huán)境數(shù)據(jù)進行實時、立體化監(jiān)控,進行對環(huán)境質量趨勢的長期跟蹤和分析研判,對質量異常波動和各類環(huán)境污染事故做出預警,提升管理能力,輔助精準決策。
在企業(yè)服務方向知識圖譜也有廣闊的應用前景。例如針對制造型企業(yè)自身業(yè)務體系龐大,數(shù)據(jù)多元且知識結構復雜的特性,通過知識圖譜技術,將人力資源、生產車間、生產物料、機械設備、生產工藝等基礎數(shù)據(jù)進行知識抽取、建模、融合和加工,構建知識服務平臺,建立企業(yè)管理全流程知識圖譜,可以提高生產流程中問題的預見和解決能力,提升資源配置效率、生產效率和產品質量。
在個人消費領域,應用大數(shù)據(jù)進行精準營銷和服務的模式已經得到充分驗證。從產品設計、銷售到售后的過程中,利用信息化系統(tǒng)積累大量的用戶數(shù)據(jù),基于知識圖譜的能力打通并與業(yè)務場景結合,利用數(shù)據(jù)驅動業(yè)務增長提高業(yè)務效率,是數(shù)字化賦能消費行業(yè)升級的一種新趨勢。隨著市場競爭性增加,商家希望通過增強對客戶的數(shù)據(jù)洞察能力,盡可能地準確理解和深度挖掘客戶的差異化需求,與自身產品和服務進行匹配,從而實現(xiàn)精準觸達,縮短獲客時間,降低營銷成本?;谥R圖譜技術匯聚多源客戶信息,構建客戶多維畫像和標簽體系,在個人及零售業(yè)務中,能將客戶的關系、事件、行為等進行關聯(lián),在整個業(yè)務周期對客戶屬性進行動態(tài)、實時的描繪,深度分析客戶喜好,實現(xiàn)產品的精準匹配推薦,發(fā)掘出有價值的營銷線索。
綜上所述,以柔性治理策略下的知識圖譜將有效促進人工智能與大數(shù)據(jù)、物聯(lián)網等技術的融合發(fā)展,推動數(shù)據(jù)智能,從而實現(xiàn)產業(yè)智能化升級。