趙志耘,劉 耀,朱禮軍,吳欣雨
(中國科學技術(shù)信息研究所,北京 100038)
當前的復雜信息環(huán)境中,知識數(shù)據(jù)呈現(xiàn)一種“不穩(wěn)定狀態(tài)”,來自開源情報的大規(guī)模非結(jié)構(gòu)化數(shù)字資源需要經(jīng)過先進的知識組織建設(shè)才能成為高質(zhì)量的知識來源,為實現(xiàn)需求導向的知識服務奠定基礎(chǔ)[1]。數(shù)字資源建設(shè)的核心是知識組織模式[2],知識組織模式根據(jù)建設(shè)需求的變化,經(jīng)歷了從數(shù)字資源整合向數(shù)字資源聚合的轉(zhuǎn)變[3],數(shù)字資源整合一般采用自頂向下的“分類”的知識再組織理念,近期的數(shù)字資源聚合則采用自底向上的“聚類”的知識再組織理念,形成集概念主題、學科內(nèi)容和科研對象實體為一體的立體化知識網(wǎng)絡(luò)。資源聚合的發(fā)展方向,一是基于增強語義,主要研究方向有基于概念關(guān)系分析的數(shù)字資源聚合[4]、基于本體的數(shù)字資源語義聚合與可視化[5-6]、基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字資源聚合[7-8];二是基于發(fā)現(xiàn)關(guān)聯(lián),發(fā)現(xiàn)關(guān)聯(lián)又可細分為基于計量分析和基于社會網(wǎng)絡(luò)分析[9]。
數(shù)字資源建設(shè)的目的是知識服務,通過不同的服務平臺與服務模式實現(xiàn)知識的共享和再利用[10]。知識共享與再利用的對象可分為兩類,一類是基于特定需求對原始資源進行加工處理后形成的知識庫,可以直接再次服務于相同需求;另一類是基于需求進行知識組織加工的業(yè)務流程,可以再次用于處理類似需求的不同資源。主流知識利用模式有學科信息門戶服務模式、專業(yè)化知識服務模式、個性化定制知識服務模式、數(shù)字化參考咨詢服務模式和自助式知識服務模式[11]。大部分知識服務系統(tǒng)融合了多種服務模式,但目前的解決方案側(cè)重于支持第一類對象的建設(shè)與利用,而缺少對第二類對象的關(guān)注[12]。
近年來,有關(guān)知識組織與利用模式的國家社會科學基金項目多集中于對知識庫、知識圖譜和知識服務的研究,充分調(diào)研后,發(fā)現(xiàn)這些研究項目在領(lǐng)域泛化能力和知識服務自動化方面存在一些不足和問題。中醫(yī)知識組織模式創(chuàng)新研究(19AZD018)[13]、機構(gòu)知識庫可持續(xù)發(fā)展研究(17BTQ024)[14]、基于大數(shù)據(jù)分析技術(shù)的中醫(yī)信息服務知識庫研究(17BTQ063)[15]、科技論文全景式摘要知識圖譜構(gòu)建與應用研究(19BTQ061)[16]、融合知識圖譜和深度學習的在線學術(shù)資源挖掘與推薦研究(19BTQ005)[17]等項目的主要研究領(lǐng)域是語言學、圖書館和情報學,存在領(lǐng)域限定性強、知識組織工程量大、周期長等不足,無法靈活解決工程需求。而針對知識服務的研究,如基于媒體融合的圖書館知識服務優(yōu)化機制研究(19CTQ008)[18]和用戶交互與知識構(gòu)建雙重驅(qū)動的知識服務平臺評估研究(19BTQ081)[19],主要是對服務形式的分析,未能很好解決業(yè)務驅(qū)動下的知識組織與再利用的自動化問題。業(yè)務組織模型也僅在管理學領(lǐng)域的面向健康數(shù)據(jù)的認知圖譜研究(15BGL191)[20]中得到較為全面的利用。
根據(jù)上述對知識組織模式與利用模式的介紹,可以得出現(xiàn)有知識服務存在的兩大問題:①現(xiàn)有知識庫構(gòu)建不夠靈活,沒有基于認知模式進行智能化知識結(jié)構(gòu)構(gòu)建[21-22],導致知識體系的構(gòu)建不僅昂貴,還機械呆板,無法對現(xiàn)有知識體系進行二次組織,因而不能靈活響應日益增加的個性化服務需求[23-25];②現(xiàn)有研究多集中于單一領(lǐng)域內(nèi)的語義結(jié)構(gòu)化、知識圖譜和知識庫構(gòu)建方式,且關(guān)于知識服務的研究局限于系統(tǒng)功能設(shè)計,知識組織與知識利用脫節(jié),缺少突破領(lǐng)域壁壘進行知識再利用的能力,無法在業(yè)務和問題驅(qū)動下實現(xiàn)知識組織和知識再利用的有機整合,使知識組織和資源加工面向需求、面向服務。
針對知識服務領(lǐng)域現(xiàn)存的兩大問題,本文從業(yè)務需求入手,將研究內(nèi)容分為四個部分,其中業(yè)務組織模型的理論與方法研究是指導知識組織與再利用的中心思想,業(yè)務自動生成與業(yè)務再利用能力從業(yè)務層面進行知識再利用的方法研究,敏捷的專業(yè)知識組織能力從資源層面進行知識組織的技術(shù)研究,新型知識服務模式研究則主要解決知識再利用的實踐問題。
復雜信息環(huán)境對知識組織和再利用方法都提出了更高的要求,之前針對單一領(lǐng)域結(jié)構(gòu)化資源的處理方法不再適用于來自開源情報的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù),固定的業(yè)務模型也無法滿足日新月異的知識服務需求。在新環(huán)境下,為了解決知識服務領(lǐng)域現(xiàn)存的兩大問題,本文提出圖1所示的整體研究框架,重點研究建設(shè)一個理論、兩種能力和一套服務模式?!耙粋€理論”是指復雜信息環(huán)境下業(yè)務組織模型的理論與方法;“兩種能力”是指敏捷的專業(yè)知識組織能力,用于資源的快速解析,以及業(yè)務自動生成與業(yè)務再利用能力,用于業(yè)務模型的快速構(gòu)建;“一套服務模式”指的是基于PaaS(platform as a service,平臺即服務)模式和SaaS(software as a service,軟件即服務)模式的新型知識服務模式,該新型知識服務模式由業(yè)務再利用方法和知識組織技術(shù)支撐,能夠為不同需求提供對應的知識服務組配路徑,形成靈活敏捷的知識服務平臺。本文形成的新型服務模式給予了SaaS用戶一定的業(yè)務定制能力,并降低了PaaS用戶的使用門檻,為知識再利用提供解決方案。
圖1 研究框架
在知識服務領(lǐng)域中,業(yè)務即為用戶提出的知識服務需求,業(yè)務組織即為調(diào)配各類資源,從分析需求、開發(fā)工具到完成需求的完整流程。業(yè)務組織和業(yè)務組織得到的結(jié)果都被稱為知識,是知識服務的素材。在復雜信息環(huán)境下,現(xiàn)有的業(yè)務組織模型無法根據(jù)需求高效利用資源,導致在解決個性化任務時力有不足。為了彌補這一缺陷,首先要形成系統(tǒng)的業(yè)務認知體系,并對業(yè)務流程中節(jié)點的資源構(gòu)建機制建模,從而形成整體的業(yè)務組織模型,指導知識組織與再利用建設(shè)。業(yè)務組織模型理論與方法研究按照流程可以分為業(yè)務認知體系構(gòu)建、基于業(yè)務的需求解析模型和業(yè)務驅(qū)動的代碼組配模型。
軟件項目研發(fā)流程中沉淀的業(yè)務認知,需要有一個具備存儲及推理能力的載體,即認知圖譜。業(yè)務資源數(shù)據(jù)可分為兩大類:文檔類資源和代碼類資源。文檔類資源代表各個業(yè)務節(jié)點形成的知識,代碼類資源則代表著數(shù)據(jù)流轉(zhuǎn)的全部過程。
為了賦予軟件資源解決問題的能力,本文提出構(gòu)建認知的兩個維度(圖2)。首先,通過模擬軟件開發(fā)的流程,得到軟件開發(fā)的一般步驟,作為縱向的認知方式;其次,通過從資源中挖掘知識關(guān)聯(lián),得到橫向的領(lǐng)域知識認知。
圖2 業(yè)務認知體系
通過分析業(yè)務流程可以得出,需要建立起的認知聯(lián)系有以下兩個方面:需求與實現(xiàn)方式,即功能之間的認知聯(lián)系;流程節(jié)點之間的認知推導,即流程相聯(lián)依據(jù)。以文檔類資源為核心,以代碼類資源為補充,對于每個業(yè)務節(jié)點形成業(yè)務資源深度協(xié)同的認知結(jié)構(gòu),通過需求-功能-代碼的方式進行連接,圖3為定制爬蟲業(yè)務基于認知體系構(gòu)建的認知圖譜。虛線框表示同級的任務節(jié)點拆分,即橫向認知關(guān)聯(lián);箭頭連接的是按照軟件設(shè)計流程上一環(huán)節(jié)與下一環(huán)節(jié)的對應關(guān)系,體現(xiàn)了縱向的認知關(guān)聯(lián)。
圖3 定制爬蟲業(yè)務認知圖譜
需求階段是軟件研發(fā)中的重要初始環(huán)節(jié),需求的表示方式通常為自然語言的文本形式,存在于各種項目需求文檔、概要設(shè)計書、詳細設(shè)計書中。需求文本具有兩個特征:存在某一概念為業(yè)務的預期呈現(xiàn)結(jié)果;存在某一概念為達到這一結(jié)果的處理描述。
本文將業(yè)務劃分為三種需求處理類型,通過定義每種需求類型的概念結(jié)構(gòu)特征,確定業(yè)務所屬的需求處理類型。本文假設(shè)研究的無結(jié)構(gòu)需求文本都具有“需求-處理”式結(jié)構(gòu),即在需求文本中至少包含一個“需求”類概念與一個“處理”類概念。在研究構(gòu)建的需求概念結(jié)構(gòu)中,針對具體業(yè)務,將“需求”類概念細分為“詞匯”“句子”和“篇章”類概念。構(gòu)建相應的需求文本概念結(jié)構(gòu)模型如表1所示。
表1 需求文本概念結(jié)構(gòu)模型
本文將業(yè)務需求文本對插件代碼所使用的自然語言處理工具建立映射關(guān)系,映射路徑為“需求文本-需求處理類型-代碼庫-細分代碼庫-代碼檢索”。需求文檔的解析結(jié)果示例如圖4所示。
圖4 需求文檔解析結(jié)果示例
業(yè)務驅(qū)動的代碼組織即跨過手動調(diào)試的步驟,使代碼能夠根據(jù)需求追蹤到符合業(yè)務需求的代碼組件,從算法代碼庫中構(gòu)建出面向業(yè)務的代碼組件。在這個過程中,將與業(yè)務需求相關(guān)的代碼檢索出來,基于檢索到的面向業(yè)務的代碼,通過算法資源庫中與代碼組件所關(guān)聯(lián)的豐富的文檔與論文資源,在組配后能實現(xiàn)算法的正常運行。
代碼組配有兩種具體使用場景,一種是需求直接匹配單一代碼塊,在該場景中,輸入需求已被拆分為代碼步驟的最小顆粒度。此時,組配重點是確保多個需求對應代碼的輸入輸出、運行環(huán)境、解釋器版本等信息的一致性,通過在候選代碼中篩選符合條件的代碼塊進行重組,從而確保代碼的可運行。
另一種場景表現(xiàn)為輸入需求顆粒度比現(xiàn)有代碼顆粒度大。此場景的處理機制是輸入需求,以需求為關(guān)鍵詞檢索到代碼資源庫中所有相關(guān)的經(jīng)過擴充語義和包含結(jié)構(gòu)信息的代碼組件,隨后將檢索到的代碼組件進行聚類,根據(jù)聚類結(jié)果判斷該需求所需步驟以及各步驟間的順序,即每一需求內(nèi)部形成小型組配任務。該使用場景需要實現(xiàn)兩層組配,第一層組配是外層需求代碼間的組配,該層組配與第一種場景一致,重點在確保代碼組合后可以正常運行。第二層組配是單一需求拆分后的內(nèi)部代碼的組配,在內(nèi)部組配時需要考慮到篩選出的代碼間的適配問題,只有運行環(huán)境、輸入輸出等符合要求,才能實現(xiàn)組配。兩層組配完成后,最終實現(xiàn)代碼的可運行。具體模型如圖5所示,圖中的需求1為第一種場景的處理流程,需求2為第二種場景的處理流程。
圖5 算法路徑組織模型
形成的算法代碼庫和組織路徑如圖6所示。
圖6 算法代碼庫和路徑組織示例
在復雜信息環(huán)境下,研究業(yè)務自動生成與業(yè)務再利用能力的目的是解決業(yè)務知識組織與知識再利用之間存在的斷層問題,為應用示范提供業(yè)務知識資源及模型依據(jù),也為下文的新型知識服務模式賦能。
按照業(yè)務的處理流程,自動生成與再利用方法研究主要包括單業(yè)務資源解析、多系統(tǒng)知識關(guān)聯(lián)和業(yè)務資源再利用路徑自組織,整體框架如圖7所示。
圖7 業(yè)務模型自動生成整體框架
單業(yè)務資源解析是根據(jù)Schema規(guī)范對業(yè)務知識進行形式結(jié)構(gòu)化處理,再利用各類知識抽取手段進行內(nèi)容結(jié)構(gòu)化處理,形成單業(yè)務知識庫,同時指導內(nèi)容結(jié)構(gòu)化生成。單業(yè)務解析的關(guān)鍵流程如下。
(1)形式結(jié)構(gòu)化:提取業(yè)務文檔、代碼,以及相關(guān)軟件規(guī)范、論文等資源中的結(jié)構(gòu),作為多系統(tǒng)功能知識關(guān)聯(lián)的前提。
(2)內(nèi)容結(jié)構(gòu)化:對業(yè)務文檔進行概念提取、概念關(guān)系標引,提取需求與功能對,對代碼進行語義分析,提取功能與流程對。
(3)知識資源庫構(gòu)建:利用單業(yè)務資源的結(jié)構(gòu)形式及內(nèi)容結(jié)構(gòu)的解析結(jié)果構(gòu)建單業(yè)務知識資源庫。
單業(yè)務資源解析中形式和內(nèi)容語義會隨著資源本身而改變,例如,代碼資源的形式語義為代碼的編寫規(guī)范,如圖8所示,其中每個類(class)是一個功能模塊,可以當作一個任務,每個方法(meth‐od)可以實現(xiàn)一個完整的小流程,而代碼資源的內(nèi)容語義為代碼實際的功能描述,需要通過特征抽取與關(guān)聯(lián)挖掘獲得,解析流程如圖9所示。
圖8 代碼結(jié)構(gòu)
圖9 代碼業(yè)務資源解析流程
多系統(tǒng)知識關(guān)聯(lián)要對完成解析的單業(yè)務資源進行關(guān)聯(lián),形成業(yè)務知識網(wǎng)絡(luò),關(guān)鍵流程如下。
(1)關(guān)聯(lián)特征提取:分析提取業(yè)務資源結(jié)構(gòu)、內(nèi)容中的需求功能關(guān)聯(lián)特征。
(2)業(yè)務知識關(guān)聯(lián):關(guān)聯(lián)具有相似資源與特征的資源,判斷單業(yè)務的功能及流程節(jié)點間的鏈接關(guān)系,形成多系統(tǒng)關(guān)聯(lián)的業(yè)務知識網(wǎng)絡(luò)。
以文檔和代碼資源關(guān)聯(lián)為例,如圖10所示,業(yè)務知識網(wǎng)絡(luò)構(gòu)建的具體步驟為:①業(yè)務知識層級向量表示(文檔層級結(jié)構(gòu)、需求分析-軟件設(shè)計流程、概念及其關(guān)系提?。?;②對需求文檔在業(yè)務層級上進行映射;③對候選代碼組合在業(yè)務層級上進行映射(函數(shù)命名原則拆解、注釋信息、特征代碼等);
圖10 文檔+代碼知識關(guān)聯(lián)流程
④根據(jù)相似度進行排序。
業(yè)務資源再利用路徑自組織基于單業(yè)務解析與多系統(tǒng)知識關(guān)聯(lián)的結(jié)果,以期通過業(yè)務路徑自組織實現(xiàn)業(yè)務資源的再利用,關(guān)鍵流程如下。
(1)多源融合的業(yè)務與功能關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建。基于需求與業(yè)務資源庫,使用網(wǎng)絡(luò)表示方法對業(yè)務知識網(wǎng)絡(luò)進行向量表示。
(2)業(yè)務流程與功能關(guān)鍵節(jié)點發(fā)現(xiàn)。通過特征工程以及圖數(shù)據(jù)挖掘,構(gòu)建需求與功能、功能與流程對應的關(guān)鍵節(jié)點關(guān)系判定模型,作為新需求指導業(yè)務生成的路徑構(gòu)建基礎(chǔ)。
(3)業(yè)務路徑自組織。劃分需求對應的功能與子功能,自動獲取各功能下業(yè)務資源,對業(yè)務節(jié)點進行關(guān)系判定,實現(xiàn)相關(guān)資源、技術(shù)、工具和模型的自動組織,進而實現(xiàn)從新需求自動構(gòu)建功能流程的路徑方法。
敏捷的專業(yè)知識組織能力研究目的是形成以自然語言處理及深度學習技術(shù)為壁壘的、將數(shù)據(jù)資源向顯性知識轉(zhuǎn)換的敏捷組織能力,賦予模型解決實際問題的能力。單篇文本是業(yè)務資源里知識的最小單元,通過對單篇文本的知識結(jié)構(gòu)完全挖掘并結(jié)合多篇文本關(guān)聯(lián)的知識自組織模型,可在資源有限情況下提供快速針對具體問題進行知識組織的能力,作為技術(shù)能力為業(yè)務模型賦能。
單篇文本全解析主要研究專業(yè)文本的知識結(jié)構(gòu)全解析,解決單篇文本中知識結(jié)構(gòu)的全標引、全解析問題。
單篇解析能否全面、準確,是敏捷知識組織的基礎(chǔ)。單篇全解析的主要思路為“先驗知識-海量文本-知識體系-單篇文本知識結(jié)構(gòu)”的映射路徑,融合先驗知識和領(lǐng)域知識,形成領(lǐng)域隱性知識結(jié)構(gòu),并基于該體系學習無結(jié)構(gòu)語料的隱性結(jié)構(gòu)。數(shù)據(jù)處理流程如圖11所示。
圖11 知識結(jié)構(gòu)全解析數(shù)據(jù)處理流程
單篇全解析的關(guān)鍵技術(shù)節(jié)點如下。
(1)復雜語境下的知識發(fā)現(xiàn)。在不進行顯性標注的情況下進行語義單元的識別,利用篇章結(jié)構(gòu)形成語義單元形式語義向量,結(jié)合形式語義與內(nèi)容語義進行先驗知識的映射以及實體到實體的解碼,通過模板將知識標引任務轉(zhuǎn)化為文本生成任務,實現(xiàn)概念自動標引。
(2)開放關(guān)系中的知識發(fā)現(xiàn)。提出“先驗知識-海量文本-知識體系-單篇文本知識結(jié)構(gòu)”的映射路徑,通過先驗知識與文本之間相互映射進行知識發(fā)現(xiàn)、結(jié)構(gòu)與語義的融合,實現(xiàn)先驗知識與文本的相互轉(zhuǎn)化,完成文本知識發(fā)現(xiàn)與深度結(jié)構(gòu)化。
(3)知識映射的路徑發(fā)現(xiàn)。使用大量語料進行任意領(lǐng)域知識體系的發(fā)現(xiàn),對所發(fā)現(xiàn)的知識體系進行精煉,確立篇章隱含結(jié)構(gòu)模型,結(jié)合概念及其關(guān)系標引結(jié)果,利用算法識別單篇文本的隱含篇章結(jié)構(gòu),指導單篇文本知識結(jié)構(gòu)生成,從而實現(xiàn)全解析的目標。具體技術(shù)路線如圖12所示。
圖12 知識結(jié)構(gòu)全解析技術(shù)路線
利用單篇全解析技術(shù),對圖13所示的無標注的新聞進行解析,解析后的結(jié)果如圖14所示。處理后的知識結(jié)構(gòu)包含該單篇中的所有實體及其類型、各個實體之間組成的關(guān)系以及隱含的主題信息。
圖13 未標注新聞
圖14 處理后的單篇知識結(jié)構(gòu)
完成單篇全解析目標后,即可從單篇文本的處理轉(zhuǎn)向?qū)Χ嗥谋镜奶幚怼6嗥谋娟P(guān)聯(lián)的知識自組織模型主要解決多篇文本中知識自組織模型的構(gòu)建與路徑識別問題,即基于多源數(shù)字資源知識,自動組織相關(guān)資源、技術(shù)、工具和模型,從而挖掘知識結(jié)構(gòu)之間、概念之間的關(guān)聯(lián)和相似關(guān)系,進一步揭示知識關(guān)聯(lián)路徑規(guī)律。
知識關(guān)聯(lián)自組織的關(guān)鍵技術(shù)節(jié)點如下。
(1)數(shù)字資源知識自組織模型構(gòu)建。通過對單篇文本形成的資源庫進行假設(shè)分析,分析文本的語義結(jié)構(gòu)和組織結(jié)構(gòu),構(gòu)建知識網(wǎng)絡(luò),得到數(shù)字知識關(guān)聯(lián)的路徑。
(2)數(shù)字資源知識自組織模型識別。利用知識文本結(jié)構(gòu)化解析技術(shù)、主題提取和概念識別技術(shù)、知識結(jié)構(gòu)關(guān)聯(lián)技術(shù),對多篇不同文本進行結(jié)構(gòu)計算,進行實驗驗證與分析,得出自組織模型。
數(shù)字資源知識自組織模型的生成。對未標記的開放文本首先進行單篇解析,使用關(guān)聯(lián)模型結(jié)合文本和結(jié)構(gòu)進行關(guān)聯(lián)路徑判斷,實現(xiàn)知識關(guān)聯(lián)路徑自動生成。具體技術(shù)路線如圖15所示。
圖15 數(shù)字資源知識自組織技術(shù)路線
利用數(shù)字資源知識關(guān)聯(lián)自組織技術(shù),對圖16所示的政策進行擴散路徑計算,解析后的部分結(jié)果如圖17所示。在政策擴散路徑圖中,有向線段的起始點是作為擴散源的政策,終點為存在擴散關(guān)系的政策,線段上標記的數(shù)值為該擴散關(guān)系的置信度,加粗的一條為置信度最高的擴散路徑。
圖16 政策文本
圖17 政策擴散路徑圖示(部分)
通過業(yè)務組織模型構(gòu)建的理論與方法研究,探索加強業(yè)務模型自動構(gòu)建技術(shù)與敏捷的專業(yè)知識組織方法,其目標就是實現(xiàn)傳統(tǒng)知識服務模式向新型知識服務模式的轉(zhuǎn)變。其中,新型知識服務模式有兩種,分別為PaaS模式和SaaS模式。這兩種新型的服務模式各自對應著不同的業(yè)務群體,能夠根據(jù)用戶需求、用戶技術(shù)水平、設(shè)施情況等針對性地提供服務。此外,基于SaaS、PaaS的新型知識服務模式要求對業(yè)務相關(guān)的技術(shù)模塊進行合理且有效的組件拆分與組件細化,不僅能提高面向復雜業(yè)務的處理能力,還可以良好地應對未來開發(fā)技術(shù)的迭代與更替,在技術(shù)日新月異的信息時代站穩(wěn)腳跟。
SaaS和PaaS是基于云平臺的新型服務模式。SaaS服務模式即軟件即服務,在這種服務模式下,應用將作為服務提供給客戶。在傳統(tǒng)的SaaS服務模式下,用戶不需要考慮工具開發(fā)或者數(shù)據(jù)庫管理,使用封裝好的應用獲取定制的知識服務。PaaS服務模式即平臺即服務,在這種服務模式下,開發(fā)平臺將作為服務提供給用戶。PaaS平臺能夠幫助用戶降低開發(fā)成本,提高開發(fā)效率。傳統(tǒng)的PaaS可以解決一定的個性化需求,但用戶門檻較高,用戶必須有一定開發(fā)基礎(chǔ),才能基于提供的基礎(chǔ)設(shè)施以及開發(fā)平臺,調(diào)用或改寫不同組件,完成業(yè)務資源處理。
基于對業(yè)務組織的理解,本文提出了SaaS和PaaS在知識服務領(lǐng)域形成的新型服務模式,能夠解決個性化需求,給予SaaS用戶更高的使用自由度,并給予PaaS用戶更低的使用門檻。在知識全解析與知識關(guān)聯(lián)的技術(shù)支持下,SaaS用戶可以在現(xiàn)有知識模型基礎(chǔ)上進行二次建模,通過對數(shù)字資源的重組構(gòu)成新的知識服務并共享給其他用戶。對于PaaS用戶而言,本文基于拆解組件的知識組織與再利用機制,對知識服務的數(shù)據(jù)獲取、模型構(gòu)建、工作流編寫、可視化展示的全流程進行了工具和技術(shù)覆蓋,并對流程中的每個節(jié)點的工具和技術(shù)提供自行開發(fā)、改寫或重組現(xiàn)有組件、調(diào)用現(xiàn)有組件這三種模式,大大降低了PaaS模式的使用門檻。如果用戶為特定知識領(lǐng)域的專業(yè)人員,需要提供該領(lǐng)域的知識服務,可使用本文中構(gòu)建的PaaS平臺實現(xiàn)。用戶基于自身專業(yè)知識,在平臺構(gòu)建數(shù)據(jù)模型,余下流程中均可以采用頁面配置的方式使用平臺現(xiàn)有組件,最終完成知識服務平臺的構(gòu)建。如果用戶具有一定的開發(fā)基礎(chǔ),還可以對各個流程組件進行改寫或自行開發(fā),新開發(fā)的組件可以上傳至平臺,供其他用戶使用??偠灾?,用戶可以將自身的知識能力和平臺能力結(jié)合,基于需求進行二次開發(fā),并且將開發(fā)完成的知識服務平臺作為SaaS服務銷售給次級用戶,完成從to B(to business)到to C(to custumer)的商業(yè)模式轉(zhuǎn)換。
新型的SaaS知識服務模式指基于業(yè)務組織模型,整合單業(yè)務流程、多系統(tǒng)業(yè)務知識關(guān)聯(lián)、業(yè)務知識庫,實現(xiàn)一整套業(yè)務自動化生成流程;搭建便于用戶直接從設(shè)備訪問并使用的軟件服務,實現(xiàn)基于業(yè)務組織模型的業(yè)務再利用。對用戶而言,他們可以利用平臺現(xiàn)有資源,新增業(yè)務模型并進行再利用。
藥食同源藥方獲取是SaaS知識服務模式的一個示范。用戶想要在中醫(yī)古籍資源網(wǎng)站上獲得所有藥食同源的方劑,在傳統(tǒng)的知識服務模式下,針對這一需求,需要首先獲取所有藥食同源的藥方,進行處理并展示。在新型的SaaS服務模式下,可以實現(xiàn)對該個性化需求的靈活響應,即一切都在現(xiàn)有網(wǎng)站上進行,基于當前資源,根據(jù)用戶輸入的業(yè)務模型形成展示結(jié)果(圖18),之后其他用戶可以再次使用該模型查看結(jié)果(圖19),完成資源共享與再利用。
圖18 用戶自定義業(yè)務模型
圖19 查看并使用平臺上已有的業(yè)務模型
PaaS知識服務模式提供了面向開發(fā)人員的數(shù)字資源知識庫的基礎(chǔ)平臺,允許開發(fā)人員根據(jù)自身業(yè)務對數(shù)字資源的需求,構(gòu)建不同的知識主題和知識場景,其核心在于覆蓋業(yè)務需求全流程的基礎(chǔ)平臺以及可復用的插件、工具和接口。
根據(jù)業(yè)務流程和知識場景,本文將PaaS基礎(chǔ)平臺構(gòu)建分為六個部分分別進行搭建,如圖20所示。
圖20 PaaS平臺組成
對于可復用組件,平臺以微服務的理念拆解現(xiàn)有的多種數(shù)據(jù)加工工具,允許PaaS服務模式下開發(fā)人員在此基礎(chǔ)上進行創(chuàng)造性知識服務建設(shè)。所有平臺上已有和上傳的資源、工具均可以再次使用,并構(gòu)建從需求到代碼的映射模型(圖21),實現(xiàn)基于需求的自動化工具推薦。
圖21 從需求到代碼的映射模型
當前平臺已經(jīng)可以實現(xiàn)從數(shù)據(jù)到服務平臺生成的無代碼路徑,專業(yè)技術(shù)人員不需要具備代碼知識,即可通過配置(圖22)形成服務平臺(圖23)。
圖22 前臺配置頁面
圖23 生成個性化服務平臺
情報感知作為PaaS服務模式的服務示范,其目的是對互聯(lián)網(wǎng)中的信息進行挖掘與整合,對開源情報進行溯源分析和立體式信息提取,實現(xiàn)輔助決策。情報感知的關(guān)鍵技術(shù)節(jié)點如下。
(1)面向回溯的資源發(fā)現(xiàn)。從現(xiàn)有資源中抽取內(nèi)容語義和結(jié)構(gòu)語義,獲取與現(xiàn)有資源類似的新資源列表;對資源可信度進行評價并排序,將排名較高的新資源加入資源庫,并計算新的內(nèi)容語義和結(jié)構(gòu)語義,不斷迭代完成面向回溯的資源發(fā)現(xiàn)。
(2)多語言感知單元提取。定義情報感知中的感知單元,根據(jù)現(xiàn)有的主題知識圖譜和形成的資源庫,構(gòu)建包含主題的感知單元模型,解決元素分散以及單個篇章中可能出現(xiàn)多個感知單元的問題;基于網(wǎng)絡(luò)敘事的生成機制,解決多語言的問題,最終完成主題下的感知單元提取任務。
(3)演化路徑與階段判別?;诜植技僭O(shè),形成主題下的事理圖譜;基于網(wǎng)絡(luò)輿情演化過程,對包含時序信息的感知單元演化路徑進行發(fā)展階段劃分,生成演化式摘要。
在PaaS平臺中,可以實現(xiàn)上述需求,處理流程如圖24所示,形成的知識服務如圖25所示。
圖24 情報感知PaaS平臺處理流程
圖25 情報感知知識服務平臺
本文提出一個理論、兩種能力和一套服務模式,從需求入手,以業(yè)務組織模型理論與方法為指導,通過業(yè)務模型自動構(gòu)建研究,形成針對資源特點的個性化業(yè)務模型;針對當前知識組織模式中知識庫構(gòu)建成本高昂、缺少靈活構(gòu)筑資源的個性化解決方案且數(shù)據(jù)利用程度過低的問題,建立高效敏捷的知識組織機制,利用單篇全解析及多篇路徑自組織等技術(shù)手段,實現(xiàn)快速解析資源的目的,為真實項目的應用服務提供技術(shù)支持;以新型服務平臺及具體服務為示范,建立基于技術(shù)和工程的知識共享模式示范,形成了兩大創(chuàng)新內(nèi)容。
1)基于技術(shù)的顛覆性知識共享模式
形成新型知識共享與服務模式,在技術(shù)與工程思想指導下,快速分解業(yè)務需求,自動生成業(yè)務鏈條,為業(yè)務問題提供智能化、個性化、以業(yè)務為驅(qū)動的知識組織服務方案?;谠鷮嵉募夹g(shù)與工程能力,基于對實際業(yè)務需求的分析與拆解能力,避免了紙上談兵的知識體系構(gòu)建研究。
2)快速靈活的業(yè)務模型構(gòu)建技術(shù)
在專業(yè)知識組織方面,通過單篇文本全解析與路徑自組織技術(shù)研究,實現(xiàn)高精度的資源解析及知識體系構(gòu)建。在業(yè)務模型構(gòu)建方面,靈活的資源解析技術(shù)避免了大型領(lǐng)域知識庫構(gòu)建的高昂成本,為資源共享與再利用賦能。
本文為相關(guān)學術(shù)領(lǐng)域提供了思想方法和關(guān)鍵技術(shù)上的創(chuàng)新,包括一種新的知識抽取和業(yè)務模型自動構(gòu)建方法,以此拓寬自然語言處理的應用場景,為數(shù)字資源知識共享與知識再利用研究豐富先驗知識,積累可用資源。未來將按照本文所提出的知識組織和再利用框架,探究新型知識服務模式的優(yōu)化與具體知識服務場景下的應用能力,從而提升復雜信息環(huán)境下數(shù)字資源構(gòu)建對知識服務的支撐能力,不斷豐富和拓展知識服務領(lǐng)域的模式和方法。