周娟娟 李澤鋒 劉竟一
摘 ?要:本文提出運(yùn)用語義分析、知識(shí)圖譜等新技術(shù),增強(qiáng)數(shù)據(jù)關(guān)聯(lián),提高干部人事檔案服務(wù)質(zhì)量,以促進(jìn)干部人事檔案知識(shí)化服務(wù)研究發(fā)展。以構(gòu)建符合干部人事檔案特征的知識(shí)圖譜來精準(zhǔn)識(shí)別干部,為領(lǐng)導(dǎo)班子配備和選用提供科學(xué)依據(jù)。
關(guān)鍵詞:干部人事檔案;知識(shí)圖譜;語義分析;知識(shí)關(guān)聯(lián);知識(shí)服務(wù)
Abstract: Proposed the use of new technologies such as semantic analysis and knowledge graphs to enhance data association and improve cadres the service quality of personnel archive to promote the research and development of cadre personnel archive knowledge service. Construct a knowledge map that meets the characteristics of cadre personnel files, accurately identify cadres as a prerequisite for motivating and selecting cadres, and at the same time provide a scientific basis for the deployment and selection of the leadership team.
Keywords: Cadre personnel archives; Knowledge graph; Semantic analysis; Knowledge association; Knowledge service
1 整體概況
知識(shí)圖譜構(gòu)建總體可分為模式層和數(shù)據(jù)層,模式層構(gòu)建是定義干部檔案知識(shí)圖譜所包含的實(shí)體類型及類的屬性、實(shí)體類之間的語義關(guān)系等。然后,數(shù)據(jù)層是根據(jù)構(gòu)建的干部檔案知識(shí)圖譜模式,匹配檔案特征數(shù)據(jù),用語義技術(shù)進(jìn)行命名實(shí)體識(shí)別和語義關(guān)系抽取;通過實(shí)體消歧、實(shí)體篩選等過程進(jìn)行知識(shí)融合,最后根據(jù)干部檔案構(gòu)建知識(shí)圖譜情況選取合適的知識(shí)儲(chǔ)存方式,完成對(duì)知識(shí)的管理和檢索。
2 數(shù)據(jù)獲取
干部人事檔案數(shù)據(jù)獲取的主要來源,一類是紙質(zhì)檔案數(shù)字化加工后的數(shù)據(jù);另一類是干部學(xué)習(xí)經(jīng)歷、工作中直接產(chǎn)生的反映個(gè)人能力或經(jīng)歷等的電子數(shù)據(jù)。
本文將干部個(gè)人檔案基本元數(shù)據(jù)劃分為三大模塊,其中包括人員元數(shù)據(jù)、來源元數(shù)據(jù)和支持類信息元數(shù)據(jù)。人員履歷中涉及的主要元數(shù)據(jù)要素有姓名、出生年月、政治面貌、最高學(xué)歷、學(xué)位、職務(wù)、職位、個(gè)人成果及參與活動(dòng)情況等信息,作為反映干部個(gè)人工作經(jīng)歷和生活以及家庭關(guān)系等重要元數(shù)據(jù)集。
3 知識(shí)獲取
本文將采用基于規(guī)則的檔案實(shí)體識(shí)別方法[1]和實(shí)體詞性關(guān)系抽取法。從干部人事檔案的內(nèi)容信息中抽取實(shí)體、關(guān)系和屬性,進(jìn)行語義揭示和知識(shí)組織,為干部選拔、提拔工作提供決策服務(wù),增強(qiáng)系統(tǒng)功能同時(shí)拓展瀏覽的檢索方式。做出以下方法實(shí)體抽取與關(guān)系關(guān)聯(lián),搭建干部人事檔案知識(shí)圖譜。[2]
3.1 實(shí)體識(shí)別。在進(jìn)行關(guān)系抽取之前,將命名實(shí)體抽象成命名實(shí)體的詞性,用實(shí)體的詞性來替代實(shí)體本身。將數(shù)據(jù)進(jìn)行詞性替換預(yù)處理之后,再用深度學(xué)習(xí)方法對(duì)關(guān)系屬性特征進(jìn)行學(xué)習(xí),最后完成實(shí)體關(guān)系的抽取。兩種方法的結(jié)合,將自動(dòng)化構(gòu)建模板,同時(shí)加強(qiáng)人工審核,作為補(bǔ)充模板可用性。抽取實(shí)體構(gòu)成可按主題類型進(jìn)行劃分,采取與干部人事檔案分類標(biāo)準(zhǔn)相趨同的元數(shù)據(jù)集方案,分為履歷材料、自傳材料、考核材料、學(xué)歷學(xué)位材料、政審材料、黨團(tuán)材料、獎(jiǎng)懲材料和工資材料等十大類進(jìn)行實(shí)體與詞性標(biāo)注。
本文重點(diǎn)以第一大類履歷材料為例進(jìn)行知識(shí)圖譜構(gòu)建,借助某中層干部履歷材料中出現(xiàn)的信息,包括年度、獎(jiǎng)項(xiàng)和主題等內(nèi)容。某干部某年、某年N次入選為某市優(yōu)秀教師,某年入選某市“培養(yǎng)跨世紀(jì)理論人才百人工程”,某年入選教育部“跨世紀(jì)優(yōu)秀人才培養(yǎng)計(jì)劃”,某年獲某院頒發(fā)的政府特殊津貼。經(jīng)過統(tǒng)計(jì)按照“×年”“入選”“×××”順序模式進(jìn)行編排。
按詞性劃分,規(guī)定詞性標(biāo)準(zhǔn)。其中,n代表名詞,c代表連詞,v代表動(dòng)詞,a代表形容詞,tn代表時(shí)間名詞等。因此,為<時(shí)間名詞-行為動(dòng)詞-專有名詞>結(jié)構(gòu),分別用<-tn>、<-v>、<-zn>等進(jìn)行表示。以此為標(biāo)準(zhǔn)建立詞性規(guī)則,類推其他類型的何時(shí)何地獲得何獎(jiǎng)勵(lì)、成果和技能等內(nèi)容的實(shí)體詞性,抽取實(shí)體特征數(shù)據(jù),將實(shí)體映射到存放在數(shù)據(jù)庫表字段中,減少實(shí)體識(shí)別過程效率低下等問題。
3.2 關(guān)系抽取。有了實(shí)體詞性,接下來需要基于依存句法分析的檔案關(guān)系抽取。依存句法分析的檔案關(guān)系抽取是通過在語料進(jìn)行分詞、詞性標(biāo)注預(yù)處理之后提取出語料句法關(guān)系,基于句法關(guān)系對(duì)實(shí)體之間的關(guān)聯(lián)關(guān)系特征進(jìn)行學(xué)習(xí)的過程。句法結(jié)構(gòu)關(guān)系包括核心(KEB)、主謂關(guān)系(SBV)、定語結(jié)構(gòu)(ATT)、動(dòng)賓關(guān)系(VOB)、并列關(guān)系(COO)等,如表1所示。
經(jīng)過對(duì)語料的依存句法分析發(fā)現(xiàn),若沒有并列關(guān)系,則句子應(yīng)該包含核心(KEB)、主謂關(guān)系(SBV)、動(dòng)賓關(guān)系(VOB)三種關(guān)系才能有效地進(jìn)行關(guān)系抽取。
通過將句子的成分映射到知識(shí)圖譜三元組中,從而實(shí)現(xiàn)關(guān)系的抽取。利用OCR掃描技術(shù)獲得文本內(nèi)容,分析句子成分,如,“某干部 曾任 某大學(xué) 副校長(zhǎng)一職”例子中,屬于“某干部”(人員實(shí)體)和“職位”(職位實(shí)體)之間的關(guān)系。
句子“某干部 曾任 某大學(xué) 副校長(zhǎng)”,名詞短語識(shí)別結(jié)果為“某大學(xué) 副校長(zhǎng)”,句子結(jié)構(gòu)類型屬于〈主語,核心動(dòng)詞,賓語名詞短語+賓語名詞〉,語義依存關(guān)系如圖1所示,抽取的關(guān)系為〈某干部,(曾)任,[某大學(xué)]副校長(zhǎng)〉。
在圖1中,帶有方向的弧線代表依賴順序,表示箭頭終點(diǎn)詞語依賴箭頭起點(diǎn)詞語;弧線上的標(biāo)簽文字代表依賴類型,矩形塊表示變化識(shí)別的結(jié)果。依存句法分析的結(jié)果中指明了每一個(gè)詞組的依存類型與其前序依存對(duì)象,可以從這些分析結(jié)果中提取出實(shí)體關(guān)系的特征數(shù)據(jù)。
通過識(shí)別數(shù)據(jù)預(yù)處理示例可以看出,原文經(jīng)過預(yù)處理手段進(jìn)行分詞和詞性標(biāo)注的格式,對(duì)該部分內(nèi)容進(jìn)行實(shí)體識(shí)別。在干部人事檔案十大類別中,尤其是第一大類履歷類,包含了干部個(gè)人基本信息、工作經(jīng)驗(yàn)以及獲得成果和家庭情況等重要內(nèi)容信息,按照實(shí)體抽取規(guī)則和模板進(jìn)行關(guān)系識(shí)別抽取,為本體構(gòu)建與知識(shí)表示打基礎(chǔ),盡可能地描述實(shí)體與實(shí)體之間關(guān)系,最后進(jìn)行知識(shí)融合和消歧,構(gòu)建知識(shí)圖譜,更清晰形象地呈現(xiàn)干部履歷材料的特征信息,為干部提拔和審核提供參考建議。
3.3 屬性抽取。屬性抽取一般是較為基礎(chǔ)的屬性信息,根據(jù)對(duì)履歷類實(shí)際數(shù)據(jù)需求,從各類型元數(shù)據(jù)集類型中,抽取用戶所需要的信息,如“何時(shí)”即什么時(shí)間點(diǎn),“何地”即發(fā)生在什么地點(diǎn),“事件”即發(fā)生了什么事兒,“獎(jiǎng)勵(lì)”即什么獎(jiǎng)勵(lì)類型。如,市級(jí)、省級(jí)或國(guó)家級(jí)類型的科技類、教育類等情況。通過屬性抽取可以更準(zhǔn)確地對(duì)抽取實(shí)體進(jìn)行揭示。
干部人事檔案知識(shí)圖譜中實(shí)體屬性抽取,總的來說,可分為兩種,其中,第一種是實(shí)體所對(duì)應(yīng)的概念所具有的屬性,只需要抽取其屬性值即可;第二種是沒有所屬的屬性,完全依賴實(shí)體屬性抽取,需要抽取其屬性和屬性值。針對(duì)第一種情況,模式層中的關(guān)系也是包括對(duì)屬性間屬性關(guān)系抽取,即屬性與屬性值范圍的界定等信息;因此,在數(shù)據(jù)層中可以復(fù)用模式層部分?jǐn)?shù)據(jù)概念與值域。
4 知識(shí)圖譜構(gòu)建
4.1 構(gòu)建流程。RDFS 在 RDF 的基礎(chǔ)上定義了一些功能標(biāo)簽,增加 RDF 的語義約束,提高語義信息能力。構(gòu)建檔案學(xué)領(lǐng)域本體,[3]為不同知識(shí)庫與系統(tǒng)之間的數(shù)據(jù)與知識(shí)利用提供接口,增加知識(shí)的復(fù)用。
將不同結(jié)構(gòu)的檔案數(shù)據(jù)劃分為類XML、表單、文檔和術(shù)語的語義轉(zhuǎn)換,[4]檔案數(shù)據(jù)關(guān)聯(lián)有助于彌補(bǔ)傳統(tǒng)知識(shí)組織方式的不足,通過語義匹配和本體構(gòu)建,可以將檔案轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù),整體構(gòu)建流程如圖2所示。
4.2 知識(shí)關(guān)聯(lián)。選用某干部的個(gè)人履歷材料,由于干部檔案性質(zhì)的特殊,僅作為研究一個(gè)切入點(diǎn)進(jìn)行探究。將抽取實(shí)體的關(guān)系進(jìn)行梳理,整體關(guān)系描述如表2所示,包含某干部個(gè)人基本信息和工作信息以及成果等方面的數(shù)據(jù)。
分別為工作單位、性別、年齡、學(xué)歷學(xué)位、職稱、曾任職務(wù)和個(gè)人成果等實(shí)體之間的關(guān)聯(lián)關(guān)系。進(jìn)一步加快干部知識(shí)圖譜的構(gòu)建,用圖譜形式清晰展現(xiàn)出個(gè)人特征信息。
將某干部個(gè)人特征信息用知識(shí)圖譜形式展現(xiàn),在檔案數(shù)據(jù)化管理中,有助于檔案數(shù)據(jù)之間關(guān)聯(lián)和語義重組等相關(guān)元數(shù)據(jù)管理,作者所屬單位、年齡、性別、工作、學(xué)術(shù)成果、獎(jiǎng)勵(lì)榮譽(yù)等數(shù)據(jù),利用規(guī)則和詞性進(jìn)行關(guān)系分析和抽取,構(gòu)建出“某干部個(gè)人履歷知識(shí)圖譜圖”,如圖3所示。
由于工作需要和管理模式的轉(zhuǎn)變,促使干部檔案數(shù)據(jù)以一種新的形式呈現(xiàn),即知識(shí)的呈現(xiàn)。通過語義關(guān)系揭示事物與實(shí)體之間的關(guān)系屬性,最終系統(tǒng)清晰地對(duì)檔案數(shù)據(jù)進(jìn)行呈現(xiàn),更好地輔助決策者的利用。
5 知識(shí)融合
知識(shí)融合包含模式層和數(shù)據(jù)層,模式層階段構(gòu)建要注意概念、概念上下位和概念屬性的統(tǒng)一,避免屬性概念歧義,保證實(shí)體對(duì)齊,概念表征同一個(gè)真實(shí)對(duì)象,由此,方便實(shí)體包含的信息進(jìn)行融合和聚類;數(shù)據(jù)層是針對(duì)不同來源數(shù)據(jù)進(jìn)行實(shí)體對(duì)齊與消歧,出現(xiàn)多個(gè)實(shí)體表征統(tǒng)一對(duì)象,則需這些實(shí)體之間構(gòu)建對(duì)齊關(guān)系。除不同數(shù)據(jù)源造成的檔案資源中實(shí)體間相互沖突或者實(shí)體指向不明等問題。不同的數(shù)據(jù)源對(duì)所描述的知識(shí)方式各不相同,生成知識(shí)圖譜元素也不同,描述不一致會(huì)致使數(shù)據(jù)冗余,檢索效率降低。因此,有必要將多個(gè)不同來源且等價(jià)的知識(shí)圖譜/本體/屬性等元素進(jìn)行合并。知識(shí)推理主要指對(duì)知識(shí)進(jìn)行語義的拓展和一致性的檢驗(yàn)過程。在構(gòu)建中,按照規(guī)定約束規(guī)則對(duì)知識(shí)進(jìn)行拓展,延伸知識(shí)意義。然而,拓展出的知識(shí)可能會(huì)產(chǎn)生與原有知識(shí)相矛盾的情況,此時(shí),需要一致性檢驗(yàn),利用推理檢驗(yàn)看是否與知識(shí)庫中知識(shí)存在矛盾。數(shù)據(jù)語義化表達(dá)提供檢索、分類、聚類與智能推薦。經(jīng)過深度語義化的數(shù)據(jù)才可以支持上層語義功能。另外,盡可能地減少人工干預(yù),降低人為因素的控制。在知識(shí)庫中,通過知識(shí)推理對(duì)查詢服務(wù)做補(bǔ)足。
參考文獻(xiàn):
[1]胡夢(mèng)君.基于規(guī)則的蒙古文人物屬性抽取研究[D].內(nèi)蒙古大學(xué),2018.
[2]劉嶠,李楊,段宏,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(03):582-600.
[3]王應(yīng)解,呂元智,聶璐.檔案學(xué)領(lǐng)域本體的構(gòu)建初探[J].檔案學(xué)研究,2015(06):19-25.
[4]郭學(xué)敏,Ryan Shaw.基于關(guān)聯(lián)數(shù)據(jù)的檔案語義轉(zhuǎn)換實(shí)踐分析[J].檔案學(xué)通訊,2019(05):50-57.
(作者單位:鄭州航空工業(yè)管理學(xué)院信息管理學(xué)院 來稿日期:2021-07-10)