馬小雯 孫紅軍 劉彥林 甘克勤
關(guān)鍵詞:標(biāo)準(zhǔn)知識,數(shù)字化,通用模型,自動(dòng)抽取,語義關(guān)聯(lián)
0 引言
以新一代信息技術(shù)為代表的新一輪科技革命和產(chǎn)業(yè)變革加速演進(jìn),經(jīng)濟(jì)、產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型成為時(shí)代趨勢。標(biāo)準(zhǔn)作為經(jīng)濟(jì)活動(dòng)和產(chǎn)業(yè)發(fā)展的技術(shù)支撐,以及國家基礎(chǔ)性制度的重要方面,無論在深度還是在廣度上都即將受到這一趨勢的影響?!秶覙?biāo)準(zhǔn)化發(fā)展綱要》指出,“發(fā)展機(jī)器可讀標(biāo)準(zhǔn)、開源標(biāo)準(zhǔn),推動(dòng)標(biāo)準(zhǔn)化工作向數(shù)字化、網(wǎng)絡(luò)化、智能化轉(zhuǎn)型”。標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型已成為新時(shí)代我國重點(diǎn)產(chǎn)業(yè)發(fā)展的戰(zhàn)略任務(wù),對增強(qiáng)我國產(chǎn)業(yè)發(fā)展安全、參與全球市場競爭具有重要意義。
隨著我國食品與農(nóng)產(chǎn)品行業(yè)的迅速發(fā)展, 企業(yè)規(guī)模不斷增長, 食品與農(nóng)產(chǎn)品行業(yè)的安全形勢比較嚴(yán)重, 面臨的挑戰(zhàn)和競爭前所未有, 同時(shí)暴露出的安全、健康、環(huán)境問題也愈來愈多,在新產(chǎn)品研制面臨的對象、要求的技術(shù)條件、新工藝、新技術(shù)應(yīng)用等方面的安全與環(huán)保問題日益突出。為進(jìn)一步加快標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型步伐和有效解決食品與農(nóng)產(chǎn)品領(lǐng)域安全與環(huán)保問題,本研究將以食品與農(nóng)產(chǎn)品領(lǐng)域標(biāo)準(zhǔn)為研究對象開展標(biāo)準(zhǔn)知識數(shù)字化表達(dá)模型與自動(dòng)提取技術(shù)研究,首先,明確國內(nèi)外標(biāo)準(zhǔn)化數(shù)字化當(dāng)前研究現(xiàn)狀與問題;其次,通過文獻(xiàn)和實(shí)地調(diào)研,提出標(biāo)準(zhǔn)知識數(shù)字化表達(dá)模型;再次,開展標(biāo)準(zhǔn)知識數(shù)字化自動(dòng)提取技術(shù)研究,實(shí)現(xiàn)對表達(dá)模型的知識要素的自動(dòng)標(biāo)注和抽取,并據(jù)此形成具有語義關(guān)聯(lián)的標(biāo)準(zhǔn)知識庫;最后,以2000項(xiàng)食品與農(nóng)產(chǎn)品領(lǐng)域標(biāo)準(zhǔn)為例進(jìn)行標(biāo)準(zhǔn)知識數(shù)字化表達(dá)模型與自動(dòng)提取技術(shù)的實(shí)證研究,以驗(yàn)證理論或技術(shù)的可行性。
1 國內(nèi)外研究現(xiàn)狀
有關(guān)標(biāo)準(zhǔn)知識數(shù)字化表達(dá)模型主要集中于以下3個(gè)方面。
(1)在圖書文獻(xiàn)領(lǐng)域,越來越多的信息研究機(jī)構(gòu)正在推進(jìn)語義解析,支持各種細(xì)粒度的知識單元關(guān)聯(lián)與計(jì)算,不僅包括段落、表格、人物、機(jī)構(gòu),還包括知識點(diǎn)、概念等復(fù)雜本體關(guān)系的構(gòu)建。并通過XML系列置標(biāo)語言的描述和標(biāo)記,與特定領(lǐng)域的各種知識相關(guān)聯(lián),支持可計(jì)算、可推理的智能檢索與語義知識發(fā)現(xiàn)。國外已推出文獻(xiàn)知識表達(dá)服務(wù),將傳統(tǒng)以文獻(xiàn)為中心的搜索平臺,轉(zhuǎn)換為以事件為中心和RDF為基礎(chǔ)的復(fù)合語義架構(gòu)。許多國際信息研究機(jī)構(gòu)已經(jīng)在語義解析方面進(jìn)行諸多實(shí)踐,卓有成效。數(shù)字技術(shù)和數(shù)字環(huán)境在顛覆傳統(tǒng)資源形態(tài)的同時(shí),也在全面改造信息資源建設(shè)與服務(wù)模式。國家科技圖書文獻(xiàn)中心(NSTL)構(gòu)建科技知識組織體系共享服務(wù)系統(tǒng)(STKOS),收錄615,384個(gè)概念,2,321,681個(gè)術(shù)語,應(yīng)用于NSTL數(shù)以億計(jì)的外文期刊內(nèi)容的本體揭示,形成NSTL更具語義特征的知識搜索和關(guān)聯(lián)體驗(yàn)。
(2)在商業(yè)應(yīng)用方面,知名醫(yī)學(xué)數(shù)據(jù)庫PubMed通過醫(yī)學(xué)主題詞(MeSH),對自然語言表達(dá)的醫(yī)學(xué)文獻(xiàn)進(jìn)行規(guī)范化處理和標(biāo)引,表明文章核心內(nèi)容,實(shí)現(xiàn)基于語義樹的引導(dǎo)式搜索。PubMed憑借其語義級別的標(biāo)引,在醫(yī)學(xué)領(lǐng)域得到廣泛應(yīng)用,在知網(wǎng)以PubMed為關(guān)鍵詞搜索,可以查到2000余篇論文是基于PubMed產(chǎn)出的科研成果。目前,國內(nèi)也有一些數(shù)字化公司開發(fā)產(chǎn)業(yè)數(shù)字大腦平臺,即按照產(chǎn)業(yè)鏈的思路,對某一企業(yè)發(fā)展的上下游企業(yè)、所需人才、技術(shù)、資源進(jìn)行語義化關(guān)聯(lián),實(shí)現(xiàn)對企業(yè)或產(chǎn)業(yè)的動(dòng)態(tài)跟蹤和管理。
(3)在標(biāo)準(zhǔn)知識層面,2019 年,I S O / I E C正式提出了一種名為SM A RT(S t a nd a r d s Ma ch i neApplicable, Readable and Transferable)標(biāo)準(zhǔn)數(shù)字化的新型標(biāo)準(zhǔn)概念[1-3]。將標(biāo)準(zhǔn)數(shù)字化發(fā)展劃分為5個(gè)階段,包括:“紙質(zhì)文本(階段0)”“開放數(shù)據(jù)格式(階段1)”“機(jī)器可讀文檔(階段2)”“機(jī)器可讀內(nèi)容(階段3)”“機(jī)器可交互內(nèi)容(階段4)①”。ISO/IEC在工業(yè)領(lǐng)域已經(jīng)提出并積極實(shí)踐了面向機(jī)器可讀的工業(yè)通用語義知識庫。目前,各國際標(biāo)準(zhǔn)組織及部分先進(jìn)國家部分標(biāo)準(zhǔn)數(shù)字化已達(dá)到階段2,并率先在食品和農(nóng)產(chǎn)品、信息技術(shù)、智能裝備、航空航天等領(lǐng)域開展了面向階段3~4標(biāo)準(zhǔn)數(shù)字化的應(yīng)用和探索。
在標(biāo)準(zhǔn)知識領(lǐng)域,我國尚缺少統(tǒng)一標(biāo)準(zhǔn)知識數(shù)字化表達(dá)模型,即如何明確標(biāo)準(zhǔn)文獻(xiàn)關(guān)鍵知識的組織要素是本研究的重點(diǎn)。同時(shí),在我國,由于我國食品和農(nóng)產(chǎn)品安全領(lǐng)域不同標(biāo)準(zhǔn)文本內(nèi)容及結(jié)構(gòu)的差異,我國食品和農(nóng)產(chǎn)品環(huán)保安全知識數(shù)字化技術(shù)推進(jìn)緩慢,整體還處于紙質(zhì)標(biāo)準(zhǔn)電子化、結(jié)構(gòu)化的標(biāo)準(zhǔn)數(shù)字化初級階段(階段1)針對特定標(biāo)準(zhǔn)知識尚未實(shí)現(xiàn)自動(dòng)化標(biāo)注與抽取,尚未有對食品和農(nóng)產(chǎn)品領(lǐng)域標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型過程中建立類似于ISO/IEC面向機(jī)器可讀的標(biāo)準(zhǔn)知識抽取與知識庫,存在檢索標(biāo)準(zhǔn)資源不全,檢索手段落后、查全率和查準(zhǔn)率低、檢索質(zhì)量不高等問題,與國外存在較大差距。
2 標(biāo)準(zhǔn)知識數(shù)字化表達(dá)通用模型與自動(dòng)抽取技術(shù)研究
2.1 基于知識本體理論的標(biāo)準(zhǔn)知識數(shù)字化表達(dá)的通用模型
為更好對標(biāo)準(zhǔn)文獻(xiàn)結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化、知識化、可視化分析,本文基于語義網(wǎng)理論,基于知識本體理論,采用敘詞表等組織方式(示例見表1),開展了標(biāo)準(zhǔn)知識三元數(shù)據(jù)模型研究,深化標(biāo)準(zhǔn)文獻(xiàn)的多粒度內(nèi)容描述和知識關(guān)系的表達(dá)揭示,對標(biāo)準(zhǔn)化對象、指標(biāo)項(xiàng)等實(shí)體概念進(jìn)行語義關(guān)聯(lián)。通過對國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)的內(nèi)容主題分析與標(biāo)引,涵蓋工作場景、業(yè)務(wù)流程、應(yīng)用設(shè)備等多種組織維度,對同專業(yè)的各個(gè)類型的標(biāo)準(zhǔn)按照相同或相似的要素結(jié)構(gòu)進(jìn)行分析分解,在分析歸納的基礎(chǔ)上提煉出了既適合于結(jié)構(gòu)化分解標(biāo)準(zhǔn)文獻(xiàn)的技術(shù)指標(biāo),又能適應(yīng)不同類型標(biāo)準(zhǔn)揭示標(biāo)引的統(tǒng)一數(shù)據(jù)分解模型,構(gòu)建了較為通用標(biāo)準(zhǔn)的知識模型和人工加工方法,形成了標(biāo)準(zhǔn)數(shù)字化的通用模型和方法的相關(guān)標(biāo)準(zhǔn),率先創(chuàng)新性地提出了本體(標(biāo)準(zhǔn)化對象)-體例(標(biāo)準(zhǔn)段落結(jié)構(gòu))-標(biāo)準(zhǔn)指標(biāo)的三元數(shù)據(jù)結(jié)構(gòu)。
其中,本體和體例均需要建立同義詞和上下位的關(guān)系,標(biāo)準(zhǔn)指標(biāo)則還包括指標(biāo)項(xiàng)、指標(biāo)值、計(jì)量單位、限定類等,從而實(shí)現(xiàn)文獻(xiàn)碎片化分析,實(shí)現(xiàn)對標(biāo)準(zhǔn)知識的數(shù)字化表示,這樣就通過三元組數(shù)據(jù)模型,將標(biāo)準(zhǔn)內(nèi)容轉(zhuǎn)化為具有語義關(guān)聯(lián)關(guān)系的數(shù)據(jù)。值得強(qiáng)調(diào)的是,由于標(biāo)準(zhǔn)文獻(xiàn)結(jié)構(gòu)和形式各異,即使同一標(biāo)準(zhǔn)文獻(xiàn)也可能由文字、數(shù)值、圖表以及引用等不同內(nèi)容結(jié)構(gòu)組成。因此,為更好理解上述三元數(shù)據(jù)模型,本文后續(xù)將通過具體例子實(shí)證檢驗(yàn)不同內(nèi)容結(jié)構(gòu)下的本體(標(biāo)準(zhǔn)化對象)-體例(標(biāo)準(zhǔn)段落結(jié)構(gòu))-標(biāo)準(zhǔn)指標(biāo)的確定問題。
2.2 基于自然語言處理和機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)知識數(shù)字化抽取技術(shù)
為大幅度降低標(biāo)準(zhǔn)知識標(biāo)準(zhǔn)化和抽取的人工成本,開展基于自然語言處理和機(jī)器學(xué)習(xí)的半自動(dòng)化標(biāo)準(zhǔn)知識組織技術(shù)研究,通過對半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)做半自動(dòng)化處理[4 - 6]:以人工處理的結(jié)構(gòu)化數(shù)據(jù)為訓(xùn)練集,應(yīng)用機(jī)器學(xué)習(xí)框架,針對半結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)自動(dòng)的實(shí)體與關(guān)系標(biāo)注;以人工構(gòu)建的詞表和語法規(guī)則范式為基礎(chǔ),針對非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)實(shí)體識別與消歧、關(guān)系標(biāo)注,并構(gòu)建標(biāo)準(zhǔn)知識庫。再由專家對關(guān)鍵信息進(jìn)行總結(jié),通過迭代的方式優(yōu)化標(biāo)注結(jié)果,供專家篩選判斷,以此加快標(biāo)準(zhǔn)知識的構(gòu)建過程。具體如下。
(1)針對自然語言文字為主的失信信息,采用基于規(guī)則的方法,如:使用正則表達(dá)式或者巴克斯范式等規(guī)則框架的模式,配合詞表進(jìn)行范式匹配,基于規(guī)則的模板匹配,基于語義規(guī)則的解析等,實(shí)現(xiàn)描述性內(nèi)容的實(shí)體識別和關(guān)系抽取。
(2)針對表格為主的失信信息,采用基于機(jī)器學(xué)習(xí)的方法,如:基于樸素貝葉斯的文本分類,基于深度學(xué)習(xí)的段落分類,基于神經(jīng)網(wǎng)絡(luò)的句子分類等,實(shí)現(xiàn)關(guān)鍵要素的實(shí)體識別和關(guān)系分類。
(3)針對需重點(diǎn)分析的失信信息,采用基于統(tǒng)計(jì)的方法,如:基于詞袋模型的文本分類,基于統(tǒng)計(jì)特征的段落分類,基于統(tǒng)計(jì)模型的句子分類等,實(shí)現(xiàn)細(xì)粒度的知識圖譜的構(gòu)建。
(4)針對其他類型的失信信息,采用基于搜索的方法,如:基于搜索引擎專業(yè)的關(guān)鍵詞表的段落和句子抽取,實(shí)現(xiàn)失信內(nèi)容的細(xì)粒度命中。
3 食品和農(nóng)產(chǎn)品標(biāo)準(zhǔn)知識的實(shí)證研究
本文基于“標(biāo)準(zhǔn)化對象—體例—指標(biāo)項(xiàng)—取值范圍—指標(biāo)值—計(jì)量單位—限定條件”等知識組織模型(如圖1所示),通過人工或已有標(biāo)注的食品和農(nóng)產(chǎn)品的訓(xùn)練數(shù)據(jù)集(見表1),利用自然語言處理和機(jī)器學(xué)習(xí)等技術(shù)實(shí)現(xiàn)了對2000項(xiàng)食品和農(nóng)產(chǎn)品標(biāo)準(zhǔn)知識的自動(dòng)高精度標(biāo)注和抽取。
限于篇幅,本研究僅展示了鮮蘋果和乳制品標(biāo)準(zhǔn)知識的抽取結(jié)果,見表2和表3。根據(jù)表2所示,在鮮蘋果中優(yōu)等品的大型果的質(zhì)量要求中,對質(zhì)量等級要求是果徑(最大橫切面直徑)≥70mm,通過上述標(biāo)準(zhǔn)知識數(shù)字化表達(dá)模型,將標(biāo)準(zhǔn)內(nèi)容轉(zhuǎn)化為具有語義關(guān)聯(lián)關(guān)系的數(shù)據(jù)。根據(jù)表3所示,乳制品中乳粉的色澤應(yīng)呈均勻一致的乳黃色或具有應(yīng)有的色澤。
4 研究結(jié)論
本研究將以食品與農(nóng)產(chǎn)品領(lǐng)域標(biāo)準(zhǔn)為研究對象開展標(biāo)準(zhǔn)知識數(shù)字化表達(dá)模型與自動(dòng)提取技術(shù)研究,首先,明確國內(nèi)外標(biāo)準(zhǔn)化數(shù)字化當(dāng)前研究現(xiàn)狀與問題;其次,通過文獻(xiàn)和實(shí)地調(diào)研,創(chuàng)新性地提出標(biāo)準(zhǔn)知識數(shù)字化表達(dá)模型;再次,開展標(biāo)準(zhǔn)知識數(shù)字化自動(dòng)提取技術(shù)研究,實(shí)現(xiàn)對數(shù)字化表達(dá)模型知識要素的自動(dòng)標(biāo)注和抽取,據(jù)此形成具有語義關(guān)聯(lián)的標(biāo)準(zhǔn)知識;最后,以2000項(xiàng)食品與農(nóng)產(chǎn)品領(lǐng)域標(biāo)準(zhǔn)為例進(jìn)行標(biāo)準(zhǔn)知識數(shù)字化表達(dá)模型與自動(dòng)提取技術(shù)的實(shí)證研究,驗(yàn)證理論或技術(shù)的可行性。研究發(fā)現(xiàn)如下:(1)構(gòu)建了適用于標(biāo)準(zhǔn)知識的數(shù)字化表達(dá)模型,即本體(標(biāo)準(zhǔn)化對象)-體例(標(biāo)準(zhǔn)段落結(jié)構(gòu))-標(biāo)準(zhǔn)指標(biāo)的三元數(shù)據(jù)結(jié)構(gòu)模型,通過上述標(biāo)準(zhǔn)知識數(shù)字化表達(dá)模型,能夠?qū)?biāo)準(zhǔn)技術(shù)內(nèi)容轉(zhuǎn)化為具有語義關(guān)聯(lián)關(guān)系的數(shù)據(jù)。(2)提出了基于自然語言處理和機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)知識數(shù)字化提取技術(shù),利用自然語言處理和機(jī)器學(xué)習(xí)等技術(shù)實(shí)現(xiàn)了對20 0 0項(xiàng)食品和農(nóng)產(chǎn)品標(biāo)準(zhǔn)知識的自動(dòng)高精度標(biāo)注和抽取,為我國標(biāo)準(zhǔn)化工作邁向ISO/IEC提出的階段3“機(jī)器可讀文檔”提供技術(shù)參考。