馬冬雪,宋 設(shè),謝振平*,劉 淵
(1.江南大學(xué)數(shù)字媒體學(xué)院,江蘇無錫 214122;2.江蘇省媒體設(shè)計與軟件技術(shù)重點(diǎn)實(shí)驗室(江南大學(xué)),江蘇無錫 214122;3.浪潮卓數(shù)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司,江蘇無錫 214125)
(?通信作者電子郵箱xiezp@jiangnan.edu.cn)
互聯(lián)網(wǎng)已成為招投標(biāo)活動的主要媒介,通過解析招投標(biāo)網(wǎng)站的公示信息,可以為企業(yè)和用戶提供有價值的信息,對征信、經(jīng)濟(jì)發(fā)展有著重要的意義。但是招投標(biāo)網(wǎng)站眾多、結(jié)構(gòu)復(fù)雜,信息發(fā)布缺乏明確規(guī)范、形式靈活,計算機(jī)很難直接獲取其中的結(jié)構(gòu)化語義信息,需要通過網(wǎng)頁信息解析技術(shù)實(shí)現(xiàn)有效內(nèi)容的提取。
網(wǎng)頁信息解析技術(shù)是指從網(wǎng)頁信息文本中分析提取出真正想要的信息,排除噪聲干擾,并將其形成結(jié)構(gòu)化數(shù)據(jù)的過程[1]。廣泛采用的解析方法[2-4]是通過構(gòu)建相應(yīng)的正則表達(dá)式模板實(shí)現(xiàn)網(wǎng)頁信息抽取,然而構(gòu)建高質(zhì)量并且復(fù)雜度較高的正則表達(dá)式通常需要耗費(fèi)大量的人工成本[5]。目前主要的自動化抽取技術(shù)有基于網(wǎng)頁結(jié)構(gòu)特征的網(wǎng)頁信息抽取技術(shù)、基于包裝器歸納方式的網(wǎng)頁信息抽取技術(shù)、基于本體的網(wǎng)頁信息抽取技術(shù)等。
由于招投標(biāo)領(lǐng)域信息復(fù)雜,相關(guān)的研究較少,直接使用現(xiàn)有技術(shù),方法適用性低,抽取粒度粗糙,不能滿足系統(tǒng)需求;使用正則表達(dá)式,雖然能夠滿足用戶的精確需求,但人工成本較大,靈活性差。為此,本文從招投標(biāo)領(lǐng)域本體知識特點(diǎn)出發(fā),通過構(gòu)建輕量級領(lǐng)域本體,從招投標(biāo)網(wǎng)頁數(shù)據(jù)中抽取到精確有用的細(xì)粒度信息。
信息抽取是從自然語言文本中抽取出指定的信息,將其轉(zhuǎn)換為結(jié)構(gòu)化文本的過程[6]。網(wǎng)頁信息抽取是從網(wǎng)頁文本中抽取出指定的一類信息并將其形成結(jié)構(gòu)化數(shù)據(jù)的過程[7],主要有:
1)基于網(wǎng)頁結(jié)構(gòu)特征的信息抽取技術(shù)[8-9]。該方法首先根據(jù)超文本標(biāo)記語言(Hypertext Marked Language,HTML)文檔的結(jié)構(gòu)特征信息,將HTML 文檔解析為利于理解的語法結(jié)構(gòu)層次樹,然后通過自動或半自動的方式產(chǎn)生抽取規(guī)則,最后實(shí)現(xiàn)網(wǎng)頁信息抽取。李效東等[10]基于文檔對象模型(Document Object Model,DOM)樹結(jié)構(gòu)中的路徑表達(dá)式來定位HTML 文檔中待抽取信息,通過學(xué)習(xí)算法歸納抽取規(guī)則,使得對結(jié)構(gòu)變化的文檔有一定的適應(yīng)能力。
2)基于包裝器歸納的網(wǎng)頁信息抽取技術(shù)[11]。該方法首先對樣本網(wǎng)頁進(jìn)行標(biāo)注,通過機(jī)器學(xué)習(xí)歸納出網(wǎng)頁結(jié)構(gòu)特征的抽取規(guī)則,然后自動分析待抽取網(wǎng)頁的結(jié)構(gòu)特征,最后實(shí)現(xiàn)網(wǎng)頁信息抽取。王輝等利用中文知識圖譜對網(wǎng)頁數(shù)據(jù)項進(jìn)行自動標(biāo)注,建立具有容錯能力的包裝器歸納框架,從包含錯誤的標(biāo)注集中歸納學(xué)習(xí)出正確的包裝器,可獲得良好的抽取效果[12]。
3)基于本體的網(wǎng)頁信息抽取技術(shù)[13-14]。該方法首先建立本體,然后根據(jù)本體描述的概念、關(guān)系、層次結(jié)構(gòu)以及概念關(guān)系間的約束等計算待解析信息的相關(guān)度,最后實(shí)現(xiàn)網(wǎng)頁信息抽取。王放等[15]提出了一種人機(jī)交互式實(shí)現(xiàn)本體自學(xué)習(xí)構(gòu)建和基于本體的Web 表格信息自動化抽取方法。目前基于本體的網(wǎng)頁信息抽取研究已經(jīng)開始與具體領(lǐng)域相結(jié)合,以解決領(lǐng)域內(nèi)遇到的具體問題。李貫峰等[16]針對農(nóng)業(yè)領(lǐng)域通過構(gòu)建農(nóng)業(yè)本體,實(shí)現(xiàn)農(nóng)業(yè)領(lǐng)域的Web知識抽取系統(tǒng)。
4)基于領(lǐng)域本體的信息抽取在生物醫(yī)學(xué)領(lǐng)域[17-18]、農(nóng)業(yè)領(lǐng)域[19]已經(jīng)有了廣泛應(yīng)用,段宇鋒等[20]復(fù)用植物本體(Plant Ontology,PO)建立中文植物物種多樣性領(lǐng)域本體,實(shí)現(xiàn)植物物種文本的信息抽取。由于招投標(biāo)領(lǐng)域的相關(guān)研究應(yīng)用較少,構(gòu)建一個專業(yè)的領(lǐng)域本體需要領(lǐng)域?qū)<覅⑴c,費(fèi)時費(fèi)力。為此,本文通過構(gòu)建本體的輕量級領(lǐng)域知識模型,減少構(gòu)建領(lǐng)域本體過程中對專家的依賴,輕量級本體可以看作是本體的簡化版本[21],相對而言更加容易實(shí)現(xiàn)。
由于中文文本的復(fù)雜性,網(wǎng)頁信息解析技術(shù)需要通過分詞、標(biāo)注對復(fù)雜的網(wǎng)頁信息文本進(jìn)行命名實(shí)體識別。本文基于招投標(biāo)領(lǐng)域文本的結(jié)構(gòu)特征,根據(jù)招投標(biāo)文本中實(shí)體之間的映射關(guān)系,對文本進(jìn)行規(guī)范化處理,引入一種新的招投標(biāo)網(wǎng)頁元素語義匹配與抽取算法,降低了網(wǎng)頁信息解析過程的算法復(fù)雜度。
招投標(biāo)網(wǎng)頁信息解析模型是通過招投標(biāo)網(wǎng)站發(fā)布的公示信息解析抽取出所需要的目標(biāo)語義信息。招投標(biāo)網(wǎng)頁信息解析模型由知識模型構(gòu)建模塊和信息解析模塊兩個部分組成,如圖1所示。
圖1 知識模型驅(qū)動的招投標(biāo)網(wǎng)頁信息解析模型Fig.1 Parsing model of bidding webpage information driven by knowledge model
知識模型構(gòu)建模塊是通過對招投標(biāo)領(lǐng)域文本結(jié)構(gòu)特征的分析,采用構(gòu)建輕量級本體的方式,構(gòu)建信息解析所需的知識模型;信息解析模塊是根據(jù)目標(biāo)語義信息元素,基于招投標(biāo)領(lǐng)域本體知識模型對預(yù)處理后的招投標(biāo)網(wǎng)頁信息進(jìn)行信息抽取,實(shí)現(xiàn)招投標(biāo)網(wǎng)頁信息的自動結(jié)構(gòu)化解析。
通過瀏覽招投標(biāo)網(wǎng)站可以發(fā)現(xiàn),招投標(biāo)網(wǎng)頁數(shù)據(jù)大多數(shù)是以公告形式呈現(xiàn)的半結(jié)構(gòu)化文本信息,有的還會包含表格文本信息,并且沒有固定標(biāo)準(zhǔn)的格式規(guī)范。圖2 是來自不同網(wǎng)站的招投標(biāo)文本信息的示例。
圖2 招投標(biāo)網(wǎng)頁示例Fig.2 Bidding webpage examples
招投標(biāo)文本信息之間雖存在一定差異,但內(nèi)容的組織形式有著類似的結(jié)構(gòu)特征。通過學(xué)習(xí)分析,歸納出以下幾點(diǎn)招投標(biāo)領(lǐng)域文本的結(jié)構(gòu)特征:
1)招投標(biāo)文本存在表格信息,表格的結(jié)構(gòu)形式不固定;
2)招投標(biāo)文本可以用信息塊來表示,信息塊之間內(nèi)容相互獨(dú)立,界限分明;
3)招投標(biāo)文本信息塊可以看作是“概念與概念釋義”的組合模式;
4)信息塊之間的界限一般以特殊符號分隔。例如:換行、數(shù)字編碼等;
5)不同來源的招投標(biāo)文本之間的信息塊位置分布相對一致。
采用構(gòu)建輕量級本體的方式,構(gòu)建所需的知識模型。一方面定義了招投標(biāo)領(lǐng)域中的相關(guān)概念、屬性、層次關(guān)系;另一方面還規(guī)范了網(wǎng)頁信息中表格信息的抽取。實(shí)現(xiàn)了被不同用戶理解的同時也可以成為機(jī)器能夠理解和解析的知識,可以較細(xì)粒度地實(shí)現(xiàn)招投標(biāo)網(wǎng)頁信息解析并且不丟失重要語義信息內(nèi)容。通過對招投標(biāo)領(lǐng)域文本結(jié)構(gòu)特征的分析,參考《招標(biāo)公告和公示信息發(fā)布管理辦法》[22]文件及招投標(biāo)專員建議,使用斯坦福大學(xué)的編輯器Protégé 構(gòu)建招投標(biāo)本體的輕量級領(lǐng)域知識模型,層次結(jié)構(gòu)如圖3所示。
圖3 招投標(biāo)本體的輕量級知識層次結(jié)構(gòu)Fig.3 Lightweight knowledge hierarchical of bidding ontology
構(gòu)建的領(lǐng)域本體需要通過本體解析,從而利用本體中的知識,為知識抽取過程服務(wù)。將構(gòu)建的領(lǐng)域本體中的概念以及概念之間的層次關(guān)系進(jìn)行解析,得到本體的概念、屬性、層次關(guān)系的詞典和概念與概念、屬性與屬性、概念與屬性之間的關(guān)系三元組,生成信息抽取過程的規(guī)則集,并且將本體持久化到關(guān)系型數(shù)據(jù)庫中。對網(wǎng)絡(luò)本體語言(Ontology Web Language,OWL)本體文件的解析結(jié)果如圖4所示。
圖4 部分OWL本體文件解析結(jié)果Fig.4 Part OWL ontology file parsing results
通過對招投標(biāo)領(lǐng)域文本結(jié)構(gòu)特征的分析,歸納結(jié)構(gòu)化抽取的目標(biāo)信息項,相應(yīng)的目標(biāo)語義信息元素定義如表1所示。
通過爬蟲得到的招投標(biāo)網(wǎng)頁信息存在噪聲數(shù)據(jù),需要通過預(yù)處理清洗數(shù)據(jù),刪除噪聲信息,包括HTML 的標(biāo)簽、圖片、樣式等,保留標(biāo)題、文本信息和統(tǒng)一資源定位符(Universal Resource Locator,URL)信息。通過預(yù)處理,將網(wǎng)頁信息轉(zhuǎn)換成更容易被處理的文本格式。
表1 目標(biāo)語義信息元素Tab.1 Target semantic information elements
本文提出的招投標(biāo)網(wǎng)頁解析方法,經(jīng)過預(yù)處理后,在招投標(biāo)本體驅(qū)動下,與招投標(biāo)網(wǎng)頁元素進(jìn)行語義匹配和抽取,實(shí)現(xiàn)對招投標(biāo)網(wǎng)頁語義信息的結(jié)構(gòu)化解析。具體算法設(shè)計流程如圖5所示。
經(jīng)過預(yù)處理的信息,首先要判斷文本是否存在表格,存在表格信息的要提取表格內(nèi)容;接著以“;”“?!焙汀?”作為切分界限標(biāo)識符,將文本切分成獨(dú)立的信息塊,用句子集合S={S1,S2,…,Sn}表示;再根據(jù)招投標(biāo)領(lǐng)域文本的結(jié)構(gòu)特征,遍歷句子集合S,將子句Si(i=1,2,…,n)切分成概念與概念釋義的字典形式[Si,k:Si,v];然后匹配目標(biāo)語義信息元素,在招投標(biāo)本體驅(qū)動下,導(dǎo)入包含目標(biāo)信息項的領(lǐng)域本體知識模型C={C1,C2,…,Cm},計算Si的Key 值Si,k與Cj(j=1,2,…,m)之間的相似度,如式(1)所示。
其中LD(Si,k,Cj)表示編輯距離,計算編輯距離[23]如式(2)所示。
式中,矩陣Dij=D(s0s1…si,c0c1…cj)(0 ≤i≤n,0 ≤j≤m),s0s1…si表示字符串Si,k,c0c1…cj表示字符串Cj,通過(n+1)×(m+1)階矩陣Dij計算得到LD(Si,k,Cj);Di-1,j-1為刪除操作、Di-1,j為插入操作、Di,j-1為替換操作,設(shè)置刪除的權(quán)重wa和插入的權(quán)重wb為1,替換的權(quán)重wc為2,即wa=1,wb=1,wc=2。從字符串Si,k的第一個位置s0和字符串Cj的第一個位置c0進(jìn)行比較,對已經(jīng)比較過的編輯距離,繼續(xù)計算下一個字符位置的編輯距離。矩陣Dij從D00逐行逐列計算,最終得到Dnm,即編輯距離LD(Si,k,Cj)。
圖5 網(wǎng)頁信息抽取算法流程Fig.5 Flowchart of webpage information extraction
N和M代表Si,k和Cj的長度,經(jīng)過計算得到Si,k和Cj之間的相似度Sim,Sim值越大表示相似度越高。設(shè)置相似度Sim的閾值:小于閾值繼續(xù)進(jìn)行迭代;大于等于閾值則保留Sim值最大的Key 值Si,k,并且返回其Value 值Si,v,保存經(jīng)過匹配得到的Si,k和Si,v信息。隨后判斷句子集合S={S1,S2,…,Sn}是否遍歷結(jié)束,遍歷結(jié)束得到一個初步的解析結(jié)果。然后調(diào)用招投標(biāo)本體解析生成的層次結(jié)構(gòu)關(guān)系規(guī)則集合U={R1,R2,…,Rw},規(guī)則Rt(t=1,2,…,w)以三元組(ta,tr,tb)形式表示,ta和tb分別表示招投標(biāo)本體結(jié)構(gòu)中的不同概念屬性,tr表示兩者之間的關(guān)系。遍歷規(guī)則集合U,進(jìn)一步對初步結(jié)果進(jìn)行抽取,最終輸出結(jié)構(gòu)化信息。
由于招投標(biāo)領(lǐng)域網(wǎng)站,例如招投標(biāo)網(wǎng)、中國招標(biāo)與采購網(wǎng)、千里馬等,都需要注冊登錄會員才可以獲取信息,所以選用公開的采購網(wǎng)站作為實(shí)驗對象,為保證數(shù)據(jù)集的多樣性,選擇多個網(wǎng)站源并且隨機(jī)選取不同時間段共640 個網(wǎng)頁數(shù)據(jù)作為本次實(shí)驗測試的數(shù)據(jù)集,并采用人工抽取評估的方式作為標(biāo)準(zhǔn)參照結(jié)果。
選取準(zhǔn)確率、召回率和F值為評價指標(biāo)[24],定義如下:
1)準(zhǔn)確率是指正確抽取目標(biāo)信息項個數(shù)占所有抽取結(jié)果的比率,如式(3)所示。
2)召回率是指正確抽取目標(biāo)信息項個數(shù)占所有正確結(jié)果的比率,如式(4)所示。
3)F值是對準(zhǔn)確率和召回率的綜合評價,如式(5)所示。
實(shí)驗基于Windows 10 系統(tǒng),CPU 2.80 GHz,內(nèi)存8 GB,開發(fā)工具Python。網(wǎng)頁解析的結(jié)果示例如圖6所示。
進(jìn)一步,對本文方法所獲得的解析性能進(jìn)行統(tǒng)計分析,如表2 所示,綜合多個不同網(wǎng)站中招投標(biāo)網(wǎng)頁信息的解析實(shí)驗結(jié)果,本文方法的準(zhǔn)確率約是95.33%,召回率約為88.29%,F(xiàn)值約為91.68%。實(shí)驗中發(fā)現(xiàn),由于有些網(wǎng)頁信息以非結(jié)構(gòu)文本或復(fù)雜的表格信息展示,未能將信息識別抽取,是導(dǎo)致本算法召回率稍低的原因;有些存在于表格內(nèi)的信息,由于表格結(jié)構(gòu)過于復(fù)雜,未能在構(gòu)建的領(lǐng)域本體中有所體現(xiàn),降低了算法的準(zhǔn)確率。
圖6 招投標(biāo)網(wǎng)頁解析實(shí)驗結(jié)果示例Fig.6 Example results of bidding webpage parsing experiment
為進(jìn)一步分析文本算法性能,選擇經(jīng)典的基于正則表達(dá)式的網(wǎng)頁解析方法作為對比。在實(shí)現(xiàn)對網(wǎng)頁數(shù)據(jù)細(xì)粒度的信息抽取時,首先需要構(gòu)建招投標(biāo)目標(biāo)信息項描述語句對應(yīng)的正則表達(dá)式的數(shù)據(jù)模式,通過對選取網(wǎng)站的招投標(biāo)信息格式的具體分析,部分模式規(guī)則如表3所示。
利用相同的數(shù)據(jù)集進(jìn)行對比實(shí)驗。兩種算法對目標(biāo)語義信息元素的提取結(jié)果對比如表4 所示。兩種算法的綜合解析性能對比結(jié)果如表5所示。
由表4可以看出,具有相對固定模式的信息項,例如編號、時間,正則表達(dá)式方法表現(xiàn)得更好,以項目編號為例,信息相對規(guī)范,以大寫英文字母和數(shù)字組合而成,只需要列出固定組合模式即可,不會因為存在非結(jié)構(gòu)文本而受到影響。例如“天津市公安局行動技術(shù)總隊機(jī)房改造通用硬件采購項目(HGGP-2019-C-0117)”項目編號對應(yīng)的正則表達(dá)式為“[A-Z]{1,4}.d{1,5}.[A-Z]{1,3}.d{1,6}”符合規(guī)則即可匹配抽取信息。
但相對靈活的信息項,即需要結(jié)合上下文語義環(huán)境進(jìn)行分析的信息項,例如網(wǎng)頁信息“采購人:山東省水利信息中心;地址:濟(jì)南市歷下區(qū)歷山路127 號;聯(lián)系方式:0531-86 974502;采購代理機(jī)構(gòu):海逸恒安項目管理有限公司;地址:山東省濟(jì)南市高新區(qū)縣(區(qū))舜華南路297 號漢峪金谷A2-3-18;聯(lián)系方式:0531-82661880”基于正則表達(dá)式的方法在抽取聯(lián)系方式信息項時,雖能抽取出結(jié)果,但是沒有上下文語義,并不能正確對應(yīng)抽取出聯(lián)系方式是采購人還是采購代理機(jī)構(gòu)。而本文方法在招投標(biāo)領(lǐng)域本體知識驅(qū)動下,通過領(lǐng)域本體的概念、屬性、層次關(guān)系的解析規(guī)則,能夠把握抽取時的語義關(guān)系,保證抽取結(jié)果的正確性。
表2 本文方法在實(shí)驗數(shù)據(jù)集上的性能統(tǒng)計結(jié)果Tab.2 Performance statistics results of the proposed method on experimental dataset
表3 目標(biāo)信息項的模式規(guī)則示例Tab.3 Examples of pattern rules for target information items
表4 兩種對比方法對不同語義信息元素解析性能對比Tab.4 Parsing performance comparison of two methods for different semantic information elements
表5 兩種對比方法的綜合解析性能Tab.5 Comprehensive comparison of two methods
綜合地,一方面正則表達(dá)式匹配嚴(yán)格,適用于模式相對固定的信息項;而面對靈活的信息項,由于表述方式多樣,編寫困難,更適合用本文方法。另一方面正則表達(dá)式依賴于目標(biāo)信息項的結(jié)構(gòu)特征,不同網(wǎng)站之間的模式規(guī)則存在差異,對比實(shí)驗中已經(jīng)根據(jù)具體測試的網(wǎng)站的網(wǎng)頁信息,構(gòu)建出目標(biāo)信息項的正則表達(dá)式的規(guī)則集,但是若僅對目標(biāo)信息項使用單一的正則表達(dá)式規(guī)則,效果會有較大差距,并且隨著網(wǎng)頁信息結(jié)構(gòu)的改變需要重新編寫,靈活性差,耗費(fèi)大量人工成本;相對而言,本文方法不依賴網(wǎng)頁結(jié)構(gòu),更加靈活,無需人工設(shè)計復(fù)雜的模式規(guī)則,更具有領(lǐng)域通用性和實(shí)用性。
從實(shí)驗結(jié)果可以看出,本文方法總體達(dá)到了預(yù)期。但是由于互聯(lián)網(wǎng)的復(fù)雜性和信息數(shù)據(jù)結(jié)構(gòu)的多樣性,目前還無法完全勝任一些復(fù)雜陳述結(jié)構(gòu)的解析。
針對招投標(biāo)網(wǎng)頁信息,提出一種招投標(biāo)本體驅(qū)動下的網(wǎng)頁解析方法,有效地實(shí)現(xiàn)對招投標(biāo)網(wǎng)頁中語義信息的自動結(jié)構(gòu)化解析,具備較好的網(wǎng)頁自適應(yīng)能力,能滿足實(shí)用性能要求。由于不同頁面中招投標(biāo)內(nèi)容表述的多樣性,實(shí)際使用中可以對知識模型進(jìn)行進(jìn)一步工程優(yōu)化,以獲得更高的解析性能。