趙婉婧,劉敏娟*,劉洪冰,王 新,段飛虎
(1.中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所,北京 100081;2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點實驗室,北京 100081;3.同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司,北京 100192)
隨著大數(shù)據(jù)時代的到來,各學術(shù)領(lǐng)域的科研人員在面對海量學術(shù)資源的同時,也承受著信息泛濫帶來的困擾。以篇級文獻為最小單位的信息服務方式已無法滿足用戶日益精準的多粒度信息服務需求,用戶在信息檢索時真正需要的是文獻中具有挖掘價值的 “微信息”“知識元”等細粒度[1]片段信息。基于文獻級粗粒度的知識組織方式,存在著數(shù)據(jù)加工程度低、語義關(guān)聯(lián)性差等問題,而知識組織的顆粒度直接決定了信息的檢索方式和服務效果。李偉、馮儒佳等[2,3]提出傳統(tǒng)的科技論文組織方式?jīng)]有實現(xiàn)對論文多粒度的組織,大多著眼于篇級的顯性信息,研究者們在獲取學術(shù)信息時無法檢索出多粒度的知識,將信息檢索深入到文獻的內(nèi)容層次,向用戶提供細粒度的信息、精確的知識是一種必然趨勢。
在這一背景和需求下,傳統(tǒng)的科技期刊出版方式開始逐步轉(zhuǎn)型,數(shù)字出版模式應運而生??萍计诳瘮?shù)字出版是對期刊內(nèi)容進行數(shù)字化轉(zhuǎn)換,碎片化、結(jié)構(gòu)化存儲,建立數(shù)據(jù)庫,通過二次開發(fā)實現(xiàn)多平臺查詢、在線閱讀、傳播,知識信息高效共享的過程[4]。目前,國外期刊媒體的數(shù)字化發(fā)展已經(jīng)度過了初期載體形式的轉(zhuǎn)變,不僅實現(xiàn)了信息內(nèi)容在電子終端上的全文顯示,而且實現(xiàn)了論文標題、作者信息、圖表以及參考文獻等的模塊化處理,能夠?qū)⒄撐囊远嗲?、多方式、多粒度更加快捷地呈現(xiàn)給讀者,大幅增強了信息傳播的實效性。相較之下,中國期刊媒體的數(shù)字化發(fā)展整體相對滯后,依舊延續(xù)著傳統(tǒng)的編輯出版模式,處于轉(zhuǎn)型過程,形成了傳統(tǒng)出版與數(shù)字出版并存的局面,在編輯出版的整個流程體系中還是傳統(tǒng)模式占據(jù)主流[5],但中國的數(shù)字出版產(chǎn)業(yè)也正處于高速增長的階段。頗具代表性的有瑪格泰克的XML/RichHTML 加工服務利用智能算法技術(shù),實現(xiàn)了全文內(nèi)容生成標準的XML 文件。北大方正書暢系統(tǒng)采用云計算技術(shù),基于XML 結(jié)構(gòu)化數(shù)據(jù)標準,為出版單位構(gòu)建一個基于互聯(lián)網(wǎng)環(huán)境的一體化數(shù)字化生產(chǎn)平臺。雖然發(fā)展勢頭良好,但由于類型單一、投資規(guī)模限制,仍然有很大一部分傳統(tǒng)出版企業(yè)停留在數(shù)字出版的傳統(tǒng)模式,僅實現(xiàn)了載體形式的變化,而非產(chǎn)品內(nèi)容結(jié)構(gòu)的變化,沒有對資源進行結(jié)構(gòu)化處理[6]。
因此,本文研究的文獻篇章結(jié)構(gòu)細粒度抽取方法針對尚未實現(xiàn)數(shù)字出版的文獻資源以及大量歷史存量資源的結(jié)構(gòu)化處理,具有一定現(xiàn)實意義和應用價值。本方法也可延伸應用到特種文獻[7]、灰色文獻、電子檔案等同樣具有細粒度抽取和組織需求的其他資源類型。結(jié)構(gòu)化、碎片化后的文獻可以用于各類語料庫的構(gòu)建,作為知識計算與挖掘的細粒度語料。對細粒度信息進行組織揭示,突破了傳統(tǒng)基于整篇文獻組織揭示的方法和深度,并按照新的知識組織體系進行重組,滿足用戶多元化利用的需求。
文獻資源篇章結(jié)構(gòu)的細粒度抽取[8]是實現(xiàn)知識細粒度組織與檢索發(fā)現(xiàn)的首要前提和關(guān)鍵步驟,因此篇章結(jié)構(gòu)的分析與識別方法研究應得到進一步關(guān)注。國內(nèi)學者曹樹金等[9]提出由于期刊論文各級標題清晰地反映了論文的研究思路和結(jié)構(gòu),因此利用標題標識的節(jié)段單元可以認為是有價值且可操作的細粒度單元。陸偉等[10]認為布局分析是通過對原始PDF 文檔轉(zhuǎn)化而來的圖片進行分析,將圖片分割成為具有相同成分的片段。邏輯結(jié)構(gòu)分析是使用位置特征、字體特征、布局特征以及OCR 之后的文字特征判斷出上述片段所屬的類別(標題、正文、作者、頁頭、頁尾等)。萬里鵬[11]對非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換方法進行了比較研究,提出一種非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換模型,從理論和實踐上基本實現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換,但支持的文件結(jié)構(gòu)比較單一,不能對結(jié)構(gòu)復雜的文件完成數(shù)據(jù)轉(zhuǎn)換。宋艷娟[12]對基于規(guī)則的信息抽取方法進行了研究,實現(xiàn)了基于XSLT 規(guī)則的HTML 文檔的信息抽取,設計實現(xiàn)了一個基于XML 的PDF 文檔信息抽取原型系統(tǒng),但僅是一個原型系統(tǒng),功能還需進一步完善,而且對抽取對象進行了假設,抽取規(guī)則不具備普適性。
一些國外學者利用機器學習的方法在文本結(jié)構(gòu)化分析與識別領(lǐng)域開展了相應研究,SIMONE 等[13]探討了人工神經(jīng)網(wǎng)絡在文本圖像分析與識別(DIAR-Document Image Analysis and Recognition)以及版面布局分析與結(jié)構(gòu)化方面的應用。MINH-THANG 等[14]借助學術(shù)論文豐富的文本特征,使用條件隨機域模型(CRFConditional Random Field)開發(fā)了一個發(fā)現(xiàn)工具,顯著提高了分類性能。
目前,未實現(xiàn)數(shù)字出版的文獻資源和非結(jié)構(gòu)化的歷史存量資源多以PDF 格式進行存儲,PDF 文檔內(nèi)容的抽取方式主要有兩種:一種是通過分析PDF 文檔的格式,直接將其內(nèi)容抽取出來,進而獲取需要的信息和數(shù)據(jù);另一種是將PDF 文檔轉(zhuǎn)換成其他文檔格式,通過間接抽取中間文檔內(nèi)容的方法抽取PDF 文檔中的內(nèi)容[15]。傳統(tǒng)研究大多圍繞第一種直接抽取的方法,基于規(guī)則重點關(guān)注于文獻元數(shù)據(jù)的抽取,并且獲得了較好的效果。然而,針對篇章形式結(jié)構(gòu)的識別和抽取,由于學術(shù)論文的排版過于復雜多樣,直接抽取方法多數(shù)情況下的效果并不理想。
為此,本文研究提出一種基于PDF 版式特征的文獻篇章結(jié)構(gòu)細粒度抽取方法,并設計構(gòu)建一套數(shù)據(jù)處理系統(tǒng),通過對文檔的版式特征進行分析計算,根據(jù)加工精確度的需要,采取機器自動或人機結(jié)合的手段對PDF 文檔的篇章結(jié)構(gòu)進行細粒度的碎片化處理。該方法具有較強適應性,不需提前制定規(guī)則,為實現(xiàn)文獻資源細粒度的組織揭示、挖掘計算奠定基礎(chǔ)。
針對非結(jié)構(gòu)化文檔分析與識別的關(guān)鍵核心步驟就是對文檔的版面結(jié)構(gòu)和版式特征進行分析,這種版面分析的方式很大程度上提高了對非結(jié)構(gòu)化文檔的自動化識別效率[16]。
本文按照文章的邏輯結(jié)構(gòu)與閱讀順序?qū)σ黄狿DF文檔的章、節(jié)、段、圖、表進行細粒度拆分、抽取和重組,并保留上下文順序和層級關(guān)系。首先利用基于機器學習的版面識別算法,由系統(tǒng)自動抽取文章中各級章節(jié)標題和圖表并預判層級關(guān)系,然后根據(jù)章節(jié)標題在頁面的坐標定位,將正文內(nèi)容以段落為最小顆粒度自動匹配至相應位置,最終實現(xiàn)文檔全文結(jié)構(gòu)的細粒度識別、抽取和重組。處理過程中,可貫穿適度人工干預,確保抽取結(jié)果的精確度,保證經(jīng)碎片化處理的數(shù)據(jù)可投入實際應用。
基于機器學習的版面識別算法是將非結(jié)構(gòu)化的PDF 文檔轉(zhuǎn)換生成為有行文結(jié)構(gòu)的XML 文件的過程,如圖1 所示,主要分為以下3 個步驟。
圖1 基于機器學習的版面識別算法流程圖Fig.1 Layout identification algorithm flow chart based on machine learning
(1)將PDF 文檔(a)內(nèi)部的所有文本、圖表的頁碼位置、字體大?。ㄒ韵袼財?shù)表示)、段間距等信息抽取出來。然后,按照 《國家農(nóng)業(yè)圖書館文獻資源碎片化XML 描述標準》 將其統(tǒng)一轉(zhuǎn)換為無章節(jié)標題、正文段落等行文結(jié)構(gòu)的XML 文件(b)。該標準由本單位設計制定,遵循XML1.0 標準,對文獻內(nèi)部篇、章、節(jié)、段、圖的版式特征信息進行規(guī)范化、數(shù)字化描述,基于此標準描述的文獻信息可以通過解析轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)以便機器學習和處理。XML 由一個根節(jié)點book構(gòu)成,book 節(jié)點下包含兩個子節(jié)點,分別是catalogs和parts,catalogs 表示文章的標題樹,parts 表示文章的內(nèi)容樹,部分數(shù)據(jù)樣例見圖2。
圖2 含有版式信息的XML 數(shù)據(jù)樣例Fig.2 A sample of XML data with layout information
(2)針對XML 文件中所有的文本塊進行數(shù)據(jù)分析,將每一篇論文XML 中的標題、段落等結(jié)構(gòu)版式信息解析轉(zhuǎn)換為機器學習所需要的特征向量(c)[17],關(guān)于特征向量的選定下文會進行詳細闡述,根據(jù)機器學習模型和精確度評估合理選擇特征向量,用以訓練隨機森林模型(d)。
(3)由步驟(1)轉(zhuǎn)換而來的XML 文件是沒有任何分類信息與行文結(jié)構(gòu)的,通過對全部PDF 轉(zhuǎn)換生成的XML 文件進行分析計算,得出每個文本塊的特征向量,將特征向量的計算結(jié)果輸入到步驟(2)訓練完成的模型中,利用模型對目標文檔的全部文本塊進行預測分類,根據(jù)各個文本塊的分類重新生成包含章節(jié)標題信息、圖表信息及其層級結(jié)構(gòu)信息的XML 文件(e)。
為了優(yōu)化機器學習算法的適應性,采用Online Learning 的算法理論確保算法精確度,Online Learning能夠根據(jù)線上反饋數(shù)據(jù),快速實時調(diào)整模型,反映線上變化,提高線上預測的正確率。Online Learning 的主要流程包括:將模型的預測結(jié)果通過可視化界面展示給用戶(f),用戶借助可視化工具對預測結(jié)果進行人工干預,系統(tǒng)自動收集用戶反饋數(shù)據(jù),加入到訓練集中,對模型進行迭代訓練,使模型能夠線上自動調(diào)整,形成閉環(huán)系統(tǒng),從而達到不斷提高算法識別正確率,降低人工干預的目的。
文獻篇章結(jié)構(gòu)的細粒度抽取本質(zhì)上就是根據(jù)版式特征對文檔內(nèi)的全部文本塊進行自動分類賦予標簽的過程,通常學術(shù)論文PDF 文檔的篇章結(jié)構(gòu)大致可以分為文章標題、作者信息、摘要、關(guān)鍵詞、分類號、各級章節(jié)標題、正文段落、參考文獻以及頁眉頁腳等。
從版式特征角度分析文獻篇章結(jié)構(gòu)可以發(fā)現(xiàn),區(qū)分上述類型的主要依據(jù)就是文本塊的位置、字體、字號和行距等格式因素。因此,本方法中選定了與文本塊格式相關(guān)的17 個特征向量(圖3),作為判斷文本塊是否為章節(jié)標題的主要依據(jù),表1 為17 個特征向量的具體表現(xiàn)形式和判斷標準。
表1 特征向量與特征描述Table 1 Feature vectors and feature descriptions
圖3 與文本塊格式相關(guān)的17 個特征向量Fig.3 Seventeen feature vectors associated with the format of text block
通過對步驟(1)中獲取的XML 進行分析計算,得出每個文本塊(para)的上述17 個特征向量,將這17 個特征向量中不是數(shù)字的特征向量用標記編碼器將其轉(zhuǎn)換為數(shù)字,不同屬性使用不同標記編碼器。如font-style 屬性可以取3 個不同值,需要建立一個懂得給這3 個屬性編碼的標記編碼器,從而得出特征向量的數(shù)組x,對不同的文本塊作相應的標記,作為機器學習的訓練數(shù)據(jù)。本方法主要獲取文章的章節(jié)標題,相應標記為 “0”代表文本塊為正文,“1”代表文本塊為文章一級標題,“2”代表文本塊為文章二級標題,“3”代表文本塊為文章三級標題,以此類推,從而得出對應的標記y。
經(jīng)實測,17 個特征向量對于模型的訓練均有貢獻,但重要性有大有小,這些特征差異有助于機器學習對文本塊分類進行正確的推斷和預測。17 個特征向量的權(quán)重主要依賴于標注的訓練樣本通過隨機森林機器學習算法得出,不同訓練樣本的17 個特征向量的權(quán)重不一樣,因此通過訓練不同的模型可以實現(xiàn)對版式特征各異的文檔章節(jié)標題的識別與抽取。
為了驗證方法的可行性和有效性,我們通過采集和購買手段分別從EIU、SAGE、OECD、IMF、World Bank 等平臺或出版商獲取到1.6 萬學術(shù)論文、科技報告的PDF 全文數(shù)據(jù)作為訓練集,驗證算法的精確度和自動碎片化模板的實際應用效果。
EIU 來源的PDF 全文版式特征較為獨特統(tǒng)一,頁面左側(cè)留白,章節(jié)標題多位于留白區(qū)域;SAGE、OECD、IMF、World Bank 來源的PDF 全文版式特征高度近似,均為常見的通欄或分欄排版,章節(jié)標題居左或居中。因此,我們根據(jù)PDF 全文的版式特征將全部樣本大致分為兩類,EIU 來源的樣本作為EIU 模板的訓練集進行單獨訓練,SAGE、OECD、IMF、World Bank 來源的樣本構(gòu)成一個訓練集,用以訓練通用模板。
本算法中隨機森林采用sklearn 庫的算法模板進行訓練。
可以通過改變n_estimators 和max_depth 參數(shù)的值,提升分類器的準確性,這兩個參數(shù)被稱為超參數(shù)(hyperparameters),分類器的性能由它們決定,根據(jù)實驗樣本測得n_estimators 取值180、max_depth 取值23能讓分類器的性能達到理想效果。
由圖4 可以看出,隨著迭代訓練次數(shù)和訓練樣本數(shù)量的增多,模板的精確度得到有效提升,兩個模板在實際應用中均效果良好,以節(jié)點為計算單位(節(jié)點指一個標題、段落或圖表),自動抽取的平均正確率可達到80%以上,圖5、圖6 分別為兩個模板自動抽取的可視化效果。在訓練模板前,依據(jù)數(shù)據(jù)來源或版式特征對目標PDF 做一個大致的分析和分類,并據(jù)此分別構(gòu)建訓練集,分類訓練機器學習模板,可以達到更高的精確度。在訓練集構(gòu)建方面,需要注意的是,訓練集規(guī)模過小的情況下極易導致過擬合現(xiàn)象,但如果選擇較大規(guī)模的訓練集,則會消耗更多的樣本。因此,訓練集規(guī)模的投入和選擇也需結(jié)合計算能力和實際情況進行綜合考慮。
圖4 模板精度與樣本數(shù)量的關(guān)系Fig.4 Relationship between model accuracy and sample size
圖5 EIU 模板自動抽取效果Fig.5 Result of automatic extraction of the EIU model
圖6 通用模板自動抽取效果Fig.6 Result of automatic extraction of the common model
基于上述研究方法和關(guān)鍵技術(shù),設計構(gòu)建了一套數(shù)據(jù)處理系統(tǒng),已投入實際應用,用以輔助開展方法實效的驗證與優(yōu)化,同步推進日常的文獻細粒度抽取相關(guān)業(yè)務,系統(tǒng)運行的技術(shù)路線詳見圖7。根據(jù)業(yè)務流程和功能需求,系統(tǒng)主要包含模板訓練與管理模塊、碎片化自動抽取模塊以及人工審校與質(zhì)檢模塊[18]等功能模塊,可以實現(xiàn)對PDF 文檔所包含的全部章節(jié)、小節(jié)、段落、圖表的結(jié)構(gòu)化處理和重組(圖8),達到抽取方式自動化、處理流程規(guī)范化、業(yè)務管理智能化的目標,縮短數(shù)據(jù)處理流程周期,減少人工干預,有效保障文獻細粒度抽取工作的質(zhì)量和效率。
圖7 系統(tǒng)運行技術(shù)路線Fig.7 Technical route of system operation
圖8 細粒度自動抽取流程Fig.8 Process of fine-grained automatic extraction
基于PDF 版式特征的篇章結(jié)構(gòu)細粒度抽取,有助于解決基于規(guī)則抽取算法精確度低、適應性差的問題,對文獻各級章節(jié)標題的自動抽取具有較好的效果。此外,根據(jù)不同業(yè)務精確度的需求,針對機器自動抽取的結(jié)果,增設人工審校環(huán)節(jié),使正確率可以達到100%,且界面友好易用、操作便捷高效。經(jīng)實測,審校人員利用校改工具,效率最快可達到每人每日審校提交8 200 個節(jié)點,約合2 000 頁文獻內(nèi)容,很好地實現(xiàn)了機器自動或人機結(jié)合的多元數(shù)據(jù)處理方式。
然而,本文研究的方法也存在一定局限性,需要在后續(xù)研究工作中加以完善和提升。目前,關(guān)于自動抽取精確度的評估,僅限于各級章節(jié)標題及其層級結(jié)構(gòu)的識別,不包含文中圖片、表格的識別情況,當圖片、表格被誤判為非圖片,且圖片、表格中的文本恰好完全符合章節(jié)標題的特征時,則會直接增加章節(jié)標題識別的錯誤率。此外,由于不同來源的文獻資源其PDF 文檔版式特征過于復雜多樣,基于機器學習的版面識別算法很難以一個或少量通用模板適用于多源異構(gòu)的海量資源,模板的訓練工作無法達到一勞永逸的效果。
針對上述問題,目前較為快速有效的解決方法是利用模板管理工具對版式相似或來源相同的資源進行機器學習模板的分別訓練和對應選用。基于細粒度抽取質(zhì)量與效率的長遠考慮,上述問題還需在后續(xù)工作中進一步完善和改進,以不斷提升文獻結(jié)構(gòu)化、細粒度自動識別與抽取的正確率。