李娟 張慎武 夏敏捷
摘? 要:如今以虛擬聯(lián)結(jié)為依托的信任對電子文件的可信性帶來巨大的挑戰(zhàn)。本文以InterPARES提出的“可信”理念為前提,在機器學(xué)習和自然語言處理等技術(shù)和方法論的支撐下,針對電子文件分類的特點,分析研究分類器、特征提取等關(guān)鍵技術(shù),以期滿足各個領(lǐng)域在電子文件捕獲、存儲、處置等階段的需要,為探索電子文件自動分類帶來指導(dǎo)意義。
關(guān)鍵詞:電子文件;可信;InterPARES;自動分類
信息技術(shù)的快速發(fā)展使得各個領(lǐng)域的數(shù)據(jù)文件急劇膨脹,給檔案工作者帶來了前所未有的挑戰(zhàn)。文件的易改性、軟件的升級、硬件的更新等都會對電子文件的真實性、可讀性和長期保存造成威脅。在這種前提下InterPARES[1]提出“可信”概念,是對電子文件“四性”的進一步拓展。
傳統(tǒng)的人工分類費時費力,而采用機器學(xué)習的方法對電子文件進行自動分類可以有效地查詢到數(shù)據(jù)信息,也方便了數(shù)據(jù)存儲。因此,在保證“可信”的前提下,本文通過結(jié)合機器學(xué)習、自然語言處理等相關(guān)算法,研究如何對電子文件的內(nèi)容實現(xiàn)自動化分類管理。除傳統(tǒng)的電子文件(文書文件等)之外,各種社交媒體和在線資源應(yīng)用(微信和微博等)的內(nèi)容,都將成為有效證據(jù)的電子文件,這也將成為信息的分類和提取中一個新興的探索領(lǐng)域。
“電子系統(tǒng)中文件真實性永久保障國際合作項目”(InterPARES)始終圍繞著數(shù)字文件管理與保存的問題展開研究與探索。截至目前InterPARES已經(jīng)完成了第四個階段(2013-2018)計劃的一半,即研究“網(wǎng)絡(luò)化社會中數(shù)字文件的可信性”?!翱尚牛╰rustworthiness)”理念的提出,為我們進一步探尋電子文件的管理提供了新的視角。
國外研究中,Ronald Jantz[2]認為真實性和可靠性是確保電子文件“可信”的關(guān)鍵因素,可信的過程、傳統(tǒng)角色的重新定義以及支持真實性技術(shù)的實現(xiàn)都需要滿足數(shù)字學(xué)術(shù)的需要,并提出了可信的概念框架。國內(nèi)劉家真指出,“可信賴的文件是指文件內(nèi)容可信賴,真實準確地反映了它所描述的事實與事件” [3];李澤鋒在國內(nèi)第一個全面探索電子文件可信管理的問題,并梳理了電子文件可信管理的關(guān)鍵問題等[4]。
InterPARES明確指出“可信”是“文件的準確性、可靠性和真實性”。由此,InterPARES實際是對電子文件“四性”做了更細致更深入的拓展,同時在探索電子文件質(zhì)量的基礎(chǔ)上,第四階段更關(guān)注網(wǎng)絡(luò)數(shù)字文件和數(shù)據(jù)問題、關(guān)注用戶的主觀認知,以確保公眾信任建立在良好治理、強勁數(shù)字經(jīng)濟和持續(xù)數(shù)字記憶的證據(jù)之上。
電子文件的分類,就是根據(jù)電子文件內(nèi)容的屬性或特征,將其按一定原則和方法進行區(qū)分和歸類,并建立起一定的分類體系和排列順序[5]。它能夠揭示文件與文件之間的有機聯(lián)系,更重要的是可以方便進行查詢與檢索。
在大數(shù)據(jù)時代,電子文件數(shù)目的海量增長,使得傳統(tǒng)的人工分類顯得力不從心,利用計算機進行自動文檔分類顯得尤為重要。近年來,文本挖掘、機器學(xué)習、自然語言處理、深度學(xué)習等進行文檔自動分類成為一個多學(xué)科交叉研究的熱點,并非常具有應(yīng)用價值。要實現(xiàn)電子文件自動分類,如何對文件進行預(yù)處理、特征提取、分類器設(shè)計以及良好的算法等都關(guān)系到分類的準確性和效率。本文以文書文件為例,需要著重解決的關(guān)鍵問題如下:
3.1 電子文件預(yù)處理。由于電子文件的來源異構(gòu)、格式各異,不但不利于長期保存和有效利用,也不便于對電子文件進行自動分類操作,因此待分類的文件必須經(jīng)過預(yù)處理。
①格式轉(zhuǎn)換。為保證文件始終如一的顯示效果,擺脫軟硬件支持和長期的有效利用,依據(jù)國家檔案局發(fā)布的DA/T 47-2009《版式電子文件長期保存格式需求》行業(yè)標準,需要將不同格式的文件進行統(tǒng)一類型的轉(zhuǎn)換。
②分詞。分詞是預(yù)處理過程中最重要的一步,西文文本單詞與單詞之間有空格,可以自然地分隔、切詞,而中文文本不能簡單地使用空格進行分詞,且同一個詞語在不同的語境下能夠表達不同的意思,這樣也就加大了中文文本的處理難度和詞語切分的精度。分詞技術(shù)的好處直接影響到自動分類的效果。本文使用開源的IKAnalyzer分詞器。
③降噪處理。分詞后的文本信息,可能會包含標點符號、停用詞、亂碼等,這些標記的一個顯著的共同特點是與文本的內(nèi)容無關(guān),對文本的分類沒有作用,屬于噪聲數(shù)據(jù),應(yīng)在自動分類之前將其去除掉。
④文本表示。目前的計算機無法智能到讀懂人類的文字,所以必須把文本轉(zhuǎn)換成計算機能夠理解的形式,即進行文本表示。本文主要采用向量空間模型(VSM),即是把文檔簡化為特征項的權(quán)重為分量的向量表示:(w1,w2,...,wn),其中wi 為第i 個特征項的權(quán)重,一般選取詞作為特征項,權(quán)重用詞頻表示。
3.2 電子文件的特征提取。當使用特征向量對文件進行表示時,特征向量通常會達到幾萬維甚至幾十萬維,隨著維數(shù)的增大,分類算法的實現(xiàn)復(fù)雜度也必然增大。所以必須進行特征提取,特征提取的基本思想是通過對原始向量空間的處理,得到一個空間維數(shù)更小,維與維之間關(guān)聯(lián)更少的向量空間,盡可能多地識別和刪除不相關(guān)特征和冗余特征,同時保留一些類別區(qū)分度較高的文本特征,從而有效提升分類的效率和準確性[6]。
3.3 分類器模型選擇。對于電子文件的自動分類,屬于有監(jiān)督的學(xué)習過程,也就是必須有大量的訓(xùn)練樣本(文件)進行預(yù)先訓(xùn)練,而對于不同類型、不同職能的電子文件還需要建立不同的分類器模型。確定分類器模型以后,才可以將未分類的電子文件傳入該分類器,劃分到概率最大的類別得到分類結(jié)果。目前常見的分類算法很多,如貝葉斯算法、決策樹、K近鄰(KNN)算法、支持向量機、神經(jīng)網(wǎng)絡(luò)、回歸模型、最大熵模型等。
電子文件自動分類流程可概括為兩個階段:第一個階段是分類器的訓(xùn)練學(xué)習階段,第二個階段為分類階段,利用第一個階段得到的分類器對分類文件進行分類處理。
在訓(xùn)練階段,首先需要對訓(xùn)練電子文件數(shù)據(jù)集進行統(tǒng)一的格式轉(zhuǎn)換,如轉(zhuǎn)換為PDF/A格式,然后利用IKAnalyzer分詞器進行文本分詞、降噪等一系列預(yù)處理操作。為了能使計算機表示為計算機可識別形式,按照向量模型空間的基本思想,將分詞后的內(nèi)容進行特征向量描述,通過特征降維得到一個特征項集合,最后利用較簡單的機器學(xué)習算法——KNN算法,獲得分類器模型。
分類器模型確定之后,便可對未知文本進行分類處理,同樣需要進行文件的預(yù)處理、文本表示、特征提取等一系列操作,最后將特征項的集合傳輸給分類器模型,從而得到文件的分類結(jié)果。
本文嘗試建立一種“可信”的電子文件自動分類系統(tǒng)。該框架最終將與ERMS(電子文件管理系統(tǒng))或者移交接收平臺相結(jié)合,因此必須考慮所采用的數(shù)據(jù)庫系統(tǒng),且需要對電子文件的元數(shù)據(jù)元素進行采集。
整個框架都基于“可信”理念設(shè)計,對各個步驟進行安全管控,如:為了保證電子文件的長期有效利用,根據(jù)相關(guān)行業(yè)標準,將原生文件進行統(tǒng)一的文件格式轉(zhuǎn)換(PDF/A格式);在進行元數(shù)據(jù)采集之前需要進行“四性”檢測,有效地保證了數(shù)據(jù)的完整性、安全性、真實性及可用性;利用非結(jié)構(gòu)化數(shù)據(jù)庫設(shè)置“權(quán)限管理”“分發(fā)管理”“數(shù)字簽名”“數(shù)據(jù)備份”等安全控制技術(shù)。
電子文件的自動分類是對電子信息進行自動化處理的重要研究方向,它可以通過給定的分類標準,由電子文件的內(nèi)容自動判別其文本類別,在學(xué)術(shù)上具有重要的研究價值和意義。該研究涉及多種技術(shù),如,信息安全技術(shù)、元數(shù)據(jù)技術(shù)、機器學(xué)習算法、自然語言處理等。下一步將繼續(xù)考慮圖像、社交媒體信息等各個類型的電子文件的自動分類問題,及如何與電子文件的移交與接收、ERMS等相結(jié)合的問題,并為后續(xù)的長期保存與利用提供有力的支持。
[1]InterPARES 2 Project. Glossary,Dictionary&Ontologies[EB/OL].(2014- 1-1)[2014-1-2].http://www.interpares.org/ip2/ip2_terminology_db.cfm.
[2]Jantz R. An institutional framework for creating authentic digital objects[J]. International Journal of Digital Curation, 2009, 4(1): 71-83.
[3]劉家真.在傳統(tǒng)環(huán)境與電子環(huán)境中文件的可信度與真實性比較[J].四川檔案,1998(6):13.
[4]李澤鋒.電子文件可信管理關(guān)鍵問題分析[J].檔案學(xué)研究,2012 (6):52-55.
[5]王芳.基于J2EE的信息分類編碼標準管理系統(tǒng)的研究[D].大連:大連海事大學(xué),2006.
[6]毛嘉莉.文本聚類中的特征降維方法研究[J].西華師范大學(xué)學(xué)報(自然科學(xué)版),2009(4):365-368.