基于可信的電子文件自動分類關(guān)鍵技術(shù)研究*

2018-08-20 08:13:44李娟張慎武夏敏捷

檔案管理 2018年4期

李娟張慎武夏敏捷

摘? 要：如今以虛擬聯(lián)結(jié)為依托的信任對電子文件的可信性帶來巨大的挑戰(zhàn)。本文以InterPARES提出的“可信”理念為前提，在機器學(xué)習和自然語言處理等技術(shù)和方法論的支撐下，針對電子文件分類的特點，分析研究分類器、特征提取等關(guān)鍵技術(shù)，以期滿足各個領(lǐng)域在電子文件捕獲、存儲、處置等階段的需要，為探索電子文件自動分類帶來指導(dǎo)意義。

關(guān)鍵詞：電子文件;可信;InterPARES;自動分類

1 引言

信息技術(shù)的快速發(fā)展使得各個領(lǐng)域的數(shù)據(jù)文件急劇膨脹，給檔案工作者帶來了前所未有的挑戰(zhàn)。文件的易改性、軟件的升級、硬件的更新等都會對電子文件的真實性、可讀性和長期保存造成威脅。在這種前提下InterPARES[1]提出“可信”概念，是對電子文件“四性”的進一步拓展。

傳統(tǒng)的人工分類費時費力，而采用機器學(xué)習的方法對電子文件進行自動分類可以有效地查詢到數(shù)據(jù)信息，也方便了數(shù)據(jù)存儲。因此，在保證“可信”的前提下，本文通過結(jié)合機器學(xué)習、自然語言處理等相關(guān)算法，研究如何對電子文件的內(nèi)容實現(xiàn)自動化分類管理。除傳統(tǒng)的電子文件（文書文件等）之外，各種社交媒體和在線資源應(yīng)用（微信和微博等）的內(nèi)容，都將成為有效證據(jù)的電子文件，這也將成為信息的分類和提取中一個新興的探索領(lǐng)域。

2 InterPARES 項目概述

“電子系統(tǒng)中文件真實性永久保障國際合作項目”（InterPARES）始終圍繞著數(shù)字文件管理與保存的問題展開研究與探索。截至目前InterPARES已經(jīng)完成了第四個階段（2013-2018）計劃的一半，即研究“網(wǎng)絡(luò)化社會中數(shù)字文件的可信性”?！翱尚牛╰rustworthiness）”理念的提出，為我們進一步探尋電子文件的管理提供了新的視角。

國外研究中，Ronald Jantz[2]認為真實性和可靠性是確保電子文件“可信”的關(guān)鍵因素，可信的過程、傳統(tǒng)角色的重新定義以及支持真實性技術(shù)的實現(xiàn)都需要滿足數(shù)字學(xué)術(shù)的需要，并提出了可信的概念框架。國內(nèi)劉家真指出，“可信賴的文件是指文件內(nèi)容可信賴，真實準確地反映了它所描述的事實與事件” [3];李澤鋒在國內(nèi)第一個全面探索電子文件可信管理的問題，并梳理了電子文件可信管理的關(guān)鍵問題等[4]。

InterPARES明確指出“可信”是“文件的準確性、可靠性和真實性”。由此，InterPARES實際是對電子文件“四性”做了更細致更深入的拓展，同時在探索電子文件質(zhì)量的基礎(chǔ)上，第四階段更關(guān)注網(wǎng)絡(luò)數(shù)字文件和數(shù)據(jù)問題、關(guān)注用戶的主觀認知，以確保公眾信任建立在良好治理、強勁數(shù)字經(jīng)濟和持續(xù)數(shù)字記憶的證據(jù)之上。

3 電子文件自動分類及其關(guān)鍵技術(shù)

電子文件的分類，就是根據(jù)電子文件內(nèi)容的屬性或特征，將其按一定原則和方法進行區(qū)分和歸類，并建立起一定的分類體系和排列順序[5]。它能夠揭示文件與文件之間的有機聯(lián)系，更重要的是可以方便進行查詢與檢索。

在大數(shù)據(jù)時代，電子文件數(shù)目的海量增長，使得傳統(tǒng)的人工分類顯得力不從心，利用計算機進行自動文檔分類顯得尤為重要。近年來，文本挖掘、機器學(xué)習、自然語言處理、深度學(xué)習等進行文檔自動分類成為一個多學(xué)科交叉研究的熱點，并非常具有應(yīng)用價值。要實現(xiàn)電子文件自動分類，如何對文件進行預(yù)處理、特征提取、分類器設(shè)計以及良好的算法等都關(guān)系到分類的準確性和效率。本文以文書文件為例，需要著重解決的關(guān)鍵問題如下：

3.1 電子文件預(yù)處理。由于電子文件的來源異構(gòu)、格式各異，不但不利于長期保存和有效利用，也不便于對電子文件進行自動分類操作，因此待分類的文件必須經(jīng)過預(yù)處理。

①格式轉(zhuǎn)換。為保證文件始終如一的顯示效果，擺脫軟硬件支持和長期的有效利用，依據(jù)國家檔案局發(fā)布的DA/T 47-2009《版式電子文件長期保存格式需求》行業(yè)標準，需要將不同格式的文件進行統(tǒng)一類型的轉(zhuǎn)換。

②分詞。分詞是預(yù)處理過程中最重要的一步，西文文本單詞與單詞之間有空格，可以自然地分隔、切詞，而中文文本不能簡單地使用空格進行分詞，且同一個詞語在不同的語境下能夠表達不同的意思，這樣也就加大了中文文本的處理難度和詞語切分的精度。分詞技術(shù)的好處直接影響到自動分類的效果。本文使用開源的IKAnalyzer分詞器。

③降噪處理。分詞后的文本信息，可能會包含標點符號、停用詞、亂碼等，這些標記的一個顯著的共同特點是與文本的內(nèi)容無關(guān)，對文本的分類沒有作用，屬于噪聲數(shù)據(jù)，應(yīng)在自動分類之前將其去除掉。

④文本表示。目前的計算機無法智能到讀懂人類的文字，所以必須把文本轉(zhuǎn)換成計算機能夠理解的形式，即進行文本表示。本文主要采用向量空間模型（VSM），即是把文檔簡化為特征項的權(quán)重為分量的向量表示：（w1，w2，...，wn），其中wi 為第i 個特征項的權(quán)重，一般選取詞作為特征項，權(quán)重用詞頻表示。

3.2 電子文件的特征提取。當使用特征向量對文件進行表示時，特征向量通常會達到幾萬維甚至幾十萬維，隨著維數(shù)的增大，分類算法的實現(xiàn)復(fù)雜度也必然增大。所以必須進行特征提取，特征提取的基本思想是通過對原始向量空間的處理，得到一個空間維數(shù)更小，維與維之間關(guān)聯(lián)更少的向量空間，盡可能多地識別和刪除不相關(guān)特征和冗余特征，同時保留一些類別區(qū)分度較高的文本特征，從而有效提升分類的效率和準確性[6]。

3.3 分類器模型選擇。對于電子文件的自動分類，屬于有監(jiān)督的學(xué)習過程，也就是必須有大量的訓(xùn)練樣本（文件）進行預(yù)先訓(xùn)練，而對于不同類型、不同職能的電子文件還需要建立不同的分類器模型。確定分類器模型以后，才可以將未分類的電子文件傳入該分類器，劃分到概率最大的類別得到分類結(jié)果。目前常見的分類算法很多，如貝葉斯算法、決策樹、K近鄰（KNN）算法、支持向量機、神經(jīng)網(wǎng)絡(luò)、回歸模型、最大熵模型等。

4 電子文件自動分類流程

電子文件自動分類流程可概括為兩個階段：第一個階段是分類器的訓(xùn)練學(xué)習階段，第二個階段為分類階段，利用第一個階段得到的分類器對分類文件進行分類處理。

在訓(xùn)練階段，首先需要對訓(xùn)練電子文件數(shù)據(jù)集進行統(tǒng)一的格式轉(zhuǎn)換，如轉(zhuǎn)換為PDF/A格式，然后利用IKAnalyzer分詞器進行文本分詞、降噪等一系列預(yù)處理操作。為了能使計算機表示為計算機可識別形式，按照向量模型空間的基本思想，將分詞后的內(nèi)容進行特征向量描述，通過特征降維得到一個特征項集合，最后利用較簡單的機器學(xué)習算法——KNN算法，獲得分類器模型。

分類器模型確定之后，便可對未知文本進行分類處理，同樣需要進行文件的預(yù)處理、文本表示、特征提取等一系列操作，最后將特征項的集合傳輸給分類器模型，從而得到文件的分類結(jié)果。

5 基于“可信”的電子文件自動分類系統(tǒng)框架設(shè)計

本文嘗試建立一種“可信”的電子文件自動分類系統(tǒng)。該框架最終將與ERMS（電子文件管理系統(tǒng)）或者移交接收平臺相結(jié)合，因此必須考慮所采用的數(shù)據(jù)庫系統(tǒng)，且需要對電子文件的元數(shù)據(jù)元素進行采集。

整個框架都基于“可信”理念設(shè)計，對各個步驟進行安全管控，如：為了保證電子文件的長期有效利用，根據(jù)相關(guān)行業(yè)標準，將原生文件進行統(tǒng)一的文件格式轉(zhuǎn)換（PDF/A格式）;在進行元數(shù)據(jù)采集之前需要進行“四性”檢測，有效地保證了數(shù)據(jù)的完整性、安全性、真實性及可用性;利用非結(jié)構(gòu)化數(shù)據(jù)庫設(shè)置“權(quán)限管理”“分發(fā)管理”“數(shù)字簽名”“數(shù)據(jù)備份”等安全控制技術(shù)。

6 結(jié)束語

電子文件的自動分類是對電子信息進行自動化處理的重要研究方向，它可以通過給定的分類標準，由電子文件的內(nèi)容自動判別其文本類別，在學(xué)術(shù)上具有重要的研究價值和意義。該研究涉及多種技術(shù)，如，信息安全技術(shù)、元數(shù)據(jù)技術(shù)、機器學(xué)習算法、自然語言處理等。下一步將繼續(xù)考慮圖像、社交媒體信息等各個類型的電子文件的自動分類問題，及如何與電子文件的移交與接收、ERMS等相結(jié)合的問題，并為后續(xù)的長期保存與利用提供有力的支持。

參考文獻：

[1]InterPARES 2 Project. Glossary，Dictionary&Ontologies[EB/OL].（2014- 1-1）[2014-1-2].http：//www.interpares.org/ip2/ip2_terminology_db.cfm.

[2]Jantz R. An institutional framework for creating authentic digital objects[J]. International Journal of Digital Curation， 2009， 4（1）： 71-83.

[3]劉家真.在傳統(tǒng)環(huán)境與電子環(huán)境中文件的可信度與真實性比較[J].四川檔案，1998（6）：13.

[4]李澤鋒.電子文件可信管理關(guān)鍵問題分析[J].檔案學(xué)研究，2012 （6）：52-55.

[5]王芳.基于J2EE的信息分類編碼標準管理系統(tǒng)的研究[D].大連：大連海事大學(xué)，2006.

[6]毛嘉莉.文本聚類中的特征降維方法研究[J].西華師范大學(xué)學(xué)報（自然科學(xué)版），2009（4）：365-368.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡