電子文件可視化采集技術研究*

2015-06-14 03:06:36楊靜

檔案與建設 2015年2期

楊靜

（江蘇省檔案局，江蘇南京，210008）

1 研究背景

隨著我國電子政務建設的深入發(fā)展，電子文件數(shù)量日趨龐大，且在持續(xù)增長之中。而我國一些政府部門在進行電子政務信息資源建設時，基于業(yè)務職能及工作流程的不同，往往各自所選用的硬件、系統(tǒng)軟件、應用軟件也不盡相同，這必然造成各部門產(chǎn)生的電子政務信息在文件類型和數(shù)據(jù)格式上存在差異，導致政務系統(tǒng)電子文件歸檔存在著系統(tǒng)及文件格式不兼容的問題，成為我國電子政務建設中亟待解決的問題。

江蘇省電子檔案中心建設項目是江蘇省人民政府下發(fā)的《省政府關于進一步加快國民經(jīng)濟和社會信息化的意見》中提出建設的涉及全局性的基礎性、公益性、標志性信息化工程之一。項目旨在建成數(shù)字環(huán)境下歷史檔案數(shù)字記錄遺產(chǎn)永久保管基地、全省電子檔案信息資源的管理與共享中心和全省政務信息公開場所。項目重點建設內(nèi)容之一就是通過多種途徑實現(xiàn)對省級機關各單位電子政務系統(tǒng)中的電子文件的采集和歸檔。

2 常見的電子文件歸檔解決方法分析

2.1 介質轉換法

轉換介質法，就是將電子政務系統(tǒng)中的電子信息打印出來，按照傳統(tǒng)的立卷歸檔方式進行歸檔。這種歸檔方式的優(yōu)點是檔案工作按部就班，不會出現(xiàn)很大的失誤，但其缺陷也是明顯的。首先，電子政務系統(tǒng)中已有的數(shù)字信息資源被丟棄，此后通過對紙質檔案的重新數(shù)字化掃描著錄來獲得檔案信息化管理系統(tǒng)中所需的檔案數(shù)字資源，這造成資源浪費和效率低下；其次，電子政務系統(tǒng)中體現(xiàn)電子文件產(chǎn)生和使用過程的真實可靠性相關的電子文件元數(shù)據(jù)信息被丟棄，造成了信息的缺失和管理過程的瑕疵；再次，這種方式下一般是要在紙質檔案進館之后才能數(shù)字化掃描著錄，形成檔案數(shù)字資源，時間相對滯后，不能滿足日益發(fā)展的數(shù)字檔案查詢利用的需求。

2.2 脫機存儲法

脫機存儲法，是將電子文件存儲在軟盤、硬盤、光盤等一些光介質和磁介質上，將其按物理實體歸檔保管，與傳統(tǒng)的磁帶、錄像帶管理方法一致。所不同的是將電子文件信息及其背景信息（包括能夠瀏覽電子政務信息的應用環(huán)境信息，以及應用系統(tǒng)的背景等相關信息）一起刻錄到光盤中，進行集中存放和管理，這也是我國起初制定電子文件歸檔標準中要求的基本方式。這種歸檔方式的缺點是每張光盤上存儲的真正有價值的檔案信息比較少，并且利用效率不高，在對歸檔的電子政務信息進行查詢利用時，必須安裝各類背景應用環(huán)境軟件，然后才能夠瀏覽其全部信息內(nèi)容。

2.3 接口歸檔法

接口歸檔法，通過在電子政務系統(tǒng)和檔案信息化管理系統(tǒng)之間建立數(shù)據(jù)歸檔接口來實現(xiàn)電子政務系統(tǒng)中數(shù)字信息資源的歸檔。接口歸檔法從歸檔數(shù)據(jù)的收取方式上，總的來看可以分為三類：第一類是“取”，即檔案信息化管理系統(tǒng)從電子政務系統(tǒng)抽取需要歸檔的數(shù)據(jù)；第二類是“送”，即電子政務系統(tǒng)將需要歸檔的數(shù)據(jù)寫入檔案信息化管理系統(tǒng)中；第三類是“取”“送”結合，即電子政務系統(tǒng)和檔案信息化管理系統(tǒng)約定一個中間形式，如中間文件格式或中間數(shù)據(jù)庫等，電子政務系統(tǒng)將需要歸檔的數(shù)據(jù)寫入中間形式，檔案信息化管理系統(tǒng)再從中間形式抽取這些數(shù)據(jù)。

這三類方法都存在一些共同的問題。首先，這些方法都需要對原電子政務系統(tǒng)進行一定技術改造，或者需要深入了解電子政務系統(tǒng)的數(shù)據(jù)存儲技術細節(jié)，這帶來很多跨部門的業(yè)務和技術協(xié)調工作；其次，無論是“取”還是“送”，都需要深入對方系統(tǒng)的數(shù)據(jù)存儲區(qū)域讀取甚至寫入數(shù)據(jù)，這帶來較大安全隱患。因此，接口歸檔法雖然應用效果好，但存在技術難度高，實施工作量大，維護困難等問題。

綜上所述，當前電子政務環(huán)境下各種電子文件歸檔的技術方式均存在一定的局限性，電子政務系統(tǒng)中信息資源采集歸檔技術上存在的困難已經(jīng)成為制約電子政務發(fā)展與檔案信息化管理系統(tǒng)建設的瓶頸之一，亟待解決。

3 信息抽取基本概念

網(wǎng)絡信息抽取領域是近年來發(fā)展較大的研究領域，隨著INTERNET 的發(fā)展，網(wǎng)絡上的信息越來越多，幾乎所有的網(wǎng)上信息都是以結構化或半結構化的網(wǎng)頁的形式呈現(xiàn)給客戶的，因此，網(wǎng)絡是一個特殊的挑戰(zhàn)，一直在推動著信息抽取技術的向前邁進。

近幾年來，出現(xiàn)了多種基于Web 的信息檢索工具，如比較出名的Google、Yahoo、百度等搜索引擎工具，這些工具的出現(xiàn)極大地方便了人們對信息的獲取，能夠解決部分信息過載的問題，但由于它們都是基于字符串匹配和詞義相似原理進行信息查詢的，因此使用這些工具得到的查詢結果動輒成百上千條，而且有很多返回的查詢結果中包含了重復的內(nèi)容，這就使用戶得到了網(wǎng)頁，并不等于得到了想要的信息資源。

為了更加有效地組織和獲取網(wǎng)上數(shù)據(jù)資料，高效地發(fā)現(xiàn)和利用Internet上的資源，研究人員開創(chuàng)了Web信息抽取這個研究領域。Web信息抽取技術的任務就是將網(wǎng)頁中用戶感興趣的信息準確地抽取出來，以更具有語義、更結構化的形式保存下來，供用戶查詢或其他應用程序利用。網(wǎng)絡信息抽取技術并不試圖全面理解整個網(wǎng)頁，只是對網(wǎng)頁中包含的相關信息的部分進行分析和處理，信息抽取是指從一塊文本中抽取指定的事件、事實等信息，并且形成結構化的數(shù)據(jù)存入到一個數(shù)據(jù)庫，供用戶查詢和使用的過程。換而言之，就是從文本中抽取用戶感興趣的事件、實體和關系，然后用結構化的形式描述抽取出來的數(shù)據(jù)，再存儲在相應的數(shù)據(jù)庫中，為情報分析、網(wǎng)上購物、檢測抄襲、文本分類等各方面的應用提供服務。通常信息抽取技術的抽取對象并不僅僅局限于文本，其他形式存在的信息也可作為信息抽取的對象，抽取的結果則存儲為相應的結構化數(shù)據(jù)。信息抽取技術的最終目的就是開發(fā)出實用的信息抽取系統(tǒng)，可以從自由文本中抽取和分析信息，最終得到有用的、用戶感興趣的信息。

圖1 可視化采集工具工作原理

信息抽取的目標是將文本中的信息抽取出來并表示為結構化、自描述的數(shù)據(jù)結構。從而將難以操縱的文本數(shù)據(jù)轉化為容易處理和分析的結構化數(shù)據(jù)。

傳統(tǒng)的信息抽取是針對純文本，主要使用自然語言理解的技術。但由于純文本沒有任何文本之外可利用的信息，這項工作極為困難，進展也很緩慢。隨著互聯(lián)網(wǎng)的出現(xiàn)，Web 文檔的信息抽取逐漸成為亟待解決的問題。一個Web文檔就是一個網(wǎng)頁，網(wǎng)頁與純文本的結構差別很大，主要表現(xiàn)為網(wǎng)頁中存在大量的標記，這些標記將網(wǎng)頁要顯示的文本內(nèi)容分隔開來。

大量的標記為網(wǎng)頁信息抽取提供了更多可利用的信息，從而可以開發(fā)各種不同于傳統(tǒng)信息抽取的方法對網(wǎng)頁進行信息抽取。信息抽取技術目前在軍事、商業(yè)、醫(yī)學、科學研究等領域有著極大的應用空間。

4 基于信息抽取的可視化采集歸檔技術研究

通過對電子政務系統(tǒng)中信息資源的可視化采集歸檔技術的研究，項目組提出了一種基于各類電子政務系統(tǒng)數(shù)據(jù)顯示界面的電子文件數(shù)據(jù)采集歸檔的解決思路。其基本思路是，通過對電子政務系統(tǒng)特定數(shù)據(jù)顯示界面的解析，提取該界面下的可供歸檔的電子文件元數(shù)據(jù)信息和電子原文，以實現(xiàn)歸檔數(shù)據(jù)的采集。

合理化的可視化采集歸檔的具體流程是：通過特定的可視化采集軟件，使用授權的賬戶，模擬某個客戶端登陸目標電子政務系統(tǒng)，逐級打開系統(tǒng)的界面，直到打開具有需要采集歸檔的數(shù)據(jù)的系統(tǒng)界面，然后應用計算機技術分析此界面下的各種數(shù)據(jù)信息，從中提取或下載需要采集歸檔的電子文件元數(shù)據(jù)信息和原文信息，并將這些信息歸檔到檔案信息化管理系統(tǒng)。整個過程，只需要使用計算機程序模擬人機交互的界面操作，并分析和提取顯示界面數(shù)據(jù)，而無需深入了解電子政務系統(tǒng)的邏輯結構和底層數(shù)據(jù)存儲形式。

可視化采集歸檔方法，提出了解決電子政務系統(tǒng)數(shù)據(jù)歸檔問題的新特點和新思路。該方法本質上可以認為是前述“接口歸檔法”的“取”大類的一個特殊子類。由于可以避免“接口歸檔法”中需要改造電子政務系統(tǒng)或需要深入了解電子政務系統(tǒng)數(shù)據(jù)存儲結構的困難，可視化采集歸檔方法具備在實施工作量和系統(tǒng)安全性上的優(yōu)勢。

可視化采集工具軟件的工作原理是對數(shù)據(jù)頁面進行分析、操作，把網(wǎng)頁中特定的數(shù)據(jù)選取保存為中間文件，再由數(shù)據(jù)處理工具將中間結果轉換為符合標準的元數(shù)據(jù)，如圖1。

可視化采集工具所面對的對象是省直機關立檔單位的電子政務系統(tǒng)，這些系統(tǒng)由不同的單位負責建設和管理的，系統(tǒng)之間的差異很大，系統(tǒng)的數(shù)據(jù)展示頁面不一致，這樣，在數(shù)據(jù)采集工作中，分析具體的采集對象情況，對采集前臺和后臺的模板配置就顯得尤為重要。

可視化數(shù)據(jù)采集工具的主要使用步驟包括：分析應用（網(wǎng)面）類型、配置前臺自動化模板、配置后臺元數(shù)據(jù)和電子原文采集模板、采集元數(shù)據(jù)和電子原文四個方面。

分析應用（網(wǎng)頁）類型：在自主研發(fā)的瀏覽器中輸入目標系統(tǒng)的URL路徑，分析該應用屬于哪種類型的應用，以決定應用哪種自動化采集模板。

圖2 可視化采集系統(tǒng)使用運行流程

配置前臺自動化模板：通過分析當前應用類型，以決定采集的模板類型，并設置模板中相應的參數(shù)，在這里針對每個不同的應用（網(wǎng)頁），參數(shù)是不一樣的。

配置后臺采集模板：通過分析當前應用（網(wǎng)頁）的源文件，配置采集的元數(shù)據(jù)和電子原文的采集規(guī)則，以及采集的層次。

數(shù)據(jù)提?。簩?jīng)過結構化、排重、排錯處理的頁面進行數(shù)據(jù)提取。根據(jù)頁面的形式特點，應用相應的采集模板，從頁面上提取出相應的元數(shù)據(jù)和電子原文歸入數(shù)據(jù)庫。

5 應用效果

借助江蘇省電子檔案中心項目建設過程中初步開發(fā)成型的可視化數(shù)據(jù)采集工具，可視化采集歸檔方法已經(jīng)得到了有效應用。電子政務系統(tǒng)數(shù)據(jù)歸檔采集過程中，可視化采集歸檔方法在電子政務系統(tǒng)技術開發(fā)和協(xié)調配合方面的要求較以往傳統(tǒng)的接口開發(fā)方式有所降低，在安全性方面較以往的傳統(tǒng)方式有所提高，在實施工作量上平均而言較傳統(tǒng)方式有所減少?？梢灶A期，當相關工具軟件在可配置性、交互性、自動化等方面進一步完善之后，可進一步提高可視化數(shù)據(jù)采集歸檔工作的效率。同時，由于電子政務系統(tǒng)數(shù)據(jù)頁面展現(xiàn)技術的復雜性和多樣性，新技術不斷產(chǎn)生、發(fā)展和應用，可視化采集歸檔方法對實施人員的技術要求較高，在一些特定的具體案例中，有可能會產(chǎn)生較大的實施工作量，甚至遇到難以攻克的技術難題。因此，可視化采集歸檔方法應考慮根據(jù)采集對象單位電子政務系統(tǒng)的情況作有選擇性的使用。

［1］王興婭，顏祥林.基于LISA數(shù)據(jù)庫的國外數(shù)字檔案資源保存與安全研究動向分析.檔案與建設，2012，02：08-11.

［2］丁國勇，李俠，王爽.OA 電子文件在線歸檔技術研究.蘭臺世界，2012，08：152.

［3］楊海霞，張永奎.網(wǎng)絡新聞數(shù)據(jù)可視化采集系統(tǒng)的設計及應用.山西科技，2006，09：34-35.

［4］吳震.數(shù)據(jù)挖掘技術在電子文件管理中的應用研究.廣西民族大學2011.

［5］屠躍民，李婉月.關于數(shù)字檔案信息采集的思考.檔案與建設，2006，09：17-20.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡