顧偉
摘要:檔案信息智能采集技術(shù)是大數(shù)據(jù)環(huán)境下獲取數(shù)字檔案信息資源的重要技術(shù)手段。本文在分析檔案信息智能采集技術(shù)現(xiàn)有研究成果的基礎(chǔ)上,根據(jù)檔案信息智能采集方法的不同,提出了改進檔案信息智能采集技術(shù)應(yīng)用的創(chuàng)新方式,以達到提高檔案信息智能采集技術(shù)實用性和有效性的目的。
關(guān)鍵詞:檔案信息 智能采集 改進方式 應(yīng)用研究
大數(shù)據(jù)環(huán)境下,智能信息采集技術(shù)是實現(xiàn)電子檔案齊全完整收集的重要手段,尤其是對網(wǎng)站網(wǎng)頁、社交媒體等“新領(lǐng)域”電子檔案的收集有著重要意義。這些“新領(lǐng)域”的檔案信息不僅來源渠道廣、數(shù)量大,而且更新速度快、存在時間短,若不能做到及時發(fā)現(xiàn)、主動采集,就會被新的信息所覆蓋。因此,利用檔案信息智能采集技術(shù)實現(xiàn)檔案信息自動采集變得日益迫切和重要。
目前,已有學(xué)者從不同角度對檔案信息智能采集問題進行了研究,張倩認為利用自動搜集方式是獲取檔案信息資源的新方式[1],王維娜提出了互聯(lián)網(wǎng)條件下檔案信息采集的原則[2],符昌慧從個性化服務(wù)的角度指出有效采集檔案數(shù)據(jù)的困難之處,以及如何制定合理的采集策略和選用合適的采集工具[3],程知構(gòu)建了檔案數(shù)據(jù)智能采集模型[4],冉朝霞基于輿情數(shù)據(jù)研究了檔案信息跨維度收集與分類方法[5]。但是,這些研究較少地關(guān)注檔案信息智能采集技術(shù)的實際應(yīng)用,故此,本文從實踐創(chuàng)新的角度研究檔案信息智能采集技術(shù)。
檔案信息智能采集技術(shù)是在電子環(huán)境下,為齊全、完整、及時、準確地收集數(shù)字檔案信息資源,將檔案實踐工作與計算機信息采集技術(shù)相結(jié)合而產(chǎn)生的應(yīng)用技術(shù)。檔案信息采集是檔案數(shù)據(jù)存儲、清洗、分析和應(yīng)用的首要環(huán)節(jié),在豐富數(shù)字檔案信息資源和開展檔案數(shù)據(jù)治理工作中占有重要的作用。從檔案信息采集技術(shù)的發(fā)展階段來看,檔案信息采集技術(shù)經(jīng)歷了人工采集、計算機自動采集、網(wǎng)絡(luò)信息搜集和智能信息采集四個階段。
本文所研究的檔案信息智能采集是檔案信息采集技術(shù)的第四個階段,它是利用信息爬取技術(shù)主動在互聯(lián)網(wǎng)上按照預(yù)設(shè)采集規(guī)則對來源不同的檔案信息進行采集,并對采集到的檔案信息進行數(shù)據(jù)類型解析和異構(gòu)數(shù)據(jù)分類存儲,并在分析檔案信息有效性和關(guān)聯(lián)性的基礎(chǔ)上,智能化地篩選和提取出與采集主題高度相關(guān)的檔案信息及其元數(shù)據(jù),以此實現(xiàn)檔案信息精準化自動采集目標的技術(shù)。與前三個階段相比,檔案信息智能采集不僅要能實現(xiàn)檔案信息的自動搜集,而且還要對搜集到的檔案信息進行分析與處理,達到檔案信息精準聚合的目的。這是融合檔案學(xué)、情報學(xué)、計算機科學(xué)等相關(guān)領(lǐng)域的專業(yè)知識,通過語義理解、邏輯推理、數(shù)據(jù)分析、知識發(fā)現(xiàn)與關(guān)聯(lián)等技術(shù)模擬人類認知功能和智能活動而開展的一項智能化工作。檔案信息智能采集技術(shù)能夠為實現(xiàn)檔案信息的完整收集提供技術(shù)保障,有助于實現(xiàn)檔案信息采集由被動向主動的轉(zhuǎn)變,在新媒體、網(wǎng)站網(wǎng)頁信息歸檔、檔案編研等方面有著重要的應(yīng)用價值。
(一)檔案信息自動采集方式
檔案信息自動采集是按照一定的智能采集算法將搜索路徑上所有檔案信息都保存下來的方法。它在采集過程中不設(shè)置任何條件,可以做到檔案信息的完整捕獲和實時保存,適合輿情類檔案信息的采集。該方式的不足之處在于這種采集方式未做信息過濾,采集到的信息雖較為完整,但也存在部分無用信息,為后續(xù)檔案信息的處理增加了難度,不利于檔案信息資源的開發(fā)利用。
(二)檔案信息自定義采集方式
檔案信息自定義采集是一種能夠根據(jù)檔案用戶需求,定向采集檔案用戶所需要的檔案信息的采集方式,適用于網(wǎng)頁網(wǎng)站類檔案信息的采集。與檔案信息自動采集方式不同的是,它能根據(jù)檔案用戶采集需求自動生成采集規(guī)則,做到精細化的智能采集,避免了大量無用信息對采集結(jié)果質(zhì)量的影響。同時,這種采集方式能夠?qū)W(wǎng)站網(wǎng)頁中文字、圖片、視頻等不同格式數(shù)據(jù)進行智能解析和分類存儲,這為檔案信息利用打下了良好的數(shù)據(jù)基礎(chǔ)。但該方式的難點在于采集規(guī)則的準確描述與設(shè)置。
(三)檔案信息定制采集方式
互聯(lián)網(wǎng)上的信息展現(xiàn)形式和技術(shù)實現(xiàn)方式是多種多樣的,在高安全性的網(wǎng)站中,其內(nèi)容是通過技術(shù)手段動態(tài)加載實現(xiàn)的,因此,使用靜態(tài)頁面采集技術(shù)是無法采集到網(wǎng)站信息的。針對這類情況,我們需要使用定制采集的方法來實現(xiàn)。這里的“定制”是指在分別分析每個網(wǎng)站技術(shù)框架的基礎(chǔ)上,采用相應(yīng)的采集策略以實現(xiàn)檔案信息實時準確地采集。這種采集方式的優(yōu)點在于針對性強,能精準獲取需要采集的檔案信息,缺點在于成本較高,通用性不強。
(四)移動端檔案信息采集方式
移動端檔案信息采集方式是對微信公眾號、微博等移動端的檔案信息進行采集所采用的方式。在網(wǎng)絡(luò)媒體時代,移動端的信息發(fā)布數(shù)量和擴散效應(yīng)已明顯高于Web端,所以,移動端的檔案信息采集變得越加重要。與Web端檔案信息采集相比,移動端檔案信息采集在采集方法上與其完全不同,在技術(shù)實現(xiàn)上也更為復(fù)雜,不同移動端的信息采集方法不完全相同,因此,移動端檔案信息采集的開發(fā)難度和成本更高。
(一)合理優(yōu)化檔案信息智能采集的輸入方式
明確檔案信息采集需求,合理優(yōu)化輸入方式是提升檔案信息智能采集效果的有效手段。目前,改進檔案信息智能采集輸入方式至少有三種方法:一是采用同義詞等價替換的方法。在信息采集之前,我們利用同義詞識別技術(shù)對輸入內(nèi)容進行同義關(guān)系分析,根據(jù)相似性、顯著性和易理解性等原則將用戶輸入替換為采集系統(tǒng)最能理解的表達方式,從而得到較好的采集結(jié)果。二是利用自然語言處理技術(shù),在語義層面提取采集需求的關(guān)鍵信息。用戶需求表達方式是多樣的,直接將這些需求輸入采集系統(tǒng),采集系統(tǒng)不一定能智能化地準確把握采集需求的關(guān)鍵內(nèi)容及其之間的相互聯(lián)系。因此,我們可以對用戶采集需求做語義分析,提取關(guān)鍵語義信息,然后,利用深度學(xué)習(xí)和機器學(xué)習(xí)等人工智能技術(shù)找出這些關(guān)鍵信息之間的關(guān)聯(lián)關(guān)系和限制關(guān)系,最后,將這些關(guān)鍵信息和限定信息以正則表達式的方式輸入采集系統(tǒng),實現(xiàn)精準描述用戶采集需求的目的。三是設(shè)置簡單、合理的信息采集規(guī)則。已有實踐經(jīng)驗表明,在信息采集過程中,設(shè)置太過復(fù)雜的規(guī)則往往不利于獲得較好的采集結(jié)果。簡單、明確、合理即是精準。采集要求過多、描述詞匯過長反而會誤導(dǎo)采集系統(tǒng),產(chǎn)生錯誤的采集結(jié)果。
(二)改進檔案信息智能采集策略
檔案信息智能采集的目標是獲得高質(zhì)量的采集結(jié)果。我們可以從采集策略上進行調(diào)整,不斷提高采集系統(tǒng)的適用性。一是在技術(shù)上做好網(wǎng)絡(luò)站點反爬措施的應(yīng)對,擴大采集的來源和范圍?,F(xiàn)在,網(wǎng)絡(luò)信息爬取技術(shù)是一種常見的信息采集手段,安全性高的網(wǎng)站都會采取反爬措施以防止信息采集系統(tǒng)對網(wǎng)站信息的自動爬取。因此,我們應(yīng)該采用多種的技術(shù)手段,如采用動態(tài)調(diào)整采集時間間隔、使用代理IP方法和基于深度學(xué)習(xí)的驗證碼識別平臺等技術(shù),降低反爬技術(shù)對采集系統(tǒng)的影響。二是要注意對采集目標的保護,將集中式采集變?yōu)榉稚⑹讲杉?,避免因為信息采集造成采集目標的宕機。在短時間內(nèi)頻繁地對網(wǎng)絡(luò)站點進行信息采集,會產(chǎn)生大量的網(wǎng)絡(luò)并發(fā)訪問,客觀上會增大網(wǎng)絡(luò)站點服務(wù)器的壓力。如果該服務(wù)器并發(fā)處理能力有限,則信息采集的過程相當(dāng)于是對該網(wǎng)絡(luò)站點做一次網(wǎng)絡(luò)攻擊,必然造成服務(wù)器的宕機。因此,從保護采集目標和實現(xiàn)信息長期持續(xù)采集的角度來說,應(yīng)將集中式的連續(xù)采集變?yōu)榭刂圃L問次數(shù)的分散采集。
(三)加強檔案信息智能采集系統(tǒng)的數(shù)據(jù)處理能力
通過采集系統(tǒng)采集到的原始信息可能存在一些與采集需求關(guān)聯(lián)度較小的信息,這些信息的存在使采集結(jié)果含有“雜質(zhì)”。將含有“雜質(zhì)”的原始采集結(jié)果進行“提純”處理,并以直觀方式展現(xiàn)采集信息的價值,也是檔案信息智能采集必須解決的問題。為此,我們可以采用無監(jiān)督聚類算法,對原始采集結(jié)果進行智能化甄別。通過聚類算法建立采集信息的數(shù)據(jù)模型,利用該模型找出與采集需求關(guān)聯(lián)度較小的誤采信息,并將誤采信息刪除,以提高采集結(jié)果準確性。
(一)檔案信息采集的法律和隱私保護問題
檔案信息采集的目的是利用技術(shù)手段在互聯(lián)網(wǎng)上收集檔案信息,但客觀上,檔案信息采集也存在著促進檔案信息資源共享與侵犯檔案主體信息權(quán)利的兩面性。檔案信息采集的正當(dāng)性和有效性源于檔案信息主體的授權(quán),而區(qū)分這種兩面性和界定這種授權(quán)的關(guān)鍵之處在于檔案信息的開放程度和訪問權(quán)限[6]。因此,我們在進行檔案信息采集時,首先要明確檔案信息采集的法律邊界和個人隱私的保護范圍,依法合規(guī)的采集檔案信息。
(二)檔案信息采集標準化建設(shè)問題
制定檔案信息采集標準,明確檔案信息采集規(guī)范,既有助于提升檔案信息采集的質(zhì)量,又能為檔案信息資源共享提供保障。但在實踐中,筆者僅發(fā)現(xiàn)一項與檔案信息采集有關(guān)的標準即《建設(shè)工程檔案信息數(shù)據(jù)采集標準》。因此,我們應(yīng)該針對不同領(lǐng)域和行業(yè),因地制宜做好檔案信息采集標準化建設(shè)工作,為檔案信息治理奠定良好的數(shù)據(jù)基礎(chǔ)。
(三)異構(gòu)檔案信息的集成管理問題
檔案信息的采集將產(chǎn)生大量多源異構(gòu)的數(shù)據(jù),表現(xiàn)為數(shù)據(jù)來源、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)存儲的多樣性。多源異構(gòu)問題給信息整合和數(shù)據(jù)應(yīng)用帶來了較大的困擾,因此,為多源異構(gòu)數(shù)據(jù)提供統(tǒng)一表示、統(tǒng)一存儲和統(tǒng)一管理的方法變得日益重要。在實踐中,我們應(yīng)該結(jié)合應(yīng)用場景的要求,盡可能將異構(gòu)數(shù)據(jù)集成到統(tǒng)一數(shù)據(jù)平臺中進行管理,實現(xiàn)檔案信息的有效匯集。
在大數(shù)據(jù)環(huán)境下,檔案智能信息采集是獲取檔案信息的有效方式,也是開展數(shù)字檔案信息資源建設(shè)、開發(fā)和利用的前提。目前,檔案信息智能采集技術(shù)處于探索階段,在實踐中未有完善的解決方案。但隨著實踐工作的深入開展和信息采集技術(shù)的不斷發(fā)展,檔案信息智能采集技術(shù)必會朝精細化、實用化方向前進。
*本文系安徽大學(xué)校史研究項目《安徽大學(xué)校史研究資料智能搜集系統(tǒng)》的階段性研究成果。
注釋及參考文獻:
[1]張倩.應(yīng)用Web數(shù)據(jù)挖掘技術(shù)捕獲網(wǎng)絡(luò)檔案信息資源的個性化服務(wù)研究[J].檔案與建設(shè),2008(7):15-18.
[2]王維娜.互聯(lián)網(wǎng)條件下檔案采集與存儲的技術(shù)方式和管理原則[J].機電兵船檔案, 2016(5):49-50.
[3]符昌慧.基于數(shù)據(jù)采集的互聯(lián)網(wǎng)檔案服務(wù)個性化轉(zhuǎn)變[J].山西檔案,2017(3):72-74.
[4]程知.基于數(shù)據(jù)魔方的異構(gòu)檔案信息資源采集方法分析[J].浙江檔案,2018(8):60- 61.
[5]冉朝霞.基于輿情數(shù)據(jù)的檔案信息跨維度收集與分類研究[J].檔案管理,2019(6): 53-55.
[6]楊志瓊.數(shù)據(jù)時代網(wǎng)絡(luò)爬蟲的刑法規(guī)制[J].比較法研究,2020(4):1-19.
作者單位:安徽大學(xué)檔案館