程靖
目前人類已經(jīng)進(jìn)入大數(shù)據(jù)時代,大數(shù)據(jù)應(yīng)用在生物信息、智能交通、金融、醫(yī)療等領(lǐng)域都取得了可喜的成績。大數(shù)據(jù)時代的到來,為檔案信息化建設(shè)也帶來了新的挑戰(zhàn)和新的機(jī)遇。在歐美等發(fā)達(dá)國家,在檔案領(lǐng)域通過依托檔案公眾網(wǎng)站建設(shè)“網(wǎng)上檔案館”,已成為了各國開展檔案公共服務(wù)的重要形式。在國內(nèi),本世紀(jì)初以來,檔案信息化建設(shè)也受到各級檔案部門的高度重視,然而,由于我們起步晚,技術(shù)欠成熟,還處在學(xué)習(xí)、借鑒、起步階段,盡管如此,實現(xiàn)檔案數(shù)字化建設(shè)也已成為了全國檔案信息化建設(shè)的發(fā)展趨勢。作為高校檔案從業(yè)人員,實現(xiàn)高校檔案數(shù)字化和數(shù)字檔案館是我們所追求目標(biāo),所以,我們就建設(shè)我國高?!熬W(wǎng)上檔案館”網(wǎng)站建設(shè)方案提出自己的構(gòu)想,不成熟之處,敬請批評指正。
一、建設(shè)方案
檔案的保管和利用是檔案館的兩大功能,如何安全保管和有效利用是檔案管理者的兩大任務(wù)。檔案數(shù)字化無疑是目前保護(hù)檔案實體安全、促進(jìn)對外開放利用、實現(xiàn)檔案信息資源社會共享的有效技術(shù)手段。為此,如何構(gòu)建和構(gòu)建怎么樣的一個數(shù)字化檔案館技術(shù)平臺將是實現(xiàn)上述檔案館兩大功能和任務(wù)關(guān)鍵所在。面對大數(shù)據(jù)容量大,種類多、處理快、價值高的特點,在建設(shè)數(shù)字檔案館和檔案數(shù)字化過程中就要特別重視基礎(chǔ)設(shè)施的完善、前沿技術(shù)的應(yīng)用、檔案資源的構(gòu)建和管理。本文結(jié)合我們熟悉的高校檔案目前的保管和利用的情況,以及我們對數(shù)字化檔案館網(wǎng)絡(luò)平臺的技術(shù)的認(rèn)識,談?wù)勎覀儗?gòu)建高校數(shù)字化檔案館的思考和設(shè)想。要在網(wǎng)絡(luò)上實現(xiàn)“網(wǎng)上檔案館”平臺的實時開放和有效利用,關(guān)鍵是要應(yīng)用聚類分析、語義分析、數(shù)據(jù)挖掘?qū)n案信息資源轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并合理開放數(shù)據(jù),為社會需求服務(wù)。高校數(shù)字化檔案館平臺建設(shè)應(yīng)包含主要三個部分:檔案網(wǎng)站的建設(shè)、文獻(xiàn)檢索系統(tǒng)的建設(shè)、檔案地理信息系統(tǒng)建設(shè)。
1、通過廣泛的資料查閱、專家咨詢、走訪調(diào)查,對平臺做出總體設(shè)計。
2、選擇某個高校做試點,綜合、整理現(xiàn)有的高校檔案資料,分門別類,特別是無需保密的檔案資料都做好歸類處理。
3、對已整理核實好的高校檔案資料進(jìn)行數(shù)字化處理,建設(shè)檔案館網(wǎng)站,對各種檔案資源做多模態(tài)的展示。
4、用GIS技術(shù),建立全國高校檔案地理信息系統(tǒng),對各高校檔案館做廣泛系連。
5、利用網(wǎng)絡(luò)交互技術(shù)建立與用戶的互動平臺,使廣大用戶既是平臺資源的受用者,也是平臺資源的提供者。
6、在平臺上建立文獻(xiàn)檢索系統(tǒng),向國內(nèi)外提供檔案文獻(xiàn)的特色服務(wù)。
二、功能設(shè)計
從現(xiàn)有的國內(nèi)外數(shù)字化平臺建設(shè)的類型來看,其最大的特點都采用功能設(shè)計突出用戶導(dǎo)向,立足用戶需求開展信息檢索、利用互動、用戶分類、信息更新、公共教育、在線幫助、網(wǎng)上展覽、網(wǎng)上購物等多重服務(wù),以滿足眾多用戶的需要。根據(jù)這一服務(wù)理念,我們初步設(shè)計了如下的建設(shè)方案:
1、前臺頁面
面向最終用戶的頁面表現(xiàn)。優(yōu)先考慮效率問題,以提高用戶體驗。包括緩存策略、功能性界面設(shè)計、搜索引擎設(shè)計、用戶個性化界面等。
2、后臺管理
內(nèi)容管理和表現(xiàn)的分離是網(wǎng)絡(luò)程序的常見設(shè)計方式。內(nèi)容一般用數(shù)據(jù)庫存儲,后臺各種子系統(tǒng)可以根據(jù)需要來調(diào)取各項內(nèi)容。表現(xiàn)模板則和后臺各種子系統(tǒng)設(shè)計分開,控制后臺各個子系統(tǒng)數(shù)據(jù)的取舍和表現(xiàn),與后臺各個子系統(tǒng)之間只是數(shù)據(jù)傳遞的關(guān)系。而后臺的各個子系統(tǒng)也都非常容易插拔。表現(xiàn)模塊以腳本語言或標(biāo)記語言保存在數(shù)據(jù)庫中,可以自行設(shè)計修改。頁面表現(xiàn)一般就是各種后臺子系統(tǒng)模塊的各種組合,這種頁面表現(xiàn)的組合邏輯是非常豐富的。
后臺管理主要是業(yè)務(wù)子系統(tǒng)模塊的管理。如:信息錄入子系統(tǒng)、信息分類子系統(tǒng)、信息討論子系統(tǒng)、信息提取子系統(tǒng)等。針對不同的子系統(tǒng)方便管理者的內(nèi)容錄入;所見即所得的編輯管理界面等,清晰的業(yè)務(wù)邏輯;各種子系統(tǒng)的權(quán)限控制機(jī)制等。
3、數(shù)據(jù)庫結(jié)構(gòu)設(shè)計
(1)設(shè)計方案
①數(shù)據(jù)字典
分離內(nèi)容的管理和設(shè)計。頁面設(shè)計存儲在模板里,而內(nèi)容存儲在數(shù)據(jù)庫或獨(dú)立的文件中。當(dāng)一個用戶請求頁面時,各部分聯(lián)合生成一個標(biāo)準(zhǔn)的HTML頁面。每個模型都可以自定義擴(kuò)展字段,由用戶自定義屬性字段,以適應(yīng)未來的拓展要求。
②信息條目相關(guān)關(guān)系
信息條目的相關(guān)關(guān)系有:同義、近義、反義、上下義。主要的目的就是便于統(tǒng)計,用于信息提取。搜索引擎設(shè)計,有一個字段專門用于標(biāo)明是同義關(guān)系,還是近義關(guān)系、反義、上下義。有了這個關(guān)系標(biāo)識,信息提取就非常方便。
(2)安全保密設(shè)計
通過后臺數(shù)據(jù)管理,分不同的管理員確保數(shù)據(jù)的安全性。其次,也采取了詞語過濾,IP策略保障信息數(shù)據(jù)的安全性。
(3)數(shù)據(jù)庫結(jié)構(gòu)
數(shù)據(jù)庫表信息結(jié)構(gòu)如下表所示:
序號 數(shù)據(jù)表英文名 數(shù)據(jù)表中文名
1 DepartmentInfo 部門信息表;2 UserTypeInfo 用戶類型表;3 UserInfo 用戶信息表;4 AreaInfo 地域信息表;5 UniversitiesInfo 高校信息表
6 CategoryInfo 分類信息表;7 TsarchivesInfo 特色檔案信息表;8 TsArchivesAreaInfo 特色檔案地域單位表;9 TsArchivesInfo 特色檔案關(guān)聯(lián)表;10 ArchivesInfo 檔案信息表;11 ArchivesReference 檔案參考資料;12 ArchivesPicInfo 檔案圖片信息表;13 ImageAlbumInfo 圖冊信息表;14 ArchivesAuInfo 檔案音頻信息表;15 ArchivesAvinfo 檔案視頻信息表;16 ArchivesTagInfo 檔案標(biāo)簽信息表;17 ArticleTag 文章標(biāo)簽表;18 Comment 文章評論表;19 CommentReport 文章評論回復(fù)表;20 FilterWords 系統(tǒng)敏感詞過濾表;21 IpControl 系統(tǒng)IP過濾表;22 MailConfig 郵件配置信息表;23 ScoreLevel 系統(tǒng)積分等級表;24 SysConfig 系統(tǒng)基本配置表;
(4)接口設(shè)計
①用戶接口
a)各級別的用戶登錄接口。
b)各級別的管理員登錄接口。
②外部接口
a)WIKI接口:強(qiáng)大的信息采集功能,可掛接插件。能夠從其它網(wǎng)頁上導(dǎo)入進(jìn)來,作為我們的信息條,然后加工它。
b)GIS接口:URL。地圖上的顯示,可以跳轉(zhuǎn)出去,因為GIS系統(tǒng)是我們自己開發(fā)的。
c)文獻(xiàn)接口:URL,獲取大量的電子文獻(xiàn)內(nèi)容,也可以是跳轉(zhuǎn)出去,能夠檢索出一些相關(guān)的內(nèi)容。文獻(xiàn)系統(tǒng)也是我們自己開發(fā)的。
d)大數(shù)據(jù)接口:預(yù)留,將來可以獲取大量豐富的檔案資源數(shù)據(jù),例如查看檔案原件模型,也是跳轉(zhuǎn)出去。
2、數(shù)據(jù)與材料的搜集與整理
數(shù)據(jù)與材料是本平臺的最核心內(nèi)容,分兩個步驟進(jìn)行。
第一步,試點單位檔案管整理已經(jīng)過鑒別的非保密的館藏檔案材料,經(jīng)過數(shù)字化處理,做成數(shù)據(jù)庫,導(dǎo)入我們已建成的數(shù)字化檔案館平臺進(jìn)行示范展示。
第二步,擴(kuò)大參與單位,增加數(shù)字化檔案館檔案材料。本數(shù)字平臺涉及的檔案數(shù)據(jù)和研究面大,必須采用大協(xié)作的方法,協(xié)同攻關(guān)。初步設(shè)想是以本平臺為藍(lán)本,國內(nèi)其他高校均參與到檔案網(wǎng)站建設(shè)中來,最終建成全國高校檔案資源數(shù)字化網(wǎng)絡(luò)檔案館。為我國實施大數(shù)據(jù)戰(zhàn)略在檔案領(lǐng)域做開拓性的探索。
綜觀國內(nèi)外數(shù)字化檔案館的功能設(shè)計無不圍繞用戶的需求而展開,所以,本建設(shè)設(shè)計方案以突出用戶為導(dǎo)向,強(qiáng)化高校數(shù)字化檔案館平臺建設(shè)即數(shù)字化檔案網(wǎng)站前后平臺以及數(shù)據(jù)庫的建設(shè),這是數(shù)字化檔案館的核心部分,如果光有技術(shù)平臺而無可以查詢利用的數(shù)據(jù)、檔案,那就達(dá)不到建設(shè)的目的,但如果只有數(shù)據(jù)、檔案等文獻(xiàn),其檢索功能單一低效,那么也不會吸引利用者查詢或因為麻煩而不愿意使用,也還是達(dá)不到建設(shè)的目的和效果。為此,我們著重開發(fā)功能強(qiáng)大的文獻(xiàn)檢索系統(tǒng),接口設(shè)計詳盡周到,以期為用戶提供豐富而詳細(xì)的檢索條件和互動利用,方便用戶檢索利用。我們還受地理信息系統(tǒng)的啟示,在數(shù)字化檔案館的建設(shè)中引入檔案地理信息系統(tǒng)建設(shè),這樣更為直觀明了,不僅給使用者找到歷史的時空感,還能把使用者帶入地理的空間,可以更為直觀地了解該檔案事件發(fā)生的時間地點,給人更多的感悟和理解。
(作者單位:廣東技術(shù)師范學(xué)院檔案館)