摘 要:為總結(jié)我國(guó)電子文件研究的有關(guān)情況,運(yùn)用文獻(xiàn)計(jì)量和可視化分析方法,借助相關(guān)計(jì)算機(jī)軟件,結(jié)合利用可視化工具繪制的知識(shí)圖譜,從文獻(xiàn)來(lái)源、作者、機(jī)構(gòu)、主題、文獻(xiàn)被引等多個(gè)角度對(duì)CAJD收錄的1996年~2013年國(guó)內(nèi)電子文件研究的高被引文獻(xiàn)進(jìn)行相關(guān)統(tǒng)計(jì)和可視化分析。
關(guān)鍵詞:電子文件;文獻(xiàn)計(jì)量;可視化分析;知識(shí)圖譜;CAJD;CiteSpace;1996~2013
1??引言
電子文件(Electronic?Records)是指在數(shù)字設(shè)備及環(huán)境中生成,以數(shù)碼形式存儲(chǔ)在磁帶、磁盤、光盤等載體,依靠計(jì)算機(jī)等數(shù)字設(shè)備閱讀、處理,并可在通信網(wǎng)絡(luò)上傳送的文件。[1]具有參考和利用價(jià)值并作為檔案保存的電子文件(歸檔電子文件)[1]便是檔案。電子文件也稱作“數(shù)字式文件”,最初人們大多使用“機(jī)讀文件”(Machine-Readable?Records/Documents)這個(gè)概念[2],電子公文、電子文檔、電子檔案、數(shù)字文件、數(shù)字檔案、機(jī)讀檔案、虛擬文件、虛擬檔案等是與之相似或相關(guān)的術(shù)語(yǔ)。
上世紀(jì)60年代,信息技術(shù)發(fā)達(dá)的歐美國(guó)家開始了電子文件的研究與管理實(shí)踐。我國(guó)的研究和管理實(shí)踐起步較晚,從上世紀(jì)80年代中后期開始,由介紹國(guó)外電子檔案的研究與管理情況、翻譯國(guó)外學(xué)者的研究成果,到開展探索性的研究。上世紀(jì)90年代后期,國(guó)內(nèi)學(xué)者的研究成果開始增多,理論研究逐漸系統(tǒng)深入。與此同時(shí),國(guó)家檔案局于1996年成立了電子歸檔研究領(lǐng)導(dǎo)小組,并陸續(xù)發(fā)布了《電子文件歸檔與管理規(guī)范》(GB/T?18894-2002)、《電子公文歸檔管理暫行辦法》(2003)等一系列標(biāo)準(zhǔn)、規(guī)章和文件,有力地推動(dòng)了國(guó)內(nèi)電子文件的研究和實(shí)踐。
在中國(guó)期刊網(wǎng)絡(luò)出版總庫(kù)(CAJD)收錄的1996年以來(lái)的13萬(wàn)余篇檔案學(xué)、檔案事業(yè)類文獻(xiàn)中,有關(guān)電子文件研究的文獻(xiàn)近1.16萬(wàn)篇(2014年5月16日檢索),占比超過(guò)8.8%,可見電子文件研究是近二十年來(lái)檔案領(lǐng)域研究的熱點(diǎn)和重點(diǎn)。
對(duì)這一研究領(lǐng)域近20年的演進(jìn)、熱點(diǎn)方向、發(fā)展趨勢(shì)進(jìn)行相關(guān)分析有助于電子文件研究的深入。此前也有一些相關(guān)研究,如陳丹丹對(duì)1991年~2000年這10年間我國(guó)研究電子文件論文的統(tǒng)計(jì)和分析,探求電子文件研究的現(xiàn)狀和未來(lái)發(fā)展趨勢(shì)[3];曹芳通過(guò)對(duì)近十年(1993年~2002年)來(lái)發(fā)表在我國(guó)檔案事業(yè)類中文核心期刊上的電子文件研究論文的數(shù)量、內(nèi)容以及主題分布進(jìn)行統(tǒng)計(jì)與分析,了解我國(guó)電子文件的研究現(xiàn)狀,并對(duì)電子文件的未來(lái)發(fā)展進(jìn)行預(yù)測(cè)[4];張寧對(duì)2010年我國(guó)電子文件管理理論研究的發(fā)展情況進(jìn)行了全面系統(tǒng)的調(diào)查和研究,歸納總結(jié)出2010年我國(guó)電子文件管理理論研究領(lǐng)域的重要成果和進(jìn)展。[5]
在借鑒已有研究成果和研究方法的基礎(chǔ)上,本文采用自編的計(jì)算機(jī)軟件進(jìn)行了相關(guān)統(tǒng)計(jì),并利用可視化工具CiteSpace繪制知識(shí)圖譜進(jìn)行分析。
2??文獻(xiàn)來(lái)源、研究工具與數(shù)據(jù)處理
2.1??樣本文獻(xiàn)來(lái)源。研究的樣本文獻(xiàn)來(lái)自中國(guó)知網(wǎng)(CNKI)的中國(guó)期刊網(wǎng)絡(luò)出版總庫(kù)(CAJD),檢索時(shí)兼顧了電子文件的其他相似或相關(guān)術(shù)語(yǔ),以檢索表達(dá)式“(KY=(電子文件+數(shù)字式文件+機(jī)讀文件+電子公文+電子文檔+電子檔案+數(shù)字文件+數(shù)字檔案+機(jī)讀檔案+虛擬文件+虛擬檔案+電子型檔案+數(shù)字化檔案)?OR?TI=(電子文件+數(shù)字式文件+機(jī)讀文件+電子公文+電子文檔+電子檔案+數(shù)字文件+數(shù)字檔案+機(jī)讀檔案+虛擬文件+虛擬檔案+電子型檔案+數(shù)字化檔案))?NOT?(KY=(數(shù)字檔案館+電子檔案館+虛擬檔案館)?OR?TI=(數(shù)字檔案館+電子檔案館+虛擬檔案館))”進(jìn)行專業(yè)檢索。由于1995年前文獻(xiàn)數(shù)量較少,時(shí)間范圍選定為1996年~2013年,學(xué)科領(lǐng)域限制為“檔案學(xué)、檔案事業(yè)”,檢索時(shí)間是2014年5月16日,檢索結(jié)果為11606篇。在檢索結(jié)果基礎(chǔ)上,分別按年度選取被引次數(shù)大于等于4(1996年~2010年)、大于等于3(2011年)、大于等于2(2012年)和大于等于1(2013年)的文獻(xiàn)作為初選樣本,共計(jì)1679篇,剔除誤檢的不相關(guān)文獻(xiàn)(領(lǐng)導(dǎo)講話、標(biāo)準(zhǔn)等)、重復(fù)文獻(xiàn)(含一稿多投)后,得到用于分析的文獻(xiàn)共計(jì)1138篇。
2.2??研究工具。本文研究工具主要有兩個(gè),一是由美籍華人陳超美開發(fā)的信息可視化軟件CiteSpace?Ⅲ[6](版本號(hào)3.7.R7),可用于生成知識(shí)圖譜,導(dǎo)出相關(guān)數(shù)據(jù)和統(tǒng)計(jì)報(bào)表,計(jì)算突變率、中心性等;二是作者自編的關(guān)系型數(shù)據(jù)庫(kù)軟件,可用于部分?jǐn)?shù)據(jù)項(xiàng)的規(guī)范或補(bǔ)充,添加必要的統(tǒng)計(jì)項(xiàng),提取同名作者進(jìn)行區(qū)分,選擇用于統(tǒng)計(jì)分析的樣本,快速生成相關(guān)統(tǒng)計(jì)數(shù)據(jù)或報(bào)表,生成用于CiteSpace處理的數(shù)據(jù)格式文件。
2.3??數(shù)據(jù)處理。文獻(xiàn)分析是否準(zhǔn)確可靠,最重要的就是數(shù)據(jù)質(zhì)量。作者將下載的題錄信息導(dǎo)入自編軟件,對(duì)照原文逐一核對(duì)了作者、篇名、機(jī)構(gòu)、關(guān)鍵詞、刊名等字段,對(duì)明顯不合理的關(guān)鍵詞進(jìn)行了必要的拆分或合并,補(bǔ)充了部分內(nèi)容不完整的字段,規(guī)范、統(tǒng)一了大多數(shù)機(jī)構(gòu)名稱和部分關(guān)鍵詞,刪除了CAJD中計(jì)算機(jī)自動(dòng)標(biāo)引(機(jī)標(biāo))的關(guān)鍵詞,同時(shí)剔除了不相關(guān)文獻(xiàn)。
經(jīng)過(guò)以上處理,由自編軟件生成了可用于CiteSpace的WOS格式數(shù)據(jù)文件。
3??研究文獻(xiàn)的計(jì)量與可視化分析
本文的相關(guān)計(jì)量數(shù)據(jù)主要由自編軟件統(tǒng)計(jì)得出,表格也依據(jù)統(tǒng)計(jì)數(shù)據(jù)編制,其中樣本文獻(xiàn)的年代分布、作者與機(jī)構(gòu)發(fā)文、關(guān)鍵詞詞頻等經(jīng)與CiteSpace軟件的有關(guān)處理數(shù)據(jù)或報(bào)表比對(duì),統(tǒng)計(jì)結(jié)果基本一致。作者合著網(wǎng)絡(luò)圖譜、研究熱點(diǎn)主題圖譜等由CiteSpace軟件生成。
3.1??發(fā)文年度及來(lái)源分布。CAJD收錄的1996年以來(lái)有關(guān)電子文件研究的高被引文獻(xiàn)年度分布如圖1所示。從圖1中可以看出,2000年~2012年,每年的高被引文獻(xiàn)都在60篇以上,反映出2000年以來(lái),國(guó)內(nèi)電子文件研究成果豐碩,且較高水平論文較多。
圖1??CAJD高被引電子文件研究文獻(xiàn)的年度分布
利用自編軟件對(duì)樣本文獻(xiàn)來(lái)源進(jìn)行統(tǒng)計(jì),樣本文獻(xiàn)來(lái)源于211種期刊,其中147種期刊僅1篇被選入統(tǒng)計(jì)分析樣本中。分析樣本中載文數(shù)前20位的期刊如表1所示,這20種期刊收錄的高被引文獻(xiàn)達(dá)853篇,占統(tǒng)計(jì)分析文獻(xiàn)的近75%,巧合的是,排在前十位的是包括《檔案》在內(nèi)的檔案類的核心期刊。
表1?高被引樣本文獻(xiàn)來(lái)源期刊載文統(tǒng)計(jì)(單位:篇)
3.2??樣本文獻(xiàn)作者和機(jī)構(gòu)統(tǒng)計(jì)與分析
啟動(dòng)CiteSpace軟件,建立一個(gè)項(xiàng)目及項(xiàng)目目錄和數(shù)據(jù)目錄,將WOS格式文件裝入數(shù)據(jù)目錄,選擇網(wǎng)絡(luò)節(jié)點(diǎn)為“Author”,完成相關(guān)設(shè)置(主要設(shè)置見圖譜左上角,下同),由軟件生成作者網(wǎng)絡(luò)圖譜(圖2),為便于圖譜的識(shí)讀和分析,對(duì)軟件生成的圖譜的節(jié)點(diǎn)位置進(jìn)行了調(diào)整。圖中的圓為作者節(jié)點(diǎn),圓越大,表明作者發(fā)文越多(包括非第一作者);節(jié)點(diǎn)色環(huán)的顏色代表發(fā)文年份(對(duì)應(yīng)圖上部色條顏色代表的年份),色環(huán)的厚度代表相應(yīng)年代發(fā)文的多少;節(jié)點(diǎn)間的連線表明作者間有論文合作,連線的粗細(xì)代表合作的頻度,連線顏色對(duì)應(yīng)的是首次合作的年份。
圖2???CAJD高被引電子文件研究文獻(xiàn)作者網(wǎng)絡(luò)圖譜
由圖2可以看出,國(guó)內(nèi)已形成了幾大電子文件研究的團(tuán)隊(duì),圖中圈出了部分科研產(chǎn)出能力較強(qiáng)的團(tuán)隊(duì),如以馮惠玲、劉越男等為核心的中國(guó)人民大學(xué),以張正強(qiáng)為核心的解放軍南京政治學(xué)院上海分院,以何嘉蓀為核心的浙江大學(xué)等。團(tuán)隊(duì)中節(jié)點(diǎn)數(shù)量較多,大節(jié)點(diǎn)較多,且色環(huán)顏色多樣,表明團(tuán)隊(duì)作者及高發(fā)文作者較多,1996年以來(lái)的多數(shù)年份都有成果。節(jié)點(diǎn)間連線僅17條,表明合著文獻(xiàn)較少。
利用自編軟件進(jìn)行統(tǒng)計(jì),1138篇樣本文獻(xiàn)涉及作者共計(jì)1112人,1523人次,其中獨(dú)著850篇,兩人合著221篇,三人合著48篇,四人及以上合著19篇,表明作者間的合作不多;全部作者來(lái)自525個(gè)機(jī)構(gòu)。表2和表3分別列示了高發(fā)文作者和高發(fā)文機(jī)構(gòu)及發(fā)文量(發(fā)文數(shù)中“+”后為第二作者發(fā)文數(shù))。
表2?高發(fā)文作者及發(fā)文量(單位:篇)
表3?高發(fā)文第一機(jī)構(gòu)及發(fā)文數(shù)量(單位:篇)
對(duì)照表2、表3和圖2,表中數(shù)據(jù)結(jié)果與圖譜呈現(xiàn)基本一致,同時(shí)也驗(yàn)證了科研產(chǎn)出能力較強(qiáng)的團(tuán)隊(duì)是中國(guó)人民大學(xué)、解放軍南京政治學(xué)院上海分院等。
3.3??樣本文獻(xiàn)主題統(tǒng)計(jì)與分析。在期刊文獻(xiàn)中,關(guān)鍵詞最能反映文獻(xiàn)的主題,因此,利用關(guān)鍵詞進(jìn)行主題分析。樣本文獻(xiàn)中有機(jī)標(biāo)關(guān)鍵詞文獻(xiàn)556篇,無(wú)關(guān)鍵詞文獻(xiàn)10,為減少可能出現(xiàn)的偏差,主題統(tǒng)計(jì)與分析未使用機(jī)標(biāo)關(guān)鍵詞。在CiteSpace中選擇網(wǎng)絡(luò)節(jié)點(diǎn)為“Keyword”,運(yùn)行并經(jīng)手動(dòng)調(diào)整后,得到主題網(wǎng)絡(luò)圖譜(圖3)。圖中的圓為關(guān)鍵詞節(jié)點(diǎn),圓越大,表明該關(guān)鍵詞出現(xiàn)的頻次越高;節(jié)點(diǎn)色環(huán)的顏色代表該詞出現(xiàn)的年份,色環(huán)的厚度代表相應(yīng)年度出現(xiàn)頻次的多少;節(jié)點(diǎn)間的連線表明關(guān)鍵詞共現(xiàn)于同一篇論文中,連線的粗細(xì)代表共現(xiàn)的頻度,連線顏色對(duì)應(yīng)的是首次共現(xiàn)的年份。圖中部分節(jié)點(diǎn)外環(huán)呈紫色,表明這些主題的中心性較高。[7]
????圖3???CAJD高被引電子文件研究文獻(xiàn)主題網(wǎng)絡(luò)圖譜
值得一提的是,圖譜清晰地呈現(xiàn)出了電子文件(數(shù)字檔案)研究的特點(diǎn),圖中各節(jié)點(diǎn)與電子文件、數(shù)字檔案、檔案管理和管理等具有高中心性的關(guān)鍵詞連線最多,說(shuō)明如何管理電子文件是研究的動(dòng)因;與管理相關(guān)的自然是電子政務(wù)、對(duì)策(安全保存、信息安全)、管理系統(tǒng)以及信息化等。
經(jīng)自編軟件統(tǒng)計(jì),作者標(biāo)注有關(guān)鍵詞的572篇樣本文獻(xiàn)共有關(guān)鍵詞1976個(gè)個(gè),篇均3.45個(gè),共涉及關(guān)鍵詞690個(gè),其中僅出現(xiàn)1次~3次的關(guān)鍵詞分別為484、86和35個(gè),比重很大,對(duì)統(tǒng)計(jì)結(jié)果有一定影響。將統(tǒng)計(jì)結(jié)果與CiteSpace生成的數(shù)據(jù)報(bào)表整合為表4,表4列出了頻次前20位的高頻關(guān)鍵詞及其中心性。
表4??高頻關(guān)鍵詞的中心性及詞頻數(shù)
表4中,電子文件、數(shù)字檔案、檔案管理、管理、電子政務(wù)、對(duì)策這幾個(gè)關(guān)鍵詞的中心性值均大于0.1,關(guān)鍵詞安全保存和信息化的中心性值接近0.1,這些關(guān)鍵詞代表了電子文件研究的熱點(diǎn)。
3.4??樣本文獻(xiàn)被引統(tǒng)計(jì)與分析。文獻(xiàn)被引頻次一般反映出文獻(xiàn)在某類研究中的價(jià)值。由于CAJD下載的題錄不帶引文,無(wú)法利用CiteSpace生成相應(yīng)的知識(shí)圖譜加以分析,進(jìn)而總結(jié)經(jīng)典文獻(xiàn)和知識(shí)基礎(chǔ)。為彌補(bǔ)這一不足,作者利用CAJD的被引數(shù)據(jù)和自編軟件生成了高被引作者文獻(xiàn)被引統(tǒng)計(jì)表(表5)、高被引文獻(xiàn)被引統(tǒng)計(jì)表(表6)和年度文獻(xiàn)篇均被引統(tǒng)計(jì)表(表7)。
表5?高被引作者文獻(xiàn)被引統(tǒng)計(jì)表(單位:次)
透過(guò)表5和表6可以發(fā)現(xiàn),馮惠玲、何嘉蓀、劉越男、劉家真、安小米、庫(kù)克、于麗娟等是國(guó)內(nèi)電子文件研究最具影響力的作者,被引排在前15位的作者的文獻(xiàn)被引頻次達(dá)2382次,占統(tǒng)計(jì)樣本總被引數(shù)的近1/4;中國(guó)人民大學(xué)和浙江大學(xué)、武漢大學(xué)、蘇州大學(xué)等是最能代表國(guó)內(nèi)電子文件研究水準(zhǔn)的機(jī)構(gòu)。而高被引的庫(kù)克的《電子文件與紙質(zhì)文件觀念:后保管及后現(xiàn)代主義社會(huì)里信息與檔案管理中面臨的一場(chǎng)革命》、馮惠玲的博士論文《擁有新記憶——電子文件管理研究》系列摘要及《電子文件與紙質(zhì)文件管理的共存與互動(dòng)》和《論電子文件的風(fēng)險(xiǎn)管理》、邱曉威的《電子文件與電子檔案的管理問(wèn)題與對(duì)策》、安小米的《文件連續(xù)體模式對(duì)電子文件最優(yōu)化管理的啟示》等無(wú)疑是電子文件研究的經(jīng)典基礎(chǔ)性文獻(xiàn),被引前20位的論文被引1039次,占統(tǒng)計(jì)樣本總被引數(shù)的10.88%。
表6??高被引文獻(xiàn)被引統(tǒng)計(jì)表(單位:次)
表7?被引文獻(xiàn)年度篇均被引統(tǒng)計(jì)表(單位:次)
結(jié)合表7的年度篇均被引數(shù),還可得出這樣的結(jié)論:1997年~1998年、2002年~2003年是國(guó)內(nèi)電子文件研究的高水平階段。
4??結(jié)語(yǔ)
通過(guò)以上統(tǒng)計(jì)分析,研究結(jié)果可以歸納為:電子文件研究熱度持續(xù),每年都產(chǎn)出有一定影響力的高水平成果;中國(guó)人民大學(xué)、解放軍南京政治學(xué)院上海分院、武漢大學(xué)、浙江大學(xué)、蘇州大學(xué)等是國(guó)內(nèi)電子文件研究科研產(chǎn)出能力較強(qiáng)且水平較高的機(jī)構(gòu);馮惠玲、何嘉蓀、劉越男、劉家真、安小米、于麗娟、張照余等高產(chǎn)且高被引的作者是國(guó)內(nèi)電子文件研究領(lǐng)域最具影響力的作者;庫(kù)克是對(duì)國(guó)內(nèi)電子文件研究產(chǎn)生深刻影響的國(guó)外學(xué)者;以解決管理問(wèn)題為目標(biāo)和驅(qū)動(dòng)的電子文件研究始終是研究的熱點(diǎn)。
本文采用的研究工具CiteSpace是近年國(guó)內(nèi)進(jìn)行文獻(xiàn)分析使用較多并公認(rèn)較好的一款軟件,目前在檔案文獻(xiàn)的分析研究中運(yùn)用還不多。盡管該軟件可用于分析中文文獻(xiàn),但使用中會(huì)面臨兩個(gè)主要問(wèn)題,一是需用轉(zhuǎn)換程序?qū)⒎治鰯?shù)據(jù)轉(zhuǎn)換為WOS格式,但無(wú)論轉(zhuǎn)換前還是轉(zhuǎn)換后要對(duì)分析數(shù)據(jù)進(jìn)行清洗都比較困難和麻煩(包括部分?jǐn)?shù)據(jù)項(xiàng)的規(guī)范、缺項(xiàng)補(bǔ)充、剔除重復(fù)和誤檢題錄、機(jī)標(biāo)關(guān)鍵詞是否采用等);二是由于CiteSpace相關(guān)閾值等的不同設(shè)定可能導(dǎo)致圖譜節(jié)點(diǎn)大小及報(bào)表個(gè)別數(shù)值與實(shí)際統(tǒng)計(jì)結(jié)果有些不完全一致,如作者發(fā)文數(shù)量不區(qū)分作者排序、不區(qū)分同名作者而使得圖譜數(shù)據(jù)與用通常方法統(tǒng)計(jì)結(jié)果的個(gè)別不一致。作者用自編的軟件較好地解決了這些問(wèn)題,同時(shí)自編軟件的計(jì)量結(jié)果還可與圖譜及由工具軟件導(dǎo)出的數(shù)據(jù)相互印證。因此,分析工具再好,也需要有“干凈”的數(shù)據(jù)做基礎(chǔ),更需要使用者嚴(yán)謹(jǐn)?shù)难芯繎B(tài)度。
參考文獻(xiàn):
[1]?國(guó)家檔案局.?GB/T?18894—2002?電子文件歸檔與管理規(guī)范[S].?北京:國(guó)家質(zhì)檢總局,2002.
[2]?馮惠玲.?認(rèn)識(shí)電子文件《擁有新記憶——電子文件管理研究》摘要之一[J].?檔案學(xué)通訊,1998(1):44~48.
[3]?陳丹丹.1991-2000年我國(guó)電子文件研究論文統(tǒng)計(jì)與分析[J].?檔案與建設(shè),2002(9):18~19.
[4]?曹芳.近十年來(lái)我國(guó)電子文件研究論文的統(tǒng)計(jì)與分析[J].?檔案學(xué)研究,2003(4):45~49.
[5]?張寧.?2010年我國(guó)電子文件管理理論研究綜述[J].?檔案學(xué)研究,2011(3):4~7.
[6]?Chen?Chaomei.?CiteSpace:?Visualizing?Patterns?and?Trends?in?Scientific?Literature[CP/OL].?[2014-06-15].??http://cluster.ischool.drexel.edu/~cchen/citespace/download.html.
[7]?李曉明,宮啟生,謝靜靜.?2001年-2013年國(guó)內(nèi)檔案數(shù)字化研究文獻(xiàn)分析[J].?檔案管理,2014(4):51-53.
(作者單位:北京電子科技學(xué)院圖書館(檔案館)??來(lái)稿日期:2014-10-17)