文?曹培培
基于文獻(xiàn)計(jì)量的我國(guó)檔案領(lǐng)域大數(shù)據(jù)研究現(xiàn)狀分析
文?曹培培
近年來(lái),大數(shù)據(jù)研究成為檔案領(lǐng)域的研究熱點(diǎn)。文章以CNKI中國(guó)學(xué)術(shù)期刊
檔案;大數(shù)據(jù);高頻關(guān)鍵詞;共詞分析;聚類分析
隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計(jì)算技術(shù)時(shí)代的到來(lái),人們?cè)谌粘W(xué)習(xí)、生活、工作中產(chǎn)生的互聯(lián)網(wǎng)數(shù)據(jù)量正以指數(shù)形式增長(zhǎng),呈現(xiàn)“爆炸”狀態(tài),大數(shù)據(jù)問(wèn)題在這樣的時(shí)代背景下應(yīng)運(yùn)而生。那么,究竟什么是大數(shù)據(jù)呢?麥肯錫將其定義為無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合[1]。綜合來(lái)看,大數(shù)據(jù)具有規(guī)模大、種類多、生成速度快、價(jià)值巨大但密度低的特點(diǎn)。因此,隨著大數(shù)據(jù)時(shí)代的到來(lái),如何將巨大的原始數(shù)據(jù)進(jìn)行有效地利用和分析,使之轉(zhuǎn)變成可以被利用的知識(shí)和價(jià)值,成為國(guó)內(nèi)外國(guó)家政治領(lǐng)域、科研學(xué)術(shù)界和相關(guān)產(chǎn)業(yè)界共同關(guān)注的熱門(mén)話題。在學(xué)術(shù)界,《Nature》于2008年推出大數(shù)據(jù)??@應(yīng)該是“大數(shù)據(jù)”一詞開(kāi)始得到業(yè)界肯定和接受的開(kāi)端。隨后,其滲透的領(lǐng)域不斷蔓延,大數(shù)據(jù)逐步成為國(guó)內(nèi)外學(xué)術(shù)界眾多學(xué)科領(lǐng)域關(guān)注的研究熱點(diǎn)。當(dāng)然,檔案領(lǐng)域也不例外。從2013年起,我國(guó)檔案界的學(xué)者對(duì)大數(shù)據(jù)的研究關(guān)注逐年大幅度遞增。隨著研究的進(jìn)一步深入,有必要對(duì)目前國(guó)內(nèi)檔案領(lǐng)域?qū)Υ髷?shù)據(jù)的研究現(xiàn)狀進(jìn)行一下梳理,分析當(dāng)前的主要研究熱點(diǎn),為大數(shù)據(jù)在檔案界實(shí)現(xiàn)更高層次的融合提供一些借鑒。
(一)數(shù)據(jù)來(lái)源
(二)研究方法
本文借助Excel數(shù)據(jù)透視表對(duì)我國(guó)檔案領(lǐng)域大數(shù)據(jù)研究文獻(xiàn)的發(fā)表時(shí)間、著者、來(lái)源、關(guān)鍵詞進(jìn)行了相關(guān)統(tǒng)計(jì)和分析;采用共詞分析法,運(yùn)用SATI3.2軟件統(tǒng)計(jì)了高頻關(guān)鍵詞,并構(gòu)建了高頻關(guān)鍵詞共現(xiàn)矩陣和相關(guān)矩陣,然后借助Spss19.0軟件對(duì)文獻(xiàn)的高頻關(guān)鍵詞了進(jìn)行聚類分析。本文綜合采用文獻(xiàn)計(jì)量方法,以定性與定量相結(jié)合,統(tǒng)計(jì)分析出我國(guó)檔案領(lǐng)域大數(shù)據(jù)研究現(xiàn)狀與熱點(diǎn)。
(一)文獻(xiàn)發(fā)表時(shí)間分析
衡量某學(xué)科研究領(lǐng)域發(fā)展的重要指標(biāo)就是研究論文數(shù)量的變化,統(tǒng)計(jì)文獻(xiàn)數(shù)量并繪制相應(yīng)的年度增長(zhǎng)曲線,對(duì)于評(píng)價(jià)該研究領(lǐng)域所處階段,預(yù)測(cè)其發(fā)展態(tài)勢(shì)起著重要的作用。在對(duì)我國(guó)檔案領(lǐng)域大數(shù)據(jù)研究文獻(xiàn)進(jìn)行發(fā)表時(shí)間分析時(shí),可以通過(guò)文獻(xiàn)年度發(fā)表數(shù)量,總結(jié)出我國(guó)檔案領(lǐng)域大數(shù)據(jù)研究的發(fā)展趨勢(shì)。將Excel表格里的414篇文獻(xiàn)對(duì)年度發(fā)文數(shù)量利用數(shù)據(jù)透視表進(jìn)行統(tǒng)計(jì),得出圖1趨勢(shì)圖。雖然大數(shù)據(jù)研究萌芽很久,但其技術(shù)優(yōu)勢(shì)得到廣泛認(rèn)可是在2012 年,2013 年大數(shù)據(jù)得到進(jìn)一步普及,成為眾多學(xué)科和領(lǐng)域的研究焦點(diǎn)。因此,不難解釋圖中2013以前我國(guó)檔案領(lǐng)域?qū)Υ髷?shù)據(jù)的研究寥寥無(wú)幾,而在2013年學(xué)界對(duì)它有所關(guān)注。而且,最近幾年隨著大數(shù)據(jù)熱的進(jìn)一步蔓延,檔案領(lǐng)域?qū)λ难芯恳踩缁鹑巛?,呈雨后春筍般的研究增長(zhǎng)態(tài)勢(shì),2014年相比于2013年出現(xiàn)4倍增長(zhǎng),2015年熱度持續(xù),發(fā)文數(shù)量達(dá)到250篇。通過(guò)對(duì)圖1趨勢(shì)圖的分析可得,未來(lái)一段時(shí)間,大數(shù)據(jù)仍會(huì)是我國(guó)檔案領(lǐng)域的研究重點(diǎn)與熱點(diǎn)。
圖1 我國(guó)檔案領(lǐng)域大數(shù)據(jù)文獻(xiàn)數(shù)量年份分布
(二)文獻(xiàn)著者分析
通過(guò)對(duì)文獻(xiàn)著者分析,我們可以發(fā)現(xiàn)此研究領(lǐng)域的核心帶頭人物,發(fā)現(xiàn)有代表性的研究前沿和學(xué)術(shù)水平。通過(guò)統(tǒng)計(jì),我國(guó)共有562位學(xué)者進(jìn)行過(guò)檔案領(lǐng)域大數(shù)據(jù)方面的相關(guān)研究,其中發(fā)文數(shù)量不小于2 篇的有45位,有11位著者發(fā)表3篇及以上學(xué)術(shù)期刊論文,如表1所示(主要展示了發(fā)文量在3篇及以上的作者)。根據(jù)洛特卡定律的公式f(x) =f(1)/x2(其中f(x)為寫(xiě)了x篇論文的著者數(shù)量,f(1)為寫(xiě)了1 篇論文的著者數(shù)量)可知,寫(xiě)一篇論文的著者占全部著者總體比例的60%左右[2]。但根據(jù)我國(guó)檔案領(lǐng)域大數(shù)據(jù)方面研究文獻(xiàn)的統(tǒng)計(jì)數(shù)據(jù)(表2),只發(fā)表過(guò)一篇期刊論文的作者數(shù)高達(dá)92%,此比例遠(yuǎn)遠(yuǎn)大于洛特卡定律公式推導(dǎo)出來(lái)的60%。根據(jù)統(tǒng)計(jì)結(jié)果,我們可以發(fā)現(xiàn),韓海濤、田偉等學(xué)者對(duì)大數(shù)據(jù)在檔案領(lǐng)域的滲透興趣顯著,為推動(dòng)此領(lǐng)域?qū)W術(shù)水平的發(fā)展做出了自己的貢獻(xiàn)。但除此以外,我們更遺憾地是,我國(guó)檔案領(lǐng)域?qū)Υ髷?shù)據(jù)方面的相關(guān)研究還遠(yuǎn)不成熟。大部分學(xué)者僅是借大數(shù)據(jù)的熱背景,臨時(shí)為自己的文章增添色彩,對(duì)大數(shù)據(jù)給檔案帶來(lái)的方方面面的影響,只是做到了淺嘗輒止,研究的持續(xù)關(guān)注性有待進(jìn)一步提高。當(dāng)然,我們也需要反思,大數(shù)據(jù)在檔案界的滲透,只是在迎合時(shí)代潮流,還是其發(fā)展確實(shí)會(huì)給檔案帶來(lái)全新的思維和技術(shù)方式。
表1 我國(guó)檔案領(lǐng)域大數(shù)據(jù)研究主要著者
表2 發(fā)文篇數(shù)人數(shù)統(tǒng)計(jì)及所占比例
同時(shí),在核心著者方面,根據(jù)普萊斯定律,核心作者應(yīng)該完成所有專業(yè)論文總和的一半,寫(xiě)作m=0.749(n max)0.5篇以上論文的著者為核心著者,其中nmax為最高產(chǎn)著者的發(fā)文數(shù)[3]。根據(jù)表1,目前我國(guó)檔案領(lǐng)域大數(shù)據(jù)研究的最高產(chǎn)著者的發(fā)文總量是12,計(jì)算得出m為4.49,取近似值5,即我國(guó)該領(lǐng)域核心作者最低發(fā)文量應(yīng)為5篇。根據(jù)表1的統(tǒng)計(jì)數(shù)據(jù)可知,發(fā)文量5篇及以上的作者(即核心作者)僅有5人。這些數(shù)據(jù)表明,在我國(guó)檔案領(lǐng)域,至今仍未形成對(duì)大數(shù)據(jù)相關(guān)研究的穩(wěn)定的核心作者,研究力量相對(duì)薄弱且分散。
(三)文獻(xiàn)期刊來(lái)源分析
相關(guān)研究領(lǐng)域期刊發(fā)文數(shù)量,代表了此期刊對(duì)某研究領(lǐng)域的關(guān)注度和研究水平。通過(guò)對(duì)414篇文獻(xiàn)期刊來(lái)源進(jìn)行統(tǒng)計(jì),共發(fā)現(xiàn)141種期刊發(fā)表過(guò)關(guān)于檔案領(lǐng)域大數(shù)據(jù)方面研究的文章。其中,刊載篇數(shù)僅有一篇的期刊有89種,占總期刊數(shù)的63%,載文量在10篇及以上的有7種期刊,僅占總期刊種類數(shù)量的5%??梢?jiàn),檔案領(lǐng)域?qū)Υ髷?shù)據(jù)的關(guān)注還不是特別集中。截取載文量在10篇及以上的來(lái)源期刊進(jìn)行分析(如表3)發(fā)現(xiàn),對(duì)此研究領(lǐng)域的刊物集中分布在檔案方向,學(xué)科交叉性很弱。同時(shí),在7個(gè)發(fā)文量為10篇以上的期刊中,有4個(gè)核心期刊,其載文量不相上下,基本都在15篇左右。但與載文量最多的期刊的相比,數(shù)量上的差距有2倍之多。
表3 我國(guó)檔案領(lǐng)域大數(shù)據(jù)研究來(lái)源期刊
(四)關(guān)鍵詞分析
通常一篇論文的關(guān)鍵詞可以反映出其學(xué)科主題和關(guān)注點(diǎn),而對(duì)此研究領(lǐng)域的眾多相關(guān)文獻(xiàn)進(jìn)行關(guān)鍵詞分析,可以發(fā)現(xiàn)此領(lǐng)域的研究熱點(diǎn)。利用Excel對(duì)414篇文獻(xiàn)的關(guān)鍵詞進(jìn)行統(tǒng)計(jì),共得出1221個(gè)。頻次為1的關(guān)鍵詞共有970個(gè),占全部關(guān)鍵詞的79%;頻次為2的關(guān)鍵詞共有124個(gè),占10%;頻次在10個(gè)及10個(gè)以上的關(guān)鍵詞有20個(gè),占2%。由于此研究統(tǒng)計(jì)中頻次較低的關(guān)鍵詞數(shù)量較多,為了減少低頻關(guān)鍵詞對(duì)研究熱點(diǎn)分析結(jié)果的干擾,僅選擇高頻關(guān)鍵詞進(jìn)行分析。截取前20位高頻關(guān)鍵詞,如表4所示,除去大數(shù)據(jù)和檔案不能表明研究熱點(diǎn)的兩個(gè)高頻關(guān)鍵詞,可以看到,目前在檔案領(lǐng)域?qū)Υ髷?shù)據(jù)的研究主要集中在檔案管理、檔案數(shù)字化、數(shù)字檔案館、信息技術(shù)、檔案利用等方面。
表4 高頻關(guān)鍵詞(前20)
雖然高頻關(guān)鍵詞可以很好地反映目前檔案領(lǐng)域?qū)Υ髷?shù)據(jù)的關(guān)注熱點(diǎn),但還不能反映各個(gè)關(guān)鍵詞在文獻(xiàn)中共現(xiàn)的次數(shù),為此需要對(duì)高頻關(guān)鍵詞進(jìn)行共詞分析。根據(jù)共詞分析的原理,利用SATI3.2構(gòu)建高頻關(guān)鍵詞共現(xiàn)矩陣,兩兩統(tǒng)計(jì)它們?cè)谕黄撐闹谐霈F(xiàn)的次數(shù)。圖2為截取的檔案領(lǐng)域大數(shù)據(jù)研究方面的高頻關(guān)鍵詞共現(xiàn)矩陣的部分。關(guān)鍵詞及其自身的共現(xiàn)頻次為主對(duì)角線的數(shù)值,而2個(gè)不同關(guān)鍵詞間的共現(xiàn)頻次則體現(xiàn)在非主對(duì)角線上,也是研究的核心對(duì)象。兩個(gè)關(guān)鍵詞共現(xiàn)的頻率越高,說(shuō)明它們之間的關(guān)系越密切。反之,則表明二者關(guān)系疏遠(yuǎn)。從圖2可以看出,除去必須定義的“大數(shù)據(jù)”和“檔案”,大數(shù)據(jù)與檔案管理、檔案信息、檔案數(shù)字化、檔案工作、數(shù)字檔案館、信息技術(shù)、檔案利用等關(guān)系密切,由此可以得出,目前檔案領(lǐng)域?qū)Υ髷?shù)據(jù)的研究熱點(diǎn)主要集中在上述幾個(gè)方面。
圖2 高頻關(guān)鍵詞共現(xiàn)矩陣(部分)
隨后,為了進(jìn)一步分析高頻關(guān)鍵詞之間的親疏遠(yuǎn)近關(guān)系,需要利用Spss19.0對(duì)高頻關(guān)鍵詞的相關(guān)矩陣進(jìn)行聚類分析。聚類分析是將一批樣本(或變量)數(shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的親疏程度在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行自動(dòng)分類,產(chǎn)生多個(gè)分類結(jié)果,它可以描述出學(xué)科領(lǐng)域的研究主題結(jié)構(gòu)[4]。但是聚類分析是建立在相關(guān)矩陣的基礎(chǔ)上,因此,需要再次使用SATI3.2構(gòu)建高頻關(guān)鍵詞的相關(guān)矩陣,然后,將得到的相關(guān)矩陣導(dǎo)入Spss19.0,在分類中選擇系統(tǒng)聚類,使用Ward法進(jìn)行聚類分析,最終得到如圖3所示的聚類樹(shù)狀圖??v軸文字和數(shù)字代表了表4中的高頻關(guān)鍵詞及其位次,橫軸的數(shù)字代表了兩個(gè)關(guān)鍵詞間的相似距離。對(duì)聚類樹(shù)狀圖進(jìn)行分析發(fā)現(xiàn),檔案數(shù)字化、數(shù)字檔案館與國(guó)家檔案館關(guān)系密切,檔案利用、物聯(lián)網(wǎng)、信息技術(shù)相關(guān)性強(qiáng),檔案信息、檔案事業(yè)、檔案數(shù)據(jù)組團(tuán)成為研究特點(diǎn),大數(shù)據(jù)、檔案和高校彼此相互聯(lián)系,企業(yè)檔案、信息挖掘緊緊追隨大數(shù)據(jù)時(shí)代,檔案管理、信息化和檔案工作形成聯(lián)系主體,信息管理模式和數(shù)字化合為聚類。
領(lǐng)域關(guān)于大數(shù)據(jù)的探討主要集中在期刊載體上,所以,本文以CNKI的中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)為數(shù)據(jù)源。以“主題”為檢索項(xiàng),“檔案”+“大數(shù)據(jù)”為檢索詞,進(jìn)行“精確”檢索。期刊范圍選取“全部期刊”,以提高檢全率。由于難以確認(rèn)檔案領(lǐng)域大數(shù)據(jù)研究的正式起源時(shí)間,因此檢索時(shí)段沒(méi)有設(shè)置起始時(shí)間。同時(shí)2016年的文章不完整,暫時(shí)不予分析,確定檢索終止日期為2015年12月31日,共檢出489篇相關(guān)文獻(xiàn)。基于數(shù)據(jù)庫(kù)檢索的局限性及學(xué)科特點(diǎn),進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行去重、篩選等數(shù)據(jù)清洗工作,去除會(huì)議通知、重復(fù)和弱相關(guān)文獻(xiàn),最終保留414篇研究成果。
總庫(kù)收錄的檔案領(lǐng)域大數(shù)據(jù)文獻(xiàn)為研究對(duì)象,分別按照文章的年代、著者、來(lái)源進(jìn)行統(tǒng)計(jì)分析,并以共詞分析為基礎(chǔ),利用Spss19.0對(duì)文獻(xiàn)的高頻關(guān)鍵詞進(jìn)行聚類分析。由此,總結(jié)出我國(guó)檔案領(lǐng)域大數(shù)據(jù)研究的現(xiàn)狀與熱點(diǎn),以期對(duì)國(guó)內(nèi)檔案領(lǐng)域大數(shù)據(jù)的研究提供有益的參考和借鑒。