齊夢(mèng)珂,羅子江,趙 凱,楊云帆,楊秀璋
(貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴陽(yáng) 550025)
數(shù)據(jù)挖掘(data mining)又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是從大量的、不完全的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、事先不為人所知但潛在有用的信息和知識(shí)的過(guò)程,常用的文本處理模型包括分詞模型、TF-IDF 模型、LDA模型、詞向量模型等。隨著信息化時(shí)代和大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)挖掘技術(shù)也被運(yùn)用至檔案事業(yè)中,《全國(guó)檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》提出,檔案服務(wù)領(lǐng)域要采用大數(shù)據(jù)、智慧管理、智能樓宇管理等技術(shù),推動(dòng)檔案利用服務(wù)模式的創(chuàng)新。在此背景下,諸多學(xué)者以數(shù)據(jù)挖掘等技術(shù)為切入點(diǎn),以高校、企業(yè)、政府等為研究主體,開(kāi)展我國(guó)檔案服務(wù)創(chuàng)新的思考與探索。但是科研工作者閱讀、分析、利用文獻(xiàn)的速度遠(yuǎn)遠(yuǎn)低于文獻(xiàn)發(fā)表的速度。
王青介紹了全媒體背景下高校檔案服務(wù)社會(huì)創(chuàng)新的主要應(yīng)用和重點(diǎn)難點(diǎn),并從豐富檔案服務(wù)內(nèi)容、打造檔案信息服務(wù)平臺(tái)、建立雙向反饋機(jī)制的角度提出了全媒體環(huán)境下高校檔案服務(wù)社會(huì)創(chuàng)新的對(duì)策。王向女和姚婧從技術(shù)、公眾、機(jī)構(gòu)改革三方面探討催生檔案公共服務(wù)變革的動(dòng)因,提出檔案公共服務(wù)創(chuàng)新實(shí)踐的路徑,包括多方參與擴(kuò)充資源基礎(chǔ)、多元協(xié)同拓展服務(wù)空間、以人為本提供精細(xì)化服務(wù)三個(gè)層面。李財(cái)富和靳文君深入分析VR 技術(shù)創(chuàng)新檔案利用服務(wù)的優(yōu)勢(shì)、劣勢(shì)、機(jī)會(huì)和風(fēng)險(xiǎn),從檔案服務(wù)宏觀戰(zhàn)略與機(jī)遇層面、VR 技術(shù)突破和檔案資源融合層面、VR 檔案服務(wù)平臺(tái)構(gòu)建和倫理維護(hù)層面提出解決策略,認(rèn)為應(yīng)該從構(gòu)建VR 檔案創(chuàng)新服務(wù)體系、突破VR 軟硬件技術(shù)瓶頸、制定VR+檔案服務(wù)相關(guān)標(biāo)準(zhǔn)等方面推動(dòng)檔案利用服務(wù)創(chuàng)新發(fā)展。黃霄羽等研究檔案館應(yīng)用社交媒體創(chuàng)新檔案服務(wù)的方式。許新華等研究民生檔案服務(wù)創(chuàng)新STOF 模型設(shè)計(jì)及應(yīng)用。蘇錫云和蔡旭兵分析了大數(shù)據(jù)管理模式下的業(yè)務(wù)檔案公共服務(wù)創(chuàng)新研究。陳燕萍和曹航從建立跨館利用、為檔案弱勢(shì)群體提供個(gè)性化服務(wù)、積極與媒體合作、采用先進(jìn)技術(shù)四個(gè)方面來(lái)探討近十年我國(guó)檔案利用服務(wù)創(chuàng)新的新舉措。田偉和韓海濤分析了當(dāng)前大學(xué)檔案館用戶需求的變化趨勢(shì),進(jìn)而提出了大數(shù)據(jù)時(shí)代檔案館服務(wù)創(chuàng)新策略:構(gòu)建用戶需求感知引擎、拓展深化檔案數(shù)據(jù)服務(wù)內(nèi)涵、推進(jìn)檔案?jìng)€(gè)性化服務(wù)實(shí)施。
科學(xué)知識(shí)圖譜是一種可視化的描述人類(lèi)隨時(shí)間擁有的知識(shí)資源及載體、科學(xué)知識(shí)間關(guān)聯(lián)度的方法。在國(guó)外相關(guān)研究中,Price作為科學(xué)知識(shí)圖譜的早期開(kāi)拓者,為科學(xué)知識(shí)圖譜的發(fā)現(xiàn)與發(fā)展做出了重大貢獻(xiàn);德國(guó)著名科學(xué)計(jì)量學(xué)家Kretschmer有關(guān)三維空間模型的研究為科學(xué)知識(shí)圖譜的進(jìn)一步發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。國(guó)內(nèi)研究中,陳悅和劉則淵于2005 年將科學(xué)知識(shí)圖譜的概念引入國(guó)內(nèi),這為我國(guó)科學(xué)知識(shí)圖譜的相關(guān)研究奠定基礎(chǔ);侯海燕利用詞頻分析法發(fā)現(xiàn)了科學(xué)知識(shí)圖譜研究熱點(diǎn)領(lǐng)域?yàn)榻柚髡吖惨治?,最終揭示出科學(xué)計(jì)量學(xué)合作網(wǎng)絡(luò)將形成全球性國(guó)際合作網(wǎng)絡(luò)的趨勢(shì);譚春輝和熊夢(mèng)媛從數(shù)據(jù)方向的理論和應(yīng)用兩個(gè)維度來(lái)研究該領(lǐng)域的熱點(diǎn)以及主題演化趨勢(shì),進(jìn)而為比較國(guó)內(nèi)外數(shù)據(jù)挖掘領(lǐng)域熱點(diǎn)問(wèn)題的演化過(guò)程提供了新思路;白敬毅和顏瑞武等通過(guò)將主題模型和曲線擬合趨勢(shì)預(yù)測(cè)方法相結(jié)合對(duì)科技文獻(xiàn)進(jìn)行主題劃分,并據(jù)此繪制相應(yīng)的主題分布矩陣,最終預(yù)測(cè)新興主題未來(lái)發(fā)展趨勢(shì);方倩和竇永香等使用Cite Space 和UCINET 等科學(xué)知識(shí)圖譜軟件,從關(guān)鍵詞和共被引文獻(xiàn)角度出發(fā),構(gòu)建該領(lǐng)域下聚類(lèi)視圖和關(guān)鍵詞共現(xiàn)的知識(shí)圖譜,對(duì)該領(lǐng)域的研究熱點(diǎn)和社會(huì)發(fā)現(xiàn)演化路徑進(jìn)行了可視化分析,為后續(xù)的研究提供了可參考的數(shù)據(jù);陳悅等從引文分析和信息可視化的角度來(lái)分析科學(xué)知識(shí)圖譜的演變過(guò)程,揭示了科學(xué)知識(shí)圖譜領(lǐng)域的發(fā)展越發(fā)趨向科學(xué)學(xué)科的可視化,也證明了科學(xué)知識(shí)圖譜是科學(xué)計(jì)量學(xué)具有前景的研究方向。
基于此,本文借鑒數(shù)據(jù)挖掘技術(shù),從主題發(fā)現(xiàn)與主題演化兩方面分析我國(guó)檔案服務(wù)創(chuàng)新相關(guān)文獻(xiàn)的研究熱點(diǎn)及研究趨勢(shì)。針對(duì)文本數(shù)據(jù)中存在同義詞和多義詞、詞語(yǔ)之間存在語(yǔ)法關(guān)系和相似性等問(wèn)題,本文采用基于LDA 和加權(quán)Word2vec 的科學(xué)知識(shí)圖譜構(gòu)建方法。該方法首先利用LDA 模型抽取主題及每個(gè)主題下的關(guān)鍵詞,再用Word2vec 獲取每個(gè)主題下關(guān)鍵詞的詞向量,通過(guò)加權(quán)計(jì)算詞向量得到主題向量,進(jìn)而計(jì)算主題相似度與重要度,最后以可視化方法構(gòu)建主題共現(xiàn)圖譜和主題演化圖譜,從而達(dá)到從語(yǔ)義層面揭示領(lǐng)域發(fā)展變化的目標(biāo)。
LDA 是一種無(wú)監(jiān)督的概率主題生成模型,包含了詞、主題和文檔三層結(jié)構(gòu),它將文檔庫(kù)中每篇文檔的主題以概率分布的方式展現(xiàn),是在pLSA(probabilistic latent semantic analysis)模型的基礎(chǔ)上增加貝葉斯架構(gòu)模塊所形成的,具體模型如圖1所示。
圖1 LDA文檔主題生成模型
Word2vec 是一款用于詞向量計(jì)算的開(kāi)源工具,它根據(jù)上下文信息將輸入的特征詞訓(xùn)練為詞向量并且有兩種語(yǔ)言模型,分別是連續(xù)詞袋模型(CBOW,continuous bag of words)模型和跳字模型(skip-gram)。CBOW 旨在通過(guò)上下文來(lái)預(yù)測(cè)當(dāng)前詞的概率,其結(jié)構(gòu)如圖2 所示;skipgram 則利用當(dāng)前詞的特征向量來(lái)預(yù)測(cè)上下文,其結(jié)構(gòu)如圖3所示。除此之外,CBOW 較適用于較小的詞庫(kù),而skip-gram 卻在大型的語(yǔ)料庫(kù)上表現(xiàn)得比較好。兩種模型雖然在輸入輸出的內(nèi)容上完全相反,但在模型的訓(xùn)練過(guò)程中是相同的。
圖2 CBOW模型
圖3 Skip-gram 模型
本文旨在從語(yǔ)義層面來(lái)揭示領(lǐng)域變化情況,以中國(guó)知網(wǎng)期刊題目、摘要、關(guān)鍵詞等作為基礎(chǔ)數(shù)據(jù),利用LDA 和Word2vec 模型分別抽取主題、關(guān)鍵詞,并進(jìn)行詞向量模型的構(gòu)建和轉(zhuǎn)化,通過(guò)加權(quán)計(jì)算得到主題向量,最終構(gòu)建主題共現(xiàn)和演化知識(shí)圖譜。具體流程如圖4所示。
圖4 基于LDA和加權(quán)Word2vec的主題發(fā)現(xiàn)及演化研究
以中國(guó)知網(wǎng)導(dǎo)出的文獻(xiàn)標(biāo)題、摘要以及關(guān)鍵詞為基礎(chǔ)數(shù)據(jù)。數(shù)據(jù)預(yù)處理階段包括中文分詞、去停用詞以及關(guān)鍵詞過(guò)濾。中文分詞算法中jieba 分詞使用廣泛、理論成熟,故分詞階段采用的是Python 語(yǔ)言環(huán)境下結(jié)巴(Jieba)分詞來(lái)完成;為了提高文本主題提取的準(zhǔn)確性,去停用詞階段使用的是哈工大停用詞表;為了更好地反映主題信息,關(guān)鍵詞篩選方面以TF-IDF 算法為依據(jù),以計(jì)算出的各主題關(guān)鍵詞的TF-IDF值確定關(guān)鍵詞集合。
LDA 主題模型在分析文本語(yǔ)義方面具有良好的效果并且可以有效地分析大規(guī)模非結(jié)構(gòu)化文檔集。本文通過(guò)調(diào)用Python 環(huán)境下的pyLDAvis 包來(lái)確定主題數(shù)量,因視距圖在直觀展現(xiàn)各主題間聯(lián)系和主題下的關(guān)鍵詞詞頻方面都表現(xiàn)良好,即以此為基礎(chǔ)對(duì)各個(gè)主題的分布情況和每個(gè)主題下的關(guān)鍵詞頻率展開(kāi)深層次的研究。
在抽取主題之后,為了避免LDA 主題模型在語(yǔ)義提取和高維稀疏向量方面存在的問(wèn)題,該研究采用Word2vec 來(lái)研究詞的上下文語(yǔ)義信息并高效地將詞語(yǔ)表達(dá)成向量,其主要思想是把文本內(nèi)容的處理簡(jiǎn)化為向量間的運(yùn)算。本文用Word2vec 中的CBOW 模型進(jìn)行文檔的訓(xùn)練,利用詞的前后個(gè)詞去預(yù)測(cè)當(dāng)前詞,最后得到包含上下文語(yǔ)義的特征詞向量,為后續(xù)自然語(yǔ)言處理領(lǐng)域相關(guān)研究的發(fā)展奠定了基礎(chǔ)。
在提取關(guān)鍵詞詞向量之后,為分析主題之間的關(guān)聯(lián)程度及獲取主題信息,需將主題轉(zhuǎn)化為由關(guān)鍵詞及其權(quán)重表示的向量。而在以往研究中沒(méi)有考慮到詞頻問(wèn)題,只是采用主題內(nèi)所有關(guān)鍵詞詞向量的均值來(lái)表示該主題向量,因此本文采用TF-IDF 加權(quán)平均法給予主題內(nèi)不同關(guān)鍵詞以不同權(quán)重,計(jì)算公式如式(1)所示。
式(1)中,表示主題的主題向量;為 關(guān) 鍵詞的 詞向量;w為 關(guān)鍵詞的TF-IDF值;為主題中關(guān)鍵詞數(shù)量。
對(duì)任意主題利用關(guān)鍵詞詞向量計(jì)算關(guān)鍵詞的相似度,進(jìn)而聚合成主題相似度(resemblance,Res),它反映了主題間的關(guān)聯(lián)性和隨時(shí)間的演化趨勢(shì)。據(jù)此,公式(2)在傳統(tǒng)的余弦公式上進(jìn)行了一定的優(yōu)化,考慮了關(guān)鍵詞語(yǔ)義之間的相似度,最終值表示不同主題之間的語(yǔ)義相似度和主題間的關(guān)聯(lián)性,具體計(jì)算公式如(2)所示。
式(2)中,Vec是根據(jù)式(1)計(jì)算得到的加權(quán)主題向量;(,,,…)表示主題向量各個(gè)維度的數(shù)值;(,)表示主題與主題間的主題相似度。
主題重要度(imporantance,Imp)是本文反映主題在所屬領(lǐng)域內(nèi)重要性的具體數(shù)值,其值越大就表示主題在該領(lǐng)域中越重要。主題重要度依據(jù)各主題下關(guān)鍵詞TF-IDF 的均值確定,在表示研究領(lǐng)域內(nèi)主題隨時(shí)間不斷變化方面具有良好表現(xiàn),具體計(jì)算公式如式(3)所示。
式(3)中,topic表示主題;為主題中關(guān)鍵詞個(gè)數(shù);TF與IDF分別表示關(guān)鍵詞的文本頻率與逆文檔頻率指數(shù)。
科學(xué)知識(shí)圖譜將復(fù)雜的科學(xué)知識(shí)領(lǐng)域通過(guò)數(shù)據(jù)挖掘、信息處理等方式繪制成圖形,并以可視化方式展現(xiàn)科學(xué)知識(shí)的發(fā)展與結(jié)構(gòu)關(guān)系,也展現(xiàn)了其演化的規(guī)律。目前基于分析方面的學(xué)知識(shí)圖譜可視化研究方法已成為研究熱點(diǎn),本文所繪制的知識(shí)圖譜包含關(guān)鍵詞共現(xiàn)和主題演化圖譜兩種,主要展現(xiàn)學(xué)科主題、主題重要度、主題相似度等三個(gè)方面的信息。
(1)主題。一個(gè)圓即代表一個(gè)主題,各個(gè)圓圈的距離情況也展現(xiàn)出提取主題的效果良好情況,即主題間的差異度。同樣,在主題演化圖譜中結(jié)合了時(shí)間橫軸展現(xiàn)不同時(shí)間段主題信息的演變情況。
(2)主題重要度。通過(guò)計(jì)算TF-IDF 值,并作歸一化處理,以歸一化結(jié)果確定圓形的半徑大小,利用圓的大小表現(xiàn)主題重要度。
(3)主題相似度。根據(jù)各主題特征向量計(jì)算主題之間的相似度,通過(guò)歸一化確定主體之間連線的寬度,連線的寬度與主題間相似度成正比。
本文認(rèn)為關(guān)鍵詞共現(xiàn)和主題演化知識(shí)圖譜的構(gòu)建能很好的展現(xiàn)關(guān)鍵詞詞頻和主題隨時(shí)間演變的趨向,也能更加直觀的分析出在檔案服務(wù)創(chuàng)新領(lǐng)域中主要的研究熱點(diǎn)和方向。
本文數(shù)據(jù)來(lái)源于中國(guó)知網(wǎng)期刊數(shù)據(jù)庫(kù),檢索方式為“SU=‘檔案服務(wù)創(chuàng)新’+‘檔案創(chuàng)新’”,主要包含期刊題目、摘要和關(guān)鍵詞,涉及7512 篇期刊論文,時(shí)間節(jié)點(diǎn)截取2001—2020年,共20 年。研究將整體數(shù)據(jù)分為兩種形式,第一種是將20 年數(shù)據(jù)依據(jù)每5 年一個(gè)階段劃分為4部分,在此基礎(chǔ)上繪制主題演化圖譜以研究近20 年主題演化趨勢(shì);另外一種是將總數(shù)據(jù)進(jìn)行整體分析,所得結(jié)果作為主題共現(xiàn)圖譜繪制依據(jù),借此探討研究熱點(diǎn)。
本文通過(guò)調(diào)用pyLDAvis 繪制視距圖以確定合理的主題數(shù)量,因篇幅限制僅展示總數(shù)據(jù)主題1 的關(guān)鍵詞,如圖5 所示,3 個(gè)圓圈表示3 個(gè)主題,基本沒(méi)有重疊,表示提取效果良好,右邊為關(guān)鍵詞詞頻。另外總年段數(shù)據(jù)的主題提取結(jié)果如表1所示,各年段數(shù)據(jù)的主題提取結(jié)果如表2所示。
表1 2001—2020年總數(shù)據(jù)各主題關(guān)鍵詞
表2 2001—2020年各年段主題關(guān)鍵詞
圖5 總數(shù)據(jù)視距
主題相似度計(jì)算:利用式(2)計(jì)算總數(shù)據(jù)不同主題間的相似度,舉例來(lái)講就是分別計(jì)算出主題1 與主題2、3 主題2 與主題3 之間的相似度。
主題重要度計(jì)算:主題重要度主要依據(jù)主題關(guān)鍵詞的TF-IDF 值,按式(3)計(jì)算,基于以上兩種條件,計(jì)算出總數(shù)據(jù)與各年段下每一個(gè)主題的主題重要度??倲?shù)據(jù)主題重要度與相似度如表3所示,由于篇幅原因,分年度數(shù)據(jù)不做贅述。
表3 總數(shù)據(jù)主題重要度與相似度
主題共現(xiàn)圖譜結(jié)果如圖6所示。
圖6 主題共現(xiàn)圖譜
從圖中可見(jiàn):
(1)近20年,我國(guó)檔案服務(wù)創(chuàng)新主要的研究方向?yàn)椋焊咝F髽I(yè)醫(yī)院的信息化創(chuàng)新、國(guó)家檔案部門(mén)的文化建設(shè)創(chuàng)新與事業(yè)單位的人事檔案改革工作。以上研究方向的共同點(diǎn)均是對(duì)檔案事業(yè)發(fā)展進(jìn)行改革與創(chuàng)新;不同點(diǎn)是:信息化創(chuàng)新依托大數(shù)據(jù)、數(shù)據(jù)分析等科技與技術(shù),多在高校、企業(yè)、醫(yī)院發(fā)展,而文化建設(shè)創(chuàng)新與人事檔案改革工作多發(fā)生在國(guó)家檔案部門(mén)、事業(yè)單位與行政機(jī)關(guān)??偠灾?,部分產(chǎn)業(yè)依托技術(shù)創(chuàng)新完善檔案服務(wù)工作,政府部門(mén)依托人文與制度創(chuàng)新進(jìn)行優(yōu)化和改革。
(2)從主題重要度來(lái)講,近20年間信息化創(chuàng)新在檔案服務(wù)創(chuàng)新方向的研究是一大熱點(diǎn),高校、企業(yè)、醫(yī)院的檔案信息資源來(lái)源廣泛、種類(lèi)眾多、數(shù)據(jù)量龐大,在當(dāng)今數(shù)據(jù)時(shí)代背景下,單一、被動(dòng)且缺乏創(chuàng)新性的服務(wù)模式已無(wú)法適應(yīng)當(dāng)前用戶的需求。建立信息化與數(shù)字化的檔案服務(wù)模式是檔案事業(yè)發(fā)展的必經(jīng)之路,數(shù)字化檔案系統(tǒng)、網(wǎng)絡(luò)檔案公眾號(hào)等數(shù)字資源能夠更好地為用戶提供個(gè)性化服務(wù)。
(3)從主題關(guān)聯(lián)度來(lái)講,國(guó)家檔案部門(mén)的文化建設(shè)創(chuàng)新與事業(yè)單位的人事檔案改革工作兩個(gè)主題之間關(guān)聯(lián)度最大?!度珖?guó)檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》對(duì)于我國(guó)檔案事業(yè)破解發(fā)展難題、厚植發(fā)展優(yōu)勢(shì)具有重大意義,綱要中提到文化建設(shè)是檔案改革的必要前提,人文建設(shè)是當(dāng)前社會(huì)發(fā)展主旋律,檔案部門(mén)的文化建設(shè)創(chuàng)新可以推進(jìn)我國(guó)檔案事業(yè)的改革與發(fā)展。
主題演化圖譜如圖7 所示,結(jié)合圖7 和表2可以看出:
(1)各年段研究側(cè)重點(diǎn)不同。2001—2005年段的研究主題為高校與企業(yè)的檔案服務(wù)創(chuàng)新工作(圖7 2001—2005 年T1),如關(guān)鍵詞“檔案”“創(chuàng)新”“服務(wù)”“高校”“企業(yè)”等。2006—2010 年與2011—2015 年兩個(gè)年段的研究主題均為高校與企業(yè)的檔案服務(wù)信息化創(chuàng)新、國(guó)家檔案部門(mén)的建設(shè)管理與文化創(chuàng)新。2016—2020 年段主要包含的研究主題為:高校企業(yè)醫(yī)院的檔案服務(wù)信息化創(chuàng)新(圖7 2016—2020 年T1)、相關(guān)學(xué)術(shù)科研(圖7 2016—2020 年T2)、國(guó)家檔案部門(mén)的文化創(chuàng)新(圖7 2016—2020 年T3)。不難發(fā)現(xiàn),我國(guó)關(guān)于檔案服務(wù)創(chuàng)新的研究層次越來(lái)越豐富,現(xiàn)階段的學(xué)術(shù)科研行為增多,高校、醫(yī)院、企業(yè)的檔案工作逐漸往信息化發(fā)展,國(guó)家檔案部門(mén)也越來(lái)越重視文化建設(shè)。
(2)從主題關(guān)聯(lián)度來(lái)看,20 年間主要存在兩條關(guān)鍵主題演化路徑(圖7 中兩種顏色不同的路徑),分別是高校企業(yè)醫(yī)院的檔案服務(wù)信息化創(chuàng)新與國(guó)家檔案部門(mén)的建設(shè)管理和文化創(chuàng)新。而且各路徑不僅會(huì)出現(xiàn)新的研究?jī)?nèi)容,也會(huì)伴隨著舊研究?jī)?nèi)容的消失。高校企業(yè)醫(yī)院的檔案服務(wù)信息化創(chuàng)新這一演化路徑貫穿了近20 年的文獻(xiàn)主題,2006—2010 年段開(kāi)始出現(xiàn)關(guān)鍵詞“信息”,表明檔案工作逐漸往信息化發(fā)展,2016—2020年段第一次出現(xiàn)關(guān)鍵詞“醫(yī)院”,表明醫(yī)院檔案部門(mén)也開(kāi)始加入數(shù)字化時(shí)代的浪潮。國(guó)家檔案部門(mén)的建設(shè)管理和文化創(chuàng)新這一演化路徑從2006—2010 年段產(chǎn)生,關(guān)鍵詞“文化”“宣傳”“創(chuàng)新”在后兩個(gè)年段逐漸涌現(xiàn),表明文化建設(shè)與文化創(chuàng)新是當(dāng)前國(guó)家檔案部門(mén)的工作主旋律。
圖7 主題演化圖譜
(3)從主題重要度來(lái)看,現(xiàn)階段(2016—2020年段)高校企業(yè)醫(yī)院的檔案服務(wù)信息化創(chuàng)新與國(guó)家檔案部門(mén)的建設(shè)管理和文化創(chuàng)新這兩個(gè)主題的重要度降低,相關(guān)學(xué)術(shù)科研主題(圖7 2016—2020 年T2)開(kāi)始產(chǎn)生并占據(jù)較大重要度。關(guān)鍵詞“學(xué)術(shù)”“科研”“學(xué)科”“研討會(huì)”等均表明關(guān)于檔案服務(wù)創(chuàng)新的學(xué)術(shù)科研開(kāi)始得到重視并逐漸增多,對(duì)于促進(jìn)我國(guó)檔案事業(yè)的發(fā)展與創(chuàng)新是一大助力。
我國(guó)關(guān)于檔案服務(wù)創(chuàng)新的研究成果大量問(wèn)世,但是科研工作者閱讀、分析、利用文獻(xiàn)的速度遠(yuǎn)低于文獻(xiàn)發(fā)表的速度。本文利用數(shù)據(jù)挖掘技術(shù),從主題發(fā)現(xiàn)與主題演化兩方面分析我國(guó)檔案服務(wù)創(chuàng)新相關(guān)文獻(xiàn)的研究熱點(diǎn)與研究趨勢(shì)。首先研究以中國(guó)知網(wǎng)檔案服務(wù)創(chuàng)新相關(guān)期刊數(shù)據(jù)為分析對(duì)象,經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,利用LDA 模型抽取主題及每個(gè)主題下的關(guān)鍵詞,再采用Word2vec獲取每個(gè)主題下關(guān)鍵詞的詞向量,通過(guò)加權(quán)計(jì)算詞向量得到主題向量,進(jìn)而計(jì)算主題相似度與重要度,最后以可視化方法構(gòu)建主題共現(xiàn)圖譜,分析了現(xiàn)階段的研究方向、研究熱點(diǎn)與其關(guān)聯(lián)性,同時(shí)構(gòu)建主題演化圖譜,揭示了領(lǐng)域內(nèi)各階段研究側(cè)重點(diǎn),挖掘出關(guān)鍵主題演化路徑與其發(fā)展趨勢(shì)。主要研究結(jié)論如下:
(1)主題共現(xiàn)結(jié)果表明,近20 年部分產(chǎn)業(yè)依托技術(shù)創(chuàng)新完善檔案服務(wù)工作,信息化創(chuàng)新是一大熱點(diǎn),政府部門(mén)依托人文與制度創(chuàng)新進(jìn)行優(yōu)化和改革。
(2)主題演化結(jié)果表明,我國(guó)關(guān)于檔案服務(wù)創(chuàng)新的研究層次越來(lái)越豐富,現(xiàn)階段學(xué)術(shù)科研開(kāi)始得到重視并逐漸增多,20 年間主要存在兩條關(guān)鍵主題演化路徑,分別是高校企業(yè)醫(yī)院的檔案服務(wù)信息化創(chuàng)新與國(guó)家檔案部門(mén)的建設(shè)管理和文化創(chuàng)新。