吳晨菁
摘 要:文章將二分網(wǎng)絡(luò)運(yùn)用到檔案部門(mén)服務(wù)工作中,根據(jù)檔案利用者的類(lèi)型、需求特征和檔案信息特點(diǎn)建立檔案小眾化推薦服務(wù)模型,通過(guò)物質(zhì)擴(kuò)散和熱傳導(dǎo)推薦算法的加權(quán)融合計(jì)算利用者與檔案信息之間的網(wǎng)絡(luò)關(guān)系,生成具有針對(duì)性的推薦列表,以期為檔案部門(mén)向利用者提供縱深服務(wù)提供參考。
關(guān)鍵詞:檔案少用性;二分網(wǎng)絡(luò);推薦服務(wù)模型;小眾服務(wù)
當(dāng)前,我國(guó)檔案利用熱情逐漸冷卻,依據(jù)二分網(wǎng)絡(luò)建立的小眾推薦服務(wù)模型就是一種針對(duì)檔案少用性提供縱深推薦的服務(wù)方式。近年來(lái),依托計(jì)算機(jī)而高度發(fā)達(dá)的數(shù)據(jù)存儲(chǔ)及運(yùn)算,使復(fù)雜網(wǎng)絡(luò)的構(gòu)建得以實(shí)現(xiàn)。復(fù)雜網(wǎng)絡(luò)的研究主要集中于自然科學(xué)、工程科學(xué)領(lǐng)域,在圖書(shū)館領(lǐng)域的研究也逐漸增多,在檔案領(lǐng)域僅有一篇涉及檔案學(xué)術(shù)語(yǔ)的探討,二分網(wǎng)絡(luò)在檔案領(lǐng)域的研究為零。因此,筆者研究二分網(wǎng)絡(luò)相關(guān)內(nèi)容,對(duì)其在小眾推薦服務(wù)的應(yīng)用進(jìn)行初探。
1 檔案小眾推薦服務(wù)模型構(gòu)建的依據(jù)
1.1 實(shí)踐依據(jù)。檔案的現(xiàn)實(shí)少用性是檔案小眾推薦服務(wù)模型建立的實(shí)踐依據(jù)。我國(guó)檔案利用活動(dòng)經(jīng)歷過(guò)三次高峰期:平反冤假錯(cuò)案、上山下鄉(xiāng)工齡檔案查詢、編史修志工作。[1]此后,類(lèi)似的利用高峰再未出現(xiàn)?,F(xiàn)階段,一方面,檔案的原始記錄性、機(jī)密性、區(qū)域性及價(jià)值轉(zhuǎn)移致使其無(wú)法時(shí)常處于高利用狀態(tài);[2] 另一方面,大部分的檔案利用需求來(lái)自工作查考、學(xué)術(shù)研究,檔案利用需求表現(xiàn)出明顯的階段性針對(duì)性。歷史上,雖然檔案已從封建統(tǒng)治的高閣走向人民身邊,然而民眾的檔案意識(shí)尚未完全覺(jué)醒。但我們說(shuō)檔案的少用性現(xiàn)實(shí)狀態(tài),并不是指不利用。檔案部門(mén)開(kāi)展基于二分網(wǎng)絡(luò)的小眾推薦服務(wù),針對(duì)特定用戶分不同群組開(kāi)展服務(wù),是追求縱深服務(wù)的方式。[3]
1.2 理論依據(jù)。二分網(wǎng)絡(luò)是檔案小眾推薦服務(wù)模型建立的理論依據(jù),通過(guò)二部分圖可以探測(cè)到利用者之間、利用者與檔案之間的互動(dòng)關(guān)系,社團(tuán)結(jié)構(gòu)是有針對(duì)性的服務(wù)模式。
1.2.1 二分網(wǎng)絡(luò)概述。二分網(wǎng)絡(luò)用于挖掘主體與客體的關(guān)系,是符合利用者利用需求長(zhǎng)尾現(xiàn)象的網(wǎng)絡(luò)形式。[4]二部分圖是其表現(xiàn)形式,它由兩方面組合,利用者及檔案構(gòu)成頂點(diǎn)集V,利用者和檔案的鏈接構(gòu)成邊集E,表達(dá)式為G=(V,E),如圖1(a)。V包含利用者子集U和檔案子集A,基于圖1建立的連接,可以得出集合U和集合A的單模映射,如圖1(b)、圖1(c)。二部分圖及單模映射可以反映出利用行為的集聚特點(diǎn)及小眾化特征。
1.2.2 二分網(wǎng)絡(luò)的特性。度與度分布度。一個(gè)節(jié)點(diǎn)的度是指與該節(jié)點(diǎn)相連接的另一部分節(jié)點(diǎn)的數(shù)量,在圖1(a)中,u8節(jié)點(diǎn)僅與a5相連接,因此u8的度為1,如圖1(b)所示。度分布是某選定節(jié)點(diǎn)與另一子集中節(jié)點(diǎn)連接的數(shù)目的分布情況。[5]度分布反映了最為活躍的利用者群體,以及被利用最為頻繁的檔案。
集聚系數(shù)。同一卷宗中每份檔案之間有很強(qiáng)的關(guān)聯(lián)性,這就形成了無(wú)形的網(wǎng)絡(luò)鏈接結(jié)構(gòu),卷宗中某一份檔案也會(huì)在年份、人物等上與其他卷宗產(chǎn)生聯(lián)系,這樣的聚集鏈接就反映了該二分網(wǎng)絡(luò)的聚集程度,即集聚系數(shù),表示二分網(wǎng)絡(luò)結(jié)構(gòu)中各部分的聯(lián)系程度。
社團(tuán)結(jié)構(gòu)。利用者多為因某個(gè)原因而聚集在一起的一類(lèi)群體,檔案也會(huì)集聚,這些群體就是二分網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)。其形成以網(wǎng)絡(luò)中的節(jié)點(diǎn)為基礎(chǔ),首先設(shè)定相似度,然后合并相似度最高的社團(tuán),形成新的社團(tuán)結(jié)構(gòu),接著以新的社團(tuán)結(jié)構(gòu)為基礎(chǔ),設(shè)定新的相似度,重復(fù)合并重復(fù)計(jì)算,最后組成一個(gè)大社團(tuán)。[6]
2 檔案小眾推薦服務(wù)模型的建立
結(jié)合二分網(wǎng)絡(luò)和檔案利用者小眾群組的相關(guān)內(nèi)容,構(gòu)建了如圖2所示的檔案小眾推薦服務(wù)模型。
2.1 利用者群組。根據(jù)檔案的少用特性,檔案的主要利用者多以專(zhuān)業(yè)、興趣等聚集,他們就是二分網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu),在社團(tuán)結(jié)構(gòu)中形成了利用者與利用者之間的聚類(lèi)關(guān)系、利用者與檔案之間的小眾偏好關(guān)系。分析群組中利用者之間的影響方式、影響程度,挖掘隱藏關(guān)系,完善利用者群組之間的網(wǎng)絡(luò)結(jié)構(gòu)。[7]
2.2 二分網(wǎng)絡(luò)。建立利用者集合與檔案信息集合是利用者與檔案資源二分網(wǎng)絡(luò)形成的基礎(chǔ)。分析利用者建立利用者模型,根據(jù)檔案語(yǔ)義建立檔案資源模型,結(jié)合檔案資源主題詞、關(guān)鍵詞進(jìn)行利用者與檔案之間的信息過(guò)濾,析出利用者之間的概率偏好關(guān)系,建立利用者與檔案資源二部分結(jié)構(gòu)。然后根據(jù)二部分圖中利用者與檔案之間連接關(guān)系,給利用者賦予初始值。
2.3 推薦算法的加權(quán)。
2.3.1 推薦算法。二部分圖中,利用者與檔案都將視為單純的節(jié)點(diǎn)納入推薦算法中,以利用與被利用的選擇關(guān)系為依托,預(yù)測(cè)利用者對(duì)尚未接觸過(guò)檔案的喜好程度。物質(zhì)擴(kuò)散和熱傳導(dǎo)是主流的推薦算法。物質(zhì)擴(kuò)散滿足守恒定律,節(jié)點(diǎn)a會(huì)把能量平均傳遞給相連的u節(jié)點(diǎn),每個(gè)u節(jié)點(diǎn)的能量是從所有a中獲得能量的總和。如圖1,給u1相連的節(jié)點(diǎn)賦予能量1,不相連的為0,則u1的最終能量值為1/3的a1加1/2的a2。u會(huì)把收集到的能量再平均返回給a,算法如上。最后,將能量值最大的未利用過(guò)的檔案推薦給該利用者。熱傳導(dǎo)算法中每個(gè)u節(jié)點(diǎn)的能量是相連的a節(jié)點(diǎn)能量的平均值,如u1的能量值為(1+1)/2;能量返回子集A后,a的能量就為相連的所有u節(jié)點(diǎn)能量的平均值。由此,便會(huì)推薦某利用者尚未使用過(guò)的檔案信息中能量最高者。物質(zhì)擴(kuò)散算法最后結(jié)果傾向于推薦熱門(mén)的檔案信息;熱傳導(dǎo)算法在能量傳遞中,熱源存在,冷門(mén)檔案資源也不會(huì)被忽略。物質(zhì)擴(kuò)散和熱傳導(dǎo)推薦算法相結(jié)合,涵蓋更全面的檔案信息,這對(duì)檔案利用者主力軍提供更深入的推薦服務(wù)很有必要。[8]
2.3.2 加權(quán)融合。物質(zhì)擴(kuò)散偏向于呈現(xiàn)給利用者熱點(diǎn)性的檔案信息,而熱傳導(dǎo)偏向于不易被發(fā)現(xiàn)的檔案信息,更加注重多樣性,兩種算法各有其側(cè)重的方面。設(shè)定一個(gè)動(dòng)態(tài)的可調(diào)權(quán)重,通過(guò)檔案利用者對(duì)推薦服務(wù)評(píng)價(jià)的變化,建立加權(quán)模型,調(diào)節(jié)物質(zhì)擴(kuò)散和熱傳導(dǎo)推薦算法的比例,達(dá)到兩者有效的結(jié)合。對(duì)兩種算法的加權(quán)融合同時(shí)滿足了利用者對(duì)熱門(mén)資源與冷門(mén)資源的多樣需求,最大限度地將館藏檔案資源納入到小眾化推薦服務(wù)中去,使推薦服務(wù)更加全面深入。
3 檔案小眾推薦服務(wù)模型的實(shí)現(xiàn)
3.1 理念支撐。社會(huì)全體尤其是檔案部門(mén)要正確認(rèn)識(shí)目前我國(guó)檔案利用不高的現(xiàn)象,這是推薦模型實(shí)現(xiàn)的理念支撐。無(wú)論理論上、實(shí)踐上,還是歷史的角度,都造就了目前我國(guó)檔案少用性的現(xiàn)狀。利用者與檔案二分網(wǎng)絡(luò)結(jié)構(gòu)可以平衡熱門(mén)與冷門(mén)資源的度,理性認(rèn)識(shí)檔案的少用特性,才能理性地開(kāi)展推薦服務(wù)工作。
3.2 資源保障。
3.2.1 利用者調(diào)研。利用者群組(社團(tuán))是在一定的興趣、專(zhuān)業(yè)、行業(yè)等范圍內(nèi)形成的,對(duì)群組的分析基于客觀、全面的基礎(chǔ)上。所以,形成利用者社團(tuán)首先要對(duì)利用者進(jìn)行充分的調(diào)研。利用者調(diào)研不必追求廣而泛,側(cè)重于精而深的縱向數(shù)據(jù)收集及數(shù)據(jù)分析。
3.2.2 檔案信息整合。檔案信息集合是二分網(wǎng)絡(luò)中的另一個(gè)數(shù)據(jù)集合,館藏檔案的收集、整理、存儲(chǔ)是數(shù)據(jù)挖掘與分析的前提。提供縱深服務(wù)需要海量的檔案信息支撐,檔案信息的有效整合是二分網(wǎng)絡(luò)中算法實(shí)現(xiàn)的基礎(chǔ)。檔案信息的整合注重寬而廣的特點(diǎn),收集、存儲(chǔ)會(huì)應(yīng)用到一些技術(shù)手段,特別是云存儲(chǔ)技術(shù)。
3.3 技術(shù)支持。在進(jìn)行利用者、檔案信息相互之間的數(shù)據(jù)分析時(shí),需要運(yùn)用數(shù)據(jù)挖掘技術(shù)來(lái)挖掘出不易被發(fā)現(xiàn)的關(guān)系,通過(guò)建模技術(shù)建立模型。因此,靈活使用數(shù)據(jù)挖掘工具、掌握先進(jìn)建模技術(shù),將會(huì)對(duì)推薦結(jié)果的準(zhǔn)確性、推薦服務(wù)的可靠性大有裨益。
4 結(jié)語(yǔ)
檔案的少用性質(zhì)決定了當(dāng)前我國(guó)檔案部門(mén)不會(huì)像圖書(shū)館那樣門(mén)庭若市,檔案利用者也因職業(yè)、學(xué)術(shù)研究、興趣愛(ài)好等利用需求而形成小眾的利用者群組。因此,針對(duì)有需求的檔案利用者群組,檔案部門(mén)可以運(yùn)用二分網(wǎng)絡(luò)的相關(guān)內(nèi)容,建立檔案利用者與檔案信息之間的二分結(jié)構(gòu),深度挖掘利用者之間、利用者與檔案信息之間復(fù)雜的聯(lián)系,進(jìn)而將工作重點(diǎn)從由如何擴(kuò)大服務(wù)數(shù)量切實(shí)轉(zhuǎn)移到如何提高檔案部門(mén)服務(wù)的質(zhì)量上來(lái),真正創(chuàng)造縱深服務(wù)和精深服務(wù)。