李冬
(商丘職業(yè)技術(shù)學(xué)院,河南 商丘 476001)
隨著現(xiàn)代信息技術(shù)的高速發(fā)展,智能化、數(shù)字化技術(shù)相關(guān)應(yīng)用在人們學(xué)習(xí)、生活中大量普及,數(shù)字圖書(shū)資源在這一時(shí)代背景中迅猛發(fā)展,面對(duì)豐富多樣的數(shù)字圖書(shū)資源,提高讀者粘合度、滿意度,是數(shù)字圖書(shū)保持發(fā)展活力的關(guān)鍵;挖掘讀者的隱性偏好,根據(jù)其個(gè)性化的需求,通過(guò)智能化信息過(guò)濾技術(shù)為其推薦相關(guān)資源,是提高數(shù)字圖書(shū)服務(wù)效率和質(zhì)量重要舉措。
基于各種算法建立起來(lái)的數(shù)字圖書(shū)推薦系統(tǒng)是根據(jù)讀者的個(gè)人偏好,提供差異化圖書(shū)推薦的有效方法,算法是推薦系統(tǒng)高效、準(zhǔn)確運(yùn)行的基礎(chǔ)和關(guān)鍵。基于數(shù)字圖書(shū)內(nèi)容的協(xié)同過(guò)濾算法推薦給讀者的圖書(shū)準(zhǔn)確率較好,基于讀者評(píng)分推薦算法推薦的圖書(shū)質(zhì)量較高,但這些都難以挖掘讀者潛在的、隱性的圖書(shū)偏好,推薦結(jié)果難以滿足讀者更廣泛的閱讀需求。關(guān)聯(lián)語(yǔ)義鏈網(wǎng)絡(luò)能夠有效的組織web上松散的數(shù)字圖書(shū)資源,結(jié)合協(xié)同過(guò)濾算法,構(gòu)造能夠挖掘讀者隱性圖書(shū)偏好的推薦系統(tǒng),以達(dá)到向讀者更好的推薦數(shù)字圖書(shū)的目的。
挖掘讀者的隱性偏好需要將讀者深層次的圖書(shū)需求與相關(guān)信息產(chǎn)生關(guān)聯(lián),語(yǔ)義化能夠有效揭示資源之間的關(guān)系,進(jìn)而提供高層次的自動(dòng)化、智能化的信息處理服務(wù)。
語(yǔ)義化是一種知識(shí)組織的抽象方法,是在資源中建立有針對(duì)性的、適宜的語(yǔ)義標(biāo)簽,通過(guò)資源語(yǔ)義標(biāo)簽的內(nèi)容反映出特定資源的語(yǔ)義特征,從而在一定程度上實(shí)現(xiàn)計(jì)算機(jī)對(duì)特定資源特征與內(nèi)容的理解和掌控[1]。
語(yǔ)義關(guān)聯(lián)是指將所有與讀者需求相關(guān)的信息通過(guò)一定的規(guī)則進(jìn)行關(guān)聯(lián),建立數(shù)字圖書(shū)資源間的語(yǔ)義聯(lián)系,推薦系統(tǒng)通過(guò)算法將關(guān)聯(lián)信息進(jìn)行過(guò)濾和處理,智能化的給出推薦結(jié)果。
關(guān)聯(lián)語(yǔ)義鏈網(wǎng)絡(luò)是一種對(duì)網(wǎng)絡(luò)資源進(jìn)行管理的數(shù)據(jù)模型,可以將具有語(yǔ)義關(guān)系的、松散的語(yǔ)義節(jié)點(diǎn)鏈接起來(lái),語(yǔ)義節(jié)點(diǎn)包含圖片、文字等資源[2]。
本文采用支持度公式(1)與置信度公式(2)的關(guān)聯(lián)規(guī)則篩選方法,公式(1)、(2)如下:
其中,N(ki)為ki出現(xiàn)的次數(shù),N(kikj)為ki和kj共同出現(xiàn)的次數(shù)。這里將語(yǔ)義元素作為關(guān)鍵詞,置信度為規(guī)則的權(quán)值。
關(guān)聯(lián)語(yǔ)義鏈算法構(gòu)造首先通過(guò)語(yǔ)義節(jié)點(diǎn)計(jì)算語(yǔ)義向量和規(guī)則,找出關(guān)鍵詞;然后計(jì)算出兩個(gè)語(yǔ)義節(jié)點(diǎn)的關(guān)系語(yǔ)義鏈權(quán)值;然后將語(yǔ)義規(guī)則與語(yǔ)義向量做“與”操作,得出語(yǔ)義節(jié)點(diǎn)之間的權(quán)值,重復(fù)計(jì)算,直到構(gòu)造完成[3]。
通過(guò)公式(3)計(jì)算關(guān)聯(lián)語(yǔ)義鏈值,并將結(jié)果作為權(quán)重,語(yǔ)義鏈值在(0,1)之間。其中(ki→kj)ki和kj為之間的鏈接權(quán)值,(ki→kj)為所有語(yǔ)義節(jié)點(diǎn)語(yǔ)義鏈值的和。
根據(jù)數(shù)據(jù)庫(kù)中數(shù)字資源之間的語(yǔ)義節(jié)點(diǎn)關(guān)鍵詞,通過(guò)置信度、關(guān)聯(lián)規(guī)則計(jì)算,最后計(jì)算得出關(guān)聯(lián)語(yǔ)義鏈接權(quán)值,與協(xié)同過(guò)濾(Collaborative Filtering,CF)[4]算法相結(jié)合,構(gòu)造能夠挖掘讀者隱性圖書(shū)偏好的推薦算法,算法模型如圖1所示:
圖1 本文算法推薦模型
數(shù)字圖書(shū)數(shù)據(jù)庫(kù)收錄了讀者ID、性別、年齡、專業(yè)以及數(shù)字圖書(shū)ID、名稱、作者、出版社、圖書(shū)簡(jiǎn)介、讀者評(píng)論、評(píng)分等,并建立數(shù)據(jù)庫(kù);通過(guò)數(shù)據(jù)庫(kù)收集的讀者信息及相關(guān)數(shù)字資源數(shù)據(jù),進(jìn)行項(xiàng)目相似性計(jì)算,同時(shí)根據(jù)數(shù)據(jù)庫(kù)中數(shù)字資源之間的語(yǔ)義節(jié)點(diǎn)關(guān)鍵詞,計(jì)算得出關(guān)聯(lián)語(yǔ)義鏈接權(quán)值,運(yùn)用公式(4)[5]計(jì)算得分,進(jìn)行用戶推薦。
(1)關(guān)聯(lián)語(yǔ)義鏈鏈接權(quán)值計(jì)算
使用漢語(yǔ)詞法分析系統(tǒng)[6]將圖書(shū)數(shù)字資源進(jìn)行分詞、停用詞過(guò)濾,篩選和統(tǒng)計(jì)保留下來(lái)的詞名,得到關(guān)鍵詞,運(yùn)用上文提到的公式(3),計(jì)算關(guān)聯(lián)語(yǔ)義鏈鏈接權(quán)值,操作如下:
計(jì)算數(shù)字圖書(shū)資源之間的鏈接權(quán)值Wu;
(2)相似性計(jì)算
最近鄰方法可以對(duì)一個(gè)不知類(lèi)別的樣本找出最相似的近鄰用戶進(jìn)行分類(lèi),相似性計(jì)算是基于讀者評(píng)分,建立用戶評(píng)分矩陣,找出與目標(biāo)用戶相似的用戶群體,相似性計(jì)算的精準(zhǔn)度決定著圖書(shū)推薦質(zhì)量,通過(guò)Pear-son相似度公式計(jì)算,將數(shù)字圖書(shū)資源之間的鏈接權(quán)值Wu加入公式中,如公式(5)所示,ru為讀者對(duì)圖書(shū)資源評(píng)分的平均值,U(i)、U(j)分別為數(shù)字圖書(shū)資源i、j評(píng)分的讀者合集,操作如下:
(3)數(shù)字圖書(shū)推薦
圖書(shū)推薦通過(guò)鄰居集對(duì)圖書(shū)的評(píng)分,通過(guò)平均加權(quán)法,運(yùn)用上文公式(5)來(lái)預(yù)測(cè)目標(biāo)用戶u對(duì)圖書(shū)i的評(píng)分,進(jìn)而產(chǎn)生推薦。
本文采用商丘職業(yè)技術(shù)學(xué)院圖書(shū)館數(shù)字圖書(shū)資源庫(kù)中的數(shù)據(jù)集開(kāi)展實(shí)驗(yàn),從數(shù)字圖書(shū)資源庫(kù)中計(jì)算機(jī)、經(jīng)濟(jì)、政治、建筑等學(xué)科中選取100本數(shù)字圖書(shū)信息作為數(shù)據(jù)來(lái)源,請(qǐng)商丘職業(yè)技術(shù)學(xué)院不同專業(yè)、不同年級(jí)本、專科生100人對(duì)圖書(shū)進(jìn)行評(píng)分,收回有效評(píng)分9882條,無(wú)評(píng)分記錄或評(píng)分偏離有效評(píng)分范圍視為無(wú)效評(píng)分。圖書(shū)資源庫(kù)提供的數(shù)據(jù)信息包括數(shù)字圖書(shū)名稱、簡(jiǎn)介等,包含了圖書(shū)的關(guān)鍵詞和簡(jiǎn)要介紹,利用關(guān)鍵詞可以建立起圖書(shū)之間的關(guān)聯(lián)網(wǎng)絡(luò),在此基礎(chǔ)上,根據(jù)相關(guān)數(shù)據(jù)進(jìn)行訓(xùn)練和實(shí)驗(yàn)檢驗(yàn)。
平均絕對(duì)偏差MAE(Mean Absolute Error)體現(xiàn)預(yù)測(cè)評(píng)分與真實(shí)評(píng)分之間的偏差平均值,計(jì)算公式如式(6·)所示:
公式中,n為讀者數(shù)量,Pi為預(yù)測(cè)讀者評(píng)分集合{P1,P2,…,PN},ri為實(shí)際讀者評(píng)分集合{r1,r2,…,rN},計(jì)算出的MAE值越小,誤差越小,推薦效果越好。
該實(shí)驗(yàn)驗(yàn)證本文提出的基于關(guān)聯(lián)語(yǔ)義鏈的數(shù)字圖書(shū)推薦性能,實(shí)驗(yàn)設(shè)定樣本間隔數(shù)為20,鄰居數(shù)為10,通過(guò)計(jì)算Top-N推薦結(jié)果與協(xié)同過(guò)濾算法CF進(jìn)行對(duì)比,得出的MAE值如圖2所示,圖中為不同樣本數(shù)20-320個(gè)運(yùn)行結(jié)果,實(shí)驗(yàn)考慮了數(shù)據(jù)稀疏性對(duì)實(shí)驗(yàn)結(jié)果的影響。
圖2 樣本個(gè)數(shù)對(duì)應(yīng)模型的MAE
實(shí)驗(yàn)表明,基于關(guān)聯(lián)語(yǔ)義鏈的數(shù)字圖書(shū)推薦方法與協(xié)同過(guò)濾CF算法相比較,MAE值均最小,表明本文提出的數(shù)字圖書(shū)推薦方法的有效性,隨著已知評(píng)分?jǐn)?shù)據(jù)源的增加,MAE值不斷下降,預(yù)測(cè)質(zhì)量也越高,實(shí)驗(yàn)證明了該方法能夠有效挖掘讀者圖書(shū)隱性偏好,在一定程度上提高了數(shù)字圖書(shū)的推薦性能,獲得了較好的推薦效果。
挖掘讀者隱性圖書(shū)偏好,從海量的數(shù)字圖書(shū)資源中向讀者有效推薦具有重要意義。本文通過(guò)對(duì)語(yǔ)義化、語(yǔ)義關(guān)聯(lián)、關(guān)聯(lián)語(yǔ)義鏈的介紹,闡明了關(guān)聯(lián)語(yǔ)義鏈在圖書(shū)信息鏈接中的作用,結(jié)合協(xié)同過(guò)濾算法,給出了基于關(guān)聯(lián)語(yǔ)義鏈的數(shù)字圖書(shū)推薦方法,通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法與協(xié)同過(guò)濾算法相比較,MAE值均最小,表明該方法優(yōu)于協(xié)同過(guò)濾CF算法,具有更好的數(shù)字圖書(shū)推薦性能。