国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字圖書(shū)資源聚合及精準(zhǔn)化推薦方法研究*

2018-12-10 09:56:50吳彥文牛曉璇胡炎貴王馨悅何秀玲
數(shù)字圖書(shū)館論壇 2018年11期
關(guān)鍵詞:分類號(hào)語(yǔ)義耦合

吳彥文 牛曉璇 胡炎貴 王馨悅 何秀玲

?

數(shù)字圖書(shū)資源聚合及精準(zhǔn)化推薦方法研究*

吳彥文1牛曉璇1胡炎貴1王馨悅2何秀玲3

(1. 華中師范大學(xué)物理科學(xué)與技術(shù)學(xué)院,武漢 430079;2. 華中師范大學(xué)信息管理學(xué)院,武漢 430079;3. 華中師范大學(xué)國(guó)家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心,武漢 430079)

針對(duì)數(shù)字資源信息過(guò)載、信息異構(gòu)、資源推薦效果不理想等問(wèn)題,改進(jìn)傳統(tǒng)數(shù)字資源聚合模型和相似度計(jì)算方式,本文提出一種數(shù)字資源聚合模型,并融合協(xié)同過(guò)濾的推薦思想,利用該聚合模型進(jìn)行相似度計(jì)算得出資源和用戶的近鄰集合,基于此設(shè)計(jì)精準(zhǔn)化資源推薦算法,最后以館藏圖書(shū)資源為例對(duì)模型進(jìn)行驗(yàn)證。結(jié)果表明,本文構(gòu)建的方法能夠?qū)?shù)字資源進(jìn)行有效聚合,并挖掘圖書(shū)的語(yǔ)義信息,同時(shí)結(jié)合用戶興趣模型,為用戶提供精準(zhǔn)化的資源推薦。

數(shù)字資源聚合;作者耦合;語(yǔ)義網(wǎng);協(xié)同過(guò)濾

大數(shù)據(jù)時(shí)代,海量數(shù)字資源的爆炸增長(zhǎng)已經(jīng)成為不可逆轉(zhuǎn)的趨勢(shì),數(shù)字資源在豐富傳統(tǒng)紙媒資源的同時(shí),也帶來(lái)諸多問(wèn)題。如由于表現(xiàn)形式不同,不同類型資源可能包含相同信息,用戶在檢索時(shí)無(wú)法獲取所需信息;由于信息處理能力有限,用戶無(wú)法對(duì)包含海量信息的資源進(jìn)行有效整合、組織及內(nèi)化;面對(duì)海量數(shù)字資源,用戶在檢索所需信息時(shí)勢(shì)必會(huì)浪費(fèi)大量精力與時(shí)間,產(chǎn)生“信息迷航”。諸多問(wèn)題成為網(wǎng)絡(luò)信息組織與檢索的障礙,也在一定程度上降低了數(shù)字資源的附加價(jià)值及用戶吸引力。近年來(lái),國(guó)內(nèi)外學(xué)者將這一問(wèn)題的解決途徑聚焦在數(shù)字資源的重組及精準(zhǔn)化推薦上。然而,目前的數(shù)字推薦系統(tǒng)所使用的推薦方法角度較單一,且缺少多維度的圖書(shū)資源聚合與推薦。因此,如何有效地基于數(shù)字圖書(shū)資源進(jìn)行精準(zhǔn)化推薦,滿足各類用戶多元化的知識(shí)需求,成為當(dāng)下研究的熱點(diǎn)。

相關(guān)研究顯示,資源聚合能夠發(fā)現(xiàn)資源間潛在的聯(lián)系,通過(guò)系統(tǒng)整合、有效聚合及深度挖掘數(shù)字資源語(yǔ)義信息的途徑,形成一體化的知識(shí)聚合網(wǎng)絡(luò)[1];而精準(zhǔn)的推薦技術(shù)能夠智能化過(guò)濾冗余信息,深入挖掘用戶興趣偏好和資源訪問(wèn)行為,主動(dòng)向用戶進(jìn)行數(shù)字資源推薦,滿足用戶多元化的服務(wù)需求[2-3]。如Selamat等[4]通過(guò)語(yǔ)義網(wǎng)提取數(shù)字資源概念間的關(guān)聯(lián)形成樹(shù)形結(jié)構(gòu),為用戶提供知識(shí)檢索服務(wù);黃文碧[5]基于元數(shù)據(jù)關(guān)聯(lián)的數(shù)字資源聚合模型并為用戶進(jìn)行相關(guān)資源的推送服務(wù);嚴(yán)春子[6]提出一種公共文化數(shù)字資源聚合服務(wù)方法,將分散的數(shù)字資源予以整合,從而加速用戶獲取資源的過(guò)程;胡媛等[7]從知識(shí)導(dǎo)航服務(wù)、語(yǔ)義個(gè)性化檢索和信息集成推送3個(gè)層面研究數(shù)字圖書(shū)館社區(qū)集成推送服務(wù),達(dá)到一定的聚合與推薦效果;畢強(qiáng)等[8]通過(guò)構(gòu)建本體、語(yǔ)義相似度及譜聚類等方法,研究數(shù)字文獻(xiàn)資源聚合及服務(wù)推薦的流程,提升聚合質(zhì)量與推薦效果。因此,基于數(shù)字資源聚合進(jìn)行精準(zhǔn)化推薦已成為國(guó)內(nèi)外學(xué)者關(guān)注的熱點(diǎn)問(wèn)題。但前述相關(guān)研究中,缺乏對(duì)館藏圖書(shū)作者社會(huì)化群體信息的考慮,且資源推薦方法(如基于內(nèi)容的推薦、協(xié)同過(guò)濾推薦、基于矩陣分解等單一推薦技術(shù))會(huì)使結(jié)果片面,即在推薦質(zhì)量上,仍需進(jìn)一步改進(jìn)。

因此,本文提出一種基于數(shù)字資源聚合模型的多標(biāo)簽協(xié)同過(guò)濾推薦方法:首先,該方法將作者耦合分析、語(yǔ)義網(wǎng)技術(shù)引入數(shù)字資源聚合模型,以此模型作為計(jì)算依據(jù)來(lái)代替?zhèn)鹘y(tǒng)的相似度計(jì)算方式,產(chǎn)生基于作者群體和基于相似內(nèi)容的推薦資源;其次,結(jié)合用戶興趣模型產(chǎn)生基于相似用戶的推薦資源;最后,融合3種推薦結(jié)果,實(shí)現(xiàn)圖書(shū)推薦。實(shí)驗(yàn)結(jié)果表明,該方法融合作者-資源-用戶3個(gè)角度,提高了圖書(shū)推薦的新穎性和精準(zhǔn)度。

1 資源聚合與推薦相關(guān)技術(shù)

1.1 作者耦合分析

館藏資源包含圖書(shū)、報(bào)紙、期刊等多種數(shù)字資源,而這些資源共同的橋梁為作者本身。作者耦合關(guān)系通常包括作者引文耦合和作者關(guān)鍵詞耦合等,單一選擇作者引文或作者關(guān)鍵詞無(wú)法顯示某一領(lǐng)域知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)的全貌;如果將多個(gè)耦合結(jié)合使用,則可以更好地研究一個(gè)領(lǐng)域的信息結(jié)構(gòu)全貌[9],并在此基礎(chǔ)上更精確地度量作者耦合度,為用戶帶來(lái)相似作者群體的資源推薦,提高推薦結(jié)果的新穎度。考慮到館藏圖書(shū)中并非所有作者均有索引文獻(xiàn),作者引文耦合存在關(guān)系網(wǎng)絡(luò)稀疏的局限性,因此,本文選擇作者分類號(hào)耦合與作者關(guān)鍵詞耦合構(gòu)建作者耦合分析網(wǎng)絡(luò)。

1.2 語(yǔ)義網(wǎng)技術(shù)

由于存在半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),館藏?cái)?shù)字資源間缺乏相互的關(guān)聯(lián)關(guān)系,使得數(shù)字資源形成一個(gè)個(gè)“孤島”。而語(yǔ)義網(wǎng)技術(shù)可以利用語(yǔ)義標(biāo)簽將離散的數(shù)字資源連接成緊密的、結(jié)構(gòu)化的知識(shí)關(guān)聯(lián)網(wǎng)絡(luò),優(yōu)化數(shù)字資源組織結(jié)構(gòu)并提高個(gè)性化推薦的水平和效率。其中,語(yǔ)義相似度是構(gòu)建語(yǔ)義網(wǎng)的關(guān)鍵。一方面,基于本體的概念語(yǔ)義相似度一般通過(guò)本體概念的內(nèi)容、屬性或距離進(jìn)行相似度計(jì)算,但本體所包含的語(yǔ)義信息相對(duì)較復(fù)雜,不能充分表征其概念的語(yǔ)義內(nèi)涵,因此計(jì)算精度不高;另一方面,基于語(yǔ)義詞典的語(yǔ)義相似度計(jì)算方法一般基于完備的英文或中文語(yǔ)義詞典,如WordNet、FrameNet、MindNet等英文詞典和《知網(wǎng)》《同義詞詞林》等中文詞典[10]??紤]到基于《同義詞詞林》的概念語(yǔ)義相似度計(jì)算方法更符合人們對(duì)詞匯的理解方式[11],因此本文采用基于《同義詞詞林》的語(yǔ)義相似度計(jì)算方法構(gòu)建語(yǔ)義網(wǎng)。

1.3 個(gè)性化推薦算法

數(shù)字資源聚合是對(duì)異構(gòu)數(shù)字資源的重構(gòu)和再組織,其中一個(gè)重要的目的是進(jìn)行精準(zhǔn)化的資源推薦,代替用戶發(fā)現(xiàn)其潛在需求的數(shù)字資源,根據(jù)用戶興趣偏好進(jìn)行智能推薦。個(gè)性化推薦算法主要有基于內(nèi)容的推薦、協(xié)同過(guò)濾推薦及組合推薦算法[12]。

目前已經(jīng)有許多學(xué)者將個(gè)性化推薦應(yīng)用到數(shù)字資源推薦中。國(guó)外學(xué)者Shelton等[13]基于內(nèi)容的文本相似性對(duì)用戶進(jìn)行數(shù)字圖書(shū)館資源推薦,創(chuàng)建有效的資源檢索系統(tǒng);Tsuji等[14]基于圖書(shū)館的借閱信息和圖書(shū)內(nèi)容進(jìn)行圖書(shū)相似度計(jì)算,并采取SVM進(jìn)行圖書(shū)資源的推薦;Fedelucio等[15]提出一種基于內(nèi)容的跨語(yǔ)言推薦系統(tǒng),使用維基百科和BabelNet構(gòu)建基于概念的內(nèi)容表示。在國(guó)內(nèi),周之誠(chéng)[16]基于用戶意圖聚類進(jìn)行數(shù)字資源推薦,其本質(zhì)上使用的是基于用戶的協(xié)同過(guò)濾推薦思想;周玲元等[17]融合用戶情境改進(jìn)了用戶相似度計(jì)算,提出基于情景感知的協(xié)同過(guò)濾推薦算法;曾子明等[18]利用用戶動(dòng)態(tài)的興趣變化對(duì)用戶-資源評(píng)分矩陣進(jìn)行數(shù)據(jù)填充,并結(jié)合基于用戶的協(xié)同過(guò)濾算法進(jìn)行個(gè)性化推薦。

由此可見(jiàn),①在數(shù)字資源推薦系統(tǒng)中推薦技術(shù)大多為基于內(nèi)容、基于用戶或項(xiàng)目的協(xié)同過(guò)濾的方法,推薦的資源角度較單一;②僅按照?qǐng)D書(shū)文本相似性進(jìn)行資源推薦會(huì)使推薦結(jié)果越來(lái)越狹窄,難以給予用戶新穎性的閱讀感受;③推薦技術(shù)對(duì)于數(shù)字資源的應(yīng)用,主要集中以圖書(shū)為單位進(jìn)行的推薦,用戶所需的知識(shí)服務(wù)并不全部存在于一本圖書(shū)中,因此缺少對(duì)圖書(shū)資源語(yǔ)義上的深層融合。

本文針對(duì)以上問(wèn)題,從多個(gè)角度出發(fā),結(jié)合基于多標(biāo)簽的協(xié)同過(guò)濾推薦算法,將相似作者、相似內(nèi)容及相似用戶多角度的數(shù)字資源同時(shí)考慮,并借助資源聚合模型改進(jìn)傳統(tǒng)的相似度計(jì)算方式,為用戶進(jìn)行精準(zhǔn)化的資源推薦。

2 數(shù)字資源聚合及推薦算法流程

為提高資源聚合度和推薦準(zhǔn)確性,本文設(shè)計(jì)了數(shù)字資源聚合及精準(zhǔn)化推薦框架(見(jiàn)圖1),具體步驟如下。

(1)基于作者耦合分析計(jì)算作者間的關(guān)聯(lián)度,構(gòu)建作者關(guān)聯(lián)度矩陣;

(2)基于語(yǔ)義網(wǎng)計(jì)算資源間的語(yǔ)義相似度,構(gòu)建資源語(yǔ)義相似度矩陣;

(3)通過(guò)用戶歷史行為構(gòu)建用戶興趣偏好模型,緩解數(shù)據(jù)集的稀疏性并計(jì)算用戶相似度以構(gòu)建用戶相似度矩陣;

(4)結(jié)合協(xié)同過(guò)濾和社會(huì)化網(wǎng)絡(luò)思想,利用作者關(guān)聯(lián)度矩陣、資源相似度矩陣及用戶相似度矩陣產(chǎn)生相似作者資源、相似內(nèi)容資源及相似用戶資源3個(gè)標(biāo)簽的推薦資源候選集合;

(5)按照加權(quán)計(jì)算的方法融合3個(gè)標(biāo)簽的推薦結(jié)果,降序排列后選取前N個(gè)資源推薦給目標(biāo)用戶。

2.1 作者關(guān)聯(lián)度計(jì)算

借鑒學(xué)術(shù)論文的作者分類號(hào)耦合和作者關(guān)鍵詞耦合,本文提出基于數(shù)字圖書(shū)資源的作者耦合分析方法:使用2位作者分類號(hào)集合中相同的數(shù)量來(lái)決定作者分類號(hào)的耦合強(qiáng)度,而作者關(guān)鍵詞集合中相同關(guān)鍵詞的數(shù)量決定了作者關(guān)鍵詞耦合強(qiáng)度[19]。由于每位作者的圖書(shū)遠(yuǎn)不及論文發(fā)表的數(shù)量,單純按照作者分類號(hào)的計(jì)量方法會(huì)造成網(wǎng)絡(luò)稀疏,因此本文改進(jìn)文獻(xiàn)[19]中的作者分類號(hào)方法,引入分類號(hào)級(jí)別權(quán)重。

(1)作者分類號(hào)耦合強(qiáng)度計(jì)算。給定作者屬性集合,分類號(hào)集合為C={1,2,3,…,c},關(guān)鍵詞集合為K={1,2,3,…,k},采用VBA自建程序建立作者和作者的耦合矩陣C×m?;诖?,本文提出基于作者耦合強(qiáng)度的作者關(guān)聯(lián)度計(jì)算方法見(jiàn)公式(1)。

其中,C代表作者和作者的分類號(hào)耦合強(qiáng)度;代表作者圖書(shū)分類號(hào)最高相同級(jí)數(shù),取值范圍為{1,2,3,4,5},分別對(duì)應(yīng)一級(jí)至五級(jí)分類號(hào);取值范圍為{0.2,0.6,0.8,0.96,1},其值分別對(duì)應(yīng)分類號(hào)最高相同級(jí)數(shù)的權(quán)重;(c)是作者圖書(shū)相應(yīng)級(jí)數(shù)中相同的分類號(hào)數(shù)量。例如,作者的分類號(hào)集合為{G02,G03,G07,TP23},作者的分類號(hào)集合為{G02,G03,G235,TP213},傳統(tǒng)分類號(hào)耦合強(qiáng)度計(jì)算得出為2;對(duì)不足五級(jí)的分類號(hào)用“0”補(bǔ)足以便于計(jì)算,計(jì)算得到改進(jìn)后的耦合強(qiáng)度為1×2+0.2×1+0.8×1=3,直觀上可以看出耦合強(qiáng)度量化更符合實(shí)際情況。

(2)消除分類號(hào)的規(guī)模差異影響。為消除作者的分類號(hào)、關(guān)鍵詞規(guī)模差異所帶來(lái)的影響,采取對(duì)耦合強(qiáng)度進(jìn)行標(biāo)準(zhǔn)化的辦法解決此問(wèn)題。Salton標(biāo)準(zhǔn)化公式見(jiàn)公式(2)。

其中,C是作者集合中包含的分類號(hào)總數(shù)量,C是作者集合中包含的分類號(hào)總數(shù)量。

(3)按照同樣方法標(biāo)準(zhǔn)化作者關(guān)鍵詞耦合強(qiáng)度,其構(gòu)建方法在此不再贅述。按照加權(quán)平均的方法計(jì)算作者的關(guān)聯(lián)度S見(jiàn)公式(3)。

其中,C'為作者分類號(hào)耦合強(qiáng)度,K'為作者關(guān)鍵詞耦合強(qiáng)度,和為權(quán)重值。

2.2 語(yǔ)義相似度計(jì)算

由于圖書(shū)具有超高維的特點(diǎn),對(duì)整本書(shū)進(jìn)行關(guān)鍵詞選取勢(shì)必會(huì)大幅增加算法的時(shí)間復(fù)雜度。圖書(shū)的標(biāo)題、大綱等知識(shí)描述信息濃縮了整本圖書(shū)的語(yǔ)義信息,因此本文利用圖書(shū)的知識(shí)描述信息進(jìn)行關(guān)鍵詞的選取,具體構(gòu)建步驟如下。

(1)基于TF-IDF技術(shù)對(duì)圖書(shū)的知識(shí)描述信息進(jìn)行關(guān)鍵詞抽取。選取詞頻最高且區(qū)分度最高的前k個(gè)關(guān)鍵詞,并表示為《同義詞詞林》6層編碼形式,如關(guān)鍵詞Ba03C01和Ba03A02。

(2)語(yǔ)義相似度計(jì)算。本文采用的是《同義詞詞林(擴(kuò)展板)》,采用六層編碼原則,具體見(jiàn)表1。

計(jì)算關(guān)鍵詞的語(yǔ)義相似度構(gòu)成語(yǔ)義描述。關(guān)鍵詞集合A1和A2的基于《同義詞詞林(擴(kuò)展板)》的語(yǔ)義相似度(A1,A2)計(jì)算見(jiàn)公式(4)。

其中,dis(A1,A2)是由兩個(gè)詞的最近共同祖先所在層數(shù)決定的,參考文獻(xiàn)[11]提出的相似度計(jì)算方法,取dis(A1,A2)?{0.1,0.65,0.8,0.9,0.96}其值分別對(duì)應(yīng)最近共同祖先所在層數(shù)從小到大的取值。如關(guān)鍵詞Ba03C01和Ba03A02,其最近共同祖先所在層數(shù)為3,則dis(A1,A2)=0.8。是同義詞詞林中分支層的總節(jié)點(diǎn)個(gè)數(shù);是兩關(guān)鍵詞所在分支間的距離。

(3)文檔匹配。將圖書(shū)看作一個(gè)文檔,對(duì)文檔進(jìn)行語(yǔ)義描述匹配。在判斷匹配是否成功時(shí),需要對(duì)關(guān)鍵詞匹配和知識(shí)節(jié)點(diǎn)匹配取一個(gè)閾值,若大于該閾值則匹配成功。根據(jù)語(yǔ)義相似度匹配與之相似的圖書(shū)列表構(gòu)成關(guān)聯(lián)數(shù)據(jù),由此達(dá)到數(shù)字資源語(yǔ)義互聯(lián)的目標(biāo)。

2.3 基于多標(biāo)簽的推薦算法

2.3.1 用戶興趣模型構(gòu)建

對(duì)用戶進(jìn)行資源推薦需要構(gòu)建用戶興趣模型,本文通過(guò)用戶-資源評(píng)分矩陣來(lái)表示用戶的興趣模型,具體描述見(jiàn)公式(5)。

其中,s(u∈{1,…,},r∈{1,…,})是用戶對(duì)數(shù)字資源的評(píng)分值,評(píng)分越高,用戶對(duì)數(shù)字資源的偏好程度越大,反之越小。

目標(biāo)用戶對(duì)資源的評(píng)分較少,由此帶來(lái)數(shù)據(jù)稀疏的問(wèn)題,因此引入用戶行為進(jìn)行數(shù)據(jù)填充。本文將用戶對(duì)各種圖書(shū)的搜索、瀏覽、收藏、下載等行為量化為評(píng)分值豐富S×n中的數(shù)據(jù),以5分制評(píng)分為例,其行為量化評(píng)分表見(jiàn)表2。

2.3.2 基于相似作者的推薦

基于作者耦合對(duì)用戶進(jìn)行資源推薦的基本思想:首先獲取目標(biāo)用戶已評(píng)分的圖書(shū)作者,構(gòu)成作者群體集合,根據(jù)2.1節(jié)所述的作者關(guān)聯(lián)度降序排列,取前名作者的圖書(shū)資源構(gòu)成聚類中心AA,此時(shí)AA表示與目標(biāo)作者群體最相似的作者所屬圖書(shū)資源集合;其次,對(duì)圖書(shū)資源集合中的資源評(píng)分進(jìn)行預(yù)測(cè)并降序排列;最后,選取前個(gè)資源構(gòu)成基于相似作者的推薦候選集合A。

2.3.3 基于相似用戶的推薦

相似用戶的資源推薦是基于用戶的協(xié)同過(guò)濾推薦,其基本思想是計(jì)算用戶相似度并構(gòu)建用戶相似度矩陣,選取前個(gè)相似用戶評(píng)分過(guò)的資源構(gòu)成推薦集合,預(yù)測(cè)用戶∈對(duì)資源的評(píng)分,對(duì)評(píng)分進(jìn)行降序排列并選取前個(gè)資源推薦給用戶。

2.3.4 基于相似內(nèi)容的推薦

相似內(nèi)容的資源推薦是基于內(nèi)容的協(xié)同過(guò)濾推薦,其基本思想是構(gòu)建并維護(hù)資源相似度矩陣,選取前個(gè)目標(biāo)資源的最近鄰居構(gòu)成推薦集合,預(yù)測(cè)用戶對(duì)資源的評(píng)分,對(duì)評(píng)分進(jìn)行降序排列并選取前個(gè)資源推薦給用戶。

2.4 推薦結(jié)果生成

經(jīng)過(guò)上述計(jì)算,產(chǎn)生目標(biāo)用戶u的基于相似作者、相似用戶及相似內(nèi)容的3種資源推薦候選集,這3種結(jié)果分別對(duì)應(yīng)館藏資源系統(tǒng)中的作者、用戶、資源3種標(biāo)簽的資源,即社會(huì)化群體數(shù)字資源、用戶偏好數(shù)字資源及相似內(nèi)容數(shù)字資源,形成作者-用戶-資源多元化綜合知識(shí)網(wǎng)絡(luò)。這3種角度的重要程度相同,因此按照加權(quán)平均的方法對(duì)推薦候選集的預(yù)測(cè)評(píng)分進(jìn)行歸一化處理并加權(quán)計(jì)算。融合3種推薦候選集合后按照評(píng)分降序排列,選取前n個(gè)資源作為最終的推薦結(jié)果推薦給目標(biāo)用戶u。本文最終向用戶推薦前10個(gè)圖書(shū)資源。

3 實(shí)驗(yàn)過(guò)程及結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

為驗(yàn)證推薦方法的有效性,選取圖書(shū)館系統(tǒng)后臺(tái)圖書(shū)評(píng)分及借閱記錄數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析,時(shí)間跨度為2016年1月—2017年12月,經(jīng)過(guò)人工瀏覽的方式隨機(jī)選取252個(gè)用戶對(duì)500本圖書(shū)的評(píng)分信息,共得到711條日志信息記錄,每本圖書(shū)評(píng)分?jǐn)?shù)值由1~5分不等。將這些數(shù)據(jù)按照8:2的比例劃分為訓(xùn)練集和測(cè)試集,80%為訓(xùn)練集,20%為測(cè)試集,將數(shù)據(jù)以SQL文件的格式導(dǎo)入數(shù)據(jù)庫(kù)。按照表2所示的用戶行為量化評(píng)分表對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)填充,計(jì)算得出填充前的數(shù)據(jù)稀疏度為93.64%,填充后的數(shù)據(jù)稀疏度為11.86%??梢钥闯觯脩粜袨榱炕椒▽?duì)數(shù)據(jù)稀疏起到一定的緩解作用。

3.2 作者耦合及關(guān)聯(lián)度計(jì)算

圖書(shū)的主編信息一般代表該書(shū)在作者層面上的語(yǔ)義信息,同時(shí)以主編作為圖書(shū)作者也降低了計(jì)量和分析的難度,因此本文取主編為圖書(shū)作者,提取作者分類號(hào)集合和作者關(guān)鍵詞集合,其中作者關(guān)鍵詞包含作者的社會(huì)身份信息、研究方向、流派等,部分結(jié)果見(jiàn)表3。使用VBA自建程序構(gòu)建作者耦合矩陣,同時(shí)使用Python對(duì)公式(2)~(3)編程計(jì)算作者之間的關(guān)聯(lián)度。部分結(jié)果見(jiàn)表4。

3.3 語(yǔ)義網(wǎng)構(gòu)建及相似度計(jì)算

每個(gè)數(shù)字資源都可以看作一個(gè)文檔,文檔的關(guān)鍵詞選取不規(guī)范或不科學(xué)則會(huì)導(dǎo)致其難以反映圖書(shū)的語(yǔ)義特征。本文利用TF-IDF技術(shù)對(duì)文檔進(jìn)行詞頻統(tǒng)計(jì)與分析,從中選取詞頻較高且能表征語(yǔ)義內(nèi)涵的詞匯作為文檔的關(guān)鍵詞,并將其記錄入庫(kù)。利用Python語(yǔ)言進(jìn)行編程計(jì)算資源間的語(yǔ)義相似度。部分計(jì)算結(jié)果見(jiàn)表5。

3.4 用戶興趣模型構(gòu)建及相似度計(jì)算

用戶相似度矩陣部分計(jì)算結(jié)果見(jiàn)表6。

在上述得出作者關(guān)聯(lián)度矩陣、資源間語(yǔ)義相似度矩陣及用戶相似度矩陣的基礎(chǔ)上,產(chǎn)生基于相似作者、相似內(nèi)容及相似用戶的資源推薦,融合3種標(biāo)簽的推薦候選集合形成最終的資源推薦結(jié)果。

3.5 推薦結(jié)果分析

為合理評(píng)估本文提出的推薦方法的準(zhǔn)確性以及確定合理的最近鄰居數(shù)目,本文使用平均絕對(duì)偏差MAE[22]來(lái)衡量推薦結(jié)果的準(zhǔn)確性,分別計(jì)算不同推薦算法(基于用戶的協(xié)同過(guò)濾推薦、基于項(xiàng)目的協(xié)同過(guò)濾推薦等)的MAE值并進(jìn)行比較。為方便描述,本文提出的多標(biāo)簽融合推薦算法記為multi-CF,基于相似用戶的推薦記為U-CF,基于相似內(nèi)容的推薦記為I-CF,基于相似作者的推薦記為A-CF。MAE值的比較結(jié)果見(jiàn)圖2。

隨著最近鄰居數(shù)目的增多,各個(gè)推薦算法的MAE值逐漸下降,說(shuō)明選擇較多的最近鄰居數(shù)目可以對(duì)資源進(jìn)行聚類并提高推薦算法的準(zhǔn)確度;當(dāng)最近鄰居數(shù)目進(jìn)一步增多時(shí),4種推薦算法的MAE值均出現(xiàn)不同程度的上升,這是由于過(guò)多的最近鄰居在實(shí)際聚類情況下產(chǎn)生了失真,某些不必要的離群點(diǎn)也被聚類到計(jì)算過(guò)程。可以看出,同其他3種推薦算法相比較,當(dāng)最近鄰居數(shù)目=15時(shí),本文提出的多標(biāo)簽資源推薦算法的MAE值最小,這說(shuō)明該方法可以有效聚合數(shù)字資源并提高算法推薦準(zhǔn)確性,但其對(duì)值較敏感,因此在推薦系統(tǒng)的實(shí)際應(yīng)用中需要進(jìn)一步選取適當(dāng)?shù)木垲悢?shù)目。

另外,本文選取了查全率(Precision)、查準(zhǔn)率(Recall)及值作為評(píng)價(jià)指標(biāo),進(jìn)一步探究推薦算法的準(zhǔn)確度。本文提出的多標(biāo)簽推薦算法與其他3種方法比較的結(jié)果見(jiàn)圖3。相比較其他3種協(xié)同過(guò)濾的推薦算法,由于算法考慮到了不同語(yǔ)義類型資源,本文提出的算法在查準(zhǔn)率、值上均有良好的表現(xiàn),證明本文提出的基于數(shù)字資源聚合的融合協(xié)同過(guò)濾推薦算法提高了推薦的準(zhǔn)確性。

4 結(jié)語(yǔ)

本文嘗試將作者耦合、語(yǔ)義網(wǎng)、協(xié)同過(guò)濾推薦等方法融入圖書(shū)數(shù)字資源推薦框架,提出一種基于協(xié)同過(guò)濾思想的多標(biāo)簽融合資源推薦方法;并以館藏圖書(shū)資源為例,通過(guò)構(gòu)建的資源聚合方法計(jì)算作者關(guān)聯(lián)度、用戶相似度及資源相似度并獲得作者關(guān)聯(lián)度矩陣、用戶相似度矩陣及資源相似度矩陣;采用協(xié)同過(guò)濾推薦方法,在數(shù)據(jù)集中查找相似性最高的最近鄰居用戶和最近鄰居資源,并向用戶推薦融合相似作者、相似用戶及相似內(nèi)容3個(gè)標(biāo)簽的數(shù)字資源。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的數(shù)字資源聚合模型及資源推薦方法,既通過(guò)資源聚合挖掘數(shù)據(jù)的語(yǔ)義信息從而提高了相似度計(jì)算的準(zhǔn)確性,使推薦結(jié)果具有精準(zhǔn)化及全面化等特點(diǎn),還能有效緩解數(shù)據(jù)稀疏的問(wèn)題及提高推薦的新穎性,較大程度地提高了資源推薦的精準(zhǔn)性和資源質(zhì)量。

不過(guò)本研究仍有一些不足,如實(shí)驗(yàn)未考慮基于作者主題的語(yǔ)義模型,這必然會(huì)對(duì)實(shí)驗(yàn)結(jié)果有所影響,由于采用協(xié)同過(guò)濾思想需要用戶提供行為數(shù)據(jù),因此尚未解決資源推薦“冷啟動(dòng)”的問(wèn)題。后續(xù)將建立基于作者主題的LDA模型進(jìn)一步挖掘作者層面的語(yǔ)義信息,完善語(yǔ)義網(wǎng)的概念屬性及構(gòu)建方法,豐富數(shù)字資源并合理選取關(guān)鍵詞,解決“冷啟動(dòng)”問(wèn)題,進(jìn)一步提高數(shù)字資源聚合效果與推薦的質(zhì)量,滿足用戶精準(zhǔn)化的服務(wù)需求。

[1] 邱均平,王菲菲. 基于共現(xiàn)與耦合的館藏文獻(xiàn)資源深度聚合研究探析[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2013,39(3):25-33.

[2] 朱白. 數(shù)字圖書(shū)館推薦系統(tǒng)協(xié)同過(guò)濾算法改進(jìn)及實(shí)證分析[J]. 圖書(shū)情報(bào)工作,2017,61(9):130-134.

[3] 吳曉英. 基于概率矩陣分解的館藏?cái)?shù)字資源智能推薦方法研究[J]. 情報(bào)理論與實(shí)踐,2014,37(11):94-97.

[4] SELAMAT M H,ISA W M W,HAMID J A,et al. PTree:A tool to draw tree for Concept Relation Tree(CRT)[EB/OL].[2018-10-20]. citeseerx.ist.psu.edu/viewdoc/download;jsessionid=038304D5120B2BCE2B6639B9C2DFACD1?doi=10.1.1.402.8265&rep=rep1&type=pdf.

[5] 黃文碧. 基于元數(shù)據(jù)關(guān)聯(lián)的館藏資源聚合研究[J]. 情報(bào)理論與實(shí)踐,2015,38(4):74-79.

[6] 嚴(yán)春子. 公共文化數(shù)字資源聚合服務(wù)平臺(tái)建設(shè)[J]. 圖書(shū)館學(xué)研究,2016(11):45-47.

[7] 胡媛,陳琳,艾文華. 基于知識(shí)聚合的數(shù)字圖書(shū)館社區(qū)集成推送服務(wù)組織[J]. 圖書(shū)館學(xué)研究,2017(19):9-17.

[8] 畢強(qiáng),劉健. 基于領(lǐng)域本體的數(shù)字文獻(xiàn)資源聚合及服務(wù)推薦方法研究[J]. 情報(bào)學(xué)報(bào),2017,36(5):452-460.

[9] ZHAO D Z,STROTMANN A. Evolution of research activities and intellectual influences in information science 1996—2005:Introducing author bibliographic-coupling analysis[J]. Journal of the American Society for Information Science and Technology,2008,59(13):2070-2086.

[10] 劉健. 數(shù)字圖書(shū)館資源聚合與服務(wù)推薦研究[D]. 長(zhǎng)春:吉林大學(xué),2017.

[11] 田久樂(lè),趙蔚. 基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J]. 吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,28(6):602-608.

[12] 熊回香,竇燕. 基于LDA主題模型的標(biāo)簽混合推薦研究[J]. 圖書(shū)情報(bào)工作,2018,62(3):104-113.

[13] SHELTON B E,DUFFIN J,WANG Y X,et al. Linking open course wares and open education resources:creating an effective search and recommendation system[J]. Procedia Computer Science,2010,1(2):2865-2870.

[14] TSUJI K,TAKIZAWA N,SATO S,et al. Book recommendation based on library loan records and bibliographic information[J]. Procedia-Social and Behavioral Sciences,2014,147:478-486.

[15] FEDELUCIO N,PIERPAOLO B,CATALDO M,et al. Concept-based item representations for a cross-lingual content-based recommendation process[J]. Information Sciences,2016,374:15-31.

[16] 周之誠(chéng). 用戶意圖聚類的數(shù)字資源推薦方法[J]. 情報(bào)理論與實(shí)踐,2011,34(6):116-119.

[17] 周玲元,段隆振. 數(shù)字圖書(shū)館聯(lián)盟中基于情境感知的個(gè)性化推薦服務(wù)研究[J]. 圖書(shū)館理論與實(shí)踐,2014(7):67-69,87.

[18] 曾子明,金鵬. 基于用戶興趣變化的數(shù)字圖書(shū)館知識(shí)推薦服務(wù)研究[J]. 圖書(shū)館論壇,2016,36(1):94-99.

[19] 溫芳芳. 作者分類號(hào)耦合分析與作者關(guān)鍵詞耦合分析的比較研究[J]. 情報(bào)雜志,2017,36(11):186-191.

[20] 吳彥文,劉闖. 基于用戶偏好和可疑度的推薦方法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2018(12):1-2.

Research on Precision Recommendation Algorithm for Digital Resource with Integration Method

WU YanWen1NIU XiaoXuan1HU YanGui1WANG XinYue2He XiuLing3

( 1. School of Physical Science and Technology, Central China Normal University, Wuhan 430079, China; 2. School of Information Management, Central China Normal University, Wuhan 430079, China; 3. National Engineering Research Center for e-Learning, Central China Normal University, Wuhan 430079, China )

In view of the problems of information overload, heterogeneous information and unsatisfactory recommendation effect of digital resources, this paper aims to improve the traditional digital resource integration model and similarity calculation method, and combine a multi-label collaborative filtering methods to improve the accuracy of recommendation. Based on the idea of collaborative filtering recommendation, a digital resource integration method is used to calculate the similarity then find close neighbors of resources and users. Based on this, the precision of resource recommendation algorithm is constructed. Finally, the collection of library resources is taken as an example to verify the model’s effectiveness. The results show that the method can effectively aggregate the digital resources, excavate the semantic information of books, and combine the user interest model to provide the users with accurate resource recommendations.

Integration of Digital Resource; Author Coupling; Semantic Network; Collaborative Filtering

G250

10.3772/j.issn.1673-2286.2018.11.002

(2018-11-03)

吳彥文,女,1971年生,博士,教授,研究方向:數(shù)字圖書(shū)館、信息資源管理。

牛曉璇,女,1994年生,碩士研究生,通信作者,研究方向:數(shù)字圖書(shū)館、信息資源管理,E-mail:1467193584@qq.com。

胡炎貴,男,1991年生,碩士研究生,研究方向:數(shù)字圖書(shū)館、信息資源管理。

王馨悅,女,1998年生,本科生,研究方向:信息資源管理。

何秀玲,女,1971年生,博士,教授,研究方向:數(shù)字圖書(shū)館。

*本研究得到教育部人文社會(huì)科學(xué)研究規(guī)劃基金項(xiàng)目“智慧教室環(huán)境下課堂交互有效性量化研究”(編號(hào):17YJA880030)資助。

猜你喜歡
分類號(hào)語(yǔ)義耦合
非Lipschitz條件下超前帶跳倒向耦合隨機(jī)微分方程的Wong-Zakai逼近
語(yǔ)言與語(yǔ)義
A Study on the Change and Developmentof English Vocabulary
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
基于“殼-固”耦合方法模擬焊接裝配
大型鑄鍛件(2015年5期)2015-12-16 11:43:20
Translation on Deixis in English and Chinese
認(rèn)知范疇模糊與語(yǔ)義模糊
The law of exercise applies on individual behavior change development
求解奇異攝動(dòng)Volterra積分微分方程的LDG-CFEM耦合方法
非線性耦合KdV方程組的精確解
龙海市| 嘉定区| 平远县| 广州市| 含山县| 陇南市| 博罗县| 云和县| 夏河县| 宜都市| 大名县| 宣汉县| SHOW| 德清县| 临泉县| 湘潭市| 崇左市| 恩平市| 洛川县| 徐水县| 康乐县| 井研县| 内乡县| 濮阳县| 旌德县| 洮南市| 鹿泉市| 彭山县| 德州市| 乐安县| 清水河县| 芒康县| 盐边县| 和龙市| 外汇| 平舆县| 福贡县| 望谟县| 平乡县| 新竹市| 融水|