柳益君 何勝 李仁璞 吳智勤 武群輝
摘 要 為了滿足大數(shù)據(jù)環(huán)境下高校圖書館用戶對(duì)于結(jié)果多樣性的個(gè)性化推薦服務(wù)的需求,提出高校圖書館大數(shù)據(jù)應(yīng)用策略和應(yīng)用方案。將大規(guī)模網(wǎng)絡(luò)分析、大數(shù)據(jù)挖掘和Hadoop云計(jì)算技術(shù)作為溝通應(yīng)用需求和用戶行為大數(shù)據(jù)應(yīng)用的核心方法和重要技術(shù)工具。在基于Hadoop云平臺(tái)的應(yīng)用方案中,使用大規(guī)模網(wǎng)絡(luò)分析方法發(fā)現(xiàn)用戶的多樣主題興趣,使用大數(shù)據(jù)挖掘方法發(fā)現(xiàn)用戶的多樣情境興趣,進(jìn)而提供結(jié)果多樣性的個(gè)性化推薦服務(wù)。
關(guān)鍵詞 高校圖書館 大數(shù)據(jù) 個(gè)性化推薦 多樣性
分類號(hào) G250.76
The Research on the Application of University Library Big Data for Diverse Personalized Recommendation Services
Liu Yijun, He Sheng, Li Renpu, Wu Zhiqin, Wu Qunhui
Abstract In order to meet the needs of university library users in the big data environment for the personalized recommendation services with diverse results, the application strategy and application scheme of university library big data are proposed. The large-scale network analysis, the big data mining and the Hadoop cloud computing technology are used as core methods and important technical tools to connect the application requirements and the application of user behavior big data. In the application scheme based on the Hadoop cloud platform, the users diverse topic interests are discovered by the method of large-scale network analysis and the users diverse interests are discovered by the method of big data mining to provide the personalized recommendation services with diverse results.
Keywords University libraries. Big data. Personalized recommendation. Diversity.
1 高校圖書館知識(shí)服務(wù)中的多樣性個(gè)性化推薦問題
1.1 個(gè)性化推薦系統(tǒng)的多樣性評(píng)價(jià)指標(biāo)
目前,個(gè)性化推薦系統(tǒng)已經(jīng)廣泛應(yīng)用于電子商務(wù)、電影和視頻網(wǎng)站、圖書館電子資源服務(wù)等領(lǐng)域,用以解決信息過載問題。用戶滿意度、準(zhǔn)確率是推薦系統(tǒng)的重要傳統(tǒng)評(píng)測(cè)指標(biāo)。用戶是推薦系統(tǒng)的重要參與者,他們的滿意度是推薦系統(tǒng)最重要的評(píng)測(cè)指標(biāo)。但是,用戶滿意度不能離線計(jì)算,只能通過用戶調(diào)查或者在線實(shí)驗(yàn)獲得。預(yù)測(cè)準(zhǔn)確率是推薦系統(tǒng)最重要的離線評(píng)測(cè)指標(biāo),該指標(biāo)指示推薦系統(tǒng)或推薦算法預(yù)測(cè)用戶行為的能力。但是高準(zhǔn)確率并不能保證用戶的高滿意度。近年來,為了全面提高用戶滿意度,學(xué)者們提出了多樣性、覆蓋率、新穎性、驚喜度等評(píng)測(cè)指標(biāo)。用戶的興趣是多樣的,在教學(xué)視頻網(wǎng)站中,用戶可能既喜歡看《數(shù)據(jù)結(jié)構(gòu)》一類的計(jì)算機(jī)類課程,也喜歡《高等教育學(xué)》一類的教育類課程。為了滿足用戶廣泛的興趣,推薦列表需要能夠覆蓋用戶的多樣興趣,即推薦結(jié)果需要具有多樣性[1]。結(jié)果多樣性的個(gè)性化推薦成為推薦系統(tǒng)領(lǐng)域的研究熱點(diǎn)。
周濤[2]指出,推薦的多樣性與準(zhǔn)確性存在兩難困境,但也有研究者設(shè)計(jì)算法時(shí)便考慮到兩者,使兩者都得以明顯提高。多樣性和準(zhǔn)確性之間盡管存在競(jìng)爭(zhēng),但是兩者之間關(guān)系錯(cuò)綜復(fù)雜,在實(shí)踐中可以彼此平衡、共同提高。要提高推薦結(jié)果的多樣性而不失準(zhǔn)確性,不僅需要提取用戶的顯性興趣,還需要發(fā)現(xiàn)用戶的多樣隱性興趣和廣泛深層需求。
1.2 高校圖書館多樣性個(gè)性化推薦服務(wù)的需求
高等院校是國家知識(shí)創(chuàng)新、科技創(chuàng)新系統(tǒng)的重要組成部分。隨著大數(shù)據(jù)時(shí)代的來臨,高校圖書館知識(shí)服務(wù)與管理進(jìn)入新的發(fā)展階段,需要數(shù)據(jù)分析和應(yīng)用模式變革以及應(yīng)用軟件更替,以滿足廣大用戶日益多樣化、多元化的知識(shí)需求。王連喜[3]指出,調(diào)查發(fā)現(xiàn)準(zhǔn)確率高的個(gè)性化推薦系統(tǒng)并不能保證用戶有較高的滿意度,圖書館個(gè)性化推薦服務(wù)在追求準(zhǔn)確性的同時(shí),還需要保證推薦結(jié)果的多樣性。例如,一位學(xué)生借閱了一本清華大學(xué)嚴(yán)蔚敏教授的《數(shù)據(jù)結(jié)構(gòu)》,之后一段時(shí)間內(nèi)推薦系統(tǒng)便只給他推薦數(shù)據(jù)結(jié)構(gòu)類書籍,雖然推薦結(jié)果的準(zhǔn)確率很高,但是多樣性不足。學(xué)生會(huì)覺得自己的其他需求,如對(duì)于數(shù)據(jù)庫、算法設(shè)計(jì)、軟件工程類書籍的需求,并未得到滿足。好的高校圖書館個(gè)性化推薦服務(wù)應(yīng)該不僅能夠準(zhǔn)確預(yù)測(cè)用戶的行為,而且能夠滿足用戶多樣性的深層需求,幫助用戶發(fā)現(xiàn)那些他們可能會(huì)感興趣但卻不那么容易發(fā)現(xiàn)的文獻(xiàn),擴(kuò)展用戶的視野,更好地服務(wù)于高校的教學(xué)科研和知識(shí)創(chuàng)新。
大數(shù)據(jù)環(huán)境下,為了提供高質(zhì)量個(gè)性化的知識(shí)服務(wù),保證用戶有高滿意度,推動(dòng)知識(shí)創(chuàng)新,面向多樣性個(gè)性化推薦服務(wù)的高校圖書館大數(shù)據(jù)應(yīng)用策略和方案研究具有重要意義。
2 大數(shù)據(jù)環(huán)境下圖書館個(gè)性化推薦服務(wù)研究現(xiàn)狀和分析
2.1 大數(shù)據(jù)環(huán)境下圖書館個(gè)性化推薦服務(wù)研究現(xiàn)狀
2.1.1 用戶行為大數(shù)據(jù)是個(gè)性化推薦的關(guān)鍵資源
在數(shù)據(jù)資源方面,用戶行為大數(shù)據(jù)是提供個(gè)性化推薦服務(wù)的關(guān)鍵資源。圖書館要提供高質(zhì)量的個(gè)性化推薦服務(wù)需要充分利用用戶行為大數(shù)據(jù)?;ヂ?lián)網(wǎng)技術(shù)的發(fā)展給圖書館帶來了革命性的發(fā)展,數(shù)字圖書館已經(jīng)在邁向互聯(lián)網(wǎng)+圖書館。智能手機(jī)、平板電腦、個(gè)人數(shù)字助理等移動(dòng)終端的廣泛應(yīng)用為圖書館帶來了充足的用戶流量,挖掘用戶行為特征可以發(fā)現(xiàn)從文獻(xiàn)等資源信息,以及年齡、專業(yè)等用戶基本信息中無法發(fā)現(xiàn)的潛在語義。通過讀者信息行為的數(shù)據(jù)挖掘,結(jié)合讀者的專業(yè)、研究方向,發(fā)現(xiàn)潛藏的隱性行為規(guī)律,精準(zhǔn)定位讀者的需求,進(jìn)行個(gè)性化閱讀推薦[4][5]。陳臣[6]基于讀者行為大數(shù)據(jù)分析構(gòu)建了圖書館個(gè)性化智慧服務(wù)體系。何勝等[7]將利用用戶行為日志庫提取用戶興趣,進(jìn)而在圖書檢索服務(wù)中為用戶提供個(gè)性化推薦。Rui Li等[8]對(duì)用戶借閱行為記錄大數(shù)據(jù)采用協(xié)同過濾算法建立推薦模型,取得了良好的準(zhǔn)確率。
2.1.2 大數(shù)據(jù)挖掘和大規(guī)模網(wǎng)絡(luò)分析是重要方法
在應(yīng)用方法方面,大數(shù)據(jù)挖掘和大規(guī)模網(wǎng)絡(luò)分析方法近年來受到廣泛關(guān)注,成為高校圖書館充分利用大數(shù)據(jù),進(jìn)而提供高質(zhì)量個(gè)性化推薦服務(wù)的有效手段。
(1)大數(shù)據(jù)挖掘方法的應(yīng)用
李艷等[9]認(rèn)為大數(shù)據(jù)挖掘可以為構(gòu)建高校圖書館個(gè)性化服務(wù)提供技術(shù)支撐,并設(shè)計(jì)了大數(shù)據(jù)挖掘與決策分析體系架構(gòu)模型,為用戶提供“大數(shù)據(jù)+微服務(wù)”模式的個(gè)性化推送等服務(wù)。關(guān)聯(lián)規(guī)則、聚類等都是重要的數(shù)據(jù)挖掘方法。He Ping等[10]使用關(guān)聯(lián)規(guī)則分析圖書館大數(shù)據(jù),挖掘讀者借閱模式,取得了良好的準(zhǔn)確性和覆蓋率。Punit等[11]提出一種基于標(biāo)簽聚類的數(shù)字圖書館推薦系統(tǒng),為文獻(xiàn)的管理和使用提供了便利。王敏等[12]提出一種模糊聚類和模糊識(shí)別相結(jié)合的推薦方法,建立用戶聚類推薦模型,取得了良好的用戶滿意度。柳益君等[13]討論了大數(shù)據(jù)挖掘在高校圖書館個(gè)性化推薦中的應(yīng)用,認(rèn)為采用聚類挖掘可以提升文獻(xiàn)推薦結(jié)果的新穎性。
(2)大規(guī)模網(wǎng)絡(luò)分析方法的應(yīng)用
何勝等[14]針對(duì)大數(shù)據(jù)時(shí)代高校圖書館提供個(gè)性化知識(shí)服務(wù)和學(xué)科知識(shí)服務(wù)面臨的困境,提出依據(jù)用戶基礎(chǔ)信息構(gòu)建社會(huì)網(wǎng)絡(luò)模型,在Hadoop云平臺(tái)上通過大規(guī)模網(wǎng)絡(luò)分析來發(fā)現(xiàn)顯性和隱性知識(shí)。Monika等[15]認(rèn)為,圖書館用戶的瀏覽、點(diǎn)擊、搜索等隱式反饋行為對(duì)發(fā)現(xiàn)用戶興趣非常重要,并基于用戶的隱式行為建立演繹社會(huì)網(wǎng)絡(luò)來分析用戶的興趣,進(jìn)而進(jìn)行資源推薦。
2.2 研究現(xiàn)狀分析和結(jié)論
分析大數(shù)據(jù)環(huán)境下圖書館個(gè)性化推薦服務(wù)研究現(xiàn)狀可以發(fā)現(xiàn),國內(nèi)外學(xué)者關(guān)注圖書館個(gè)性化推薦服務(wù),注重利用用戶行為數(shù)據(jù),提出利用大數(shù)據(jù)挖掘、大規(guī)模網(wǎng)絡(luò)分析等方法來發(fā)現(xiàn)用戶興趣,關(guān)注推薦結(jié)果的準(zhǔn)確性,但是對(duì)于圖書館的多樣性個(gè)性化推薦缺乏方法論分析和實(shí)踐研究。因此,本文以提供多樣性個(gè)性化推薦服務(wù)為目標(biāo),研究高校圖書館用戶行為大數(shù)據(jù)的應(yīng)用策略及相應(yīng)的應(yīng)用方案,為進(jìn)一步提高高校圖書館的數(shù)據(jù)服務(wù)質(zhì)量提供參考。
3 面向多樣性推薦的高校圖書館大數(shù)據(jù)應(yīng)用策略
3.1 面臨挑戰(zhàn)及應(yīng)對(duì)策略
高校圖書館多樣性個(gè)性化推薦服務(wù)在大數(shù)據(jù)應(yīng)用模式和實(shí)現(xiàn)技術(shù)兩方面都面臨著挑戰(zhàn)。在應(yīng)用模式方面,需要解決用戶行為大數(shù)據(jù)整合、用戶多樣興趣發(fā)現(xiàn)及表示、多樣性個(gè)性化知識(shí)推薦三個(gè)層次的問題;在實(shí)現(xiàn)技術(shù)方面,需要面對(duì)高校圖書館計(jì)算機(jī)硬件設(shè)備資金投入有限以及實(shí)現(xiàn)用戶行為大數(shù)據(jù)高效分析和挖掘的挑戰(zhàn)。對(duì)于高校圖書館多樣性個(gè)性化推薦的大數(shù)據(jù)應(yīng)用面臨的挑戰(zhàn),本文提出圖1所示的應(yīng)對(duì)策略。
圖1 高校圖書館多樣性個(gè)性化推薦服務(wù)面臨的挑戰(zhàn)和應(yīng)對(duì)策略
大規(guī)模網(wǎng)絡(luò)分析和大數(shù)據(jù)挖掘一方面作為圖情領(lǐng)域用戶興趣發(fā)現(xiàn)和知識(shí)發(fā)現(xiàn)的重要方法,可以從用戶行為大數(shù)據(jù)中發(fā)現(xiàn)用戶隱性、深層的多樣興趣,提高推薦的多樣性;另一方面和Hadoop云計(jì)算技術(shù)結(jié)合,可以實(shí)時(shí)高效地分析、挖掘用戶行為大數(shù)據(jù),進(jìn)而構(gòu)建便于與知識(shí)庫互操作的用戶本體模型。將大規(guī)模網(wǎng)絡(luò)分析、大數(shù)據(jù)挖掘和Hadoop云計(jì)算技術(shù)作為溝通高校圖書館多樣性個(gè)性化推薦服務(wù)應(yīng)用需求和用戶行為大數(shù)據(jù)應(yīng)用的核心方法和重要技術(shù)工具,有內(nèi)在必然性。
3.2用戶多樣興趣發(fā)現(xiàn)的方法
提高推薦多樣性的方法諸多,近年研究表明,充分利用用戶的行為大數(shù)據(jù),以及應(yīng)用大規(guī)模網(wǎng)絡(luò)分析和大數(shù)據(jù)挖掘方法,可以發(fā)現(xiàn)用戶的多樣隱性興趣和廣泛深層需求,從而提升推薦的多樣性而不失準(zhǔn)確性,使用戶具有高滿意度。
3.2.1大規(guī)模網(wǎng)絡(luò)分析方法提升推薦結(jié)果的多樣性
安維等[16]指出,社會(huì)化網(wǎng)絡(luò)分析有助于提高推薦多樣性。大規(guī)模網(wǎng)絡(luò)分析用于分析用戶行為及相互關(guān)系、挖掘用戶隱性興趣,對(duì)提升推薦的準(zhǔn)確性和多樣性都有作用。Hao Wu等[17]通過基于大眾分類的社會(huì)系統(tǒng)來發(fā)現(xiàn)用戶之間的社會(huì)關(guān)系,挖掘用戶的隱性興趣,提升推薦的多樣性和新穎性。Qiong Wu等[18]提出一種基于心理學(xué)社會(huì)好奇的推薦模型,在社會(huì)網(wǎng)絡(luò)中發(fā)現(xiàn)用戶偏好和用戶好奇,實(shí)驗(yàn)結(jié)果顯示該推薦方法在準(zhǔn)確性、多樣性和覆蓋率上都有良好表現(xiàn)。
3.2.2大數(shù)據(jù)挖掘方法提升推薦結(jié)果的多樣性
作為一種重要的大數(shù)據(jù)挖掘方法,聚類在保證推薦準(zhǔn)確性的同時(shí)顯著提高了多樣性。Tevfik等[19]通過物品聚類,以準(zhǔn)確性微小下降的代價(jià)顯著提高了推薦多樣性。Joan等[20]通過領(lǐng)域?qū)ο蟮恼Z義聚類來適應(yīng)用戶的多樣化偏好,同時(shí)保持良好的準(zhǔn)確性。Xianfen Xie等[21]基于用戶行為和主題關(guān)系進(jìn)行兩步聚類,實(shí)現(xiàn)網(wǎng)頁推薦,實(shí)驗(yàn)結(jié)果表明該推薦方法在準(zhǔn)確性和多樣性方面均有優(yōu)勢(shì)。
3.3 圖書館大數(shù)據(jù)處理相適應(yīng)的本體建模
為了整合圖書館用戶行為大數(shù)據(jù)以及表示所發(fā)現(xiàn)的用戶多樣興趣,需要進(jìn)行用戶建模。用戶建模有本體建模方法和非本體建模方法。隨著大數(shù)據(jù)時(shí)代的來臨,為了方便海量知識(shí)數(shù)據(jù)的共享,以本體為核心的關(guān)聯(lián)數(shù)據(jù)技術(shù)被引入圖書館知識(shí)資源服務(wù)[7][22][23]。何勝等[7]將用戶行為本體建模和大數(shù)據(jù)挖掘相結(jié)合為用戶提供個(gè)性化服務(wù),利用用戶日志庫提取用戶顯性興趣和隱性需求本體,在數(shù)據(jù)挖掘技術(shù)上實(shí)現(xiàn)了Hadoop+MapReduce大數(shù)據(jù)處理框架與基于本體的用戶行為日志分析的無縫結(jié)合,使得海量數(shù)據(jù)分析更加實(shí)時(shí)高效。與非本體建模相比,用戶本體建模方便與海量圖書庫及知識(shí)庫的互操作,在圖書館大數(shù)據(jù)處理方面更有優(yōu)勢(shì)。
3.4 高校圖書館適用的開源Hadoop軟件平臺(tái)
高校圖書館大數(shù)據(jù)具有數(shù)據(jù)量大、種類多、數(shù)據(jù)增加迅速以及高價(jià)值的4V特征。4V特征給大規(guī)模網(wǎng)絡(luò)分析和大數(shù)據(jù)挖掘帶來的挑戰(zhàn)是數(shù)據(jù)輸入輸出交換和數(shù)據(jù)移動(dòng)的代價(jià)高,以及分布式建模和模型分析。高校圖書館用戶行為大數(shù)據(jù)的分布式、并行處理和分析需要新的云計(jì)算基礎(chǔ)構(gòu)架支撐。
高校圖書館大數(shù)據(jù)服務(wù)的開展面臨著資金投入受限的阻礙[14]。諸多云計(jì)算設(shè)施中,開源云計(jì)算軟件平臺(tái)Hadoop可以在一般配置的普通電腦所組成的集群上搭建,軟硬件成本較低,適合硬件購置經(jīng)費(fèi)緊缺的高校圖書館采用。它采用分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)實(shí)現(xiàn)可靠數(shù)據(jù)存儲(chǔ)服務(wù),并利用MapReduce映射/規(guī)約技術(shù)和Spark內(nèi)存計(jì)算技術(shù)提供高容錯(cuò)性、高擴(kuò)展性、高可靠性的大數(shù)據(jù)處理服務(wù),為用戶提供一個(gè)高效的大數(shù)據(jù)分析和處理平臺(tái)。同時(shí),運(yùn)行在Hadoop平臺(tái)上的軟件產(chǎn)品諸多,形成完整的生態(tài)系統(tǒng)。例如,開源數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)庫Mahout包含了聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘等多種廣泛使用的數(shù)據(jù)挖掘算法,可以方便地?cái)U(kuò)展到云中,對(duì)高校圖書館大數(shù)據(jù)進(jìn)行全面、靈活的分析和處理。
4 面向多樣性推薦的高校圖書館大數(shù)據(jù)應(yīng)用方案
4.1 應(yīng)用方案設(shè)計(jì)
根據(jù)圖1所示的高校圖書館大數(shù)據(jù)應(yīng)用策略,本文提出以滿足用戶多樣性要求的個(gè)性化推薦服務(wù)為目標(biāo)的高校圖書館大數(shù)據(jù)應(yīng)用模式,以及與之相適應(yīng)的基于Hadoop云計(jì)算平臺(tái)的技術(shù)實(shí)現(xiàn)路徑,形成面向多樣性個(gè)性化推薦的高校圖書館大數(shù)據(jù)應(yīng)用方案,見圖2。依據(jù)大數(shù)據(jù)理念,以大規(guī)模網(wǎng)絡(luò)分析和大數(shù)據(jù)挖掘?yàn)橛脩舳鄻优d趣發(fā)現(xiàn)的核心方法,以用戶行為本體的構(gòu)建、用戶興趣本體的構(gòu)建和應(yīng)用為主線,應(yīng)對(duì)用戶行為大數(shù)據(jù)整合、用戶多樣興趣發(fā)現(xiàn)及表示、多樣性個(gè)性化知識(shí)推薦三個(gè)層次的挑戰(zhàn),形成多樣性個(gè)性化推薦的應(yīng)用模式體系;同時(shí),應(yīng)用相關(guān)工具和大數(shù)據(jù)最新技術(shù)手段,形成應(yīng)用模式的技術(shù)實(shí)現(xiàn)路線,最終基于Hadoop大數(shù)據(jù)處理平臺(tái)實(shí)現(xiàn)高校圖書館多樣性的個(gè)性化推薦服務(wù)。
圖2 面向多樣性個(gè)性化推薦的高校圖書館大數(shù)據(jù)應(yīng)用方案
4.2 用戶行為大數(shù)據(jù)整合
用戶行為大數(shù)據(jù)分為顯式反饋和隱式反饋。印鑒等[24]指出,充分利用大規(guī)模隱式反饋數(shù)據(jù)是大數(shù)據(jù)時(shí)代核心價(jià)值取向的體現(xiàn)。王智圣等[25]在Hadoop+MapReduce分布式計(jì)算框架下基于隱式用戶反饋構(gòu)建推薦系統(tǒng),在推薦準(zhǔn)確性和多樣性、冷啟動(dòng)適應(yīng)能力等多方面都具有優(yōu)勢(shì)。因此,以大數(shù)據(jù)理念為指導(dǎo),全面收集用戶行為數(shù)據(jù),不僅收集顯式反饋,如借閱、下載、評(píng)分等,而且收集大規(guī)模隱式反饋,如點(diǎn)擊、瀏覽、檢索等。對(duì)不同格式數(shù)據(jù),如用戶基本信息數(shù)據(jù)、用戶服務(wù)日志等,進(jìn)行統(tǒng)一用戶行為本體建模,經(jīng)過數(shù)據(jù)分類和清洗,融合成格式一致、結(jié)構(gòu)清晰、擴(kuò)展性好的基礎(chǔ)數(shù)據(jù),完成用戶行為大數(shù)據(jù)的整合。應(yīng)用云平臺(tái)上SQL關(guān)系型數(shù)據(jù)庫和NoSQL非關(guān)系型數(shù)據(jù)庫HBase等數(shù)據(jù)庫技術(shù)實(shí)現(xiàn)用戶行為大數(shù)據(jù)的基礎(chǔ)收集和存儲(chǔ),以及RDFS/OWL本體模型的存儲(chǔ)、檢索和應(yīng)用。
4.3 用戶多樣興趣發(fā)現(xiàn)及表示
以構(gòu)建多樣興趣本體、建立多樣興趣本體數(shù)據(jù)庫為目標(biāo),分析和處理基于用戶行為本體模型的用戶數(shù)據(jù)。構(gòu)建用戶興趣本體需要提取用戶顯性興趣本體和用戶隱性興趣本體。用戶顯性興趣是情感的一種顯性表達(dá),如概念、關(guān)鍵字等,可以通過用戶日志的分析統(tǒng)計(jì)獲取,以克服情感缺失問題。提取用戶隱性興趣是為了滿足用戶的深層情感需要,解決多樣興趣發(fā)現(xiàn)問題。在方法上,利用大規(guī)模網(wǎng)絡(luò)深度分析和大數(shù)據(jù)挖掘方法,全面深入地分析和挖掘用戶行為大數(shù)據(jù),發(fā)現(xiàn)用戶的多樣隱性興趣和深層需求。在技術(shù)上,基于Hadoop+MapReduce/Spark開源云計(jì)算框架實(shí)現(xiàn)數(shù)據(jù)處理和分析,借助開源大規(guī)模網(wǎng)絡(luò)圖分析工具JGraphx實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)分析,借助開源大數(shù)據(jù)挖掘工具M(jìn)ahout實(shí)現(xiàn)大數(shù)據(jù)挖掘。
4.3.1 通過大規(guī)模網(wǎng)絡(luò)分析來發(fā)現(xiàn)多樣隱性主題興趣
主題興趣屬于用戶的中長(zhǎng)期興趣。依據(jù)讀者的借閱信息、專業(yè)等基礎(chǔ)數(shù)據(jù),將用戶按某類屬性抽象成圖節(jié)點(diǎn),屬性之間的聯(lián)系為邊,構(gòu)建各類大規(guī)模社會(huì)網(wǎng)絡(luò)分析模型,應(yīng)用圖深度分析和學(xué)習(xí)算法發(fā)現(xiàn)網(wǎng)絡(luò)中的社區(qū)、專家、關(guān)鍵人物,研究各種知識(shí)的轉(zhuǎn)移和共享模式,發(fā)現(xiàn)不同學(xué)科不同時(shí)期用戶感興趣的主題等隱性興趣,并分析演化規(guī)律和發(fā)展趨勢(shì)。
4.3.2 通過大數(shù)據(jù)挖掘來發(fā)現(xiàn)多樣隱性情境興趣
情境興趣是用戶的短期、動(dòng)態(tài)興趣。情境對(duì)于推薦系統(tǒng)的重要性已經(jīng)得到了眾多學(xué)者的普遍認(rèn)可[26]。Panniello等[27]指出,若合適地融合情境因素,可以在情境推薦中取得準(zhǔn)確性和多樣性的良好平衡。聚類、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法皆是挖掘情境興趣的有效手段。翟麗麗等[28]提出一種基于情境聚類優(yōu)化的協(xié)同過濾算法,采用k-means算法對(duì)用戶進(jìn)行情境聚類。吳書等[29]指出,情境大數(shù)據(jù)能更細(xì)致地刻畫用戶行為背景,并使用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行時(shí)序情境建模。采用大數(shù)據(jù)挖掘方法挖掘兩種情境興趣:環(huán)境情境興趣和用戶情境興趣。
(1)采用神經(jīng)網(wǎng)絡(luò)建模預(yù)測(cè)環(huán)境情境興趣。時(shí)間和位置是兩種重要的環(huán)境情境信息。分析不同學(xué)科用戶檢索、瀏覽等數(shù)據(jù)特征,加入時(shí)間、位置等情境影響因素,對(duì)用戶偏好進(jìn)行神經(jīng)網(wǎng)絡(luò)非線性建模,預(yù)測(cè)用戶的動(dòng)態(tài)環(huán)境情境興趣。其中,時(shí)間情境信息可以通過服務(wù)日志中的時(shí)間戳數(shù)據(jù)獲取,地理位置情境信息則可以通過手機(jī)等終端設(shè)備采集。
(2)采用聚類結(jié)合協(xié)同過濾、關(guān)聯(lián)規(guī)則等基礎(chǔ)推薦算法,挖掘用戶情境興趣。用戶情境包括年齡、性別、年級(jí)、專業(yè)、學(xué)習(xí)階段等。通過情境聚類將用戶群體劃分成多個(gè)不同用戶集合,同一集合內(nèi)的用戶具有相似情境,不同集合間的用戶情境相差較大。對(duì)用戶大數(shù)據(jù)進(jìn)行多層聚類,采取合適的聚類層數(shù)有利于發(fā)現(xiàn)多樣用戶情境興趣。以圖書推薦為例,圖3是基于兩層用戶情境聚類和協(xié)同過濾的用戶情境興趣挖掘示意圖。發(fā)現(xiàn)A類用戶與C類用戶都喜歡《大數(shù)據(jù)時(shí)代》與《大數(shù)據(jù)思維與決策》,具有相似的用戶情境興趣,便為A類用戶推薦C類用戶喜歡的圖書《深度學(xué)習(xí)方法及應(yīng)用》,即將該圖書提取為A類用戶的隱性用戶情境興趣。
圖3 基于兩層用戶情境聚類和協(xié)同過濾的用戶情境興趣挖掘
4.4 多樣性的個(gè)性化推薦
根據(jù)用戶多樣興趣本體,分析用戶的興趣,準(zhǔn)確定位用戶需求,通過個(gè)性化檢索、首頁推薦、e-mail、移動(dòng)短信推送等途徑,提供多樣性的知識(shí)推薦服務(wù),滿足用戶對(duì)高質(zhì)量個(gè)性化知識(shí)服務(wù)的需求。利用本體和云平臺(tái)上關(guān)聯(lián)數(shù)據(jù)技術(shù),結(jié)合海量書目庫、專利庫、知識(shí)庫實(shí)時(shí)檢索,應(yīng)對(duì)知識(shí)迷航,為用戶提供實(shí)時(shí)性、交互性的推薦服務(wù),實(shí)現(xiàn)高校圖書館多樣性個(gè)性化推薦服務(wù)。
5 結(jié)語
本文針對(duì)大數(shù)據(jù)環(huán)境下高校圖書館提供滿足用戶多樣性要求的個(gè)性化推薦服務(wù)面臨的挑戰(zhàn),提出應(yīng)對(duì)策略并設(shè)計(jì)應(yīng)用方案。在應(yīng)用方案中,不僅提取用戶的顯性興趣,而且提取用戶的多樣隱性興趣,采用大規(guī)模網(wǎng)絡(luò)深度分析方法發(fā)現(xiàn)用戶中長(zhǎng)期的多樣主題興趣,采用大數(shù)據(jù)挖掘方法發(fā)現(xiàn)用戶短期的多樣情境興趣,并在Hadoop大數(shù)據(jù)處理平臺(tái)上借助于相關(guān)開源工具實(shí)現(xiàn),最終實(shí)現(xiàn)高校圖書館的多樣性個(gè)性化推薦服務(wù)。本文的研究對(duì)圖書館數(shù)據(jù)服務(wù)的應(yīng)用模式創(chuàng)新和應(yīng)用方法創(chuàng)新有一定借鑒意義,可以幫助高校圖書館提升個(gè)性化服務(wù)的質(zhì)量,推進(jìn)高校知識(shí)創(chuàng)新。
參考文獻(xiàn):
[1] BOIM R, MILO T, NOVGORODOV S. Diversification and refinement in collaborative filtering recommender[C]// ACM International Conference on Information and Knowledge Management. ACM, 2011:739-744.
[2] 周濤. 個(gè)性化推薦的十大挑戰(zhàn)[J]. 中國計(jì)算機(jī)學(xué)會(huì)通訊, 2012, 8(7):48-61.
[3] 王連喜. 圖書館個(gè)性化推薦面臨的問題與挑戰(zhàn)[J]. 現(xiàn)代情報(bào), 2013, 33(6):3-5.
[4] 葉莉, 凌征強(qiáng). 基于數(shù)據(jù)挖掘的高校圖書館信息服務(wù)[J]. 圖書館工作與研究, 2017(5):70-74.
[5] 何波, 章宏遠(yuǎn). 大數(shù)據(jù)下的圖書館個(gè)性化推薦研究[J]. 新世紀(jì)圖書館, 2017(6):62-63.
[6] 陳臣. 圖書館個(gè)性化智慧服務(wù)體系的構(gòu)建[J]. 圖書館建設(shè), 2014(11): 37-45.
[7] 何勝, 馮新翎, 武群輝, 熊太純, 李仁璞. 基于用戶行為建模和大數(shù)據(jù)挖掘的圖書館個(gè)性化服務(wù)研究[J]. 圖書情報(bào)工作, 2017, 61(1):40-46.
[8] LI R. Simulation research of university library recommended system based on big data and data mining[C]. 3rd International Conference on Machinery, Materials and Information Technology Applications, 2015, 202-206.
[9] 李艷, 呂鵬, 李瓏. 基于大數(shù)據(jù)挖掘與決策分析體系的高校圖書館個(gè)性化服務(wù)研究[J].圖書情報(bào)知識(shí), 2016(2):60-68.
[10] PING H. The Research on Personalized Recommendation Algorithm of Library Based on Big Data and Association Rules[J]. The Open Cybernetics & Systemics Journal, 2015, 9(1):2554-2558.
[11] GUPTA P, JHA R S. Tagging Based Evolving Recommendation System for Digital library System[C]. 4th International Symposium on Emerging Trends and Technologies in Libraries and Information Services, 2015, 139-142.
[12] 王敏, 嵇紹春. 基于模糊聚類和模糊模式識(shí)別的數(shù)字圖書館個(gè)性化推薦研究[J]. 現(xiàn)代情報(bào), 2016, 36(4):52-56.
[13] 柳益君, 何勝, 馮新翎, 武群輝, 熊太純. 大數(shù)據(jù)挖掘在高校圖書館個(gè)性化服務(wù)中應(yīng)用研究[J]. 圖書館工作與研究, 2017(5):23-29.
[14] 何勝, 熊太純, 周冰, 柳益君, 武群輝. 高校圖書館大數(shù)據(jù)服務(wù)現(xiàn)實(shí)困境與應(yīng)用模式分析[J]. 圖書情報(bào)工作, 2015, 59(22):50-55.
[15] AKBAR M, SHAFFER C A, FAN W, et al. Recommendation based on deduced social networks in an educational digital library[C]// Digital Libraries. IEEE, 2014:29-38.
[16] 安維, 劉啟華, 張李義. 個(gè)性化推薦系統(tǒng)的多樣性研究進(jìn)展[J]. 圖書情報(bào)工作, 2013, 57(20):127-135.
[17] WU H, CUI X C, HE J,LI B, et al. On improving aggregate recommendation diversity and novelty in folksonomy-based social systems[J]. Personal and Ubiquitous Computing, 2014, 18(8):1855-1869.
[18] WU Q, LIU S Y,MIAO C Y, et al. A Social Curiosity Inspired Recommendation Model to Improve Precision, Coverage and Diversity[C]. 2016 IEEE/WIC/ACM International Conference on Web Intelligence, 2016, 240-247.
[19] AYTEKIN T, KARAKAYA M ?. Clustering-based diversity improvement in top-N recommendation[J]. Journal of Intelligent Information Systems, 2014, 42(1):1-18.
[20] BORRAS J, MORENO A, VALLS A. Diversification of recommendations through semantic clustering[J]. Multimedia Tools & Applications, 2016:1-37.
[21] XIE X F, WANG B H. Web page recommendation via twofold clustering: considering user behavior and topic relation[J]. Neural Computing and Applications, 2016:1-9.
[22] 任武.基于本體查詢的圖書推薦方法研究[J].新世紀(jì)圖書館, 2017(9):48-51.
[23] 何勝,熊太純,柳益君,葉飛躍,趙小榮.內(nèi)存計(jì)算框架下的圖書館文獻(xiàn)服務(wù)及案例研究[J].圖書館論壇,2017.
[24] 印鑒,王智圣,李琪,蘇偉杰.基于大規(guī)模隱式反饋的個(gè)性化推薦[J].軟件學(xué)報(bào),2014,25(9):1953-1966.
[25] 王智圣,李琪,汪靜,印鑒.基于隱式用戶反饋數(shù)據(jù)流的實(shí)時(shí)個(gè)性化推薦[J].計(jì)算機(jī)學(xué)報(bào),2016,39(1):52-64.
[26] 譚學(xué)清,何珊.用戶情境下基于信息增益和項(xiàng)目的協(xié)同過濾推薦技術(shù)研究[J].情報(bào)雜志,2014,33(7):165-170.
[27] PANNIELLO U,TUZHILIN A,GORGOGIIONE M. Comparing context-aware recommender systems in terms of accuracy and diversity[J]. User Modeling and User-Adapted Interaction, 2014,24(1):35-65.
[28] 翟麗麗,邢海龍,張樹臣.基于情境聚類優(yōu)化的移動(dòng)電子商務(wù)協(xié)同過濾推薦研究[J].情報(bào)理論與實(shí)踐,2016,39(8):106-110.
[29] 吳書,劉強(qiáng),王亮.情境大數(shù)據(jù)建模及其在用戶行為預(yù)測(cè)中的應(yīng)用[J].大數(shù)據(jù),2016, 2(6):110-117.
柳益君 江蘇理工學(xué)院計(jì)算機(jī)工程學(xué)院副教授。江蘇常州,213001。
何 勝 江蘇理工學(xué)院計(jì)算機(jī)工程學(xué)院副教授。江蘇常州,213001。
李仁璞 江蘇理工學(xué)院計(jì)算機(jī)工程學(xué)院教授。江蘇常州,213001。
吳智勤 江蘇理工學(xué)院圖書館館員。江蘇常州,213001。
武群輝 江蘇理工學(xué)院圖書館副研究館員。江蘇常州,213001。
(收稿日期:2017-08-10 編校:謝艷秋)