張駿 顧沖
摘 要:為探索我國(guó)推薦系統(tǒng)領(lǐng)域研究現(xiàn)狀和熱點(diǎn),選取CNKI作為數(shù)據(jù)來源,運(yùn)用共現(xiàn)分析、社會(huì)網(wǎng)絡(luò)分析、多維尺度分析以及知識(shí)圖譜等可視化方法和工具,從發(fā)文量、核心期刊、作者合作、機(jī)構(gòu)合作、研究熱點(diǎn)等方面進(jìn)行可視化分析。分析表明,我國(guó)推薦系統(tǒng)研究正處于快速發(fā)展時(shí)期,主要集中在計(jì)算機(jī)科學(xué)、圖書情報(bào)等領(lǐng)域,作者合作關(guān)系與機(jī)構(gòu)合作關(guān)系都有待加強(qiáng),呈現(xiàn)多元化特點(diǎn),形成8大熱點(diǎn)主題域,為后續(xù)學(xué)者的研究提供了一定的參考價(jià)值。
關(guān)鍵詞:推薦系統(tǒng);共現(xiàn)分析;社會(huì)網(wǎng)絡(luò)分析;可視化;知識(shí)圖譜
中圖分類號(hào):F2 文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2018.18.004
1 引言
隨著大數(shù)據(jù)時(shí)代的來臨,互聯(lián)網(wǎng)上的信息資源呈現(xiàn)爆炸式增長(zhǎng)的趨勢(shì),人們雖然可以方便地獲取信息,但卻更難準(zhǔn)確地篩選出對(duì)自己有用的信息了,這就造成了“信息超載”(Information Overload)的問題,而解決信息超載問題的一個(gè)非常行之有效的方法就是推薦系統(tǒng)。推薦系統(tǒng)(Recommender System)是一種通過學(xué)習(xí)和挖掘用戶的興趣以及項(xiàng)目(如音樂、電影、好友、旅游景點(diǎn)等)的特征從而將用戶可能感興趣的項(xiàng)目主動(dòng)推薦給相應(yīng)用戶的信息系統(tǒng)。目前,推薦系統(tǒng)在電子商務(wù)、信息檢索以及移動(dòng)應(yīng)用、電子旅游、互聯(lián)網(wǎng)廣告、社會(huì)媒體、社交網(wǎng)絡(luò)等等眾多應(yīng)用領(lǐng)域取得了較大的進(jìn)展。
由于推薦系統(tǒng)的應(yīng)用效果十分顯著,國(guó)內(nèi)學(xué)術(shù)界及其相關(guān)領(lǐng)域?qū)ν扑]系統(tǒng)的研究也日益增多。雖然有很多學(xué)者對(duì)推薦系統(tǒng)進(jìn)行過綜述性的研究,但是學(xué)者們所處的領(lǐng)域不同,他們所論述問題的側(cè)重點(diǎn)也不盡相同。大多數(shù)是對(duì)某一應(yīng)用領(lǐng)域或?qū)n}研究領(lǐng)域進(jìn)行綜述,很少有從文獻(xiàn)計(jì)量學(xué)的角度,對(duì)推薦系統(tǒng)領(lǐng)域的發(fā)文量、期刊、機(jī)構(gòu)、作者以及整體的進(jìn)展和趨勢(shì)進(jìn)行研究,并用可視化的形式將其研究成果展現(xiàn)出來的。因此,本文將運(yùn)用文獻(xiàn)計(jì)量分析、共現(xiàn)分析和社會(huì)網(wǎng)絡(luò)分析(Social Network Analysis,SNA)等方法,梳理我國(guó)推薦系統(tǒng)的研究現(xiàn)狀,對(duì)其研究熱點(diǎn)等進(jìn)行可視化分析,為后續(xù)我國(guó)推薦系統(tǒng)研究的學(xué)者們提供一定地參考和幫助,同時(shí),這對(duì)于提高我國(guó)推薦系統(tǒng)研究水平,具有重要的理論意義與學(xué)術(shù)價(jià)值。
2 數(shù)據(jù)來源及研究方法
中國(guó)知網(wǎng)(CNKI)是目前我國(guó)學(xué)術(shù)期刊數(shù)據(jù)收錄最全、更新最為及時(shí)的全文數(shù)據(jù)庫(kù),因此,本文以CNKI的中國(guó)學(xué)術(shù)期刊數(shù)據(jù)庫(kù)為數(shù)據(jù)來源,對(duì)我國(guó)推薦系統(tǒng)的研究進(jìn)行可視化分析。在CNKI期刊數(shù)據(jù)庫(kù)中,以“主題=推薦系統(tǒng),精確”為檢索條件,檢索時(shí)間范圍為“不限到2016年”,期刊來源類別為全部,檢索得到我國(guó)推薦系統(tǒng)相關(guān)研究文獻(xiàn)共2804篇。將檢索得到的文獻(xiàn)人工進(jìn)行二次篩選,剔除掉通知、評(píng)論、新聞報(bào)道以及與主題無(wú)關(guān)等無(wú)效文獻(xiàn),最終得到2645篇文獻(xiàn)數(shù)據(jù)。
采用的研究方法主要包括文獻(xiàn)計(jì)量分析法、共現(xiàn)分析法和社會(huì)網(wǎng)絡(luò)分析法。針對(duì)已獲得的文獻(xiàn)樣本數(shù)據(jù),一方面,采用文獻(xiàn)計(jì)量分析,對(duì)我國(guó)推薦系統(tǒng)研究領(lǐng)域的發(fā)文量、主要期刊、核心作者、高水平科研機(jī)構(gòu)等進(jìn)行定量的可視化分析;另一方面,采用社會(huì)網(wǎng)絡(luò)分析和多維尺度分析,構(gòu)建高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),對(duì)我國(guó)推薦系統(tǒng)領(lǐng)域研究熱點(diǎn)進(jìn)行定性的可視化分析。
3 推薦系統(tǒng)研究文獻(xiàn)統(tǒng)計(jì)分析
3.1 發(fā)文量分析
對(duì)收集到的2645篇文獻(xiàn)進(jìn)行發(fā)文量的年度統(tǒng)計(jì),得到我國(guó)推薦系統(tǒng)領(lǐng)域發(fā)文量的統(tǒng)計(jì)圖,如圖1,其中在1989年、1990年、1992年分別有1篇文獻(xiàn)被發(fā)表,由于時(shí)間跨度太大未在圖中顯示。帕洛阿爾托研究中心的Goldberg等人在1992年就將協(xié)同過濾的思想引入到Tapestry 系統(tǒng)中,而我國(guó)到2000年才逐漸有相關(guān)的文獻(xiàn)出來,說明我國(guó)對(duì)推薦系統(tǒng)的研究和應(yīng)用是相對(duì)來說較晚的。但是,從圖1來看,從2000年至今,除了2008年有所下降,發(fā)文量一直呈現(xiàn)逐年遞增的趨勢(shì)。發(fā)文量的增長(zhǎng)趨勢(shì)大致可以分為三個(gè)階段:第一階段為2000-2007年,我國(guó)推薦系統(tǒng)研究起步階段,發(fā)文量相對(duì)較少,但增長(zhǎng)速度相對(duì)較快;第二階段為2008-2012年,這個(gè)階段屬于平穩(wěn)增長(zhǎng)期;第三階段為2012年以后,這個(gè)階段屬于快速增長(zhǎng)期。我國(guó)推薦系統(tǒng)領(lǐng)域發(fā)文量的整體呈現(xiàn)快速增長(zhǎng)的趨勢(shì),說明推薦系統(tǒng)越來越受到關(guān)注和重視,它一直是我國(guó)研究的熱點(diǎn)領(lǐng)域。
3.2 核心期刊分析
根據(jù)文獻(xiàn)計(jì)量學(xué)三大定律之一的布拉德福定律可知,核心期刊總的文獻(xiàn)數(shù)占全部文獻(xiàn)數(shù)的三分之一。對(duì)收集到的2645篇文獻(xiàn)進(jìn)行期刊統(tǒng)計(jì),得到644種期刊,將這644種期刊按照其載文量進(jìn)行降序排列,排名前16的期刊累計(jì)載文量為881篇,占全部文獻(xiàn)的33.3%,因此,得到我國(guó)推薦系統(tǒng)研究領(lǐng)域的核心期刊列表,如表1。
3.3 作者分析
研究某一個(gè)領(lǐng)域的核心作者分布情況,可以了解該領(lǐng)域的創(chuàng)作主體,進(jìn)而分析該領(lǐng)域某一時(shí)期內(nèi)的學(xué)科背景情況,此外,作者之間的合作關(guān)系對(duì)于促進(jìn)學(xué)術(shù)交流、知識(shí)共享、跨學(xué)科發(fā)展等有著重要的意義。對(duì)收集到的2645篇文獻(xiàn)進(jìn)行作者統(tǒng)計(jì),結(jié)果發(fā)現(xiàn),這2645篇文獻(xiàn)來自4676位作者,平均每篇文獻(xiàn)1.77位作者。
將這些作者按照發(fā)文量降序排列,前7名的作者依次為:劉旭東,發(fā)文量16篇,北京航空航天大學(xué)計(jì)算機(jī)學(xué)院,教授;孟祥武,發(fā)文量15篇,北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,教授;聶規(guī)劃,發(fā)文量14篇,武漢理工大學(xué)經(jīng)濟(jì)學(xué)院,教授;崔春生,發(fā)文量14篇,河南財(cái)經(jīng)政法大學(xué)計(jì)算機(jī)與信息工程學(xué)院,副教授;王衛(wèi)平,發(fā)文量13篇,中國(guó)科學(xué)技術(shù)大學(xué)管理學(xué)院,副教授;李磊,發(fā)文量11篇,中山大學(xué)計(jì)算機(jī)軟件所,教授;陳冬林,發(fā)文量11篇,武漢理工大學(xué)經(jīng)濟(jì)學(xué)院,教授。
為了更好地找到我國(guó)推薦系統(tǒng)領(lǐng)域重要的作者合作關(guān)系,首先選擇發(fā)文量排名前100的作者,運(yùn)用UCINET構(gòu)建作者合作網(wǎng)絡(luò),去掉41個(gè)孤立點(diǎn),然后對(duì)剩下的59位作者進(jìn)行K-cores分析,最后調(diào)整得到我國(guó)推薦系統(tǒng)研究作者合作K-cores分析圖譜,如圖2。節(jié)點(diǎn)表示作者,節(jié)點(diǎn)連線表示作者合作關(guān)系,節(jié)點(diǎn)越大說明作者發(fā)文量越高,連接線的粗細(xì)代表合作關(guān)系強(qiáng)度。這里一共形成了23個(gè)子圖,包括16個(gè)1核子圖(圖2左上區(qū)域紅色部分)、5個(gè)2核子圖(圖2中左下區(qū)域藍(lán)色部分)和2個(gè)3核子圖(圖2中右側(cè)區(qū)域灰色部分),即23個(gè)作者合作團(tuán)體。
3.4 機(jī)構(gòu)分析
對(duì)我國(guó)推薦系統(tǒng)領(lǐng)域的高水平研究機(jī)構(gòu)進(jìn)行分析,有助于更好地了解我國(guó)推薦系統(tǒng)研究的前沿進(jìn)展。運(yùn)用陳超美教授開發(fā)的可視化文獻(xiàn)分析軟件CitespaceV,對(duì)收集到的2645篇文獻(xiàn)進(jìn)行機(jī)構(gòu)分析,構(gòu)建我國(guó)推薦系統(tǒng)研究機(jī)構(gòu)合作的知識(shí)圖譜。在圖譜中,節(jié)點(diǎn)表示機(jī)構(gòu),節(jié)點(diǎn)越大或機(jī)構(gòu)名稱越大說明該機(jī)構(gòu)發(fā)文量越高;節(jié)點(diǎn)之間的連線表示機(jī)構(gòu)之間的合作關(guān)系,連線越粗說明二者之間的合作越密切,如圖3。
由圖3知,我國(guó)推薦系統(tǒng)領(lǐng)域的研究機(jī)構(gòu)大部分都是高校和科研院所,發(fā)文量較高的機(jī)構(gòu)有武漢大學(xué)信息管理學(xué)院、重慶大學(xué)計(jì)算機(jī)學(xué)院、中國(guó)科學(xué)院大學(xué)、中山大學(xué)信息科學(xué)與技術(shù)學(xué)院、北京郵電大學(xué)計(jì)算機(jī)學(xué)院等,將這些機(jī)構(gòu)按照發(fā)文量選取前12名得到我國(guó)推薦系統(tǒng)研究的主要機(jī)構(gòu)列表,如表2,括號(hào)中的數(shù)據(jù)為機(jī)構(gòu)的合作發(fā)文百分比。由表2可知,這些高水平研究機(jī)構(gòu)中有一半機(jī)構(gòu)的合作發(fā)文百分比超過了50%,這說明我國(guó)推薦系統(tǒng)領(lǐng)域的高水平研究機(jī)構(gòu)之間的合作還是比較密切的。
4 推薦系統(tǒng)研究熱點(diǎn)分析
4.1 關(guān)鍵詞抽取與詞頻統(tǒng)計(jì)
關(guān)鍵詞是作者對(duì)文章主題的提煉,代表了文章的核心和關(guān)鍵。為了更加準(zhǔn)確地對(duì)我國(guó)推薦系統(tǒng)研究主題進(jìn)行分析,剔除3篇無(wú)關(guān)鍵詞的文獻(xiàn),對(duì)剩下2642篇文獻(xiàn)借助文獻(xiàn)統(tǒng)計(jì)軟件SATI進(jìn)行關(guān)鍵詞統(tǒng)計(jì),共得到4180個(gè)關(guān)鍵詞,累計(jì)出現(xiàn)11127次。在關(guān)鍵詞處理過程中,刪除與主題意義相同或無(wú)用的概括性關(guān)鍵詞,如“推薦系統(tǒng)”、“研究”、“設(shè)計(jì)”等,同時(shí)合并意義相近或同一類別的關(guān)鍵詞,如將“協(xié)同過濾算法”、“協(xié)同過濾推薦”、“協(xié)作過濾”統(tǒng)一替換為“協(xié)同過濾”等。
表3顯示了預(yù)處理之后詞頻大于15的關(guān)鍵詞,將這50個(gè)關(guān)鍵詞作為分析樣本,可以發(fā)現(xiàn),協(xié)同過濾、個(gè)性化推薦、電子商務(wù)、數(shù)據(jù)挖掘、數(shù)字圖書館、社交網(wǎng)絡(luò)、大數(shù)據(jù)、云計(jì)算等領(lǐng)域是目前我國(guó)推薦系統(tǒng)研究的熱點(diǎn)方向。
4.2 社會(huì)網(wǎng)絡(luò)分析
為了進(jìn)一步地分析我國(guó)推薦系統(tǒng)領(lǐng)域的研究熱點(diǎn),首先利用SATI軟件得到初步的關(guān)鍵詞共現(xiàn)矩陣,并將其導(dǎo)入到Excel中,然后根據(jù)關(guān)鍵詞預(yù)處理中刪除以及合并等過程對(duì)共現(xiàn)矩陣進(jìn)行調(diào)整,最終得到50個(gè)關(guān)鍵詞的共現(xiàn)矩陣,部分?jǐn)?shù)據(jù)如表4所示。將得到的關(guān)鍵詞共現(xiàn)矩陣導(dǎo)入到UCINET中,然后用可視化工具NetDraw繪制出基于中介中心性(Betweenness Centrality)的關(guān)鍵詞社會(huì)網(wǎng)絡(luò)關(guān)系圖譜,如圖4。圖中每一個(gè)節(jié)點(diǎn)代表一個(gè)關(guān)鍵詞,節(jié)點(diǎn)大小代表了中介中心性的大小,節(jié)點(diǎn)越大,說明節(jié)點(diǎn)在網(wǎng)絡(luò)中所處的位置越核心;節(jié)點(diǎn)連線代表關(guān)鍵詞間的共現(xiàn)關(guān)系,連接線越粗,說明關(guān)鍵詞共現(xiàn)的次數(shù)越多。
由圖4可知,最大的節(jié)點(diǎn)“協(xié)同過濾”處于整個(gè)社會(huì)網(wǎng)絡(luò)最中間的位置,說明協(xié)同過濾在我國(guó)推薦系統(tǒng)研究領(lǐng)域占據(jù)舉足輕重的位置,其次是“個(gè)性化推薦”和“電子商務(wù)”這兩個(gè)節(jié)點(diǎn),緊靠在“協(xié)同過濾”兩邊,而且三者之間的連線說明它們之間的聯(lián)系很密切。協(xié)同過濾算法是目前最成功的、應(yīng)用最廣泛的個(gè)性化推薦技術(shù)之一;電子商務(wù)網(wǎng)站是個(gè)性化推薦系統(tǒng)的一大應(yīng)用領(lǐng)域。
4.3 多維尺度分析
多維尺度分析(Multi-Dimensional Scaling,MDS)是分析研究對(duì)象的相似性或差異性的一種多維統(tǒng)計(jì)方法。在對(duì)關(guān)鍵詞進(jìn)行多維尺度分析之前,需要將關(guān)鍵詞共現(xiàn)矩陣轉(zhuǎn)換成相異矩陣。在Excel中,利用公式(1),將之前得到的50個(gè)關(guān)鍵詞的共現(xiàn)矩陣轉(zhuǎn)換成相似矩陣,然后用1減去相似矩陣中的每一個(gè)元素的值,就得到了關(guān)鍵詞相異矩陣,相異矩陣部分?jǐn)?shù)據(jù)如表5所示。
Ochiia系數(shù)=AB共現(xiàn)詞頻A的詞頻×B的詞頻(1)
相異矩陣中元素的值越小,表示關(guān)鍵詞之間的距離越近,相關(guān)度越大,即關(guān)鍵詞之間關(guān)系越密切,反之則相反。因此,根據(jù)多維尺度分析的結(jié)果,可以將距離相近、聯(lián)系緊密的關(guān)鍵詞歸為一類,依次將所有關(guān)鍵詞分成若干類,保證在同一個(gè)類中詞與詞之間的相似性最大,而類與類之間的相似性最小,這樣就形成了所要研究領(lǐng)域的若干個(gè)研究熱點(diǎn)。將表5中的相異矩陣導(dǎo)入到SPSS中,選擇“度量-多維尺度(ALSCAL)”分析,得到如圖5所示的我國(guó)推薦系統(tǒng)領(lǐng)域的研究熱點(diǎn)圖譜。
由圖5可知,我國(guó)推薦系統(tǒng)領(lǐng)域的研究熱點(diǎn)形成了K1-K8共8個(gè)主題域,其含義如表6所示。
5 結(jié)語(yǔ)
本文基于CNKI中推薦系統(tǒng)領(lǐng)域的2645篇文獻(xiàn),以定量和定性的方式,結(jié)合文獻(xiàn)計(jì)量分析、共現(xiàn)分析、社會(huì)網(wǎng)絡(luò)分析、多維尺度分析以及知識(shí)圖譜等可視化工具,對(duì)我國(guó)推薦系統(tǒng)研究的發(fā)文量、主要期刊、核心作者、高水平科研機(jī)構(gòu)以及研究熱點(diǎn)等進(jìn)行可視化分析。分析結(jié)果表明:我國(guó)推薦系統(tǒng)研究近年來處于快速發(fā)展的時(shí)期;其研究成果主要集中于計(jì)算機(jī)軟件與計(jì)算機(jī)應(yīng)用、圖書情報(bào)與科學(xué)、信息技術(shù)與信息工程等領(lǐng)域;作者之間大多是合作關(guān)系,但是合作的規(guī)模不夠大;機(jī)構(gòu)之間的合作主要是高校和科研院所,合作規(guī)??梢员容^大,但數(shù)量不多;基于協(xié)同過濾的推薦算法是最為核心的研究方向;研究呈現(xiàn)多元化特點(diǎn),主要涉及8個(gè)熱點(diǎn)主題域。本文對(duì)我國(guó)推薦系統(tǒng)研究的可視化分析為后續(xù)學(xué)者的研究提供了一定的參考價(jià)值。
參考文獻(xiàn)
[1]Resnick P,Varian HR.Recommendersystems[J].Communications of the ACM,1997,40(3):56-58.
[2]孟祥武,胡勛,王立才,等.移動(dòng)推薦系統(tǒng)及其應(yīng)用[J].軟件學(xué)報(bào),2013,24(1):91-108.
[3]鄧愛林,朱揚(yáng)勇,施伯樂.基于項(xiàng)目評(píng)分預(yù)測(cè)的協(xié)同過濾推薦算法[J].軟件學(xué)報(bào),2003,14(9):1621-1628.
[4]沈旺,馬一鳴,李賀.基于情境感知的用戶推薦系統(tǒng)研究綜述[J].圖書情報(bào)工作,2015,59(21):128-138.
[5]唐曉波,魏巍.基于本體的推薦系統(tǒng)研究綜述[J].圖書館學(xué)研究,2016,(18):7-12.
[6]Goldberg D,Nichols D,Oki BM,et al.Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of the ACM,1992,35(12):61-70.