国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

旅游知識圖譜特征學(xué)習(xí)的景點(diǎn)推薦

2019-05-22 13:11賈中浩古天龍賓辰忠常亮張偉濤朱桂明
智能系統(tǒng)學(xué)報(bào) 2019年3期
關(guān)鍵詞:特征向量景點(diǎn)圖譜

賈中浩,古天龍,賓辰忠,常亮,張偉濤,朱桂明

(桂林電子科技大學(xué) 廣西可信軟件重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)

科技的進(jìn)步在給人們的生活帶來便利的同時(shí),也給人們帶來了選擇的困擾——如何在龐大而繁瑣的知識中獲取有價(jià)值的信息。推薦系統(tǒng)的出現(xiàn)為解決信息過載問題提供了一條有效途徑[1]。但隨著大數(shù)據(jù)時(shí)代的到來,傳統(tǒng)推薦系統(tǒng)在挖掘數(shù)據(jù)價(jià)值上存在的問題正在限制其性能發(fā)揮[2]。傳統(tǒng)的推薦方法已經(jīng)得到廣泛的應(yīng)用,但依舊存在許多問題,如項(xiàng)目冷啟動(dòng)和數(shù)據(jù)稀疏問題[3-4]。知識圖譜[5]的提出為解決大數(shù)據(jù)下推薦系統(tǒng)的復(fù)雜問題帶來了技術(shù)革新。

利用知識圖譜解決推薦問題的技術(shù)核心在于如何從豐富的異構(gòu)數(shù)據(jù)中有效地建立用戶項(xiàng)目之間的相關(guān)性。因此,如何更精準(zhǔn)地從網(wǎng)絡(luò)圖中對節(jié)點(diǎn)間復(fù)雜關(guān)系建模是基于知識圖譜做推薦的一個(gè)技術(shù)難點(diǎn)。Node2Vec[6]作為一種有效的網(wǎng)絡(luò)嵌入方法,將靈活的隨機(jī)游走策略與神經(jīng)網(wǎng)絡(luò)模型相結(jié)合。但這種方法并不適用于知識圖譜,它處理的是一種無標(biāo)簽的網(wǎng)絡(luò)圖。知識圖譜是一種特殊的帶標(biāo)簽(屬性)的圖,不同的標(biāo)簽對節(jié)點(diǎn)的影響力不同。擴(kuò)展Node2Vec使其適用于知識圖譜的特征學(xué)習(xí),通過將知識圖譜分割為獨(dú)立的屬性子圖,同一標(biāo)簽將在同一個(gè)子圖中,進(jìn)而對特定屬性的子圖獨(dú)立訓(xùn)練,從而達(dá)到區(qū)分知識圖譜中標(biāo)簽的目的?;诖说玫饺诤细鱾€(gè)屬性語義的用戶和項(xiàng)目的特征向量,最后通過計(jì)算用戶項(xiàng)目相關(guān)性得到推薦列表。

本文提出了一種利用多源公開數(shù)據(jù)進(jìn)行旅游知識圖譜的構(gòu)建方法,提出了一種利用景點(diǎn)具有多個(gè)屬性來構(gòu)建其屬性子圖的知識圖譜,利用一種隨機(jī)游走策略對知識圖譜(屬性子圖)進(jìn)行節(jié)點(diǎn)序列的生成,利用一種深度學(xué)習(xí)模型進(jìn)行圖節(jié)點(diǎn)語義的挖掘?qū)W習(xí),提出了一種基于游客景點(diǎn)相關(guān)性的評分預(yù)測算法及其評價(jià)方法。

1 相關(guān)工作

隨著信息科學(xué)的發(fā)展,互聯(lián)網(wǎng)平臺上的數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,以知識圖譜為代表的數(shù)據(jù)組織模式開始受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。據(jù)估計(jì),Google的知識圖譜可以理解超過5億個(gè)實(shí)體以及35億個(gè)屬性和關(guān)系。國內(nèi)百度、搜狗、阿里等都在自己龐大的數(shù)據(jù)基礎(chǔ)之上構(gòu)建各自的知識圖譜,如百度知心、搜狗知立方以及阿里基于商品及賣家信息構(gòu)建的商品知識圖譜等。由此可見,知識圖譜正在引發(fā)一場新的技術(shù)革命。

1.1 知識圖譜

知識圖譜的概念由谷歌公司于2012年提出[5]。知識圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念,以及它們之間的關(guān)聯(lián)關(guān)系[7]。其中,每個(gè)實(shí)體或概念用一個(gè)全局唯一的ID來標(biāo)識,每個(gè)屬性-鍵值對刻畫了實(shí)體的內(nèi)在屬性,而關(guān)系用來連接兩個(gè)實(shí)體,刻畫它們之間的關(guān)聯(lián)。依據(jù)其覆蓋范圍,知識圖譜可以分為通用知識圖譜和專業(yè)知識圖譜。通用知識圖譜注重廣度,強(qiáng)調(diào)融合更多的實(shí)體信息,相較于專業(yè)知識圖譜,其準(zhǔn)確度不夠高,典型的如YAGO、DBpedia、Google知識圖譜等。通用知識圖譜主要應(yīng)用于智能搜索領(lǐng)域。專業(yè)知識圖譜描述的目標(biāo)是特定行業(yè),通常需要依賴特定行業(yè)的數(shù)據(jù)來構(gòu)建,具有特定的行業(yè)意義,與通用知識圖譜相比較其描述范圍有限,典型的如電影知識庫(internet movie database, IMDB)[8]、音樂知識庫MusicBrainz[9]等。

在本文工作中,知識圖譜用一種由三元組以及三元組之間相互的鏈接形成的一個(gè)網(wǎng)狀知識庫來表示。這種三元組富含實(shí)體以及實(shí)體的屬性信息。其中節(jié)點(diǎn)表示實(shí)體,邊表示實(shí)體之間的關(guān)系。以旅游領(lǐng)域?yàn)槭纠?,景點(diǎn)實(shí)體中主要包含景點(diǎn)等級、價(jià)格、適宜游玩時(shí)間等主要特征,這些特征總體上可以描述一個(gè)景點(diǎn),利用景點(diǎn)的特征可以得到類似圖1所示的一個(gè)旅游知識圖譜三元組。

圖 1 知識圖譜三元組Fig. 1 Knowledge graph triple

1.2 基于知識圖譜的推薦算法

在知識圖譜提出后,有相關(guān)學(xué)者將知識圖譜應(yīng)用于推薦領(lǐng)域并取得了較好的效果。Passant等[10]較早地提出將知識圖譜引入到推薦系統(tǒng)中。Oramas 等[11]也引入了開放鏈接數(shù)據(jù)庫DBpedia,通過DBpedia豐富歷史數(shù)據(jù)集的語義信息,從而提升推薦效果。OstuniV等[12]更進(jìn)一步融合開放鏈接數(shù)據(jù)庫中隱含的語義反饋信息,提出基于隱式語義反饋的路徑算法(SPrank),基于路徑的特征對數(shù)據(jù)集進(jìn)行挖掘,以捕獲項(xiàng)目之間的復(fù)雜關(guān)系。Piao等[13]在文獻(xiàn)[11]的基礎(chǔ)上提出改進(jìn)的鏈接數(shù)據(jù)語義相似距離,同時(shí)兼顧了節(jié)點(diǎn)之間的距離和路徑,更加充分地反映數(shù)據(jù)的語義信息。

1.3 網(wǎng)絡(luò)圖特征學(xué)習(xí)

知識圖譜解決推薦問題的核心在于如何精準(zhǔn)地對知識圖譜進(jìn)行特征學(xué)習(xí)。最近,網(wǎng)絡(luò)嵌入方法[14]被用于圖的特征學(xué)習(xí),并被證明是一種有效的圖特征學(xué)習(xí)方法。Perozzi[15]最早提出Deep-Walk,并利用它來對網(wǎng)絡(luò)圖進(jìn)行特征學(xué)習(xí)。Deep-Walk是以隨機(jī)的方式在網(wǎng)絡(luò)圖中游走,生成網(wǎng)絡(luò)圖中節(jié)點(diǎn)的序列,用生成的序列集合作為訓(xùn)練集來學(xué)習(xí)網(wǎng)絡(luò)圖中節(jié)點(diǎn)的特征。Tu等[16]對Deep-Walk的隨機(jī)游走過程進(jìn)行了改進(jìn),在隨機(jī)游走的過程中跳過無關(guān)的節(jié)點(diǎn),從而更精準(zhǔn)地對網(wǎng)絡(luò)圖中的節(jié)點(diǎn)進(jìn)行表示。Grover等[6]針對網(wǎng)絡(luò)圖節(jié)點(diǎn)序列的生成提出一種帶偏執(zhí)的隨機(jī)游走算法,通過設(shè)置兩個(gè)參數(shù)p、q來控制游走過程,當(dāng)p、q都等于1的時(shí)候相當(dāng)于DeepWalk,q不等于1的時(shí)候在深度優(yōu)先和廣度優(yōu)先之間取得均衡,實(shí)驗(yàn)表明,帶偏執(zhí)的隨機(jī)游走相比于傳統(tǒng)的DeepWalk有更好的性能,更加適用于網(wǎng)絡(luò)圖的特征學(xué)習(xí)。

2 旅游知識圖譜的構(gòu)建

2.1 數(shù)據(jù)采集

本研究從旅游垂直網(wǎng)站攜程網(wǎng)以及百科類網(wǎng)站(百度百科、互動(dòng)百科、wikidata)上以桂林市為例抓取桂林周邊旅游景點(diǎn)信息及游客評分信息。共采集到395個(gè)景點(diǎn)、12 398名游客、28 477條景點(diǎn)評分記錄以及百科網(wǎng)站中對景點(diǎn)的描述信息。表1為采集信息的樣本示例,如第一行表示漓江景區(qū)相關(guān)信息包括:景點(diǎn)地址、地理位置、景點(diǎn)等級、平均評分、景點(diǎn)類型、適宜游玩時(shí)間以及門票價(jià)格等。

表 1 數(shù)據(jù)采集示例Table 1 Example of data collection

2.2 構(gòu)建知識圖譜

對采集到的信息進(jìn)行預(yù)處理:刪除重復(fù)的游客評分記錄;選擇游客對景點(diǎn)最近的評分作為該游客對該景點(diǎn)的評分;選擇景點(diǎn)等級、地理位置、平均評分、景點(diǎn)類型、適宜游玩時(shí)間,門票價(jià)格等6個(gè)屬性作為景點(diǎn)的特征;標(biāo)記評分大于3分的游客與景點(diǎn)之間為喜愛關(guān)系;通過數(shù)據(jù)庫工具對采集到的數(shù)據(jù)進(jìn)行實(shí)體對齊(如桂林市和桂林表示同一個(gè)實(shí)體)。

通過預(yù)處理后的信息構(gòu)建旅游知識圖譜的模式圖,包含景點(diǎn)、游客的相關(guān)屬性以及游客和景點(diǎn)之間的喜愛關(guān)系,如圖2所示。

圖 2 模式圖示例Fig. 2 Example of a pattern diagram

利用預(yù)處理后的數(shù)據(jù)及設(shè)計(jì)好的模式圖構(gòu)建旅游知識圖譜。旅游知識圖譜最終包含383個(gè)景點(diǎn)、3 940名游客、19 724條評分記錄以及各個(gè)景點(diǎn)的6個(gè)屬性共計(jì)22 994個(gè)三元組。圖3為旅游知識圖譜存儲于Neo4j中的部分景點(diǎn)、游客及其屬性所構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)。

圖 3 旅游知識圖譜示例Fig. 3 Example of travel knowledge graph

3 基于知識圖譜特征學(xué)習(xí)的景點(diǎn)推薦

基于知識圖譜特征學(xué)習(xí)的景點(diǎn)推薦基本思想是:針對景點(diǎn)具有多個(gè)屬性,構(gòu)建屬性子圖[17]的知識圖譜。這樣做的好處是不同屬性的子圖具有不同的語義值。就景點(diǎn)而言,不同的景點(diǎn)可能有相同的等級,但類型或者適宜去游玩的季節(jié)可能不一樣,如果處理整個(gè)知識圖譜則完全忽略了景點(diǎn)不同屬性的語義。將景點(diǎn)適宜去游玩的季節(jié)也考慮進(jìn)來作為屬性子圖,因?yàn)樗峁┝素S富的分類。例如漓江可以夏季游玩,但冬季去游玩漓江顯然不符合常理。

Node2Vec可以把結(jié)構(gòu)相似和屬性值相同的節(jié)點(diǎn)聚集在一起的性質(zhì),通過帶偏執(zhí)的隨機(jī)游走策略對旅游知識圖譜中每種屬性子圖進(jìn)行節(jié)點(diǎn)序列生成,將生成的節(jié)點(diǎn)序列輸入到一個(gè)神經(jīng)網(wǎng)絡(luò)模型Word2Vec[18]中,對節(jié)點(diǎn)序列建模并將其映射到低維空間,得到每個(gè)景點(diǎn)在特定屬性空間下的特征向量表示,具有相似結(jié)構(gòu)和相同屬性的節(jié)點(diǎn)的語義值更加相似。

通過知識圖譜子圖游走訓(xùn)練得到同一節(jié)點(diǎn)在不同屬性子圖中的特征向量表示后,對其6個(gè)子圖屬性特征向量相加并平均,得到融合各個(gè)屬性語義的所有景點(diǎn)和游客節(jié)點(diǎn)的特征向量,該融合向量所表示的語義信息更加全面。利用余弦相似度計(jì)算游客與景點(diǎn)相關(guān)性分?jǐn)?shù),將相關(guān)性分?jǐn)?shù)歸一化處理后得到景點(diǎn)預(yù)測評分及推薦列表。圖4為推薦流程圖。

圖 4 基于知識圖譜特征學(xué)習(xí)的景點(diǎn)推薦流程Fig. 4 Flowchart of attraction recommendation flowchart based on knowledge graph feature learning

3.1 圖節(jié)點(diǎn)的序列生成

構(gòu)建好的旅游知識圖譜通過SPARQL語句分割存儲為7個(gè)獨(dú)立的子圖。針對每個(gè)子圖通過帶偏執(zhí)的隨機(jī)游走策略生成相應(yīng)節(jié)點(diǎn)序列S ={u1,u2,···,un}。 對于一個(gè)給定的源節(jié)點(diǎn) u ,模擬一個(gè)固定長度 L 的 隨機(jī)游走, uj表示游走過程中第j個(gè)節(jié)點(diǎn),初始節(jié)點(diǎn) u0= u 。 節(jié)點(diǎn) uj由 概率分布生成,即式中:D表示知識圖譜中邊的集合, πvx是節(jié)點(diǎn)v和x之間的轉(zhuǎn)移概率,Z是一個(gè)正則化參數(shù),本文的實(shí)驗(yàn)中 Z = 1。如圖5所示:隨機(jī)游走遍歷了邊 (v , x ), 并 停留在節(jié)點(diǎn)v。通過計(jì)算邊 (v , x )上的轉(zhuǎn)移概率πvx來判斷序列中的下一個(gè)節(jié)點(diǎn)。計(jì)算公式為

式中: wvx是邊上的權(quán)重(沒有權(quán)重時(shí)默認(rèn)為1);αpq(t,x)表示節(jié)點(diǎn)之間的邊上的偏執(zhí),計(jì)算公式為

式中: dtx∈(0,1,2),表示節(jié)點(diǎn)t和x之間的最小跳數(shù)。如圖5所示, dtx=0表示x就是t本身;dtx=1表 示 x 為x1或者 x3; dtx=2表示x為 x2,p和q是兩個(gè)監(jiān)督隨機(jī)游走的參數(shù)。

圖 5 隨機(jī)游走示例Fig. 5 Example of random walk

參數(shù)p可以控制重新訪問當(dāng)前節(jié)點(diǎn)的可能性。將p設(shè)置為較大的值( p >max(q,1))可以確保在后續(xù)采樣過程中不會對已經(jīng)訪問的節(jié)點(diǎn)進(jìn)行采樣(除非下一個(gè)節(jié)點(diǎn)沒有其他的鄰居節(jié)點(diǎn))。如果將p設(shè)置為較小的值( p <max(q,1)),算法將會回退一步,這將使得采樣的節(jié)點(diǎn)靠近初始結(jié)點(diǎn)t。

參數(shù)q允許在當(dāng)前節(jié)點(diǎn)周圍或者遠(yuǎn)離當(dāng)前節(jié)點(diǎn)采樣。如果q>1,隨機(jī)游走采樣的序列將靠近節(jié)點(diǎn)t,這樣隨機(jī)游走采集到的節(jié)點(diǎn)序列和廣度優(yōu)先類似。相反,如果q<1,隨機(jī)游走采樣的節(jié)點(diǎn)將逐漸遠(yuǎn)離節(jié)點(diǎn)t,這樣采集到的節(jié)點(diǎn)序列和深度優(yōu)先類似。通過設(shè)置合適的參數(shù)q可以使得采樣在深度優(yōu)先和廣度優(yōu)先之間達(dá)到平衡。當(dāng)p=q=1時(shí),相當(dāng)于傳統(tǒng)的DeepWalk。

3.2 節(jié)點(diǎn)序列特征學(xué)習(xí)

3.2.1 特征學(xué)習(xí)模型

4.1節(jié)已經(jīng)生成7個(gè)獨(dú)立子圖的節(jié)點(diǎn)序列。以一個(gè)子圖的節(jié)點(diǎn)序列為例, S ={u1,u2,···,un},將Word2Vec模型擴(kuò)展為基于圖節(jié)點(diǎn)序列數(shù)據(jù),由3層神經(jīng)網(wǎng)絡(luò)構(gòu)建的節(jié)點(diǎn)序列表示模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示?;谏窠?jīng)網(wǎng)絡(luò)語言模型的目標(biāo)函數(shù)通常取為對數(shù)似然函數(shù),見式(4):式中:N表示當(dāng)前序列中節(jié)點(diǎn)的個(gè)數(shù); xuj表示一個(gè)特征向量,由目標(biāo)節(jié)點(diǎn) uj的 上下文節(jié)點(diǎn)組成。的每一維都表示特定的上下文節(jié)點(diǎn)。簡單的來說,假設(shè) xuj是 一個(gè)非負(fù)的向量,其中每一項(xiàng)都表示相應(yīng)上下文中一個(gè)節(jié)點(diǎn)的出現(xiàn)次數(shù)。在形式上,用d維向量 vf∈Rd為序列中每一個(gè)節(jié)點(diǎn)建模。定義第f個(gè)上下文節(jié)點(diǎn)特征為一個(gè)d維向量vf∈Rd。

圖 6 序列模型網(wǎng)絡(luò)結(jié)構(gòu)Fig. 6 Sequence model network structure diagram

選取序列集合中節(jié)點(diǎn)的前后2c個(gè)位置節(jié)點(diǎn)作為訓(xùn)練樣本舉例:

輸入層:包含序列中2c個(gè)位置的隨機(jī)初始化向量序列。

投影層:將輸入層的2c個(gè)向量進(jìn)行求和平均,得到投影層向量。

輸出層:其結(jié)果為一顆完全二叉樹,是由序列集合中出現(xiàn)過的節(jié)點(diǎn)作為葉子節(jié)點(diǎn),以各個(gè)節(jié)點(diǎn)在序列集合中出現(xiàn)的次數(shù)作為權(quán)值所構(gòu)造的Huffman樹。樹中每條分支均可作為一次二分類,建樹即為多個(gè)二分類擬合多分類的過程。此處將非葉子節(jié)點(diǎn)的左子節(jié)點(diǎn)劃分為負(fù)例,即編碼為j=0 ; 右子節(jié)點(diǎn)為正例,編碼為。該樹的葉子節(jié)點(diǎn)共有N個(gè),每個(gè)葉子結(jié)點(diǎn)即為節(jié)點(diǎn)的特征向量;非葉子節(jié)點(diǎn)共有N-1個(gè),同為歸一化形式,但是其本身不具有任何語義含義。

3.2.2 參數(shù)估計(jì)與求解優(yōu)化

通過實(shí)例化式(1)中的上下文節(jié)點(diǎn)特征向量,在生成的各個(gè)特定屬性節(jié)點(diǎn)序列集合中定義目標(biāo)函數(shù),即

得到目標(biāo)函數(shù)需要對其進(jìn)行參數(shù)學(xué)習(xí)和優(yōu)化。在序列模型中,參數(shù)的學(xué)習(xí)是為了更好地利用上下文節(jié)點(diǎn)特征向量 vf來 學(xué)習(xí)目標(biāo)節(jié)點(diǎn)的向量vu。一般情況下通過最大化式(5)中的對數(shù)概率來學(xué)習(xí)參數(shù)。本文采用hierarchical softmax代替sof tmax對目標(biāo)函數(shù)進(jìn)行優(yōu)化,這樣可以簡化由softmax進(jìn)行優(yōu)化時(shí)所帶來的計(jì)算量大的問題。

更確切地說,給定一個(gè)實(shí)體 uj的 投影向量 vˉTu,

j用 L (uj)表 示根節(jié)點(diǎn)到 uj節(jié) 點(diǎn)的路徑長度,當(dāng) uj的 路徑在左邊的分支的第n層時(shí)=0 , 否則=1。從而可以利用hierarchical softmax定義logPr(uj|xuj)形式,即

式中 μ 表示學(xué)習(xí)率,為了方便計(jì)算上下文節(jié)點(diǎn)特征向量的更新,ˉuj的梯度表示為

通過上述計(jì)算,節(jié)點(diǎn) uj的 上下文節(jié)點(diǎn)特征向量可以通過式(11)更新:

3.2.3 用戶景點(diǎn)相關(guān)性計(jì)算

已經(jīng)將知識圖譜中每個(gè)屬性的游客以及景點(diǎn)的特征映射到了同一個(gè)向量空間,因此可以對其進(jìn)行加和平均,從而得到融合各個(gè)語義屬性的景點(diǎn)向量和游客向量:

式中: v ( attract)表示包含各個(gè)屬性語義的景點(diǎn)特征向量; m =6表示知識圖譜中的景點(diǎn)屬性的個(gè)數(shù);v(user)表示游客的特征向量。得到同一向量空間中景點(diǎn)和游客的特征向量,定義游客與景點(diǎn)的相關(guān)性得分為

利用上述已經(jīng)得到相關(guān)性的得分,通過式(15)得到用戶對景點(diǎn)的預(yù)測評分:

4 實(shí)驗(yàn)結(jié)果

4.1 實(shí)驗(yàn)數(shù)據(jù)環(huán)境

實(shí)驗(yàn)環(huán)境:操作系統(tǒng)Ubuntu16.04,64 B,處理器Intel Core i7-6700,內(nèi)存大小8 GB,編程平臺Pycharm,Python2.7版本。在本次實(shí)驗(yàn)中,選擇不同的采樣次數(shù)、隨機(jī)游走參數(shù)。采用交叉驗(yàn)證方法(cross validation)對算法進(jìn)行測試,并且與傳統(tǒng)的協(xié)同過濾算法進(jìn)行了對比。其中模型訓(xùn)練數(shù)據(jù)包含從真實(shí)旅游知識圖譜中生成的6 238條序列,序列的平均長度為2 000。

4.2 評測指標(biāo)

通過采用常見的推薦系統(tǒng)評測指標(biāo)來衡量算法的高效性:平均絕對誤差、F-measure。1)平均絕對誤差(mean-absolute error,MAE)。平均絕對誤差是絕對誤差的平均值,能夠反映預(yù)測值誤差的實(shí)際情況。

2) F-measure。

F-measure是準(zhǔn)確率和召回率的加權(quán)平均,均勻地反應(yīng)了推薦效果,數(shù)值越大越準(zhǔn)確。

其中:

式中TP、FP、FN、TN組成的混淆矩陣如表2所示。

表 2 混淆矩陣Table 2 Confusion matrix

4.3 實(shí)驗(yàn)結(jié)果與分析

4.3.1 采樣次數(shù)比較

在特征向量的學(xué)習(xí)過程中,屬性節(jié)點(diǎn)序列集合的生成對特征向量的學(xué)習(xí)會有不同的影響。實(shí)驗(yàn)分別選取采樣次數(shù)為100、200、300、400、500進(jìn)行實(shí)驗(yàn)分析。

從圖7和圖8中可以看出,采樣次數(shù)的不同,各項(xiàng)指標(biāo)都會有所變化。在采樣次數(shù)為400次的時(shí)候在各項(xiàng)指標(biāo)上取得的效果最佳。分析結(jié)果可知:采樣次數(shù)過少,對數(shù)據(jù)特征的學(xué)習(xí)不充足;采樣次數(shù)過多會產(chǎn)生過多的冗余信息,導(dǎo)致實(shí)驗(yàn)結(jié)果不準(zhǔn)確。采樣次數(shù)為400次時(shí)效果最好,因?yàn)樵趯?shí)驗(yàn)中景點(diǎn)節(jié)點(diǎn)有383個(gè)。

圖 7 不同采樣次數(shù)的MAEFig. 7 Different MAE sampling times

圖 8 不同采樣次數(shù)的F-measureFig. 8 F-measure for different sampling times

4.3.2 隨機(jī)游走參數(shù)

改變參數(shù)p、q,可以在特定屬性圖中采樣形成不同的節(jié)點(diǎn)序列。節(jié)點(diǎn)序列的生成結(jié)果會對推薦效果產(chǎn)生不同的影響。選取p、q屬于{0.25,0.5,1,2}進(jìn)行實(shí)驗(yàn)分析。

從圖9和10中可以看出,不同的隨機(jī)游走參數(shù)的組合對訓(xùn)練結(jié)果影響不同,隨機(jī)游走參數(shù)p、q取{0.25,0.25}時(shí)在各項(xiàng)指標(biāo)上效果最佳。也就是說,此時(shí)帶偏執(zhí)的隨機(jī)游走可以在廣度優(yōu)先和深度優(yōu)先之間取得平衡,能更加全面地對知識圖譜中節(jié)點(diǎn)的特征進(jìn)行學(xué)習(xí)。

圖 9 不同 p、q 的 MAEFig. 9 Different p、q MAE values

圖 10 不同 p、q 的 F-measureFig. 10 Different p、q F-measures

4.3.3 算法比較

協(xié)同過濾算法的最近鄰K為10、20、30、40,設(shè)置序列模型節(jié)點(diǎn)采樣次數(shù)為100、200、300、400、500。序列模型游走偏執(zhí) p、q屬于{0.25,0.5,1,2}。

從表3中可以看出,基于知識圖譜特征學(xué)習(xí)的景點(diǎn)推薦,相較于傳統(tǒng)的推薦算法在各項(xiàng)指標(biāo)上均有所提升,可以在語義上彌補(bǔ)傳統(tǒng)協(xié)同過濾算法的不足。分析實(shí)驗(yàn)結(jié)果:對于Norm-CF,在最近鄰選取10~40,實(shí)驗(yàn)效果出現(xiàn)起伏,在最近鄰選取為20時(shí)效果最好。對于序列模型,在選取組合參數(shù)為(400, 0.25, 0.25)時(shí)實(shí)驗(yàn)效果最好。也就是說,當(dāng)p、q取{0.25, 0.25}時(shí)在深度優(yōu)先和廣度優(yōu)先之間取得平衡,可以更好地學(xué)習(xí)節(jié)點(diǎn)的特征。

表 3 算法對比Table 3 Algorithm comparison

5 結(jié)束語

本文基于知識圖譜子圖特征學(xué)習(xí)的景點(diǎn)推薦,用以高效地挖掘知識圖譜中實(shí)體特征,從而更好地建模游客與景點(diǎn)的相關(guān)性。本文所提出的基于標(biāo)準(zhǔn)系統(tǒng)對其他推薦系統(tǒng)也具有適用性;從攜程網(wǎng)以及百科類網(wǎng)站上采集桂林周邊旅游景點(diǎn)信息及游客評分信息,構(gòu)建旅游知識圖譜;利用網(wǎng)絡(luò)嵌入方法對旅游知識圖譜進(jìn)行特征學(xué)習(xí),利用余弦相似度計(jì)算游客與景點(diǎn)的相關(guān)性生成推薦列表;設(shè)計(jì)對比實(shí)驗(yàn)方案,并利用推薦系統(tǒng)評測指標(biāo)在真實(shí)旅游知識圖譜上驗(yàn)證效果。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)基于評分的協(xié)同過濾推薦算法,該方法對旅游知識圖譜中游客與景點(diǎn)節(jié)點(diǎn)的特征建模更加準(zhǔn)確,從而更加精準(zhǔn)地作出推薦。未來將考慮利用更多的旅游信息(照片、游記以及評論信息)挖掘游客細(xì)粒度的偏好以及對景點(diǎn)進(jìn)行更加精準(zhǔn)的建模,以進(jìn)一步提高推薦準(zhǔn)確度。

猜你喜歡
特征向量景點(diǎn)圖譜
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
中醫(yī)藥知識圖譜應(yīng)用現(xiàn)狀分析及癡呆痰瘀互結(jié)證知識圖譜構(gòu)建探索
繪一張成長圖譜
一類三階矩陣特征向量的特殊求法
打卡名校景點(diǎn)——那些必去朝圣的大學(xué)景點(diǎn)
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
英格蘭十大怪異景點(diǎn)
主動(dòng)對接你思維的知識圖譜
福清市| 吴江市| 天水市| 湾仔区| 曲麻莱县| 湘乡市| 海原县| 巴林左旗| 新宁县| 广河县| 启东市| 梁山县| 潼南县| 牟定县| 游戏| 广德县| 东山县| 闻喜县| 桃园市| 怀安县| 河曲县| 陇西县| 荆州市| 禹州市| 永新县| 廊坊市| 葵青区| 修水县| 嘉峪关市| 怀化市| 科技| 安乡县| 滦南县| 连云港市| 哈密市| 寿宁县| 平阴县| 招远市| 东乌珠穆沁旗| 韩城市| 合山市|