国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于復(fù)合關(guān)鍵詞向量空間的林產(chǎn)品貿(mào)易網(wǎng)站用戶興趣模型*

2013-06-08 10:07:26高金萍
關(guān)鍵詞:木業(yè)林產(chǎn)品產(chǎn)地

王 梓,高金萍,陳 釗

(1.北京林業(yè)大學(xué)信息學(xué)院,北京 100083;2.國(guó)家林業(yè)局調(diào)查規(guī)劃設(shè)計(jì)院,北京 100714)

1 引言

近年來(lái),我國(guó)的林產(chǎn)品貿(mào)易信息類網(wǎng)站發(fā)展日益成熟,林產(chǎn)品貿(mào)易信息的數(shù)量急劇增加。然而,網(wǎng)站用戶仍需要通過(guò)瀏覽或搜索來(lái)尋找信息,這種“人找信息”的信息獲取方式存在著嚴(yán)重的“信息過(guò)載”和“信息迷向”問(wèn)題,不僅效率低下,而且準(zhǔn)確率低,容易造成信息的遺漏和延遲。因此,發(fā)展主動(dòng)的、個(gè)性化的林產(chǎn)品貿(mào)易信息推送技術(shù),對(duì)于林產(chǎn)品貿(mào)易信息網(wǎng)站的發(fā)展來(lái)說(shuō)至關(guān)重要。

信息推送(Information Push)技術(shù)是遵循一定的技術(shù)標(biāo)準(zhǔn)或協(xié)議,在互聯(lián)網(wǎng)上通過(guò)定期傳送用戶需要的信息來(lái)減少信息過(guò)載的一項(xiàng)新技術(shù)[1]。信息推送一般需要經(jīng)過(guò)用戶興趣建模、匹配計(jì)算和推薦輸出三個(gè)階段來(lái)實(shí)現(xiàn)。其中,用戶興趣建模是一種面向算法的、具有特定數(shù)據(jù)結(jié)構(gòu)的、形式化的用戶描述,是整個(gè)信息推送過(guò)程的基礎(chǔ)和核心[2]。構(gòu)建出精確、完整、高效的用戶模型對(duì)于信息推送質(zhì)量的提高至關(guān)重要,其也是個(gè)性化信息檢索、個(gè)性化站點(diǎn)等其他個(gè)性化信息服務(wù)技術(shù)的基礎(chǔ)。

用戶興趣模型的表示方法包括基于向量空間模型VSM(Vector Space Model)的表示法[3]、關(guān)鍵詞列表表示法、基于神經(jīng)網(wǎng)絡(luò)的表示法[4]、基于用戶-項(xiàng)目評(píng)價(jià)矩陣的表示法[5]、基于案例的表示法[6]、基于本體論(Ontology)的表示法[7,8]等等。其中,基于向量空間模型的表示法是表示文本信息用戶模型最常用的表示法。對(duì)于林產(chǎn)品貿(mào)易信息網(wǎng)站,用戶面對(duì)的文本信息內(nèi)容相對(duì)比較固定,主要是各種林產(chǎn)品的供應(yīng)或求購(gòu)信息,用戶感興趣的關(guān)鍵詞主要集中于如林產(chǎn)品名稱、產(chǎn)地、規(guī)格、價(jià)格、公司名稱等有限的概念節(jié)點(diǎn)上,而這些概念節(jié)點(diǎn)之間并不相互獨(dú)立,存在著大量聯(lián)系,這就要求構(gòu)建的用戶模型必須充分地反映出這些聯(lián)系,而這是普通向量空間模型無(wú)法做到的。本文利用一種基于“復(fù)合關(guān)鍵詞”的向量空間模型來(lái)表示林產(chǎn)品貿(mào)易信息網(wǎng)站的用戶興趣模型,并為這種復(fù)合關(guān)鍵詞向量空間模型提供了學(xué)習(xí)、更新方法以及表示用戶長(zhǎng)期興趣和短期興趣的方法,最后給出了利用這種用戶興趣模型進(jìn)行信息推薦的方法及實(shí)驗(yàn)研究。

2 用戶興趣模型的表示

林產(chǎn)品貿(mào)易信息相對(duì)其他信息而言有其特點(diǎn):

(1)文本信息半結(jié)構(gòu)化。林產(chǎn)品貿(mào)易網(wǎng)站文本信息發(fā)布格式和內(nèi)容較為固定,關(guān)鍵詞范圍可預(yù)測(cè)且一般不具有重復(fù)性,若采用TF-IDF方法把每一個(gè)詞作為一個(gè)特征項(xiàng)不僅會(huì)造成特征項(xiàng)冗余,無(wú)針對(duì)性,并且會(huì)導(dǎo)致數(shù)據(jù)嚴(yán)重稀疏。因此,結(jié)合林產(chǎn)品貿(mào)易信息的內(nèi)容特點(diǎn),可將林產(chǎn)品貿(mào)易文本信息結(jié)構(gòu)化為以下16個(gè)概念節(jié)點(diǎn)[9]:供求分類(供應(yīng)或求購(gòu))、林產(chǎn)品名稱、產(chǎn)地、規(guī)格、價(jià)格、數(shù)量、發(fā)布日期、有效期、公司名稱、聯(lián)系人、電話、手機(jī)、傳真、郵箱、郵編、公司網(wǎng)站。而對(duì)用戶的興趣及對(duì)信息過(guò)濾起作用的概念節(jié)點(diǎn)有:供求分類(供應(yīng)或求購(gòu))、林產(chǎn)品名稱、產(chǎn)地、規(guī)格、價(jià)格和公司名稱,因此可選擇此六個(gè)概念節(jié)點(diǎn)對(duì)應(yīng)的關(guān)鍵詞作為特征項(xiàng)。

(2)特征項(xiàng)之間關(guān)聯(lián)較大。受地域等影響,由于每個(gè)關(guān)鍵詞在實(shí)際中對(duì)用戶選擇結(jié)果的影響作用過(guò)大,以至單個(gè)特征項(xiàng)對(duì)用戶興趣的決定作用相對(duì)較小,而各關(guān)鍵詞的聯(lián)系信息對(duì)用戶興趣的作用至關(guān)重要。例如,用戶對(duì)產(chǎn)地為北京的楊樹和產(chǎn)地為上海的樺樹感興趣,而產(chǎn)地為北京的樺樹則可能與用戶的興趣相去甚遠(yuǎn);又例如價(jià)格、規(guī)格脫離了某特定產(chǎn)品名稱則失去了實(shí)際意義。若采用一般的向量空間模型,將用戶興趣表示成一個(gè)n維特征向量:{(t1:w1),(t2:w2),…,(tn:wn)},向量的每一維由一個(gè)關(guān)鍵詞tk及其權(quán)重wk組成,這樣各關(guān)鍵詞之間的聯(lián)系信息就無(wú)法被反映出來(lái)。

(3)興趣偏移較快。受季節(jié)、市場(chǎng)等影響,用戶的興趣短期內(nèi)轉(zhuǎn)移較快,要求我們的興趣模型必須適應(yīng)并及時(shí)記錄用戶興趣的臨時(shí)偏移。

(4)用戶興趣之間的相互影響相對(duì)較小。雖然主流的市場(chǎng)動(dòng)向會(huì)對(duì)用戶的興趣產(chǎn)生一定影響,但相對(duì)其它類型的信息,林產(chǎn)品貿(mào)易網(wǎng)站用戶受其他用戶興趣的影響較小。

基于上述特點(diǎn),現(xiàn)采用一種基于“復(fù)合關(guān)鍵詞”的向量空間模型。所謂“復(fù)合關(guān)鍵詞”即向量空間中每個(gè)“關(guān)鍵詞”都是由一組相互關(guān)聯(lián)的多個(gè)關(guān)鍵詞組成,這些關(guān)鍵詞分別對(duì)應(yīng)于前文所述的六個(gè)概念節(jié)點(diǎn):供求分類、林產(chǎn)品名稱、產(chǎn)地、規(guī)格、價(jià)格和公司名稱。每個(gè)復(fù)合關(guān)鍵詞都有一個(gè)權(quán)重值w,反映了用戶對(duì)此條目貿(mào)易信息的感興趣程度。這樣的向量空間模型既反映出了用戶對(duì)某些單個(gè)關(guān)鍵詞的興趣,又給出了用戶感興趣的關(guān)鍵詞之間的關(guān)聯(lián)信息。為避免重復(fù)、浪費(fèi)空間,提高信息與用戶興趣匹配度的可計(jì)算性,且要反映用戶興趣的衰減以及長(zhǎng)期興趣和短期興趣的差別,令每一個(gè)復(fù)合關(guān)鍵詞中的供求分類、林產(chǎn)品名稱和產(chǎn)地三個(gè)概念節(jié)點(diǎn)對(duì)應(yīng)于單個(gè)關(guān)鍵詞,而令規(guī)格、價(jià)格和公司名稱這三個(gè)概念節(jié)點(diǎn)分別對(duì)應(yīng)于一個(gè)興趣范圍。這樣,可以將林產(chǎn)品貿(mào)易信息網(wǎng)站的用戶興趣表示為:

I={用戶id:{[(供求分類1,林產(chǎn)品名稱1,產(chǎn)地1,規(guī)格范圍1,價(jià)格范圍1,公司名集合1):w1],

[(供求分類2,林產(chǎn)品名稱2,產(chǎn)地2,規(guī)格范圍2,價(jià)格范圍2,公司名集合2):w2],…,[(供求分類n,林產(chǎn)品名稱n,產(chǎn)地n,規(guī)格范圍n,價(jià)格范圍n,公司名集合n):wn]}}

其中,(供求分類i,林產(chǎn)品名稱i,產(chǎn)地i,規(guī)格范圍i,價(jià)格范圍i,公司名集合i)為一個(gè)復(fù)合關(guān)鍵詞,表示用戶對(duì)某一產(chǎn)地某種林產(chǎn)品的供應(yīng)或求購(gòu)信息感興趣,其注冊(cè)、發(fā)布或?yàn)g覽的此類信息的產(chǎn)品規(guī)格、價(jià)格范圍及相關(guān)公司名稱的集合也被記錄在復(fù)合關(guān)鍵詞中,這使得之后的推薦信息與用戶興趣匹配度的計(jì)算更為精確;wi為用戶對(duì)某一復(fù)合關(guān)鍵詞的感興趣度,也即此復(fù)合關(guān)鍵詞在該用戶興趣模型中所占的權(quán)重。

3 用戶興趣模型的學(xué)習(xí)與更新

用戶興趣來(lái)源可分為顯性來(lái)源和隱性來(lái)源,其中顯性來(lái)源有:(1)用戶的注冊(cè)信息;(2)用戶發(fā)布的信息;隱性來(lái)源有:用戶對(duì)發(fā)布此類信息的網(wǎng)頁(yè)的行為,如對(duì)網(wǎng)頁(yè)的點(diǎn)擊,較長(zhǎng)時(shí)間瀏覽該網(wǎng)頁(yè),以及復(fù)制、保存、收藏或打印該網(wǎng)頁(yè)等。對(duì)于顯性來(lái)源,可直接使用用戶填寫的結(jié)構(gòu)化信息;對(duì)于隱性來(lái)源,可利用基于規(guī)則的信息抽取方法和基于語(yǔ)義的林產(chǎn)品貿(mào)易文本信息結(jié)構(gòu)化方法[9],將用戶發(fā)生行為的網(wǎng)頁(yè)分別結(jié)構(gòu)化為模型中對(duì)應(yīng)的各個(gè)概念節(jié)點(diǎn)。當(dāng)用戶發(fā)生上述行為時(shí),其興趣信息即以復(fù)合關(guān)鍵詞的形式進(jìn)入到其興趣模型中,且對(duì)應(yīng)的感興趣度值w 會(huì)相應(yīng)地增加,復(fù)合關(guān)鍵詞中產(chǎn)品規(guī)格、價(jià)格范圍及公司名集合也可能會(huì)發(fā)生相應(yīng)的變化。根據(jù)不同的用戶行為所體現(xiàn)出的用戶對(duì)某信息的感興趣程度,給出一個(gè)用戶行為對(duì)w 值貢獻(xiàn)的參考值,如表1所示。

Table 1 Reference values for the increment of wresulted from various user behaviors表1 各種用戶行為對(duì)w 值貢獻(xiàn)參考值

其中,Tht是一個(gè)瀏覽時(shí)間閾值,當(dāng)用戶對(duì)某網(wǎng)頁(yè)的瀏覽時(shí)間超過(guò)此閾值時(shí),才認(rèn)為其對(duì)此網(wǎng)頁(yè)對(duì)應(yīng)的信息感興趣。需要注意的是,用戶主動(dòng)發(fā)布的信息與其感興趣的信息的供求關(guān)系是相反的,如用戶發(fā)布了求購(gòu)某類產(chǎn)品的信息,表示其對(duì)供應(yīng)該類產(chǎn)品的信息感興趣,反之亦然。

用戶對(duì)某一類信息的興趣并不是持久不變的,若其長(zhǎng)時(shí)間對(duì)某一類信息無(wú)任何行為發(fā)生,可以認(rèn)為其興趣發(fā)生了轉(zhuǎn)移,該類信息對(duì)應(yīng)的復(fù)合關(guān)鍵詞的興趣度應(yīng)該下降。因此,為用戶興趣模型中每一個(gè)復(fù)合關(guān)鍵詞的興趣度值w 引入一個(gè)遺忘因子,使其變?yōu)椋?/p>

4 長(zhǎng)期用戶興趣與短期用戶興趣

根據(jù)如前所述林產(chǎn)品貿(mào)易網(wǎng)站用戶興趣轉(zhuǎn)移較快,可能經(jīng)常發(fā)生臨時(shí)轉(zhuǎn)變的特點(diǎn),為用戶興趣模型增加一個(gè)短期興趣集合,原興趣集合可以稱為長(zhǎng)期興趣集合。短期興趣集合也為一個(gè)復(fù)合關(guān)鍵詞向量空間:

ITemporary={用戶id:{[(供求分類1,林產(chǎn)品名稱1,產(chǎn)地1,規(guī)格范圍1,價(jià)格范圍1,公司名集合1):w1],

[(供求分類2,林產(chǎn)品名稱2,產(chǎn)地2,規(guī)格范圍2,價(jià)格范圍2,公司名集合2):w2],…,

[(供求分類n,林產(chǎn)品名稱n,產(chǎn)地n,規(guī)格范圍n,價(jià)格范圍n,公司名集合n):wn]}}

短期興趣集合的更新算法如下:

Step 1 若長(zhǎng)期興趣集合中的某一復(fù)合關(guān)鍵詞的w 值在某日中的增值大于某一閾值Thw,認(rèn)為用戶對(duì)該復(fù)合關(guān)鍵詞產(chǎn)生了短期興趣;

Step 2 將該復(fù)合關(guān)鍵詞加入到該用戶的短期興趣集合中,其短期興趣集合w 值定義為其w值在該日中的增值(無(wú)遺忘因子);

Step 3 在用戶下一登錄日首次登錄時(shí),系統(tǒng)為其推薦信息時(shí)會(huì)將其短期興趣考慮在內(nèi);

Step 4 在該登錄日結(jié)束時(shí),清空該用戶的短期興趣集合,更新為當(dāng)日新產(chǎn)生的短期興趣(或空缺),為下一登錄日首次登錄時(shí)的推薦提供依據(jù)。

5 基于用戶興趣模型的推薦

信息推薦方法可分為兩種:基于內(nèi)容的推薦和基于協(xié)同過(guò)濾的推薦。如前所述,林產(chǎn)品網(wǎng)站用戶受其他用戶興趣影響相對(duì)較小,因此我們采取基于內(nèi)容的推薦方式:

將需要推薦的信息結(jié)構(gòu)化為包括供求分類(供應(yīng)或求購(gòu))、林產(chǎn)品名稱、產(chǎn)地、規(guī)格、價(jià)格和公司名稱等在內(nèi)的16個(gè)概念節(jié)點(diǎn),計(jì)算其中對(duì)用戶興趣產(chǎn)生影響的這6個(gè)概念節(jié)點(diǎn)與用戶興趣模型的匹配度,然后將當(dāng)日所有待推薦信息與某用戶興趣的匹配度進(jìn)行排名,選取其中的前N 條信息推薦給用戶。某一條待推薦信息與某用戶興趣模型的匹配度M 的計(jì)算算法如下:

Step 1 將待推薦信息i與用戶興趣模型進(jìn)行逐一比對(duì),若與某復(fù)合關(guān)鍵詞Ia(權(quán)重wa)的供求分類、林產(chǎn)品名稱、產(chǎn)地三個(gè)關(guān)鍵詞均匹配,則進(jìn)入Step 2,否則進(jìn)入Step 6。

Step 2 將信息i的規(guī)格與該復(fù)合關(guān)鍵詞的規(guī)格范圍進(jìn)行比對(duì),定義ks為規(guī)格匹配度系數(shù):

Step 3 將信息i的價(jià)格與該復(fù)合關(guān)鍵詞的價(jià)格范圍進(jìn)行比對(duì),定義kp為價(jià)格匹配度系數(shù):

(1)當(dāng)信息i為供應(yīng)類信息時(shí):

其價(jià)格大于該復(fù)合關(guān)鍵詞價(jià)格范圍上限,則?。?/p>

i無(wú)價(jià)格信息或價(jià)格無(wú)法比較,則?。?/p>

其價(jià)格小于或等于該復(fù)合關(guān)鍵詞價(jià)格范圍上限,則?。?/p>

(2)當(dāng)信息i為求購(gòu)類信息時(shí):

其價(jià)格小于該復(fù)合關(guān)鍵詞價(jià)格范圍下限,則?。?/p>

i無(wú)價(jià)格信息或價(jià)格無(wú)法比較,則?。?/p>

其價(jià)格大于或等于該復(fù)合關(guān)鍵詞價(jià)格范圍下限,則?。?/p>

Step 4 將信息i的公司名與該復(fù)合關(guān)鍵詞的公司名集合進(jìn)行比對(duì),定義kc為公司名匹配度系數(shù):

Step 5 取ka=kskpkc(ka為三者的復(fù)合匹配度系數(shù)),賦值:

Step 6 將待推薦信息i與用戶長(zhǎng)期興趣模型進(jìn)行比對(duì),若與某復(fù)合關(guān)鍵詞Ib1(權(quán)重wb1)的供求分類、林產(chǎn)品名稱兩個(gè)關(guān)鍵詞相匹配,則重復(fù)Step 2~Step 4 后進(jìn)入Step 7,否則進(jìn)入Step 9。

Step 7 取kb1=kskpkc。

Step 8 重復(fù)Step 6,找出所有與待推薦信息i的供求分類、林產(chǎn)品名詞兩個(gè)關(guān)鍵詞匹配的復(fù)合關(guān)鍵詞Ib2,Ib3,…(權(quán)重wb2,wb3,…),并分別按照Step 2~Step 4計(jì)算其k值(kb2,kb3,…),并賦值:

其中,kN為某小于1的系數(shù),反映了用戶對(duì)產(chǎn)品名稱的關(guān)注程度(本文取kN=0.4)。

Step 9 將待推薦信息i與用戶長(zhǎng)期興趣模型進(jìn)行比對(duì),若與其供求分類、產(chǎn)地兩個(gè)關(guān)鍵詞相匹配的復(fù)合關(guān)鍵詞為Ic1,Ic2,…(權(quán)重wc1,wc2,…),則分別按照Step 2~Step 4計(jì)算其k 值(kc1,kc2,…),并賦值:

其中,kL為某小于1的系數(shù),反映了用戶對(duì)產(chǎn)地的關(guān)注程度(本文取kL=0.2);

Step 10 仿照Step 1~Step 9,將待推薦信息i與用戶短期興趣模型進(jìn)行比對(duì),若其對(duì)應(yīng)的k 值及權(quán)重w 值分別為ka′,wa,kb1′,wb1′,kb2′,wb2′,…,kc1′,wc1′,kc2′,wc2′,…,則賦值:

其中,kT為某大于1的系數(shù),反映了用戶對(duì)其短期興趣的關(guān)注程度(本文取kT=2)。

綜上,待推薦信息i與某用戶興趣模型的匹配度值M 可表示為:

6 實(shí)驗(yàn)結(jié)果

基于上述提出的復(fù)合關(guān)鍵詞向量空間用戶興趣模型,利用中國(guó)木業(yè)網(wǎng)上的林業(yè)產(chǎn)品貿(mào)易信息,本文設(shè)計(jì)了一個(gè)復(fù)合關(guān)鍵詞向量空間用戶興趣模型,以及另外兩種同類研究中最常用到的用戶模型:普通向量空間用戶興趣模型[3]和信息列表用戶興趣模型[10]。選取最新更新的1 000條信息對(duì)三種模型作基于內(nèi)容的推薦,并對(duì)推薦結(jié)果進(jìn)行對(duì)比分析。復(fù)合關(guān)鍵詞向量空間用戶興趣模型如下(只記錄權(quán)重大于或等于5的復(fù)合關(guān)鍵詞):

I={[(供應(yīng),樺木膠合板,河北,“1 240*1 880,1 220*2 440*5.2~40mm”,“2 600元/平方米,4 500元/平方米”,“霸州市海河膠合板廠,廊坊市東升木業(yè)有限公司”):40];

[(供應(yīng),細(xì)木工板,山東,“5~40mm 厚1 220*2 440,1 220*2 440”,“60 元/張”,“壽光市富士木業(yè)有限公司,青島龍宇膠合板有限公司,臨沂富鵬木業(yè)有限公司”):35];

[(供應(yīng),硬質(zhì)纖維板,山東,“1 220*2 440*2.5mm”,“16元/平方米”,“壽光市富士木業(yè)有限公司”):20];

[(供應(yīng),家具板,河北,“無(wú)”,“42 元/張”,“廊坊市東升木業(yè)有限公司”):8];

[(供應(yīng),家具板,山東,“122mm*244mm”,“45元/張”,“鄆城縣華順木制品加工廠,德州市旭東建材有限公司”):6]}

ITemporary={[(供應(yīng),硬質(zhì)纖維板,山東,“1 220*2 440*2.5mm”,“16元/平方米”,“壽光市富士木業(yè)有限公司”):15]}

其對(duì)應(yīng)的普通向量空間用戶興趣模型如下(只記錄權(quán)重大于或等于5的關(guān)鍵詞):

I=[(供應(yīng):109);(山東:61);(河北:48);(樺木膠合板:40);(壽光市富士木業(yè)有限公司:38);(細(xì)木工板:35);(廊坊市東升木業(yè)有限公司:26);(霸州市海河膠合板廠:22);(硬質(zhì)纖維板:20);(1 220*2 440:18);(60元/張:18);(家具板:14);(1 240*1 880:10);(青島龍宇膠合板有限公司:10);(1 220*2 440*2.5mm:8);(1 220*2 440*5.2~40mm:8);(16元/平方米:8);(2 600元/平方米:7);(臨沂富鵬木業(yè)有限公司:7);(42元/張:5);(4 500元/平方米:5)]

信息列表用戶興趣模型如下(瀏覽信息取最近瀏覽的不重復(fù)的5條):

I=[(注冊(cè),供應(yīng),樺木膠合板,河北,無(wú),無(wú),無(wú));

(發(fā)布,供應(yīng),樺木膠合板,河北,無(wú),無(wú),無(wú));

(瀏覽,供應(yīng),硬質(zhì)纖維板,山東,1 220*2 440*2.5mm,16元/平方米,壽光市富士木業(yè)有限公司);

(瀏覽,供應(yīng),硬質(zhì)纖維板,山東,無(wú),無(wú),無(wú));

(瀏覽,供應(yīng),硬質(zhì)纖維板,山東,無(wú),無(wú),壽光市富士木業(yè)有限公司);

(瀏覽,供應(yīng),家具板,河北,無(wú),42元/張,廊坊市東升木業(yè)有限公司);

(瀏覽,供應(yīng),家具板,河北,無(wú),無(wú),廊坊市東升木業(yè)有限公司)]。

選取最新更新的1 000 條信息,分別計(jì)算與三種用戶模型的匹配度(與復(fù)合關(guān)鍵詞向量空間模型的匹配度按本文給出的計(jì)算方法計(jì)算,與普通向量空間模型的匹配度計(jì)算方法是對(duì)信息與模型中匹配的關(guān)鍵詞的權(quán)重求和,與信息列表用戶模型的匹配度計(jì)算方法是將信息與模型中各信息的相似度加權(quán)求和,其中注冊(cè)、發(fā)布、瀏覽信息的權(quán)重分別為3、2、1),得分前10 名的信息分別如表2、表3和表4所示。

對(duì)比三種模型的推薦結(jié)果可以看出:

Table 2 The top10recommended information from the compound keywords vector space model based user model matching表2 復(fù)合關(guān)鍵詞向量空間用戶興趣模型匹配度top10推薦信息

Table 3 The top10recommended information from traditional vector space model based user model matching表3 普通向量空間用戶興趣模型匹配度top10推薦信息

Table 4 The top10recommended information from the information list user model matching表4 信息列表用戶興趣模型匹配度top10推薦信息

(1)復(fù)合關(guān)鍵詞向量空間用戶興趣模型很好地反映出了用戶的真實(shí)興趣,且用戶的短期興趣也得到了反映,推薦結(jié)果中80%的信息產(chǎn)品名和產(chǎn)地與用戶興趣完全匹配(定義為完全匹配信息),20%的信息產(chǎn)品名和產(chǎn)地與用戶興趣部分匹配(定義為部分匹配信息);

(2)普通向量空間用戶興趣模型則丟掉了用戶興趣中產(chǎn)品名與其產(chǎn)地之間的聯(lián)系信息,將“山東生產(chǎn)的樺木膠合板”及“河北生產(chǎn)的細(xì)木工板”這兩類部分匹配信息著重推薦給了用戶(推薦中完全匹配信息率為50%,部分匹配信息率為50%),且用戶的短期興趣也得不到很好的回饋;

(3)信息列表用戶模型由于其記錄用戶瀏覽信息時(shí)但凡產(chǎn)品規(guī)格、價(jià)格或公司名有不同則需單獨(dú)另存一條,興趣記錄效率較低,最近的五條瀏覽信息無(wú)法全面地反映出用戶的所有興趣(實(shí)際上反映為用戶短期興趣),因此推薦結(jié)果也無(wú)法全面地回饋用戶興趣,而若要涵蓋較全面的用戶興趣則需較大的數(shù)據(jù)存儲(chǔ)量。此外,用戶興趣中產(chǎn)品名與其產(chǎn)地之間的聯(lián)系信息也被丟掉(完全匹配信息率為40%,部分匹配信息率為60%)。

在復(fù)合關(guān)鍵詞向量空間模型和信息列表模型中,對(duì)于每一個(gè)關(guān)鍵詞,大多數(shù)情況下均需與待推薦信息中的對(duì)應(yīng)關(guān)鍵詞進(jìn)行一次比對(duì),故對(duì)于相等的網(wǎng)頁(yè)信息量(n 條)和相等的用戶興趣模型規(guī)模(m 個(gè)單個(gè)關(guān)鍵詞),匹配度算法的時(shí)間復(fù)雜度約為O(n*m);對(duì)于普通向量空間用戶模型,由于m 條待推薦信息對(duì)于某一用戶模型大部分是無(wú)關(guān)信息,故對(duì)于每條待推薦信息,在一次對(duì)比供求分類后,通常需將模型中的每個(gè)關(guān)鍵詞和待推薦信息其余五個(gè)概念節(jié)點(diǎn)逐個(gè)比對(duì),即(n-1)*5次,故算法時(shí)間復(fù)雜度約為O([1+(n-1)*5]*m)=O(5n*m-4m)。對(duì)比三種用戶模型可以看出,復(fù)合關(guān)鍵詞向量空間模型和信息列表模型的算法時(shí)間復(fù)雜度類似,而普通向量空間用戶模型的算法時(shí)間復(fù)雜度較高。從模型的空間復(fù)雜度上看,若記錄相同的網(wǎng)頁(yè)信息量,由于復(fù)合關(guān)鍵詞向量空間模型會(huì)合并相同產(chǎn)品名及產(chǎn)地的信息,故其相對(duì)于信息列表模型能大大地節(jié)省存儲(chǔ)空間。

7 結(jié)束語(yǔ)

本文利用一種復(fù)合關(guān)鍵詞向量空間模型來(lái)表示林產(chǎn)品貿(mào)易信息網(wǎng)站的用戶興趣模型,將向量空間中的關(guān)鍵詞表示為一個(gè)包括供求分類、林產(chǎn)品名稱和產(chǎn)地以及林產(chǎn)品的規(guī)格、價(jià)格范圍和公司名稱集合的復(fù)合關(guān)鍵詞,這樣不僅保留了較高的存儲(chǔ)效率,且最大限度地體現(xiàn)出了用戶感興趣的關(guān)鍵詞之間的關(guān)聯(lián)信息。為此,用戶興趣模型提供了基于用戶行為及遺忘因子的學(xué)習(xí)和更新機(jī)制,并通過(guò)引入用戶的短期興趣集合,使得用戶的短期興趣得以體現(xiàn)?;趶?fù)合關(guān)鍵詞向量空間用戶興趣模型,給出了基于內(nèi)容的信息推薦算法。最后,用中國(guó)木業(yè)網(wǎng)上的貿(mào)易信息做基于內(nèi)容的推薦,利用對(duì)比實(shí)驗(yàn)證明了復(fù)合關(guān)鍵詞向量空間興趣模型的優(yōu)勢(shì)。本文提出的復(fù)合關(guān)鍵詞向量空間模型亦可應(yīng)用于其他結(jié)構(gòu)較為固定的信息領(lǐng)域的推薦。

[1]Zou Zhi-wen,Ke Qing.The design and optimization of an active pushing system based on the vector space model[J].New Technology of Library and Information Service,2005(7):42-45.(in Chinese)

[2]Pei Yang-jun.The research on the user interest model in personal service[D].Chongqing:Chongqing University,2005.(in Chinese)

[3]Lee P C,Su H N,Chan T Y.Assessment of ontology-based knowledge network formation by vector-space model[J].Scientometrics,2010,85(3):689-703.

[4]Chang C C,Chen P L,Chiu F R,et al.Application of neural networks and Kano's method to content recommendation in web personalization[J].Expert Systems with Applications,2009,36(3):5310-5316.

[5]Koren Y.Collaborative filtering with temporal dynamics[J].Communications of the ACM,2010,53(4):89-97.

[6]Zehraoui F,Kanawati R,Salotti S.Hybrid neural network and case based reasoning system for Web user behavior clustering and classification[J].International Journal of Hybrid Intelligent Systems,2010,7(3):171-186.

[7]Middleton S E,Shadbolt N R,Roure D C.Ontological user profiling in recommender systems[J].ACM Transactions on Information Systems,2004,2.(1):54-88.

[8]Yang H.Study on ontology-based personalized user modeling techniques in intelligent information retrievals[C]∥Proc of 2011IEEE 3rd International Conference on Communication Software and Networks,2011:204-207.

[9]Chen Zhao,Li Jia.Research on forest products trade text messages structuring based on semantic[J].Computer Engineering,2011,37(20):261-263.(in Chinese)

[10]Chen Jian,Zhang Dong-mei,Chen Zhao.Cascade filtering technique of forest products trading information push[J].Computer Engineering and Applications,2012,48(14):134-162.(in Chinese)

附中文參考文獻(xiàn):

[1]鄒志文,柯青.基于向量空間模型的主動(dòng)推送系統(tǒng)設(shè)計(jì)與優(yōu)化[J].現(xiàn)代圖書情報(bào)技術(shù),2005(7):42-45.

[2]裴仰軍.個(gè)性化服務(wù)中用戶興趣模型的研究[D].重慶:重慶大學(xué),2005.

[9]陳釗,李嘉.基于語(yǔ)義的林產(chǎn)品貿(mào)易文本信息結(jié)構(gòu)化研究[J].計(jì)算機(jī)工程,2011,37(20):261-263.

[10]陳劍,張冬梅,陳釗.林產(chǎn)品貿(mào)易信息推送梯級(jí)過(guò)濾技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(14):134-162.

猜你喜歡
木業(yè)林產(chǎn)品產(chǎn)地
警惕“洗產(chǎn)地”暗礁
食物離產(chǎn)地越遠(yuǎn)越好
測(cè)定不同產(chǎn)地寬筋藤中5種重金屬
中成藥(2018年8期)2018-08-29 01:28:16
寶源木業(yè)——無(wú)醛制造的踐行者
祥盛木業(yè):完善人造板產(chǎn)業(yè)鏈 迎接行業(yè)春天
中芬木業(yè)高峰論壇于3月22日在北京隆重召開
加強(qiáng)產(chǎn)地檢疫實(shí)現(xiàn)以檢促防
中國(guó)負(fù)責(zé)任林產(chǎn)品貿(mào)易與投資聯(lián)盟在上海正式成立
第二屆西瓦國(guó)際木業(yè)展完美收官
綠奧諾林產(chǎn)品貿(mào)易研討會(huì)在京召開
卢氏县| 潜江市| 子长县| 辽阳县| 南丹县| 沛县| 青河县| 南部县| 芮城县| 宜宾市| 鹿泉市| 密山市| 泉州市| 会泽县| 游戏| 辽阳县| 休宁县| 海林市| 营口市| 榆社县| 兴和县| 井陉县| 丰原市| 石渠县| 云浮市| 云梦县| 建瓯市| 阿克| 景洪市| 遂溪县| 五常市| 万州区| 吴桥县| 长汀县| 沙坪坝区| 长治市| 福安市| 林州市| 株洲县| 应城市| 驻马店市|