沈陽(yáng)理工大學(xué)信息科學(xué)與工程學(xué)院 鄒依彤
引言:文章主要介紹個(gè)性化推送服務(wù)中的三個(gè)方面:本體、用戶興趣模型的建立和最后的推送機(jī)制,從而證明方法的有效性。
本體是概念的集合,它的五個(gè)要素是概念、規(guī)則、屬性、關(guān)系、實(shí)例。
因此,可將本體形式化的表示為:(C,AC,R,AR),其中:C是概念集合,表示的是對(duì)象的集合,包括概念的名稱以及概念所表示的“事物”,也就是實(shí)例。AC表示的是每一個(gè)概念所具有的屬性的集合。屬性包括:名稱、解釋(定義)、值域、數(shù)據(jù)類型、舉例。如:電影屬性包括:電影代碼、電影片名、上映時(shí)間、電影類型、導(dǎo)演、演員、適用對(duì)象。而電影類型的屬性又包括:名稱、解釋、數(shù)據(jù)類型、實(shí)例。R是概念之間關(guān)系的集合,主要考慮概念之間的父類、子類、以及上下位等層次關(guān)系。類之間的關(guān)系一方面定義了類的公理:如:等價(jià)類、全不同、不相交等客觀關(guān)系,另一方面定義了概念之間的相互作用:如:previous、hasPart、isPartof、requires,也可定義概念之間的特殊關(guān)系。AR是每個(gè)關(guān)系的屬性集合。
構(gòu)建領(lǐng)域本體時(shí),流程如下:1)確定構(gòu)建領(lǐng)域本體的應(yīng)用范圍;2)舉出領(lǐng)域內(nèi)的關(guān)鍵術(shù)語、概念;3)查找已有的相關(guān)本體進(jìn)行復(fù)用;4)定義類并構(gòu)建層次結(jié)構(gòu)圖;5)定義領(lǐng)域本體的相關(guān)規(guī)則;6)定義類的屬性;7)創(chuàng)建實(shí)例;8)利用后續(xù)實(shí)驗(yàn)對(duì)本體的構(gòu)建進(jìn)行評(píng)價(jià)及推理檢驗(yàn),一旦出現(xiàn)問題,就需要對(duì)類的層次結(jié)構(gòu)圖及領(lǐng)域本體規(guī)則重新加以改進(jìn)。
建立好本體模型之后,當(dāng)用戶想搜索某個(gè)主題時(shí),就不僅得到了關(guān)于該主題的解釋,而是把和該主題相關(guān)的內(nèi)容、以及該主題的例子都推送給了用戶,實(shí)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)。
主動(dòng)推送服務(wù)的個(gè)性化主要體現(xiàn)在針對(duì)不同的用戶提供最符合用戶需求和最感興趣的服務(wù)列表,主動(dòng)推送的前提是對(duì)用戶的需求進(jìn)行語義分析,根據(jù)用戶的偏好等因素選取并推薦服務(wù),為了對(duì)各種類型的網(wǎng)絡(luò)資源實(shí)現(xiàn)個(gè)性化的服務(wù)推薦,就必須了解用戶的個(gè)性化需求,這就需要獲取、分析用戶信息,建立合適的用戶興趣模型。用戶興趣模型是服務(wù)推送的前提,是個(gè)性化服務(wù)的基礎(chǔ),直接涉及到服務(wù)的質(zhì)量。
首先進(jìn)行文檔預(yù)處理,其目的是抽取特征詞并計(jì)算各特征詞的權(quán)重,步驟如下:①詞匯分析:刪除一些對(duì)文檔校驗(yàn)無關(guān)的詞,并處理一些特殊字符,比如數(shù)字、連字符以及字母大小寫等;②詞干提?。杭丛~根化處理(在中文里就是分詞過程);③訓(xùn)練文檔聚類;④選取特征詞。
下面介紹這一過程涉及到的幾個(gè)重要算法:
步驟②中,傳統(tǒng)的分詞方法是逆向最大匹配分詞法,但是由于該方法只能驗(yàn)證是否匹配成功,而無法對(duì)匹配成功的詞條進(jìn)行記錄,因此從簡(jiǎn)單、減少歧義的角度出發(fā),也便于后續(xù)工作,分詞技術(shù)采用改進(jìn)后的逆向最大匹配分詞法,其基本過程為:首先計(jì)算出詞表中最長(zhǎng)的詞,將其長(zhǎng)度記為n,則循環(huán)從句首截取長(zhǎng)度為n的字符串,讓它去匹配此表中的字符串,如果此表中有候選詞匹配成功,則在文檔中刪除該字符串,并記錄下每一個(gè)匹配成功的字符串,循環(huán)上述步驟,設(shè)定循環(huán)結(jié)束的條件為句子長(zhǎng)度為空,循環(huán)結(jié)束。當(dāng)在此表中找不到任何一個(gè)詞條與當(dāng)前候選字符串匹配時(shí),就將該字符串的首字符刪去,用截取后的長(zhǎng)度為n-1的字符串去和詞表中的詞條相比對(duì),若仍匹配失敗,則繼續(xù)在其頭部刪除一個(gè)字符,用長(zhǎng)度為n-2的字符串進(jìn)行匹配,直至匹配成功。例如:若有這樣一個(gè)句子:我愛北京天安門,假設(shè)詞表中最長(zhǎng)的詞有四個(gè)字,則n=4,則第一次從句尾抽取長(zhǎng)度為4的字符串,顯然“京天安門”存在字符串的耦合,因此在詞表中未查到該詞,匹配失敗。則需刪除字符串首字符得到“天安門”,在詞表中找到該詞條,匹配成功,并將其記錄下來,以此類推,最后句子被切分為由特征詞構(gòu)成的“我/愛/北京/天安門” 全部切分完畢,生成分詞結(jié)果。之后將經(jīng)過分詞處理后的特征詞,進(jìn)行權(quán)重的計(jì)算,從而合理地篩選出有意義的特征詞,減少冗余特征詞對(duì)后續(xù)工作造成的干擾。
步驟③中,訓(xùn)練文檔的聚類,這一步驟的目的:一是要足夠體現(xiàn)目標(biāo)文檔的特征,二是要能將目標(biāo)文檔與其他類文檔區(qū)分開。因此需要對(duì)文檔進(jìn)行特征選擇,常用的特征算法主要有:文檔頻率、信息增益、文本證據(jù)權(quán)等。其中,應(yīng)用較廣泛、各方面性能較好的是信息增益算法,該算法描述如下:
其中,P(w)是指詞條w在文檔集中出現(xiàn)的概率;P(ci)為第i類文檔出現(xiàn)的概率,即此類型的文檔數(shù)量與全部文檔數(shù)量之比;P(Ci /w)為詞條w與ci類文檔共同發(fā)生的條件概率。從公式中可看出,雖然考慮某類文檔中某些詞條不出現(xiàn)的概率,具有其合理性,但它對(duì)分類造成的影響遠(yuǎn)小于文檔中詞條出現(xiàn)的概率,因此,對(duì)該公式加以改進(jìn),使其具備更好的合理性。由于本公式的第一項(xiàng)對(duì)分類結(jié)果是強(qiáng)相關(guān)的,因此引入文本證據(jù)權(quán)參數(shù),文本證據(jù)權(quán)本身是用來增大P(Ci)和P(Ci/w)之間的差異,但是該參數(shù)加到該公式中,作用是增大P(ci/ w)和之間的差異,設(shè)定w和類別強(qiáng)相關(guān),使第一項(xiàng)式子值增大,提高其權(quán)重,從而增大詞條出現(xiàn)的概率對(duì)分類造成的影響。改進(jìn)后的信息增益公式如下:
步驟④:選取特征詞過程中,首先要對(duì)特征詞項(xiàng)進(jìn)行權(quán)重的計(jì)算,是指通過考察詞條在文檔中出現(xiàn)的次數(shù)等相關(guān)信息,確定其對(duì)文本內(nèi)容的價(jià)值,這里采用歸一化的TF-IDF權(quán)重計(jì)算法來求取特征詞的權(quán)重。該算法的思想是:不同類別的文檔中在特征項(xiàng)的出現(xiàn)頻率上會(huì)有很大差異,因此文本分類時(shí)特征詞的選擇應(yīng)該重要參考特征項(xiàng)的頻率信息,得出這樣一個(gè)判斷:如果某個(gè)候選特征詞在大多數(shù)文檔中出現(xiàn)的頻率都較高,那么這樣的特征詞就不如那些只在某些文檔中出現(xiàn)的特征項(xiàng)重要。
首先根據(jù)用戶一次訪問中形成的所有特征詞的權(quán)重,建立訪問向量,它是用戶一次訪問的形式化表示。將其描述為:
其中,Iim表示用戶第m次訪問的特征詞Fi的權(quán)重大小,該向量可由文檔集矩陣D生成,將文檔集矩陣作行映射即得到用戶的訪問向量對(duì)于用戶的任意一次訪問,用戶之前的所有訪問歷史由用戶的前n次訪問的訪問向量構(gòu)成。
經(jīng)上述處理后,得到的矩陣就是降維后的用戶訪問歷史矩陣,為了方便對(duì)后續(xù)工作的描述,將該矩陣稱為初始用戶興趣矩陣。
接下來依據(jù)特征詞分類規(guī)則,采用Rocchio分類器對(duì)用戶興趣初始矩陣中的特征詞進(jìn)行分類,其基本思想是使用訓(xùn)練集為每個(gè)類構(gòu)造一個(gè)原型向量,給定一個(gè)類,訓(xùn)練集中所有屬于這個(gè)類的特征詞對(duì)應(yīng)向量的分量用正數(shù)表示,所有不屬于這個(gè)類的特征詞對(duì)應(yīng)向量的分量用負(fù)數(shù)表示,然后把所有的向量加起來,得到的和向量就是這個(gè)類的原型向量,定義兩個(gè)向量的相似度為這兩個(gè)向量夾角的余弦,逐一計(jì)算訓(xùn)練集中所有特征詞和原型向量的相似度。