基于本體的信息推送技術(shù)研究

2018-11-22 02:23沈陽(yáng)理工大學(xué)信息科學(xué)與工程學(xué)院鄒依彤

電子世界 2018年21期

關(guān)鍵詞：特征詞詞表字符串

沈陽(yáng)理工大學(xué)信息科學(xué)與工程學(xué)院鄒依彤

引言：文章主要介紹個(gè)性化推送服務(wù)中的三個(gè)方面：本體、用戶興趣模型的建立和最后的推送機(jī)制，從而證明方法的有效性。

1 關(guān)于本體的建立

1.1 本體

本體是概念的集合，它的五個(gè)要素是概念、規(guī)則、屬性、關(guān)系、實(shí)例。

因此，可將本體形式化的表示為：（C，AC，R，AR），其中：C是概念集合，表示的是對(duì)象的集合，包括概念的名稱以及概念所表示的“事物”，也就是實(shí)例。AC表示的是每一個(gè)概念所具有的屬性的集合。屬性包括：名稱、解釋（定義）、值域、數(shù)據(jù)類型、舉例。如：電影屬性包括：電影代碼、電影片名、上映時(shí)間、電影類型、導(dǎo)演、演員、適用對(duì)象。而電影類型的屬性又包括：名稱、解釋、數(shù)據(jù)類型、實(shí)例。R是概念之間關(guān)系的集合，主要考慮概念之間的父類、子類、以及上下位等層次關(guān)系。類之間的關(guān)系一方面定義了類的公理：如：等價(jià)類、全不同、不相交等客觀關(guān)系，另一方面定義了概念之間的相互作用：如：previous、hasPart、isPartof、requires，也可定義概念之間的特殊關(guān)系。AR是每個(gè)關(guān)系的屬性集合。

1.2 本體的構(gòu)件流程

構(gòu)建領(lǐng)域本體時(shí)，流程如下：1)確定構(gòu)建領(lǐng)域本體的應(yīng)用范圍；2)舉出領(lǐng)域內(nèi)的關(guān)鍵術(shù)語、概念；3)查找已有的相關(guān)本體進(jìn)行復(fù)用；4)定義類并構(gòu)建層次結(jié)構(gòu)圖；5)定義領(lǐng)域本體的相關(guān)規(guī)則；6)定義類的屬性；7)創(chuàng)建實(shí)例；8)利用后續(xù)實(shí)驗(yàn)對(duì)本體的構(gòu)建進(jìn)行評(píng)價(jià)及推理檢驗(yàn)，一旦出現(xiàn)問題，就需要對(duì)類的層次結(jié)構(gòu)圖及領(lǐng)域本體規(guī)則重新加以改進(jìn)。

建立好本體模型之后，當(dāng)用戶想搜索某個(gè)主題時(shí)，就不僅得到了關(guān)于該主題的解釋，而是把和該主題相關(guān)的內(nèi)容、以及該主題的例子都推送給了用戶，實(shí)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)。

2 用戶的興趣模型

主動(dòng)推送服務(wù)的個(gè)性化主要體現(xiàn)在針對(duì)不同的用戶提供最符合用戶需求和最感興趣的服務(wù)列表，主動(dòng)推送的前提是對(duì)用戶的需求進(jìn)行語義分析，根據(jù)用戶的偏好等因素選取并推薦服務(wù)，為了對(duì)各種類型的網(wǎng)絡(luò)資源實(shí)現(xiàn)個(gè)性化的服務(wù)推薦，就必須了解用戶的個(gè)性化需求，這就需要獲取、分析用戶信息，建立合適的用戶興趣模型。用戶興趣模型是服務(wù)推送的前提，是個(gè)性化服務(wù)的基礎(chǔ)，直接涉及到服務(wù)的質(zhì)量。

2.1 用戶的興趣模型的建立步驟

首先進(jìn)行文檔預(yù)處理，其目的是抽取特征詞并計(jì)算各特征詞的權(quán)重，步驟如下：①詞匯分析：刪除一些對(duì)文檔校驗(yàn)無關(guān)的詞，并處理一些特殊字符，比如數(shù)字、連字符以及字母大小寫等；②詞干提?。杭丛~根化處理（在中文里就是分詞過程）；③訓(xùn)練文檔聚類；④選取特征詞。

下面介紹這一過程涉及到的幾個(gè)重要算法：

步驟②中，傳統(tǒng)的分詞方法是逆向最大匹配分詞法，但是由于該方法只能驗(yàn)證是否匹配成功，而無法對(duì)匹配成功的詞條進(jìn)行記錄，因此從簡(jiǎn)單、減少歧義的角度出發(fā)，也便于后續(xù)工作，分詞技術(shù)采用改進(jìn)后的逆向最大匹配分詞法，其基本過程為：首先計(jì)算出詞表中最長(zhǎng)的詞，將其長(zhǎng)度記為n，則循環(huán)從句首截取長(zhǎng)度為n的字符串，讓它去匹配此表中的字符串，如果此表中有候選詞匹配成功，則在文檔中刪除該字符串，并記錄下每一個(gè)匹配成功的字符串，循環(huán)上述步驟，設(shè)定循環(huán)結(jié)束的條件為句子長(zhǎng)度為空，循環(huán)結(jié)束。當(dāng)在此表中找不到任何一個(gè)詞條與當(dāng)前候選字符串匹配時(shí)，就將該字符串的首字符刪去，用截取后的長(zhǎng)度為n-1的字符串去和詞表中的詞條相比對(duì)，若仍匹配失敗，則繼續(xù)在其頭部刪除一個(gè)字符，用長(zhǎng)度為n-2的字符串進(jìn)行匹配，直至匹配成功。例如：若有這樣一個(gè)句子：我愛北京天安門，假設(shè)詞表中最長(zhǎng)的詞有四個(gè)字，則n=4，則第一次從句尾抽取長(zhǎng)度為4的字符串，顯然“京天安門”存在字符串的耦合，因此在詞表中未查到該詞，匹配失敗。則需刪除字符串首字符得到“天安門”，在詞表中找到該詞條，匹配成功，并將其記錄下來，以此類推，最后句子被切分為由特征詞構(gòu)成的“我/愛/北京/天安門” 全部切分完畢，生成分詞結(jié)果。之后將經(jīng)過分詞處理后的特征詞，進(jìn)行權(quán)重的計(jì)算，從而合理地篩選出有意義的特征詞，減少冗余特征詞對(duì)后續(xù)工作造成的干擾。

步驟③中，訓(xùn)練文檔的聚類，這一步驟的目的：一是要足夠體現(xiàn)目標(biāo)文檔的特征，二是要能將目標(biāo)文檔與其他類文檔區(qū)分開。因此需要對(duì)文檔進(jìn)行特征選擇，常用的特征算法主要有：文檔頻率、信息增益、文本證據(jù)權(quán)等。其中，應(yīng)用較廣泛、各方面性能較好的是信息增益算法，該算法描述如下：

其中，P(w)是指詞條w在文檔集中出現(xiàn)的概率；P(ci)為第i類文檔出現(xiàn)的概率，即此類型的文檔數(shù)量與全部文檔數(shù)量之比；P(Ci /w)為詞條w與ci類文檔共同發(fā)生的條件概率。從公式中可看出，雖然考慮某類文檔中某些詞條不出現(xiàn)的概率，具有其合理性，但它對(duì)分類造成的影響遠(yuǎn)小于文檔中詞條出現(xiàn)的概率，因此，對(duì)該公式加以改進(jìn)，使其具備更好的合理性。由于本公式的第一項(xiàng)對(duì)分類結(jié)果是強(qiáng)相關(guān)的，因此引入文本證據(jù)權(quán)參數(shù)，文本證據(jù)權(quán)本身是用來增大P(Ci)和P(Ci/w)之間的差異，但是該參數(shù)加到該公式中，作用是增大P(ci/ w)和之間的差異，設(shè)定w和類別強(qiáng)相關(guān)，使第一項(xiàng)式子值增大，提高其權(quán)重，從而增大詞條出現(xiàn)的概率對(duì)分類造成的影響。改進(jìn)后的信息增益公式如下：

步驟④：選取特征詞過程中，首先要對(duì)特征詞項(xiàng)進(jìn)行權(quán)重的計(jì)算，是指通過考察詞條在文檔中出現(xiàn)的次數(shù)等相關(guān)信息，確定其對(duì)文本內(nèi)容的價(jià)值，這里采用歸一化的TF-IDF權(quán)重計(jì)算法來求取特征詞的權(quán)重。該算法的思想是：不同類別的文檔中在特征項(xiàng)的出現(xiàn)頻率上會(huì)有很大差異，因此文本分類時(shí)特征詞的選擇應(yīng)該重要參考特征項(xiàng)的頻率信息，得出這樣一個(gè)判斷：如果某個(gè)候選特征詞在大多數(shù)文檔中出現(xiàn)的頻率都較高，那么這樣的特征詞就不如那些只在某些文檔中出現(xiàn)的特征項(xiàng)重要。

2.2 訪問興趣度的計(jì)算

首先根據(jù)用戶一次訪問中形成的所有特征詞的權(quán)重，建立訪問向量，它是用戶一次訪問的形式化表示。將其描述為：

其中，Iim表示用戶第m次訪問的特征詞Fi的權(quán)重大小，該向量可由文檔集矩陣D生成，將文檔集矩陣作行映射即得到用戶的訪問向量對(duì)于用戶的任意一次訪問，用戶之前的所有訪問歷史由用戶的前n次訪問的訪問向量構(gòu)成。

經(jīng)上述處理后，得到的矩陣就是降維后的用戶訪問歷史矩陣，為了方便對(duì)后續(xù)工作的描述，將該矩陣稱為初始用戶興趣矩陣。

接下來依據(jù)特征詞分類規(guī)則，采用Rocchio分類器對(duì)用戶興趣初始矩陣中的特征詞進(jìn)行分類，其基本思想是使用訓(xùn)練集為每個(gè)類構(gòu)造一個(gè)原型向量，給定一個(gè)類，訓(xùn)練集中所有屬于這個(gè)類的特征詞對(duì)應(yīng)向量的分量用正數(shù)表示，所有不屬于這個(gè)類的特征詞對(duì)應(yīng)向量的分量用負(fù)數(shù)表示，然后把所有的向量加起來，得到的和向量就是這個(gè)類的原型向量，定義兩個(gè)向量的相似度為這兩個(gè)向量夾角的余弦，逐一計(jì)算訓(xùn)練集中所有特征詞和原型向量的相似度。