基于模型融合的搜索引擎用戶畫(huà)像技術(shù)

2020-04-26 00:27王佳斌馬迎杰朱新龍

科技與創(chuàng)新 2020年7期

郭梁，王佳斌，馬迎杰，朱新龍

（華僑大學(xué) 工學(xué)院，福建泉州362021）

1 引言

1.1 研究背景及意義

搜索引擎是互聯(lián)網(wǎng)的基礎(chǔ)應(yīng)用，它是用戶訪問(wèn)網(wǎng)站的最重要的通道。搜索引擎用戶畫(huà)像是分析用戶查詢關(guān)鍵詞的一個(gè)重要研究領(lǐng)域。搜索引擎通常通過(guò)創(chuàng)建用戶畫(huà)像來(lái)分析用戶的個(gè)人偏好[1]。因此它具有極高的商用價(jià)值，很多營(yíng)銷項(xiàng)目或很多廣告主，在投放廣告前，都要求媒體提供用戶畫(huà)像。一種新的搜索引擎技術(shù)可以根據(jù)用戶的興趣、偏好和信息需求，為不同的用戶提供不同的搜索結(jié)果[2]。但是由于搜索引擎便捷的特點(diǎn)，用戶在使用時(shí)不會(huì)留下太多的用戶信息，比如年齡、性別、學(xué)歷等用戶的標(biāo)簽信息，因此也就無(wú)法根據(jù)用戶屬性對(duì)用戶進(jìn)行分群處理，所以在分析用戶數(shù)據(jù)時(shí)會(huì)存在一定的困難。

1.2 國(guó)內(nèi)外研究現(xiàn)狀

早期的用戶畫(huà)像構(gòu)建技術(shù)利用數(shù)據(jù)庫(kù)、Web 技術(shù)對(duì)用戶數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分類，例如CRM（客戶關(guān)系管理系統(tǒng)）。隨著技術(shù)的不斷發(fā)展，F(xiàn)AWCETT 等人[3]將數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)結(jié)合，通過(guò)用戶行為生成的日志構(gòu)建用戶畫(huà)像來(lái)檢測(cè)用戶中存在的欺詐行為。ADOMAVICIUS 等人[4]通過(guò)用戶瀏覽歷史和交易記錄等建立用戶畫(huà)像，并用于推薦系統(tǒng)領(lǐng)域中。這些用戶畫(huà)像包含每個(gè)用戶的個(gè)人行為，其通過(guò)各種數(shù)據(jù)挖掘的技術(shù)從用戶歷史行為中提取用戶的偏好和習(xí)慣，更具體地說(shuō)是從用戶的交易歷史中得到他們的用戶畫(huà)像。SUGIYAMA[5]在搜索引擎系統(tǒng)中使用基于改進(jìn)的協(xié)同過(guò)濾方法構(gòu)建用戶畫(huà)像，可以詳細(xì)地分析用戶一天內(nèi)的瀏覽記錄，然后根據(jù)用戶對(duì)相關(guān)信息的反饋調(diào)整搜索結(jié)果。王慶福[6]提出用基于Bayesian Network 的用戶畫(huà)像來(lái)構(gòu)建互聯(lián)網(wǎng)用戶愛(ài)好的不同層次。楊雙亮[7]將DNN 算法應(yīng)用到移動(dòng)網(wǎng)絡(luò)用戶畫(huà)像的愛(ài)好標(biāo)簽預(yù)測(cè)中，實(shí)現(xiàn)了用戶的個(gè)性化推送。近幾年的研究中，機(jī)器學(xué)習(xí)逐漸被引入NLP（Natural Language Processing）的領(lǐng)域中。本研究在搜索引擎用戶畫(huà)像的應(yīng)用中，提出了基于BP 神經(jīng)網(wǎng)絡(luò)的Stacking 融合模型，并與傳統(tǒng)模型進(jìn)行對(duì)比實(shí)驗(yàn)。

2 用戶畫(huà)像簡(jiǎn)介

用戶畫(huà)像是根據(jù)用戶的網(wǎng)絡(luò)行為或現(xiàn)實(shí)行為產(chǎn)生的數(shù)據(jù)記錄而抽象出的標(biāo)簽化的用戶模型，是針對(duì)具有某些相同標(biāo)簽的某一類人的模型表達(dá)，并不是特指某一個(gè)人的表達(dá)。用戶畫(huà)像是分析用戶屬性的基本組件[1]。

用戶畫(huà)像的構(gòu)成屬性一般包括用戶的靜態(tài)屬性、動(dòng)態(tài)屬性、消費(fèi)屬性和心理屬性。靜態(tài)屬性用來(lái)描述用戶的固有屬性，比如用戶的性別、出生年月等；動(dòng)態(tài)屬性指用戶產(chǎn)生的行為屬性，比如用戶的出行習(xí)慣、學(xué)習(xí)偏好、娛樂(lè)活動(dòng)等；消費(fèi)屬性主要包括用戶的消費(fèi)偏好、消費(fèi)水平、消費(fèi)心理等；心理屬性指用戶的生活、工作、情感趨向，通過(guò)這些屬性預(yù)測(cè)用戶新的行為。根據(jù)用戶畫(huà)像，公司可以通過(guò)用戶的偏好來(lái)制定產(chǎn)品的模式與功能，或者修改自己的產(chǎn)品戰(zhàn)略，以適應(yīng)當(dāng)前的市場(chǎng)。

用戶畫(huà)像的表示方法還可以分為以下幾類：基于本體/概念的用戶畫(huà)像，基于主題/話題的用戶畫(huà)像方法，基于用戶興趣/偏好的用戶畫(huà)像方法，基于用戶行為習(xí)慣的畫(huà)像方法[8]。用戶畫(huà)像的數(shù)據(jù)可以通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)獲取，將用戶上網(wǎng)產(chǎn)生的日志通過(guò)合適的模型進(jìn)行分析，并構(gòu)建出用戶畫(huà)像。

3 用戶畫(huà)像的標(biāo)簽預(yù)測(cè)模型

3.1 基于TF-IDF 的傳統(tǒng)機(jī)器學(xué)習(xí)模型

實(shí)驗(yàn)選用如今廣泛使用的基于TF-IDF 的傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)對(duì)比，TF-IDF 即詞頻-逆文本頻率指數(shù)，是一種文本挖掘中廣泛使用的特征向量化方法，尤其應(yīng)用于搜索引擎的特征工程構(gòu)建中，用來(lái)評(píng)估一個(gè)字詞在語(yǔ)料庫(kù)中的重要性[9]。TF（Term Frequency）表示詞頻，即一個(gè)詞在一篇文章中出現(xiàn)的次數(shù)，但在實(shí)際應(yīng)用中，介詞、語(yǔ)氣詞等沒(méi)有實(shí)際意義的詞會(huì)在句子中大量出現(xiàn)，這些詞語(yǔ)對(duì)于判斷文章的關(guān)鍵詞幾乎沒(méi)有什么用處，即為“停用詞”，在度量相關(guān)性的時(shí)候不應(yīng)當(dāng)考慮這些詞的頻率。所以在數(shù)據(jù)預(yù)處理中已將這些詞剔除。IDF（Inverse Document Frequency）逆文本頻率指數(shù)，用總的文章數(shù)量除以包含該關(guān)鍵詞的文章的數(shù)量得到某關(guān)鍵詞的IDF 值，結(jié)果取對(duì)數(shù)得到，某關(guān)鍵詞的IDF值越大，則區(qū)分能力越強(qiáng)，包含此關(guān)鍵詞的文檔越少，公式如下：

一個(gè)詞語(yǔ)預(yù)測(cè)主題的能力越強(qiáng)，權(quán)重就越大，反之，權(quán)重越小，因此一個(gè)詞的TF-IDF 公式如下：

對(duì)于搜索引擎用戶畫(huà)像的分類問(wèn)題，基于TF-IDF 的傳統(tǒng)機(jī)器學(xué)習(xí)模型如下：先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，將數(shù)據(jù)中有用的信息提取出來(lái)，再用分詞工具對(duì)文本進(jìn)一步分割；然后將這些處理過(guò)的數(shù)據(jù)用TF-IDF 進(jìn)行特征提取，其效果與運(yùn)用的算法有關(guān)；最后用分類器訓(xùn)練和預(yù)測(cè)，選擇不同的分類器將出現(xiàn)不同的結(jié)果。其模型結(jié)構(gòu)如圖1 所示。

圖1 基于TF-IDF 的傳統(tǒng)模型結(jié)構(gòu)圖

3.2 基于BP 神經(jīng)網(wǎng)絡(luò)的Stacking 模型融合

傳統(tǒng)的單個(gè)機(jī)器學(xué)習(xí)模型容易發(fā)生過(guò)擬合，所以本實(shí)驗(yàn)采用模型融合的方法。模型融合方法屬于集成學(xué)習(xí)，它不是單獨(dú)的機(jī)器學(xué)習(xí)算法，而是將許多機(jī)器學(xué)習(xí)算法結(jié)合在一起，因此往往比單一的學(xué)習(xí)器有更優(yōu)越的泛化性，可提升模型的預(yù)測(cè)能力。集成學(xué)習(xí)可以分為三大類，即bagging、boosting 和stacking。bagging 使用裝袋采樣來(lái)獲取數(shù)據(jù)子集訓(xùn)練基礎(chǔ)學(xué)習(xí)器，以降低基分類器的方差，但是對(duì)提升泛化性能沒(méi)有很大幫助；boosting 可將弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器，每個(gè)基學(xué)習(xí)器都是為了最小化損失函數(shù)，更注重減少偏差；stacking 是一種分層模型集成框架，可以設(shè)置很多層級(jí)，包含不同的學(xué)習(xí)算法，所以比較靈活，有很強(qiáng)的泛化能力，可以明顯提升預(yù)測(cè)結(jié)果。因此研究選擇stacking 構(gòu)建模型，一般stacking 模型為兩層結(jié)構(gòu)，過(guò)多的層級(jí)容易過(guò)擬合，運(yùn)用stacking 模型，可以在過(guò)程中間結(jié)果融合新特征，進(jìn)一步提升預(yù)測(cè)能力[10]。Stacking 模型融合結(jié)構(gòu)如圖2 所示。

TF-IDF 算法雖然考慮了單詞在文檔中的詞頻和單詞在整體語(yǔ)料庫(kù)中分布的影響，但沒(méi)有考慮到單詞在不同類別間的分布差異，而且忽略了單詞之間的語(yǔ)音信息和排列順序，所以實(shí)驗(yàn)采用Doc2Vec 彌補(bǔ)TF-IDF 的缺點(diǎn)。反向傳播（Back Propagation，BP）神經(jīng)網(wǎng)絡(luò)是20 世紀(jì)80 年代由RUMELHART 等人提出的，是目前被廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法[11]。對(duì)于Doc2Vec 得到的文本特征向量，實(shí)驗(yàn)使用BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)其進(jìn)行訓(xùn)練，并用Stacking 模型將TF-IDF 的訓(xùn)練結(jié)果融合，再輸入到Stacking 第二級(jí)模型中，其模型結(jié)構(gòu)如圖2 所示。該模型相較Logistic Regression 等模型，其擬合能力更強(qiáng)，并在實(shí)驗(yàn)中進(jìn)行了對(duì)比。

圖2 Stacking 模型融合結(jié)構(gòu)圖

實(shí)驗(yàn)中Stacking 結(jié)構(gòu)第一層使用多分類器訓(xùn)練TF-IDF特征向量，而不是傳統(tǒng)的單一分類器，考慮到分類速度和分類效率，在分類器的選擇上實(shí)驗(yàn)選擇了SGD Classifier（隨機(jī)梯度下降）、Naive Bayes Classifier（樸素貝葉斯）、LinearSVC（線性支持向量機(jī)）、Logistics Regression（邏輯回歸）和Hard VotingClassifier（一種集成分類器），多分類器訓(xùn)練模型如圖3 所示。

圖3 多分類器結(jié)構(gòu)

實(shí)驗(yàn)使用BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練Doc2Vec 特征向量，根據(jù)訓(xùn)練特征向量的網(wǎng)絡(luò)結(jié)構(gòu)，Doc2Vec 可分為Distributed Memory Model（DM）與Distributed bag of words（DBOW）兩種模型，其中DM 模型不但擁有上下文的語(yǔ)義關(guān)聯(lián)信息，而且包含了特征詞的詞序信息，DBOW 模型則不考慮特征詞的排序信息，而只關(guān)注文檔中的特征詞的語(yǔ)義信息。實(shí)驗(yàn)中同時(shí)采用了DM 和DBOW 兩種模型，用BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行特征訓(xùn)練，以保證特征構(gòu)建中信息的完整性，其結(jié)構(gòu)如圖4 所示。

4 實(shí)驗(yàn)和分析

4.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)集是由搜狗搜索引擎提供的10 0000 用戶一個(gè)月內(nèi)的搜索引擎查詢?cè)~，其中90 000 作為訓(xùn)練集，10 000 作為測(cè)試集。數(shù)據(jù)的格式如表1 所示。在測(cè)試集中，ID、Age、Gender 均為缺省項(xiàng)。

圖4 BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

表1 實(shí)驗(yàn)數(shù)據(jù)格式

在數(shù)據(jù)預(yù)處理的環(huán)節(jié)中，通過(guò)對(duì)訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)分析，發(fā)現(xiàn)包含空值的行并不多，所以直接舍棄以減小噪聲。分詞使用了jieba 分詞組件，并使用帶有詞性的精確模式進(jìn)行分詞，結(jié)合人們進(jìn)行日常檢索的先驗(yàn)知識(shí)，在進(jìn)行分詞處理及特征計(jì)算的過(guò)程中，保留了名詞、動(dòng)詞和簡(jiǎn)略詞，在該任務(wù)中是最具有代表的特征。

4.2 基于TF-IDF 的傳統(tǒng)模型分析

實(shí)驗(yàn)根據(jù)TF-IDF 的傳統(tǒng)模型進(jìn)行了訓(xùn)練和預(yù)測(cè)，并選用了不同的分類器進(jìn)行對(duì)比。分類器中，邏輯回歸（Logistics Regression）是最常用的分類方法，其速度快、易于理解，但適應(yīng)能力有一定的局限性；樸素貝葉斯模型也常用于文本分類，有著較為穩(wěn)定的分類效果，對(duì)小規(guī)模數(shù)據(jù)分類效果很好，實(shí)驗(yàn)選用文本分類常用的多項(xiàng)式分布樸素貝葉斯（MultinomialNB）與伯努利分布樸素貝葉斯（BernoulliNB）進(jìn)行實(shí)驗(yàn)。作為對(duì)比，基于TF-IDF 不同分類器模型的實(shí)驗(yàn)準(zhǔn)確率如表2 所示。

表2 基于TF-IDF 不同分類器模型的實(shí)驗(yàn)準(zhǔn)確率對(duì)比（單位：%）

從實(shí)驗(yàn)結(jié)果可知，在基于TF-IDF 特征的分類模型下，選用不同的分類器會(huì)對(duì)結(jié)果產(chǎn)生不同的影響，對(duì)于TF-IDF特征向量訓(xùn)練的任務(wù)，使用邏輯回歸分類會(huì)有更好的效果。

4.3 基于BP 神經(jīng)網(wǎng)絡(luò)的融合模型分析

為了使結(jié)果更加直觀，實(shí)驗(yàn)使用TSNE 對(duì)模型的輸出結(jié)果進(jìn)行降維可視化展示，如圖5 所示，Education 和Age 分為6 類，Gender 分為2 類。

圖5 TSNE 降維可視化

根據(jù)以上模型結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)，基于BP 神經(jīng)網(wǎng)絡(luò)的融合模型與其他模型準(zhǔn)確率的對(duì)比實(shí)驗(yàn)數(shù)據(jù)如表3 所示。表3 中，TF-IDF（多分類器）表示用多分類器訓(xùn)練TF-IDF 特征向量，但在Stacking模型中不進(jìn)行融合Doc2Vec 特征向量得到的結(jié)果；TF-IDF&Doc2Vec（LR）表示實(shí)驗(yàn)在Stacking 模型第一層使用TF-IDF 多分類器訓(xùn)練特征，第二層中融合的是用Logistics Regression 分類器訓(xùn)練的Doc2Vec 特征向量；TF-IDF&Doc2Vec（BPNN）表示實(shí)驗(yàn)在Stacking 模型第一層使用TF-IDF 多分類器訓(xùn)練特征，第二層使用BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練Doc2Vec 特征向量。

表3 基于BP 神經(jīng)網(wǎng)絡(luò)的融合模型與各模型準(zhǔn)確率對(duì)比（單位：%）

從實(shí)驗(yàn)結(jié)果可以看出，使用TF-IDF 多分類器效果比使用傳統(tǒng)模型中單分類器準(zhǔn)確率高，用Stacking 融合模型加入Doc2Vec 特征向量后，效果進(jìn)一步提升，最后將Doc2Vec 特征向量的訓(xùn)練方法由Logistics Regression 改為BP 神經(jīng)網(wǎng)絡(luò)后，準(zhǔn)確率在一定程度上又有所提升。

5 總結(jié)

本實(shí)驗(yàn)構(gòu)建了用于預(yù)測(cè)多維用戶標(biāo)簽的Stacking 模型融合結(jié)構(gòu)，并與傳統(tǒng)的分類模型進(jìn)行實(shí)驗(yàn)對(duì)比。從實(shí)驗(yàn)結(jié)果可以看出，選擇不同的分類器對(duì)準(zhǔn)確率有很大影響，在搜索數(shù)據(jù)的分類任務(wù)中，使用Logistics Regression 分類器要比其他單分類器有更好的效果，而使用Stacking 融合模型中的多分類器可以進(jìn)一步提升分類效果，如果將基于BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的Doc2Vec 特征詞向量進(jìn)行融合，則可以在一定程度上繼續(xù)提高預(yù)測(cè)的準(zhǔn)確度。所以本文提出的Stacking 模型融合方法對(duì)搜索引擎用戶畫(huà)像的標(biāo)簽預(yù)測(cè)有一定的意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡