郭 梁,王佳斌,馬迎杰,朱新龍
(華僑大學(xué) 工學(xué)院,福建 泉州362021)
搜索引擎是互聯(lián)網(wǎng)的基礎(chǔ)應(yīng)用,它是用戶訪問(wèn)網(wǎng)站的最重要的通道。搜索引擎用戶畫(huà)像是分析用戶查詢關(guān)鍵詞的一個(gè)重要研究領(lǐng)域。搜索引擎通常通過(guò)創(chuàng)建用戶畫(huà)像來(lái)分析用戶的個(gè)人偏好[1]。因此它具有極高的商用價(jià)值,很多營(yíng)銷項(xiàng)目或很多廣告主,在投放廣告前,都要求媒體提供用戶畫(huà)像。一種新的搜索引擎技術(shù)可以根據(jù)用戶的興趣、偏好和信息需求,為不同的用戶提供不同的搜索結(jié)果[2]。但是由于搜索引擎便捷的特點(diǎn),用戶在使用時(shí)不會(huì)留下太多的用戶信息,比如年齡、性別、學(xué)歷等用戶的標(biāo)簽信息,因此也就無(wú)法根據(jù)用戶屬性對(duì)用戶進(jìn)行分群處理,所以在分析用戶數(shù)據(jù)時(shí)會(huì)存在一定的困難。
早期的用戶畫(huà)像構(gòu)建技術(shù)利用數(shù)據(jù)庫(kù)、Web 技術(shù)對(duì)用戶數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分類,例如CRM(客戶關(guān)系管理系統(tǒng))。隨著技術(shù)的不斷發(fā)展,F(xiàn)AWCETT 等人[3]將數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)結(jié)合,通過(guò)用戶行為生成的日志構(gòu)建用戶畫(huà)像來(lái)檢測(cè)用戶中存在的欺詐行為。ADOMAVICIUS 等人[4]通過(guò)用戶瀏覽歷史和交易記錄等建立用戶畫(huà)像,并用于推薦系統(tǒng)領(lǐng)域中。這些用戶畫(huà)像包含每個(gè)用戶的個(gè)人行為,其通過(guò)各種數(shù)據(jù)挖掘的技術(shù)從用戶歷史行為中提取用戶的偏好和習(xí)慣,更具體地說(shuō)是從用戶的交易歷史中得到他們的用戶畫(huà)像。SUGIYAMA[5]在搜索引擎系統(tǒng)中使用基于改進(jìn)的協(xié)同過(guò)濾方法構(gòu)建用戶畫(huà)像,可以詳細(xì)地分析用戶一天內(nèi)的瀏覽記錄,然后根據(jù)用戶對(duì)相關(guān)信息的反饋調(diào)整搜索結(jié)果。王慶福[6]提出用基于Bayesian Network 的用戶畫(huà)像來(lái)構(gòu)建互聯(lián)網(wǎng)用戶愛(ài)好的不同層次。楊雙亮[7]將DNN 算法應(yīng)用到移動(dòng)網(wǎng)絡(luò)用戶畫(huà)像的愛(ài)好標(biāo)簽預(yù)測(cè)中,實(shí)現(xiàn)了用戶的個(gè)性化推送。近幾年的研究中,機(jī)器學(xué)習(xí)逐漸被引入NLP(Natural Language Processing)的領(lǐng)域中。本研究在搜索引擎用戶畫(huà)像的應(yīng)用中,提出了基于BP 神經(jīng)網(wǎng)絡(luò)的Stacking 融合模型,并與傳統(tǒng)模型進(jìn)行對(duì)比實(shí)驗(yàn)。
用戶畫(huà)像是根據(jù)用戶的網(wǎng)絡(luò)行為或現(xiàn)實(shí)行為產(chǎn)生的數(shù)據(jù)記錄而抽象出的標(biāo)簽化的用戶模型,是針對(duì)具有某些相同標(biāo)簽的某一類人的模型表達(dá),并不是特指某一個(gè)人的表達(dá)。用戶畫(huà)像是分析用戶屬性的基本組件[1]。
用戶畫(huà)像的構(gòu)成屬性一般包括用戶的靜態(tài)屬性、動(dòng)態(tài)屬性、消費(fèi)屬性和心理屬性。靜態(tài)屬性用來(lái)描述用戶的固有屬性,比如用戶的性別、出生年月等;動(dòng)態(tài)屬性指用戶產(chǎn)生的行為屬性,比如用戶的出行習(xí)慣、學(xué)習(xí)偏好、娛樂(lè)活動(dòng)等;消費(fèi)屬性主要包括用戶的消費(fèi)偏好、消費(fèi)水平、消費(fèi)心理等;心理屬性指用戶的生活、工作、情感趨向,通過(guò)這些屬性預(yù)測(cè)用戶新的行為。根據(jù)用戶畫(huà)像,公司可以通過(guò)用戶的偏好來(lái)制定產(chǎn)品的模式與功能,或者修改自己的產(chǎn)品戰(zhàn)略,以適應(yīng)當(dāng)前的市場(chǎng)。
用戶畫(huà)像的表示方法還可以分為以下幾類:基于本體/概念的用戶畫(huà)像,基于主題/話題的用戶畫(huà)像方法,基于用戶興趣/偏好的用戶畫(huà)像方法,基于用戶行為習(xí)慣的畫(huà)像方法[8]。用戶畫(huà)像的數(shù)據(jù)可以通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)獲取,將用戶上網(wǎng)產(chǎn)生的日志通過(guò)合適的模型進(jìn)行分析,并構(gòu)建出用戶畫(huà)像。
實(shí)驗(yàn)選用如今廣泛使用的基于TF-IDF 的傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)對(duì)比,TF-IDF 即詞頻-逆文本頻率指數(shù),是一種文本挖掘中廣泛使用的特征向量化方法,尤其應(yīng)用于搜索引擎的特征工程構(gòu)建中,用來(lái)評(píng)估一個(gè)字詞在語(yǔ)料庫(kù)中的重要性[9]。TF(Term Frequency)表示詞頻,即一個(gè)詞在一篇文章中出現(xiàn)的次數(shù),但在實(shí)際應(yīng)用中,介詞、語(yǔ)氣詞等沒(méi)有實(shí)際意義的詞會(huì)在句子中大量出現(xiàn),這些詞語(yǔ)對(duì)于判斷文章的關(guān)鍵詞幾乎沒(méi)有什么用處,即為“停用詞”,在度量相關(guān)性的時(shí)候不應(yīng)當(dāng)考慮這些詞的頻率。所以在數(shù)據(jù)預(yù)處理中已將這些詞剔除。IDF(Inverse Document Frequency)逆文本頻率指數(shù),用總的文章數(shù)量除以包含該關(guān)鍵詞的文章的數(shù)量得到某關(guān)鍵詞的IDF 值,結(jié)果取對(duì)數(shù)得到,某關(guān)鍵詞的IDF值越大,則區(qū)分能力越強(qiáng),包含此關(guān)鍵詞的文檔越少,公式如下:
一個(gè)詞語(yǔ)預(yù)測(cè)主題的能力越強(qiáng),權(quán)重就越大,反之,權(quán)重越小,因此一個(gè)詞的TF-IDF 公式如下:
對(duì)于搜索引擎用戶畫(huà)像的分類問(wèn)題,基于TF-IDF 的傳統(tǒng)機(jī)器學(xué)習(xí)模型如下:先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將數(shù)據(jù)中有用的信息提取出來(lái),再用分詞工具對(duì)文本進(jìn)一步分割;然后將這些處理過(guò)的數(shù)據(jù)用TF-IDF 進(jìn)行特征提取,其效果與運(yùn)用的算法有關(guān);最后用分類器訓(xùn)練和預(yù)測(cè),選擇不同的分類器將出現(xiàn)不同的結(jié)果。其模型結(jié)構(gòu)如圖1 所示。
圖1 基于TF-IDF 的傳統(tǒng)模型結(jié)構(gòu)圖
傳統(tǒng)的單個(gè)機(jī)器學(xué)習(xí)模型容易發(fā)生過(guò)擬合,所以本實(shí)驗(yàn)采用模型融合的方法。模型融合方法屬于集成學(xué)習(xí),它不是單獨(dú)的機(jī)器學(xué)習(xí)算法,而是將許多機(jī)器學(xué)習(xí)算法結(jié)合在一起,因此往往比單一的學(xué)習(xí)器有更優(yōu)越的泛化性,可提升模型的預(yù)測(cè)能力。集成學(xué)習(xí)可以分為三大類,即bagging、boosting 和stacking。bagging 使用裝袋采樣來(lái)獲取數(shù)據(jù)子集訓(xùn)練基礎(chǔ)學(xué)習(xí)器,以降低基分類器的方差,但是對(duì)提升泛化性能沒(méi)有很大幫助;boosting 可將弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器,每個(gè)基學(xué)習(xí)器都是為了最小化損失函數(shù),更注重減少偏差;stacking 是一種分層模型集成框架,可以設(shè)置很多層級(jí),包含不同的學(xué)習(xí)算法,所以比較靈活,有很強(qiáng)的泛化能力,可以明顯提升預(yù)測(cè)結(jié)果。因此研究選擇stacking 構(gòu)建模型,一般stacking 模型為兩層結(jié)構(gòu),過(guò)多的層級(jí)容易過(guò)擬合,運(yùn)用stacking 模型,可以在過(guò)程中間結(jié)果融合新特征,進(jìn)一步提升預(yù)測(cè)能力[10]。Stacking 模型融合結(jié)構(gòu)如圖2 所示。
TF-IDF 算法雖然考慮了單詞在文檔中的詞頻和單詞在整體語(yǔ)料庫(kù)中分布的影響,但沒(méi)有考慮到單詞在不同類別間的分布差異,而且忽略了單詞之間的語(yǔ)音信息和排列順序,所以實(shí)驗(yàn)采用Doc2Vec 彌補(bǔ)TF-IDF 的缺點(diǎn)。反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)是20 世紀(jì)80 年代由RUMELHART 等人提出的,是目前被廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法[11]。對(duì)于Doc2Vec 得到的文本特征向量,實(shí)驗(yàn)使用BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)其進(jìn)行訓(xùn)練,并用Stacking 模型將TF-IDF 的訓(xùn)練結(jié)果融合,再輸入到Stacking 第二級(jí)模型中,其模型結(jié)構(gòu)如圖2 所示。該模型相較Logistic Regression 等模型,其擬合能力更強(qiáng),并在實(shí)驗(yàn)中進(jìn)行了對(duì)比。
圖2 Stacking 模型融合結(jié)構(gòu)圖
實(shí)驗(yàn)中Stacking 結(jié)構(gòu)第一層使用多分類器訓(xùn)練TF-IDF特征向量,而不是傳統(tǒng)的單一分類器,考慮到分類速度和分類效率,在分類器的選擇上實(shí)驗(yàn)選擇了SGD Classifier(隨機(jī)梯度下降)、Naive Bayes Classifier(樸素貝葉斯)、LinearSVC(線性支持向量機(jī))、Logistics Regression(邏輯回歸)和Hard VotingClassifier(一種集成分類器),多分類器訓(xùn)練模型如圖3 所示。
圖3 多分類器結(jié)構(gòu)
實(shí)驗(yàn)使用BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練Doc2Vec 特征向量,根據(jù)訓(xùn)練特征向量的網(wǎng)絡(luò)結(jié)構(gòu),Doc2Vec 可分為Distributed Memory Model(DM)與Distributed bag of words(DBOW)兩種模型,其中DM 模型不但擁有上下文的語(yǔ)義關(guān)聯(lián)信息,而且包含了特征詞的詞序信息,DBOW 模型則不考慮特征詞的排序信息,而只關(guān)注文檔中的特征詞的語(yǔ)義信息。實(shí)驗(yàn)中同時(shí)采用了DM 和DBOW 兩種模型,用BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行特征訓(xùn)練,以保證特征構(gòu)建中信息的完整性,其結(jié)構(gòu)如圖4 所示。
數(shù)據(jù)集是由搜狗搜索引擎提供的10 0000 用戶一個(gè)月內(nèi)的搜索引擎查詢?cè)~,其中90 000 作為訓(xùn)練集,10 000 作為測(cè)試集。數(shù)據(jù)的格式如表1 所示。在測(cè)試集中,ID、Age、Gender 均為缺省項(xiàng)。
圖4 BP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
表1 實(shí)驗(yàn)數(shù)據(jù)格式
在數(shù)據(jù)預(yù)處理的環(huán)節(jié)中,通過(guò)對(duì)訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)分析,發(fā)現(xiàn)包含空值的行并不多,所以直接舍棄以減小噪聲。分詞使用了jieba 分詞組件,并使用帶有詞性的精確模式進(jìn)行分詞,結(jié)合人們進(jìn)行日常檢索的先驗(yàn)知識(shí),在進(jìn)行分詞處理及特征計(jì)算的過(guò)程中,保留了名詞、動(dòng)詞和簡(jiǎn)略詞,在該任務(wù)中是最具有代表的特征。
實(shí)驗(yàn)根據(jù)TF-IDF 的傳統(tǒng)模型進(jìn)行了訓(xùn)練和預(yù)測(cè),并選用了不同的分類器進(jìn)行對(duì)比。分類器中,邏輯回歸(Logistics Regression)是最常用的分類方法,其速度快、易于理解,但適應(yīng)能力有一定的局限性;樸素貝葉斯模型也常用于文本分類,有著較為穩(wěn)定的分類效果,對(duì)小規(guī)模數(shù)據(jù)分類效果很好,實(shí)驗(yàn)選用文本分類常用的多項(xiàng)式分布樸素貝葉斯(MultinomialNB)與伯努利分布樸素貝葉斯(BernoulliNB)進(jìn)行實(shí)驗(yàn)。作為對(duì)比,基于TF-IDF 不同分類器模型的實(shí)驗(yàn)準(zhǔn)確率如表2 所示。
表2 基于TF-IDF 不同分類器模型的實(shí)驗(yàn)準(zhǔn)確率對(duì)比(單位:%)
從實(shí)驗(yàn)結(jié)果可知,在基于TF-IDF 特征的分類模型下,選用不同的分類器會(huì)對(duì)結(jié)果產(chǎn)生不同的影響,對(duì)于TF-IDF特征向量訓(xùn)練的任務(wù),使用邏輯回歸分類會(huì)有更好的效果。
為了使結(jié)果更加直觀,實(shí)驗(yàn)使用TSNE 對(duì)模型的輸出結(jié)果進(jìn)行降維可視化展示,如圖5 所示,Education 和Age 分為6 類,Gender 分為2 類。
圖5 TSNE 降維可視化
根據(jù)以上模型結(jié)構(gòu)進(jìn)行實(shí)驗(yàn),基于BP 神經(jīng)網(wǎng)絡(luò)的融合模型與其他模型準(zhǔn)確率的對(duì)比實(shí)驗(yàn)數(shù)據(jù)如表3 所示。表3 中,TF-IDF(多分類器)表示用多分類器訓(xùn)練TF-IDF 特征向量,但在Stacking模型中不進(jìn)行融合Doc2Vec 特征向量得到的結(jié)果;TF-IDF&Doc2Vec(LR)表示實(shí)驗(yàn)在Stacking 模型第一層使用TF-IDF 多分類器訓(xùn)練特征,第二層中融合的是用Logistics Regression 分類器訓(xùn)練的Doc2Vec 特征向量;TF-IDF&Doc2Vec(BPNN)表示實(shí)驗(yàn)在Stacking 模型第一層使用TF-IDF 多分類器訓(xùn)練特征,第二層使用BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練Doc2Vec 特征向量。
表3 基于BP 神經(jīng)網(wǎng)絡(luò)的融合模型與各模型準(zhǔn)確率對(duì)比(單位:%)
從實(shí)驗(yàn)結(jié)果可以看出,使用TF-IDF 多分類器效果比使用傳統(tǒng)模型中單分類器準(zhǔn)確率高,用Stacking 融合模型加入Doc2Vec 特征向量后,效果進(jìn)一步提升,最后將Doc2Vec 特征向量的訓(xùn)練方法由Logistics Regression 改為BP 神經(jīng)網(wǎng)絡(luò)后,準(zhǔn)確率在一定程度上又有所提升。
本實(shí)驗(yàn)構(gòu)建了用于預(yù)測(cè)多維用戶標(biāo)簽的Stacking 模型融合結(jié)構(gòu),并與傳統(tǒng)的分類模型進(jìn)行實(shí)驗(yàn)對(duì)比。從實(shí)驗(yàn)結(jié)果可以看出,選擇不同的分類器對(duì)準(zhǔn)確率有很大影響,在搜索數(shù)據(jù)的分類任務(wù)中,使用Logistics Regression 分類器要比其他單分類器有更好的效果,而使用Stacking 融合模型中的多分類器可以進(jìn)一步提升分類效果,如果將基于BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的Doc2Vec 特征詞向量進(jìn)行融合,則可以在一定程度上繼續(xù)提高預(yù)測(cè)的準(zhǔn)確度。所以本文提出的Stacking 模型融合方法對(duì)搜索引擎用戶畫(huà)像的標(biāo)簽預(yù)測(cè)有一定的意義。