康海燕, 李 昊
(1.北京信息科技大學(xué) 信息管理學(xué)院 北京 100192; 2.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院 北京 100192)
用戶畫像[1]是通過對(duì)用戶的社會(huì)屬性、日常生活習(xí)慣和消費(fèi)行為等數(shù)據(jù)信息進(jìn)行分析和挖掘,從而抽象出用標(biāo)簽形式進(jìn)行表示的用戶模型。貼“標(biāo)簽”是組織構(gòu)建用戶畫像系統(tǒng)的核心任務(wù),標(biāo)簽就是經(jīng)過對(duì)數(shù)據(jù)分析后用戶信息高度精練的特征標(biāo)識(shí)。
目前,用戶畫像技術(shù)飛速發(fā)展,正逐漸被應(yīng)用到社交媒體、電商、移動(dòng)等多個(gè)領(lǐng)域。Mueller等[2]通過Twitter用戶的用戶名信息和識(shí)別用戶性別,構(gòu)建了多種詞語結(jié)構(gòu)特征和Twitter用戶畫像,但是沒有提取用戶訪問Twitter的主題。Marquardt等[3]以文本為基礎(chǔ),提出了通過多種標(biāo)簽的分類方法來構(gòu)建用戶的性別及年齡畫像,但是沒有融合用戶訪問文本的興趣屬性。Zhu等[4]利用用戶情景日志,構(gòu)建了一種在情境感知背景下的移動(dòng)用戶畫像構(gòu)建方法,但是沒有對(duì)可能存在危險(xiǎn)的用戶進(jìn)行行為預(yù)測(cè)。雖然用戶畫像已成為當(dāng)前的一個(gè)熱門話題,但是目前針對(duì)群體用戶性格屬性的畫像及行為預(yù)測(cè)的研究還很缺乏[5]。
Web日志挖掘?qū)儆赪eb挖掘的一部分,目前基于文本內(nèi)容的檢索和文本分類技術(shù)是Web內(nèi)容挖掘研究的主要方向。隨著對(duì)Web日志數(shù)據(jù)挖掘的深入研究,國內(nèi)外的很多學(xué)者發(fā)現(xiàn)Web日志數(shù)據(jù)的研究將會(huì)在很大程度上反映及預(yù)測(cè)用戶的瀏覽趨勢(shì)和興趣愛好。Guerbas[6]等提出了一種有效的在線預(yù)測(cè)的新方法,對(duì)Web日志挖掘過程和在線導(dǎo)航模式預(yù)測(cè)進(jìn)行增強(qiáng),但是沒有對(duì)詞頻-逆文本率(term frequency-inverse document frequency,TF-IDF)的計(jì)算方式進(jìn)行改進(jìn)。郭俊霞[7]等提出了一種針對(duì)用戶網(wǎng)頁瀏覽日志數(shù)據(jù)的查詢和行為分析方法,但是沒有挖掘出用戶查詢?cè)L問網(wǎng)頁的主題。張宏鑫[8]等提出一種基于移動(dòng)應(yīng)用程序日志數(shù)據(jù)的人群特征分析與畫像方法,有效提取了移動(dòng)終端用戶的特征,但是沒有深層次地預(yù)測(cè)聚類人群的代表性格屬性特征。Zhou[9]等通過對(duì)社交網(wǎng)絡(luò)中數(shù)據(jù)的分析,將人格作為用戶屬性的一個(gè)特征維度進(jìn)行推測(cè),但是建模通過眾包的方式填寫問卷取得,沒有提出一種自動(dòng)化的人格預(yù)測(cè)方法。Golbeck[10]等通過關(guān)注Twitter用戶的推文,利用機(jī)器學(xué)習(xí)算法對(duì)用戶的人格進(jìn)行預(yù)測(cè),但是沒有將用戶的人格、訪問推文的主題和關(guān)鍵詞進(jìn)行綜合建模。Gao[11]等通過提取新浪用戶訪問的文本內(nèi)容,對(duì)用戶微博的內(nèi)容總數(shù)和情感詞等特征進(jìn)行分析,獲取其大五人格分?jǐn)?shù),但是沒有提出基于單一用戶的群體畫像方法,如何對(duì)具有潛在危險(xiǎn)型人格的用戶進(jìn)行行為預(yù)測(cè)。根據(jù)以上文獻(xiàn)對(duì)日志挖掘或用戶性格預(yù)測(cè)存在的問題,提出一種基于大五人格的用戶性格深度挖掘和預(yù)測(cè)方法。
本文主要貢獻(xiàn):1) 改進(jìn)傳統(tǒng)TF-IDF方法沒有考慮文章結(jié)構(gòu)的問題。在挖掘網(wǎng)頁關(guān)鍵詞時(shí)考慮文章結(jié)構(gòu)對(duì)結(jié)果的影響,為不同位置的詞配以權(quán)重提高算法挖掘的準(zhǔn)確率。 2) 首次提出“性格-主題-關(guān)鍵詞”模型。根據(jù)大五人格理論將心理學(xué)與畫像技術(shù)相結(jié)合,建立用戶性格畫像知識(shí)庫。 3) 首次將Web日志的挖掘引入到深層次的用戶性格挖掘,對(duì)其性格屬性特征進(jìn)行預(yù)測(cè)。 4) 提出了基于單一用戶畫像技術(shù)的群體用戶畫像技術(shù)。使用K-means方法將擁有相同屬性特征和性格的人群進(jìn)行聚類并可視化,達(dá)到描繪在社會(huì)中擁有相似特征群體的面貌。
日志數(shù)據(jù)通常用純文本文件記錄用戶的訪問記錄。每條日志文件記錄的格式通常為: date time/c-ip/cs-username/s-ip/s-port/cs-method/cs-uri-stem/cs-uri-query/sc-staus cs(user-agent)。
本文選取日志挖掘用到的7個(gè)數(shù)據(jù)進(jìn)行分析,分別為date time(日期時(shí)間)、c-ip(用戶IP)、s-port(服務(wù)器端口)、cs-method(請(qǐng)求方法)、cs-uri-stem(訪問的URL)、sc-staus(應(yīng)答狀態(tài))和cs-uri-stem(用戶代理)。
用戶畫像技術(shù)模型分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、用戶畫像和群體畫像5個(gè)模塊。系統(tǒng)總流程如圖1所示。
圖1 系統(tǒng)流程圖Figure 1 System flow chart
系統(tǒng)實(shí)現(xiàn)的具體步驟如下。
第1步:數(shù)據(jù)源獲取。通過下載互聯(lián)網(wǎng)中用戶的Web日志建立原始數(shù)據(jù)庫。
第2步:數(shù)據(jù)預(yù)處理。首先通過后綴處理、方法過濾、狀態(tài)碼過濾和冗余處理等方法對(duì)日志數(shù)據(jù)進(jìn)行清洗。進(jìn)而通過日志中IP的識(shí)別和操作系統(tǒng)的識(shí)別來辨別用戶身份的唯一性。然后使用網(wǎng)絡(luò)爬蟲獲取每條URL所對(duì)應(yīng)的網(wǎng)頁文本,并對(duì)獲取的原始文本進(jìn)行分詞、去停用詞等預(yù)處理操作。
第3步:提取用戶的屬性特征。本文通過改進(jìn)后的TF-IDF算法計(jì)算詞特征值,將特征值最高的詞作為網(wǎng)頁文本的關(guān)鍵詞。通過K近鄰(Knearest neighbor,KNN)文本分類算法對(duì)網(wǎng)頁文本進(jìn)行主題歸類。
第4步:用戶畫像。通過大五類性格進(jìn)行“性格-主題-關(guān)鍵詞”模型構(gòu)建,對(duì)擁有不同關(guān)鍵詞和主題的用戶進(jìn)行性格分類及預(yù)測(cè)。把用戶的屬性特征抽象成標(biāo)簽形式,從而可以更加直觀、方便地對(duì)用戶的性格及屬性進(jìn)行可視化,并且對(duì)擁有危險(xiǎn)性格傾向用戶進(jìn)行預(yù)測(cè)[12]。
第5步:群體畫像。通過對(duì)用戶興趣特征和性格特征進(jìn)行結(jié)合,使用K-means方法將擁有相同屬性特征的人群進(jìn)行聚類。觀察算法收斂后聚類中心點(diǎn)的屬性特征,從而達(dá)到描繪在社會(huì)中擁有相似特征群體的面貌。
通過數(shù)據(jù)清洗、用戶識(shí)別、網(wǎng)頁文本獲取和分詞、去停用詞和詞性標(biāo)注等網(wǎng)頁文本預(yù)處理后將日志數(shù)據(jù)統(tǒng)一格式標(biāo)準(zhǔn)存入用戶數(shù)據(jù)庫。
2.2.1基于TF-IDF的關(guān)鍵詞提取技術(shù) TF-IDF算法是一種應(yīng)用非常廣泛的關(guān)鍵詞提取方法[13]。TF-IDF 算法的核心是通過統(tǒng)計(jì)文檔中詞的詞頻達(dá)到計(jì)算詞權(quán)重的目的,其算法包括:
1) 詞頻(term frequency)。某個(gè)詞項(xiàng)在一個(gè)文本中出現(xiàn)的次數(shù)越多,它和文本的主題越相關(guān)。
2) 逆文本頻率(inverse document frequency)。某個(gè)詞在文本集合的多篇文本中出現(xiàn)次數(shù)越多,該詞的區(qū)分能力越差。利用上述概念計(jì)算每一個(gè)詞wi的TF-IDF值, 通常采用公式
TF-IDF(wi)=tf(wi)·idf(wi)=tfj(wi)·log(N/df(wi)),
(1)
式中:tfj(wi)表示當(dāng)前詞wi在文本j中出現(xiàn)的頻率;N表示文本集合中所有文本的總數(shù);df(wi)表示文本集合中有多少篇文本出現(xiàn)了當(dāng)前詞wi。將文本集合中的每一個(gè)詞進(jìn)行上述分析后,得到每一篇文本中每一個(gè)詞的TF-IDF值,即為該詞的特征值。然后將所有詞的特征值從高到低排序,選擇特征值最高的作為文本的關(guān)鍵詞[14]。
2.2.2改進(jìn)的TF-IDF算法 為了提高Web內(nèi)容挖掘[15]的準(zhǔn)確度,本文考慮了文章結(jié)構(gòu)對(duì)抽取關(guān)鍵詞的作用,對(duì)傳統(tǒng)TF-IDF算法進(jìn)行改進(jìn),算法描述如下。
輸入:文本集合D={d1,d2, …,dn};輸出:文本的關(guān)鍵詞。
步驟1 首先從數(shù)據(jù)庫中取出經(jīng)過分詞、去停用詞和詞性標(biāo)注等文本預(yù)處理過的Web文本內(nèi)容。
步驟2 經(jīng)研究發(fā)現(xiàn),文本標(biāo)題和首段中的詞很大程度上可以代表文章的中心主題。因此為了提高挖掘Web文本內(nèi)容的關(guān)鍵詞的精確度,給處于文章標(biāo)題和首段位置的詞配以更高的權(quán)重,在提取不同長度文章的關(guān)鍵詞時(shí),使用動(dòng)態(tài)權(quán)重α來適應(yīng)長短文本對(duì)關(guān)鍵詞的影響。通過實(shí)驗(yàn)統(tǒng)計(jì)權(quán)重對(duì)關(guān)鍵詞提取的影響,得出當(dāng)標(biāo)題和首段詞系數(shù)分別為3和1.5時(shí),對(duì)短文本有較好提取效果。進(jìn)而手動(dòng)設(shè)置300字以下短文本的標(biāo)題和首段詞的基礎(chǔ)系數(shù)為3和1.5,同時(shí)每超出基礎(chǔ)文本300字,基礎(chǔ)系數(shù)分別加1,從而達(dá)到動(dòng)態(tài)適應(yīng)長短文本對(duì)算法提取關(guān)鍵詞的影響。
對(duì)公式(1)中tfj(wi)改進(jìn)為tf′j(wi),
tf′j(wi)=tfj(wi)+(3+α)·tfjh(wi)+(1.5+α)·tfjf(wi),
(2)
式中:tf′j(wi)表示當(dāng)前詞wi在文本j中配以權(quán)重后出現(xiàn)的頻率;tfjh(wi)表示當(dāng)前詞在文章標(biāo)題中出現(xiàn)的頻率;tfjf(wi)表示當(dāng)前詞在文章首段出現(xiàn)的頻率。
步驟3 由于公式(2)對(duì)TF值進(jìn)行改進(jìn),為了減輕算法對(duì)詞頻的過度依賴,加入IDF值的平方來優(yōu)化算法。使用公式(3)計(jì)算Web文本中詞的TF-IDF值,并選出其中特征值最高的詞,作為當(dāng)前文章關(guān)鍵詞候選項(xiàng)。
TF-IDF′(wi)=tf′j(wi)·log(N/df(wi))·log(N/df(wi))。
(3)
步驟4 重復(fù)步驟3對(duì)每個(gè)URL的Web文本內(nèi)容進(jìn)行關(guān)鍵詞的提取,存入數(shù)據(jù)庫。
2.2.3文本主題分類 文本分類是讓計(jì)算機(jī)按照一定的分類標(biāo)準(zhǔn)自動(dòng)對(duì)文本集合進(jìn)行分類的過程。KNN[16]文本分類算法基于向量空間模型,利用文本向量間相似度劃分文本類別。該算法的核心思想為在訓(xùn)練集中分別計(jì)算待分類文本與設(shè)定好的每個(gè)標(biāo)準(zhǔn)分類樣本的相似度后,找到相似度最高的K個(gè)樣本。最后,根據(jù)待分類文本的相似度權(quán)值和相似樣本的類別,判定待分類文本的類別。
本文使用KNN文本分類算法對(duì)Web網(wǎng)頁文本內(nèi)容進(jìn)行主題分類。預(yù)先設(shè)定主題類別為一定程度上可以覆蓋網(wǎng)絡(luò)的20個(gè)主題。在訓(xùn)練集中,每個(gè)主題設(shè)置能突出反映當(dāng)前主題特征的多篇文本作為標(biāo)準(zhǔn)主題向量集。為了去除數(shù)據(jù)中的噪聲詞,對(duì)特征空間進(jìn)行降維并減少運(yùn)算復(fù)雜度,選取特征值前20個(gè)特征向量作為當(dāng)前文本特征向量集,與標(biāo)準(zhǔn)主題向量集進(jìn)行相似度計(jì)算,從而達(dá)到對(duì)Web網(wǎng)頁文本進(jìn)行分類的目的。算法描述如下。
輸入:待分類文本集合K={vi{wi1,wi2, …,win},1≤i≤n},Ds={ds1,ds2, …,ds20};輸出:分類的結(jié)果。
步驟1 首先,對(duì)訓(xùn)練集中代表20個(gè)主題的標(biāo)準(zhǔn)主題文本集Ds進(jìn)行預(yù)處理和特征詞向量化,抽取每個(gè)主題特征向量值最高的20個(gè)特征向量{vs{ws1,ws2, …,ws20},作為該主題的標(biāo)準(zhǔn)主題向量集。
步驟2 從數(shù)據(jù)庫中取出經(jīng)過特征向量化的文本集合K,計(jì)算待分類文本v和標(biāo)準(zhǔn)分類vs相似度,計(jì)算公式為
步驟4 最后使用分類決策函數(shù)來判定類別,計(jì)算公式f=arg maxcj(p(v,cj))。
在心理學(xué)領(lǐng)域,大五人格[17]是最為廣泛接受的理論框架。此前,有學(xué)者[18]證實(shí)主題特征與用戶人格之間的相關(guān)性,但并未給出具體的知識(shí)建模,結(jié)合本文對(duì)用戶性格畫像的需求,本文選用西方心理學(xué)界公認(rèn)的人格特質(zhì)模型大五人格[19]作為用戶性格分類[20]。
在這五種人格分類中,擁有外傾性、開放性、宜人性和盡責(zé)性的人認(rèn)為是心理健康且對(duì)社會(huì)有益的人,預(yù)測(cè)擁有這些性格特征的人很少會(huì)有對(duì)社會(huì)造成危害的行為,并給這些性格良好的人貼上“優(yōu)良人格”的標(biāo)簽。神經(jīng)質(zhì)性格的人擁有充滿煩惱和不安全感、焦慮、沖動(dòng)和脆弱等特征,預(yù)測(cè)這些充滿負(fù)面性格特征的人很可能因?yàn)闆_動(dòng)等原因會(huì)有危害社會(huì)的行為,給這些性格上有缺陷的人貼上“危險(xiǎn)人格”的標(biāo)簽。
本文通過深入理解分析大五人格的特點(diǎn),并結(jié)合領(lǐng)域知識(shí)中對(duì)大五類性格特點(diǎn)的描述,為每個(gè)人格賦予最能表現(xiàn)性格特點(diǎn)的主題,達(dá)到從用戶訪問的主題深度預(yù)測(cè)用戶性格的目的,生成用戶性格標(biāo)簽。通過訓(xùn)練集收集各類主題中高頻且具有代表性的特征關(guān)鍵詞進(jìn)行人工篩選,用于對(duì)提取到的未知關(guān)鍵詞進(jìn)行規(guī)范化處理。構(gòu)建“性格-主題-關(guān)鍵詞”知識(shí)庫,如表1。
表1 “性格-主題-關(guān)鍵詞”知識(shí)庫Table 1 “Personality-topic-key words” knowledge base
通過提取用戶訪問頁面后的關(guān)鍵詞,獲得網(wǎng)頁的內(nèi)容主題,進(jìn)而作為用戶的興趣屬性標(biāo)簽。并根據(jù)“性格-主題-關(guān)鍵詞”模型對(duì)用戶的性格進(jìn)行深度預(yù)測(cè),獲得用戶性格屬性標(biāo)簽。結(jié)合用戶識(shí)別,對(duì)用戶進(jìn)行畫像。擁有外傾性、開放性、宜人性和盡責(zé)性的用戶將被貼上“優(yōu)良人格”的性格屬性標(biāo)簽,對(duì)擁有神經(jīng)質(zhì)和不良關(guān)鍵詞的用戶將被貼上“危險(xiǎn)人格”的性格屬性標(biāo)簽。例如:
輸入:111.192.165.229—[19/Sep/2013∶06:06:39+0000]“GET/js/google.jsHTTP/1.1“3040” http:∥blog.fens.me/?p=2445&preview=true“”Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36”。
輸出:ID:111.192.165.229;興趣屬性標(biāo)簽:科技;性格屬性標(biāo)簽:開放性人格(優(yōu)良人格)。
為了挖掘群體用戶的屬性特征,找出擁有相似特征的用戶群體,提出一種建立在個(gè)人用戶畫像基礎(chǔ)上的群體用戶畫像的概念。提取所有用戶的個(gè)人屬性特征之后,根據(jù)主題及性格標(biāo)簽向量進(jìn)行用戶聚類。用戶的特征是用向量的集合表示的,相較于其他聚類算法,雖然K-means方法比較依賴初始聚類中心的選取,但是通過選取用戶屬性特征明顯的中心數(shù)據(jù)點(diǎn),可以達(dá)到良好的聚類效果。因此,本文采用K-means聚類[21]算法進(jìn)行用戶相似度的計(jì)算。群體用戶畫像流程圖如圖2所示。
圖2 群體畫像流程圖Figure 2 Flow chart of group profiling
在本文所構(gòu)建的標(biāo)簽體系中,主要分為5種性格類別。為了用戶聚類的過程中發(fā)現(xiàn)具有不同屬性特征的用戶群體,在使用K-means進(jìn)行用戶聚類的過程中,將劃分的聚類個(gè)數(shù)設(shè)定為5個(gè)。用戶聚類完成之后,在數(shù)據(jù)庫中記錄每個(gè)簇的用戶ID及包含的用戶數(shù)量。通過分析聚類節(jié)點(diǎn)中心的屬性特征,從而得知在某種特定屬性前提下,擁有指定屬性的用戶群體的特征[22]。
本文采用的數(shù)據(jù)集為北京信息科技大學(xué)校園網(wǎng)中約10 000個(gè)用戶的上網(wǎng)日志記錄。將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集兩部分,選取7 000個(gè)用戶的Web日志作為訓(xùn)練模型的訓(xùn)練集;選取3 000個(gè)用戶的Web日志作為測(cè)試訓(xùn)練結(jié)果的測(cè)試集。 在對(duì)數(shù)據(jù)進(jìn)行采集和預(yù)處理后,本文將從兩個(gè)方面對(duì)實(shí)驗(yàn)內(nèi)容的性能進(jìn)行分析:通過Web網(wǎng)頁內(nèi)容挖掘?qū)嶒?yàn)測(cè)試提取網(wǎng)頁主題的準(zhǔn)確率;通過大五類性格預(yù)測(cè)實(shí)驗(yàn)測(cè)試性格預(yù)測(cè)的有效性及準(zhǔn)確性。
本文為了評(píng)價(jià)Web網(wǎng)頁內(nèi)容挖掘的準(zhǔn)確率,設(shè)計(jì)了挖掘的準(zhǔn)確率對(duì)挖掘的結(jié)果進(jìn)行衡量,
Maccuracy=Dc/Dt,
(4)
其中:Maccuracy表示模型挖掘的準(zhǔn)確率;Dc表示提取文檔中關(guān)鍵詞正確的次數(shù);Dt表示提取文檔的全部數(shù)量。根據(jù)式(4),本文設(shè)計(jì)了4個(gè)對(duì)比試驗(yàn):① 使用TF-IDF算法提取Web內(nèi)容的實(shí)驗(yàn);② 基于隱含狄利克雷分布 (latent Dirichlet allocation,LDA)主題模型提取Web內(nèi)容主題的實(shí)驗(yàn);③ 使用改進(jìn)后的TF-IDF算法提取Web內(nèi)容的實(shí)驗(yàn);④ 基于比特主題模型(Biterm topic model,BTM)的主題提取Web內(nèi)容主題的實(shí)驗(yàn)。在LDA模型中,設(shè)置其參數(shù)α=50/T(T為主題數(shù)),β為0.01,設(shè)置T值為15、20、25。實(shí)驗(yàn)結(jié)果如表2所示。
由表2可以看出,當(dāng)T=20時(shí),Web內(nèi)容挖掘的挖掘效果最好,準(zhǔn)確率最高。其原因?yàn)樵赥=20時(shí),即主題數(shù)為20的時(shí)候,知識(shí)庫的建立對(duì)Web內(nèi)容挖掘起到輔助作用。隨著T值的增加,挖掘的效果先升高后降低,因?yàn)橹挥凶罱咏脩糁黝}分類需求的T值,才能更好地提高挖掘的準(zhǔn)確性,數(shù)據(jù)的稀疏性影響了挖掘的準(zhǔn)確率。
選擇挖掘效果最好的T=20時(shí)進(jìn)行對(duì)比實(shí)驗(yàn),根據(jù)公式(4)計(jì)算準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如圖3所示。
表2 T值對(duì)準(zhǔn)確率的影響Table 2 The effect of T value on accuracy
圖3 Web內(nèi)容挖掘準(zhǔn)確率Figure 3 Web content mining accuracy
由圖3對(duì)Web內(nèi)容挖掘的準(zhǔn)確率可知,使用傳統(tǒng)TF-IDF算法對(duì)Web內(nèi)容挖掘的準(zhǔn)確率為71%,基于LDA主題模型的Web內(nèi)容挖掘準(zhǔn)確率在62%左右,基于BTM主題模型的Web內(nèi)容挖掘準(zhǔn)確率在70%左右,本文使用的配以權(quán)重的TF-IDF算法在準(zhǔn)確率上要優(yōu)于上述3種算法,準(zhǔn)確率為74%。原因?yàn)長DA主題模型提取的主題主要依靠“主題-文檔”和“詞-主題”的概率相乘,所以數(shù)據(jù)集在一般情況下提取主題過于稀疏;BTM模型針對(duì)長文本的網(wǎng)頁文本適應(yīng)能力不強(qiáng);傳統(tǒng)的TF-IDF又過于依賴詞頻,沒有考慮文章的結(jié)構(gòu);改進(jìn)后的TF-IDF一定程度上彌補(bǔ)了上述幾種算法的缺點(diǎn)。
為了驗(yàn)證用戶性格畫像系統(tǒng)的準(zhǔn)確率,通過訓(xùn)練數(shù)據(jù)得到的決策樹模型,分別對(duì)100~600條日志數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確率(Precision)、召回率(Recall)和F1值進(jìn)行計(jì)算,
實(shí)驗(yàn)結(jié)果如圖4所示。由圖4可知,隨著實(shí)驗(yàn)測(cè)試數(shù)據(jù)集的增加,用戶畫像系統(tǒng)對(duì)用戶性格預(yù)測(cè)的準(zhǔn)確率逐漸收斂,最終收斂在72%附近。這說明該系統(tǒng)可以穩(wěn)定有效地對(duì)用戶性格進(jìn)行預(yù)測(cè),但是召回率隨著準(zhǔn)確率的增加而降低。其原因可能是隨著數(shù)據(jù)集的增多,噪聲數(shù)據(jù)及錯(cuò)誤訪問網(wǎng)頁的用戶逐步增加,對(duì)所有用戶進(jìn)行精確畫像的難度上升,因此F1值呈現(xiàn)出先上升后下降的趨勢(shì)。
在測(cè)量用戶畫像系統(tǒng)對(duì)用戶擁有的大五類性格屬性的準(zhǔn)確率后,通過線性回歸模型測(cè)量每種性格占用戶總數(shù)的百分比。通過預(yù)測(cè)誤差的絕對(duì)值的平均值來衡量預(yù)測(cè)的準(zhǔn)確度,預(yù)測(cè)誤差是指計(jì)算值與實(shí)際值間的誤差,平均誤差是指在0~99之間隨機(jī)給定一個(gè)值,這個(gè)值和正確值之間的誤差的期望值。由于每種性格所占百分比變量均是在0至99之間均勻分布的,因此預(yù)測(cè)平均誤差為37.5。實(shí)驗(yàn)結(jié)果如圖5所示。
圖4 性格預(yù)測(cè)準(zhǔn)確率、召回率和F1值Figure 4 Personality prediction of precision, recall and F1
圖5 群體性格預(yù)測(cè)Figure 5 Group personality prediction
從圖5中可以看到,用戶大五類性格占有比例的預(yù)測(cè)誤差均小于平均誤差。說明用戶畫像系統(tǒng)能有效挖掘出用戶在訪問網(wǎng)絡(luò)時(shí)的性格屬性特征。其中外傾性人格畫像最為精確,原因可能為測(cè)試集中用戶上網(wǎng)購物或搜索娛樂資源的數(shù)量較多。對(duì)神經(jīng)質(zhì)人格的畫像相對(duì)較差,原因可能為測(cè)試集中用戶訪問網(wǎng)絡(luò)推送的廣告或不良資源造成的。
本文針對(duì)傳統(tǒng)的日志挖掘沒有直觀體現(xiàn)用戶的興趣度,對(duì)用戶性格等屬性沒有進(jìn)行深度挖掘等問題,設(shè)計(jì)了用戶行為預(yù)測(cè)與性格畫像方法。該方法通過標(biāo)簽形式,更加直觀準(zhǔn)確地反映了用戶的特有屬性,通過對(duì)性格刻畫主動(dòng)對(duì)網(wǎng)絡(luò)用戶進(jìn)行行為預(yù)測(cè)[23]和安全預(yù)警[24]。今后的研究方向?yàn)榻Y(jié)合多種用戶數(shù)據(jù)的融合畫像,對(duì)群體用戶的多維屬性特征挖掘等方面進(jìn)行進(jìn)一步研究。