孫啟亮,牟超,孟瑤
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶400044)
基于頻繁序列挖掘的男女生上網(wǎng)模式差異研究
孫啟亮,牟超,孟瑤
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶400044)
以網(wǎng)絡(luò)日志作為研究數(shù)據(jù),采用頻繁序列挖掘和K-means聚類算法挖掘不同性別學(xué)生上網(wǎng)模式的區(qū)別。通過對(duì)比男女生在高、中、低三個(gè)不同頻段的網(wǎng)絡(luò)訪問模式發(fā)現(xiàn):在最常訪問的網(wǎng)站類型上男女生并沒有明顯區(qū)別。男生更多地將網(wǎng)絡(luò)用于娛樂和社交目的,而女生更多地把網(wǎng)絡(luò)當(dāng)做獲取信息的工具。此外男生訪問的網(wǎng)站類型比女生更豐富。同時(shí),提出一種將序列轉(zhuǎn)換成向量的方法BitOccurrence。
性別差異;頻繁序列挖掘;聚類;網(wǎng)絡(luò)日志
確性較好。
隨著互聯(lián)網(wǎng)的發(fā)展和普及,學(xué)生花費(fèi)在網(wǎng)絡(luò)上的時(shí)間越來越多[1]。網(wǎng)絡(luò)訪問模式的差異在一定程度上代表了不同用戶之間愛好,行為模式或思考方式的差異。研究不同性別群體之間的上網(wǎng)模式差異一方面有助于理解男女生網(wǎng)絡(luò)訪問偏好,另一方面也可以幫助網(wǎng)站設(shè)計(jì)者針對(duì)不同性別的用戶開發(fā)出更有針對(duì)性的內(nèi)容[2]。網(wǎng)絡(luò)使用的性別差異(gender gap in Internet use)的主要研究?jī)?nèi)容是不同性別的群體在互聯(lián)網(wǎng)的使用方式上的區(qū)別。前人已經(jīng)在這個(gè)方向做了大量研究。Eric B.Weiser通過研究發(fā)現(xiàn)男生更多地將網(wǎng)絡(luò)用于娛樂目的,而女生更多地用網(wǎng)絡(luò)輔助科研學(xué)習(xí)[3]。Chien-Huang Lin等人的研究表明:女生更多地將網(wǎng)絡(luò)視為一種工具,會(huì)花更多時(shí)間在E-mail和獲取信息上;男生更多地將網(wǎng)絡(luò)看做一種娛樂方式,會(huì)花更多地時(shí)間在游戲和下載軟件上[4]。這些研究的數(shù)據(jù)均來自于調(diào)查問卷。通過向被研究群體發(fā)放調(diào)查問卷的形式收集群體上網(wǎng)的信息,這種方式的問題在于,被調(diào)查者有時(shí)會(huì)出于隱私保護(hù)等目的而胡亂填寫問卷,對(duì)資料的真實(shí)性造成影響[5]。本文的研究使用網(wǎng)關(guān)服務(wù)器的日志作為研究資料,通過頻繁序列模式挖掘算法挖掘不同性別學(xué)生使用網(wǎng)絡(luò)的模式,數(shù)據(jù)的客觀性和準(zhǔn)
1.1 網(wǎng)絡(luò)日志
本文使用的數(shù)據(jù)是中國某重點(diǎn)大學(xué)的網(wǎng)關(guān)服務(wù)器的日志數(shù)據(jù)。日志記錄了訪問者ID(已做脫敏處理),訪問時(shí)間、URL地址、設(shè)備MAC地址等信息。
本研究選取2014和2015級(jí)學(xué)生在2015年9月~2016年1月(截止到1月17日寒假前)間的網(wǎng)絡(luò)日志作為研究數(shù)據(jù)。各年級(jí)和性別人數(shù)如表1所示。日志文件的體積達(dá)到6.7TB。
1.2 網(wǎng)址分類庫
為了研究學(xué)生訪問網(wǎng)站類別的差異,我們建立了網(wǎng)址分類庫。分類庫中共收集了12,000個(gè)域名地址(包括子域名)。這些域名被分為335個(gè)類別[6],并用數(shù)字來唯一標(biāo)識(shí)不同的網(wǎng)站類型,如269代表“搜索引擎”類型網(wǎng)站。
表1 各年級(jí)、性別人數(shù)
2.1 數(shù)據(jù)清洗
獲取的網(wǎng)絡(luò)日志并不能直接用于日志分析。日志服務(wù)器會(huì)記錄每一個(gè)接收到的請(qǐng)求,當(dāng)用戶打開一個(gè)網(wǎng)頁時(shí)可能產(chǎn)生十幾條記錄,其中大部分是由于加載靜態(tài)資源而產(chǎn)生的記錄,還有一部分是由于網(wǎng)站流量統(tǒng)計(jì)和廣告展示產(chǎn)生的訪問記錄。經(jīng)過分析,靜態(tài)資源相關(guān)的記錄占到總記錄數(shù)的70%,廣告和流量統(tǒng)計(jì)的相關(guān)記錄站到5%。這些信息會(huì)影響我們分析用戶的訪問模式,所以需要將這些記錄剔除。
另外一類需要剔除的信息是由安裝在計(jì)算機(jī)上的軟件自動(dòng)且頻繁觸發(fā)的訪問記錄。常見的是殺毒軟件、下載器等常駐內(nèi)存的應(yīng)用程序。
2.2 數(shù)據(jù)轉(zhuǎn)換
原始日志文件的記錄粒度較小,每個(gè)用戶的每一個(gè)URL請(qǐng)求都會(huì)產(chǎn)生一條記錄。這種細(xì)粒度的記錄在本研究中并非必須,且記錄條數(shù)過多會(huì)極大增加計(jì)算量。故每個(gè)人在某一天產(chǎn)生的訪問記錄被匯總成一條記錄。同時(shí),請(qǐng)求的域名被映射到對(duì)應(yīng)的網(wǎng)站類型。轉(zhuǎn)換之后的日志文件示例如下。其中的“#”用于間隔網(wǎng)站類型編號(hào)。
2.3 數(shù)據(jù)概貌
經(jīng)過2.1、2.2的處理后,日志文件包含記錄817,829條,男生的記錄558,451條,女生數(shù)據(jù)259,378條。男女生上網(wǎng)數(shù)據(jù)的基本統(tǒng)計(jì)信息如表2所示,其中平均每個(gè)男生有記錄68.6條,女生有56.1條。
表2 男女生日志統(tǒng)計(jì)數(shù)據(jù)
圖1是335個(gè)網(wǎng)站類型支持度的密度圖。網(wǎng)站支持度的計(jì)算公式如(1)。
從圖中可以看出各網(wǎng)站類型的支持度極度不均衡,只有極少數(shù)網(wǎng)站類型具有較高的支持度,絕大部分網(wǎng)站的支持度都很小。如果直接對(duì)數(shù)據(jù)進(jìn)行頻繁序列挖掘,則結(jié)果將僅由支持度較高的少數(shù)幾個(gè)網(wǎng)站類型組成,從而造成其他的訪問序列模式被淹沒。本研究將網(wǎng)站類型按照支持度的大小分成高、中、低三個(gè)頻段,可以更全面的反應(yīng)學(xué)生上網(wǎng)情況。高頻部分包含支持度在(0.6,1]內(nèi)的網(wǎng)站類型,中頻部分包括支持度在(0.1,0.6]內(nèi)的網(wǎng)站類型,低頻部分包含支持度在[0,0.1]之間的網(wǎng)站類型。
圖1 網(wǎng)站類型支持度密度曲線
3.1 相關(guān)技術(shù)介紹
(1)元素
一個(gè)元素對(duì)應(yīng)事務(wù)數(shù)據(jù)庫中的一個(gè)事務(wù),表示為(x1,x2,xm),xk為不同的單項(xiàng)。在本研究中xk為某一個(gè)網(wǎng)站類型。
(2)序列
序列是不同元素的有序排列。序列S可以表示為S= 序列中的節(jié):序列中的第k個(gè)元素,稱作序列的第k節(jié)。 (3)頻繁序列挖掘 頻繁序列挖掘是一種從序列數(shù)據(jù)庫中找出滿足最小支持度minSup的子序列的算法[7]。其與頻繁項(xiàng)挖掘的區(qū)別在于,頻繁項(xiàng)挖掘作用于事務(wù)數(shù)據(jù)庫,而頻繁序列挖掘作用于序列數(shù)據(jù)庫。常見的序列挖掘算法有基于Apriori思想的Apriori類算法和基于投影技術(shù)的序列挖掘算法[8]。 (4)K-means聚類 聚類算法經(jīng)常被用于數(shù)據(jù)壓縮和概括,通過聚類將相似的數(shù)據(jù)聚集在一起,用中心點(diǎn)代替整個(gè)簇[9]。K-means是一種基于距離的聚類算法??梢詫?shù)據(jù)分成指定個(gè)數(shù)的聚簇,并計(jì)算出每個(gè)聚簇的質(zhì)心。 (5)BitOccurrence編碼 頻繁序列挖掘的結(jié)果是序列,為了壓縮序列,減少序列個(gè)數(shù)需要使用K-means算法聚類,K-means算法的輸入是向量。BitOccurrence可用于將一組序列轉(zhuǎn)換為一組向量。向量的屬性由序列中出現(xiàn)的元素組成。向量中每個(gè)屬性的值由該元素在序列中出現(xiàn)的位置和次數(shù)決定。對(duì)于向量Vi 如果一個(gè)示例如下:序列: 向量: 表3 3.2 實(shí)驗(yàn)流程 本研究通過對(duì)比男女生上網(wǎng)的頻繁序列模式來研究男女生上網(wǎng)模式的差異。 如圖2所示,實(shí)驗(yàn)主要分為6個(gè)步驟,其中核心步驟是第4步,對(duì)日志文件進(jìn)行最大頻繁序列挖掘。步驟1用于計(jì)算各網(wǎng)站類型的支持度。步驟2根據(jù)1中計(jì)算的支持度將日志文件分為高、中、低頻三個(gè)部分,又因?yàn)槟猩团娜罩居涗浺珠_挖掘,故產(chǎn)生了6個(gè)數(shù)據(jù)集,分別為 DHigh_male、DMid_male、DLow_male、DHigh_female、DMid_fe?male、DLow_male。劃分結(jié)果如表4所示。 圖2 實(shí)驗(yàn)流程圖 表4 男女生各頻段網(wǎng)站類型個(gè)數(shù) 由于網(wǎng)站類型較多,日志條數(shù)較多,為了能在可接受的時(shí)間內(nèi)計(jì)算出挖掘結(jié)果,步驟3需要將日志的粒度調(diào)整為“月”,以縮減記錄條數(shù)。同時(shí),對(duì)于每個(gè)用戶,只保留其當(dāng)月訪問次數(shù)排在前K位的網(wǎng)絡(luò)類型,如此可以縮減每個(gè)序列的中單項(xiàng)的個(gè)數(shù)。當(dāng)K取10時(shí),各頻段網(wǎng)站類型的覆蓋率較好,各性別、頻段的日志覆蓋率如表5所示(覆蓋率是指被選出的網(wǎng)站類型組成的記錄占原記錄的比例)。 表5 各頻段男女生日志網(wǎng)站類型覆蓋率 步驟4用最大頻繁序列挖掘算法對(duì)日志進(jìn)行挖掘[10]。挖掘出的結(jié)果包含的序列較多,不方便直接用于對(duì)比。需要先利用BitOccurrence算法將頻繁序列轉(zhuǎn)換為向量(步驟5),再利用K-means算法進(jìn)行聚類(步驟6),以縮減序列數(shù)量。 經(jīng)過頻繁序列挖掘和聚類處理后,得到6組序列數(shù)據(jù),分別為男生和女生的高、中、低頻段的網(wǎng)絡(luò)訪問序列模式。將序列格式化成表格的形式。表格的每一列對(duì)應(yīng)序列中的一個(gè)元素(節(jié))。 4.1 高頻 高頻部分結(jié)果如表6所示。該部分的網(wǎng)站類型是用戶訪問最頻繁的網(wǎng)站。在這部分網(wǎng)站的訪問上,男生和女生并沒有非常明顯地區(qū)別。從表5可以看出在“門戶網(wǎng)站”、“搜索引擎”兩個(gè)類別上男生和女生的訪問模式相同。對(duì)于“在線影視”和“綜合購物”類型的網(wǎng)站男生和女生都較頻繁的訪問,但男生的訪問序列的每個(gè)小節(jié)都包含這兩種類型,而女生的訪問序列模式只在第二、三小節(jié)包含這兩個(gè)類型,說明男生對(duì)這兩個(gè)類型網(wǎng)站的訪問更為頻繁。除此之外男生還額外還訪問了“在線影視”、“在線音樂”、“軟件下載”和“微博”這些類型的網(wǎng)站。 表7 中頻部分的序列 表6 高頻部分的序列 4.2 中頻 中頻部分結(jié)果如表7所示。中頻部分,男女生訪問的網(wǎng)站類型差異明顯。男生更多地關(guān)注了游戲相關(guān)、“手機(jī)軟件”、“電子地圖”、“網(wǎng)站導(dǎo)航”等類型的網(wǎng)站,而女生則更多地關(guān)注了“數(shù)碼家電”、“博客”、“百科問答”、“電子支付”相關(guān)的網(wǎng)站。從這部分?jǐn)?shù)據(jù)可以看出女生更傾向于從網(wǎng)絡(luò)獲取信息,利用網(wǎng)絡(luò)解決問題。而男生更多地參與到網(wǎng)絡(luò)娛樂當(dāng)中。 表8 低頻部分書序列 4.3 低頻 低頻部分結(jié)果如表8所示。該部分的網(wǎng)站類別并非學(xué)生訪問網(wǎng)站的主流。從挖掘的結(jié)果可以看出:男女生在該部分的訪問模式也有顯著差異。男生更多地關(guān)注了“交友綜合“、”硬件評(píng)測(cè)“、“女性綜合”、“歷史人物”、“母嬰親子”、“財(cái)經(jīng)資訊”和“醫(yī)療健康”等類型的網(wǎng)站。而女生則更多地關(guān)注了“報(bào)刊雜志”、“IT資訊”、“汽車資訊”和“游戲綜合”等類型的網(wǎng)站。 “游戲綜合”網(wǎng)站類型,出現(xiàn)在男生的中頻部分,而出現(xiàn)在女生的低頻部分,這說明女生同樣關(guān)注游戲相關(guān)的內(nèi)容,但是關(guān)注度小于男生。從關(guān)注的內(nèi)容上來說,女生更多地關(guān)注和游戲資訊、攻略相關(guān)的內(nèi)容;而男生對(duì)于游戲的關(guān)注更為全面,包含了游戲資訊、游戲攻略、游戲官網(wǎng)、網(wǎng)絡(luò)游戲等。 此部分?jǐn)?shù)據(jù)顯示,女生更多地利用網(wǎng)絡(luò)獲取信息和資訊。男生同時(shí)還將網(wǎng)絡(luò)用于社交目的。 本文以網(wǎng)絡(luò)日志作為研究數(shù)據(jù),以2014、2015級(jí)本科生作為研究對(duì)象,通過序列挖掘算法挖掘不同性別的學(xué)生的上網(wǎng)模式。同時(shí),還提出了一種將序列轉(zhuǎn)化成向量的編碼方法BitOccurrence。通過對(duì)男女生上網(wǎng)序列模式的對(duì)比發(fā)現(xiàn):男女生在最常訪問的網(wǎng)站類型上沒有明顯地區(qū)別。男生訪問的網(wǎng)站類型比女生更豐富。男生上網(wǎng)更多地進(jìn)行娛樂和社交活動(dòng),而女生則更多地將網(wǎng)絡(luò)作為獲取資訊和信息的工具。 本文以網(wǎng)關(guān)服務(wù)器的日志作為數(shù)據(jù)來源比將調(diào)查問卷作為數(shù)據(jù)來源的方法具有更好的準(zhǔn)確性。 [1]Large,Andrew.Gender Differences in Collaborative Web Searching Behavior:an Elementary School Study[J].Information Processing&Management,2002:427-443. [2]Lian,J.W.Online Shopping Drivers and Barriers for Older Adults:Age and Gender Differences[J].Computers in Human Behavior,2014:133-143. [3]Weiser,Eric B.Gender Differences in Internet Use Patterns and Internet Application Preferences:A Two-Sample Comparison[J].Mary Ann Liebert,Inc.,2000:167-168. [4]Lin,C.H.Adolescent Internet Usage in Taiwan:Exploring Gender Differences[J].Adolescence,2008:317-331. [5]李廣義.人力資源管理[M].天津大學(xué)出版社,2009. [6]Qing Zhou.Predicting Student Performances From Access Records on General Websites[J].Electronics,Communications and Networks IV,2015:661-664. [7]王虎,丁世飛.序列模式挖掘研究與發(fā)展[J].計(jì)算機(jī)科學(xué),2009:14-17. [8]Sun,H,Sun,J.H,Chen,H.Mining Frequent Attack Sequence in Web Logs[J].Springer Int Publishing Ag,2016:243-260. [9]Jiawei Han.Data Mining:Concepts and Techniques,Third Edition[M].Morgan Kaufmann,2011. [10]Fournier-Viger,P.,Lin,C.W.,Gomariz,A.,Gueniche,T.,Soltani,A.,Deng,Z.,Lam,H.T.(2016).The SPMF Open-Source Data Mining Library Version 2.Proc.19th European Conference on Principles of Data Mining and Knowledge Discovery(PKDD 2016)Part III,Springer LNCS 9853:36-40. Research on Gender Gap in Internet Based on Frequent Sequential Pattern Mining SUN Qi-liang,MOU Chao,MENG Yao Uses the net access log as research data,and uses the frequent sequential pattern mining and K-means clustering algorithm to excavate dif?ferent access patterns between males and females.By comparing males'and females'visit patterns in high,medium and low frequencies,it is found that there is no significant difference between male and female in the most frequently visited site types.Men are more likely to use the Internet for recreational and social purposes,and women are more likely to use the Internet as a tool for getting information.In addition,the types of site visited by men are more than by women.Besides,presents a method for converting sequences into vectors. 孫啟亮(1990-),男,黑龍江哈爾濱人,在讀碩士,研究方向?yàn)閿?shù)據(jù)挖掘 2017-04-14 2017-06-11 1007-1423(2017)17-0044-06 10.3969/j.issn.1007-1423.2017.17.009 牟超(1989-),男,山東濰坊人,在讀博士,研究方向?yàn)閿?shù)據(jù)挖掘 孟瑤(1992-),女,云南德宏人,在讀碩士,研究方向?yàn)閿?shù)據(jù)挖掘 Gender Gap;Frequent Sequential Pattern Mining;Clustering;Net Access Log4 實(shí)驗(yàn)結(jié)果分析
5 結(jié)語
(College of Computer Science,Chongqing University,Chongqing 400044)