馬滿福,員欣淼,李 勇,劉元喆,王常青
(1.西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院, 甘肅 蘭州 730070;2.甘肅省物聯(lián)網(wǎng)工程研究中心,甘肅 蘭州 730070;3.中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心互聯(lián)網(wǎng)基礎(chǔ)技術(shù)開放實(shí)驗(yàn)室,北京 100190)
Science上的一篇文章指出:貧窮往往導(dǎo)致注意力資源的短缺,進(jìn)而降低人的認(rèn)知能力[1]。在針對(duì)中國(guó)民眾的階層意識(shí)研究中發(fā)現(xiàn),中國(guó)人的階層自我定位明顯低于同期的歐美國(guó)家居民[2,3]。此外,無論在城市還是農(nóng)村,人們的客觀社會(huì)經(jīng)濟(jì)地位與對(duì)于自身的主觀階層地位認(rèn)知之間均存在著不小的偏差[4,5]。真實(shí)空間中,由于個(gè)人的組織資源、文化資源和經(jīng)濟(jì)資源擁有量存在差異,使得社會(huì)分層現(xiàn)象普遍存在。已有研究指出,低階層者的系統(tǒng)合理化水平顯著低于高階層者,家長(zhǎng)的教養(yǎng)方式存在階層差異,居民的住房分層現(xiàn)象較為明顯,階層認(rèn)知影響生活幸福感,尤其是主客觀階層差異的影響顯著等[6 - 9]。
根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center)發(fā)布的第43次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2018年12月,我國(guó)網(wǎng)民規(guī)模為8.29億,互聯(lián)網(wǎng)普及率達(dá)59.6%。從1997年到2018年,我國(guó)網(wǎng)站數(shù)量從1 500個(gè)增長(zhǎng)至523萬個(gè)。互聯(lián)網(wǎng)應(yīng)用的進(jìn)一步發(fā)展,將推動(dòng)形成更加多元的網(wǎng)絡(luò)社會(huì)生態(tài)體系[10]。大量的人類行為發(fā)生在虛擬空間中,用戶在虛擬空間中留下的電子印跡都被記錄著,網(wǎng)上行為和現(xiàn)實(shí)生活有了可以推測(cè)的聯(lián)系[11],這為虛擬空間中的社會(huì)分層行為研究提供了數(shù)據(jù)基礎(chǔ)。
本文通過在線行為數(shù)據(jù)反映虛擬空間中的社會(huì)分層現(xiàn)象。首先通過計(jì)算不同階層用戶在虛擬空間中時(shí)間數(shù)據(jù)的均值和方差,發(fā)現(xiàn)較高階層用戶在虛擬空間中的停留時(shí)間相對(duì)穩(wěn)定,而較低階層用戶的在線時(shí)間較不穩(wěn)定。其次,通過word2vec中的Skip-gram模型訓(xùn)練出能代表各階層用戶行為特征的詞向量,發(fā)現(xiàn)不同階層用戶將注意力消耗在不同的信息資源上,較高階層用戶能更好地利用網(wǎng)絡(luò)資源辦公和購(gòu)物,而較低階層用戶在虛擬空間中消耗的注意力對(duì)自我提升并無多大幫助,從認(rèn)知的角度分析這會(huì)進(jìn)一步加大社會(huì)分層現(xiàn)象。最后,本文利用基于word2vec的神經(jīng)網(wǎng)絡(luò)算法模型W2V-BP(Word2Vec Back Propagation)對(duì)用戶的在線行為數(shù)據(jù)進(jìn)行社會(huì)階層識(shí)別,實(shí)驗(yàn)發(fā)現(xiàn)準(zhǔn)確率達(dá)到90.22%,表明虛擬空間中存在能夠區(qū)分用戶社會(huì)分層的行為特征。
用來進(jìn)行社會(huì)階層劃分的資源依據(jù)包括生產(chǎn)資料、財(cái)產(chǎn)或收入、市場(chǎng)、職業(yè)或就業(yè)、政治權(quán)力、文化、社會(huì)關(guān)系、主觀聲望、公民權(quán)利和人力資源等[12]。社會(huì)學(xué)中,比較主流的看法是:把“職業(yè)”作為社會(huì)分層的標(biāo)準(zhǔn),把資源占有作為基本維度,并輔之社會(huì)經(jīng)濟(jì)地位綜合指數(shù)的測(cè)量[13]。
已故著名社會(huì)學(xué)家陸學(xué)藝教授在《當(dāng)代中國(guó)社會(huì)階層研究報(bào)告》中提出了以職業(yè)分類為基礎(chǔ),以組織資源、經(jīng)濟(jì)資源、文化資源占有狀況作為劃分社會(huì)階層的標(biāo)準(zhǔn),把當(dāng)今中國(guó)的社會(huì)群體劃分為10個(gè)階層。10個(gè)階層包括國(guó)家與社會(huì)管理者階層、經(jīng)理人員階層、私營(yíng)企業(yè)主階層、專業(yè)技術(shù)人員階層、辦事人員階層、個(gè)體工商戶、商業(yè)服務(wù)業(yè)員工階層、產(chǎn)業(yè)工人階層、農(nóng)業(yè)勞動(dòng)者階層和城鄉(xiāng)無業(yè)、失業(yè)、半失業(yè)者階層。此外,陸學(xué)藝教授認(rèn)為“社會(huì)中間階層”是由10個(gè)階層中的專業(yè)技術(shù)人員、辦事人員階層、個(gè)體工商戶、商業(yè)服務(wù)業(yè)員工4個(gè)階層組成[14]。
注意力是指人的心理活動(dòng)指向和集中于某種事物的能力。在信息豐富的世界中,擁有信息就意味著另一種稀缺,即信息所消耗的其他東西,而信息所需要消耗的恰恰就是信息接收者的注意力。因此,信息的富足就會(huì)導(dǎo)致注意力的貧瘠,我們需要將注意力有效地分配在那些消耗注意力的信息資源上[15]。網(wǎng)絡(luò)是一個(gè)公共空間,它承載的是集體的注意力。雖然每個(gè)人在每一個(gè)時(shí)刻都只能關(guān)注一個(gè)事物,但是大量的網(wǎng)民在互聯(lián)網(wǎng)上就會(huì)形成大規(guī)模注意力的交匯[16]。網(wǎng)絡(luò)結(jié)構(gòu)與人們行為的演化會(huì)涌現(xiàn)出集體活動(dòng)[17]。Goel 等[18]的研究指出個(gè)人在網(wǎng)上如何分配時(shí)間會(huì)影響從公共政策到營(yíng)銷的多個(gè)領(lǐng)域,用戶在社交媒體投入的時(shí)間遠(yuǎn)大于在電子郵件、搜索和門戶類網(wǎng)站等投入的時(shí)間。Weber等[19,20]的研究發(fā)現(xiàn)不同人口群體的網(wǎng)絡(luò)搜索行為之間存在著很大差異。
目前,虛擬空間中的社會(huì)分層研究較少,且多基于概念提出和一般性探討。如黃哲[21]指出虛擬世界中的不平等和分化客觀存在。胡建國(guó)[22]認(rèn)為人們的主觀地位認(rèn)同受現(xiàn)實(shí)社會(huì)與網(wǎng)絡(luò)社會(huì)參與的雙重影響,并且雙重影響表現(xiàn)出耦合的特征。張斐男[23]認(rèn)為網(wǎng)絡(luò)社會(huì)中社會(huì)分層的新特征正在影響并消解著原本的由上而下的權(quán)力結(jié)構(gòu)。程士強(qiáng)[24]指出個(gè)體在網(wǎng)絡(luò)社會(huì)中以“代內(nèi)再生產(chǎn)”和“代際再生產(chǎn)”的方式將原有的階層結(jié)構(gòu)延續(xù)到網(wǎng)絡(luò)社會(huì)中。傳統(tǒng)的研究大都基于網(wǎng)絡(luò)信息資源占有的機(jī)會(huì)和能力等客觀指標(biāo),本文將從不同階層用戶使用網(wǎng)絡(luò)資源的具體行為及信息的內(nèi)容和性質(zhì)等因素對(duì)虛擬空間中的社會(huì)分層現(xiàn)象進(jìn)行分析。
本文的社會(huì)階層劃分參考陸學(xué)藝教授提出的10個(gè)階層和社會(huì)中間階層的劃分[14],按照用戶的職業(yè)屬性對(duì)樣本數(shù)據(jù)進(jìn)行2個(gè)層次的分類,如表1所示。
第1個(gè)層次為“社會(huì)上層”“社會(huì)中層”“社會(huì)下層”,社會(huì)中層包括的職業(yè)有“專業(yè)技術(shù)人員”“黨政機(jī)關(guān)事業(yè)單位一般職員”“個(gè)體戶、自由職業(yè)者”“企業(yè)公司一般職員”, 將中間階層之上的“黨政機(jī)關(guān)事業(yè)單位領(lǐng)導(dǎo)干部”和“企業(yè)公司管理者”劃為社會(huì)上層,將中間階層之下的“產(chǎn)業(yè)、服務(wù)業(yè)工人”“農(nóng)民、農(nóng)村外出務(wù)工”和“退休、無業(yè)、下崗、失業(yè)”劃為社會(huì)下層[25]。
本文采用中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心提供的用戶在線行為數(shù)據(jù),該數(shù)據(jù)由30 000多名全國(guó)各地志愿者用戶在個(gè)人計(jì)算機(jī)上安裝數(shù)據(jù)采集程序在線獲取。用戶每次開機(jī)時(shí),都會(huì)生成一個(gè)對(duì)應(yīng)的日志文件。保證在線用戶個(gè)人隱私的前提下,以2 s一次的頻率掃描用戶計(jì)算機(jī)的當(dāng)前焦點(diǎn)窗口。日志文件會(huì)詳細(xì)記錄用戶的開關(guān)機(jī)時(shí)間、窗口進(jìn)程名、瀏覽器地址欄等信息。若當(dāng)前焦點(diǎn)窗口發(fā)生變化,則會(huì)在日志文件中增添新的記錄。
該數(shù)據(jù)集已累積了數(shù)以TB量級(jí)的數(shù)據(jù),為分析方便,本文隨機(jī)抽取1 000個(gè)用戶1個(gè)月約1.2億條的上網(wǎng)點(diǎn)擊行為數(shù)據(jù)記錄。樣本數(shù)據(jù)包中的數(shù)據(jù)文件包括按日期歸檔的樣本行為日志和樣本的人口屬性信息2部分,二者可通過樣本ID關(guān)聯(lián)[26]。用戶的人口屬性信息文件中包括用戶的性別、年齡、學(xué)歷、職業(yè)、工資、所在地等信息。
3.3.1 特征提取方法
分別提取各階層數(shù)據(jù)集中所有用戶點(diǎn)擊的軟件進(jìn)程序列,構(gòu)建詞匯表。選用word2vec中的Skip-gram模型訓(xùn)練詞向量。在Skip-gram模型中,輸入為各階層語料庫(kù)中特定的一個(gè)進(jìn)程名的詞向量,輸出為該詞對(duì)應(yīng)的上下文詞。在每個(gè)階層的語料庫(kù)中,根據(jù)進(jìn)程名出現(xiàn)的頻次建立哈夫曼樹,用哈夫曼樹來代替隱藏層和輸出層的神經(jīng)元。其中,葉子節(jié)點(diǎn)為輸出層的神經(jīng)元,葉子節(jié)點(diǎn)的個(gè)數(shù)為詞匯表的大小,內(nèi)部節(jié)點(diǎn)為隱藏層的神經(jīng)元。
(1)
(2)
為了增加代碼的簡(jiǎn)潔性和可讀性,將式(2)拆分為偽代碼中的①~④?;贖ierarchical Softmax的Skip-gram模型算法流程如下:
輸入:語料庫(kù),詞向量維度。
輸出:詞向量。
1.基于語料庫(kù)訓(xùn)練樣本構(gòu)建哈夫曼樹;
2.隨機(jī)初始化模型參數(shù)θ和詞向量w;
3.采用隨機(jī)梯度上升方法更新參數(shù):
Forw∈Context(w) do
{e=0;//e為詞向量v(w)中所算出的增量
Forj=2:lwdo//lw為路徑向量pw中包含節(jié)點(diǎn)的個(gè)數(shù)
{
v(w)=v(w)+e;}
End for
3.3.2 社會(huì)分層識(shí)別算法
用戶的在線點(diǎn)擊行為由多個(gè)進(jìn)程名組成,通過用戶的點(diǎn)擊行為識(shí)別用戶的社會(huì)階層類似于傳統(tǒng)文本分類問題。循環(huán)神經(jīng)網(wǎng)絡(luò)常利用one-hot向量結(jié)合文本序列的順序特征對(duì)文本進(jìn)行分類,但one-hot向量要求各詞語間相互獨(dú)立,且向量過于稀疏,維度過大導(dǎo)致計(jì)算困難。word2vec可以將one-hot向量轉(zhuǎn)化為低維度的連續(xù)值,即稠密向量,其中聯(lián)系緊密的詞將被映射到向量空間中相近的位置,符合用戶行為數(shù)據(jù)前后關(guān)系極為緊密的特點(diǎn)。
本文提出基于word2vec的神經(jīng)網(wǎng)絡(luò)-W2V-BP模型,結(jié)合傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)對(duì)用戶行為特征進(jìn)行社會(huì)分層識(shí)別。首先利用Skip-gram模型訓(xùn)練出代表用戶行為特征的詞向量,W2V-BP模型將訓(xùn)練出的詞向量作為輸入,用戶的階層類別作為輸出,通過梯度下降優(yōu)化,數(shù)次迭代調(diào)節(jié)參數(shù),訓(xùn)練用戶分類模型。W2V-BP模型如圖1所示,其中w(t)表示第t個(gè)詞向量。
Figure 1 W2V-BP model diagram圖1 W2V-BP模型圖
在output層,第j個(gè)神經(jīng)元的閾值為θj,第j個(gè)神經(jīng)元接收到的輸入向量為βj,可得預(yù)測(cè)值:
(3)
(4)
其中,whj是hidden層第h個(gè)神經(jīng)元與output層第j個(gè)神經(jīng)元的連接權(quán)重,bh為hidden層第h個(gè)神經(jīng)元(共有q個(gè)神經(jīng)元)的輸出。
(5)
input層第i個(gè)神經(jīng)元與hidden層第h個(gè)神經(jīng)元之間的連接權(quán)重為vih,xi為輸入的詞向量,則hidden層第h個(gè)神經(jīng)元的輸入向量αh為:
(6)
根據(jù)梯度下降策略,在已求均方誤差Ek和給定學(xué)習(xí)率η∈(0,1)的情況下,求得hidden層到output層的連接權(quán)重△whj為:
(7)
(8)
通過式(8),可以得到hidden層第h個(gè)神經(jīng)元的輸出bh:
(9)
hidden層和output層的神經(jīng)元都使用Sigmoid函數(shù),在Sigmoid函數(shù)中,
f′(x)=f(x)(1-f(x))
(10)
利用梯度下降算法,根據(jù)式(3)和式(5)得到output層神經(jīng)元的梯度項(xiàng)gj:
(11)
根據(jù)反傳播原理,得到hidden層到output層的權(quán)重更新公式為:
Δwhj=ηgjbh
(12)
可得到output層神經(jīng)元閾值θj:
Δθj=-ηgj
(13)
結(jié)合梯度更新向量eh,根據(jù)反傳播原理,得到輸入層到hidden層的權(quán)重vih、hidden層第h個(gè)神經(jīng)元的閾值γh:
Δvih=ηehxi
(14)
Δγh=-ηeh
(15)
最終得到hidden層更新向量eh:
(16)
BP神經(jīng)網(wǎng)絡(luò)[27]基本流程如下所示:
輸出:多層前饋神經(jīng)網(wǎng)絡(luò)(BP神經(jīng)網(wǎng)絡(luò))。
1.在(0,1)范圍內(nèi)隨機(jī)初始化網(wǎng)絡(luò)中所有連接權(quán)重和閾值;
2.repeat
3. for all((xk,yk)∈Ddo
5. 根據(jù)式(11)計(jì)算output層神經(jīng)元的梯度項(xiàng)gj;
6. 根據(jù)式(16)計(jì)算hidden層神經(jīng)元的梯度項(xiàng)eh;
7. 根據(jù)式(12)~式(15)計(jì)算連接權(quán)值whj,vih與閾值θj,γh;
8. end for
9.until 停止
提取各階層用戶的開機(jī)時(shí)間、關(guān)機(jī)時(shí)間和在線持續(xù)時(shí)間。通過計(jì)算時(shí)間數(shù)據(jù)的均值和方差,分析不同階層用戶在虛擬空間中停留時(shí)間的穩(wěn)定性。
均值指樣本中各階層用戶開機(jī)時(shí)間、關(guān)機(jī)時(shí)間及在線持續(xù)時(shí)間的平均值。方差反映了各階層用戶時(shí)間數(shù)據(jù)和其均值間的離散程度。本文分析得出的結(jié)果如圖2和圖3所示。
Figure 2 Mean of time data圖2 時(shí)間數(shù)據(jù)的均值
Figure 3 Variance of time data圖3 時(shí)間數(shù)據(jù)的方差
觀察圖2和圖3發(fā)現(xiàn),和較高階層的用戶相比,較低階層的用戶占據(jù)了平均開機(jī)時(shí)間、平均關(guān)機(jī)時(shí)間、平均持續(xù)時(shí)間的最早和最晚時(shí)間。此外,較低階層的用戶在虛擬空間中的開機(jī)時(shí)間、關(guān)機(jī)時(shí)間的方差最大,說明較低階層的用戶在虛擬空間中的停留時(shí)間較不穩(wěn)定,較高階層的用戶在虛擬空間中的停留時(shí)間比較穩(wěn)定。
vocab(詞匯表)根據(jù)進(jìn)程出現(xiàn)的次數(shù)從大到小依次排列,由于共同分析各階層中所有用戶行為數(shù)據(jù)的顯著特征,忽略出現(xiàn)次數(shù)少的進(jìn)程,取詞匯表中前200頻次的進(jìn)程名作為實(shí)驗(yàn)數(shù)據(jù)。定義訓(xùn)練參數(shù),批處理量batch_size=128,詞向量維度embedding_size=64,為了更全面抓取某一進(jìn)程和上下文的關(guān)系,設(shè)置某一進(jìn)程可最遠(yuǎn)聯(lián)系到其它進(jìn)程的距離skip_window=10,對(duì)每一個(gè)進(jìn)程名提取樣本數(shù)num_skips=8,測(cè)試集進(jìn)程數(shù)valid_size=16,測(cè)試集采用詞匯表top15頻次進(jìn)程vaild_win-dow=15[28]。通過Skip-gram模型訓(xùn)練代表各階層行為特征的詞向量,用K-means算法聚類詞向量,所得分布圖如圖4~圖6所示。
Figure 4 Social upper layer word vector distribution圖4 社會(huì)上層詞向量分布圖
Figure 5 Social middle layer word vector distribution圖5 社會(huì)中層詞向量分布圖
Figure 6 Social lower layer word vector distribution圖6 社會(huì)下層詞向量分布圖
各階層詞向量分布圖各不相同,圖4和圖5總體上各進(jìn)程間的距離更加緊湊,圖6中各進(jìn)程間的距離比較分散。說明較高階層用戶點(diǎn)擊的軟件進(jìn)程序列規(guī)律性強(qiáng),較低階層用戶點(diǎn)擊的軟件進(jìn)程序列規(guī)律性弱。各階層詞向量圖中均包括的進(jìn)程名為常規(guī)的殺毒或?yàn)g覽器類應(yīng)用,包括:360sd.exe(殺毒類)、thunder.exe(下載軟件)、iexplore.exe(瀏覽器)、360safe.exe(殺毒類)、sougouexplorer.exe(瀏覽器)和QQ.exe(社交類)。
從圖4可知,社會(huì)上層獨(dú)有的進(jìn)程名為: wps.exe(辦公類)、sohunews.exe(新聞資訊類)、notepad.exe(記事本)、Illustrator.exe(辦公類)和HAPDK.exe(休閑類)。從圖5可知,社會(huì)中層獨(dú)有的進(jìn)程名為:coral.exe(瀏覽器)和chrome.exe(瀏覽器)。從圖6可知,社會(huì)下層獨(dú)有的進(jìn)程名為:maxthon.exe(瀏覽器)、QQGame.exe(休閑類)、QQMusic.exe(休閑類)、popup_QQ.exe(休閑類)、QQPenguin.exe(休閑類)和QQBrowser.exe(瀏覽器)。此外,社會(huì)上層和社會(huì)中層共有的進(jìn)程為:AliIM.exe(購(gòu)物類)、EXCEL.EXE(辦公類)和WINWORD.EXE(辦公類)。社會(huì)中層和社會(huì)下層共有的進(jìn)程為360chrome.exe(瀏覽器)。
從各階層詞向量分布圖看出,社會(huì)上層用戶在虛擬空間中主要將注意力消耗在辦公類、購(gòu)物類、新聞資訊類等應(yīng)用。社會(huì)下層用戶主要將注意力消耗在休閑娛樂類應(yīng)用上。此外,社會(huì)上層用戶使用常規(guī)的瀏覽器,而社會(huì)中層和社會(huì)下層用戶使用的瀏覽器種類較多,初步判斷他們?cè)谔摂M空間中有更多的探索。綜上所述,社會(huì)上層和社會(huì)中層用戶能利用網(wǎng)絡(luò)資源進(jìn)行辦公和購(gòu)物,而社會(huì)下層用戶在虛擬空間中以?shī)蕵窞橹鳌?/p>
為進(jìn)一步探索各階層用戶在虛擬空間中注意力消耗的差異性,提取各階層用戶在圖4~圖6中出現(xiàn)的進(jìn)程中消耗注意力的持續(xù)時(shí)間,對(duì)其取均值。接著按類別將同類進(jìn)程的持續(xù)時(shí)間相加,結(jié)果如圖7所示,具體值見表2。
Figure 7 Average duration of users’distraction in various applications圖7 用戶在各類應(yīng)用消耗注意力的平均持續(xù)時(shí)間
Table 2 Average duration of users’attention in various applications
從圖7中可以看出,在新聞資訊類、辦公類應(yīng)用中,社會(huì)上層用戶消耗注意力的平均持續(xù)時(shí)間大于其他階層用戶。在購(gòu)物類應(yīng)用中,社會(huì)中層用戶消耗注意力的平均持續(xù)時(shí)間最長(zhǎng)。在瀏覽器和休閑娛樂類進(jìn)程中,社會(huì)下層用戶消耗的注意力遠(yuǎn)大于其他階層用戶。在辦公類進(jìn)程中,社會(huì)上層和社會(huì)中層用戶消耗的注意力遠(yuǎn)大于社會(huì)下層用戶。從持續(xù)時(shí)間總和中可以看出,社會(huì)下層用戶在虛擬空間中消耗注意力的時(shí)間遠(yuǎn)大于其他階層用戶。
綜上所述,較高階層用戶能更好地利用網(wǎng)絡(luò)資源進(jìn)行辦公和購(gòu)物,且消耗的時(shí)間和注意力較少。社會(huì)下層用戶在虛擬空間中的注意力主要聚焦在休閑娛樂類和瀏覽器等應(yīng)用上,且消耗的時(shí)間最多。這說明虛擬空間中延續(xù)著真實(shí)空間中的社會(huì)分層結(jié)構(gòu)。
應(yīng)用基于word2vec的BP神經(jīng)網(wǎng)絡(luò)模型(W2V-BP),根據(jù)用戶的在線行為特征將其識(shí)別到社會(huì)上層、社會(huì)中層或社會(huì)下層。不斷迭代數(shù)據(jù)并自動(dòng)優(yōu)化部分參數(shù)進(jìn)行分類或回歸,通過調(diào)整運(yùn)行輪次和網(wǎng)絡(luò)大小進(jìn)行識(shí)別,結(jié)果如圖8所示。
Figure 8 Social class recognition accuracy change 圖8 社會(huì)階層識(shí)別準(zhǔn)確率變化圖
隨著迭代輪次的增加,準(zhǔn)確率不斷提高,且在6輪迭代后達(dá)到擬合,準(zhǔn)確率為90.22%,滿足閾值[29]。該模型效果較為穩(wěn)定,表明虛擬空間中存在能夠區(qū)分人類社會(huì)分層的行為特征。
另外,本文對(duì)比了時(shí)下較為普適、高效的SimpleRNN、LSTM、SVM模型,表3顯示了不同模型對(duì)同一數(shù)據(jù)集的識(shí)別效果。
Table 3 Experimental results comparison
結(jié)果表明,基于word2vec的BP神經(jīng)網(wǎng)絡(luò)模型(W2V-BP)對(duì)虛擬空間中的社會(huì)分層識(shí)別具有較好的表現(xiàn),同時(shí)LSTM、SimpleRNN和SVM模型也能夠進(jìn)行虛擬空間中的社會(huì)分層識(shí)別。這進(jìn)一步驗(yàn)證了虛擬空間中存在能夠區(qū)分人類社會(huì)分層的行為特征。
本文通過分析用戶行為大數(shù)據(jù)對(duì)虛擬空間中的社會(huì)分層規(guī)律進(jìn)行研究,最終發(fā)現(xiàn)不同階層的用戶在虛擬空間中的行為特征大不相同。(1)較高階層用戶在虛擬空間中的停留時(shí)間更加穩(wěn)定,較低階層用戶的停留時(shí)間較不穩(wěn)定。(2)較高階層用戶能更好地利用網(wǎng)上資源辦公和購(gòu)物,而較低階層用戶主要在虛擬空間中休閑和娛樂,卻消耗了最多的時(shí)間和注意力。(3)利用W2V-BP神經(jīng)網(wǎng)絡(luò)模型發(fā)現(xiàn)虛擬空間中存在能夠區(qū)分社會(huì)階層的行為特征,識(shí)別準(zhǔn)確率為90.22%。
研究結(jié)果給我們的啟示是,在信息豐富的時(shí)代,我們應(yīng)該保護(hù)好自己的注意力,將它消耗在能提升自我的信息資源上,才不會(huì)陷入社會(huì)底層的循環(huán)中。
本文對(duì)虛擬空間中社會(huì)分層行為研究的判斷還有待新的數(shù)據(jù)和進(jìn)一步的研究去核實(shí)。另外,本文通過職業(yè)來反映社會(huì)分層,代表了一般意義的階層劃分,但其實(shí)社會(huì)階層還受到教育、收入、父母、配偶等的影響[30]。今后將進(jìn)一步地提升和優(yōu)化虛擬空間中的社會(huì)分層行為研究。