黃 之,許學(xué)裔,吳佳澤,徐超陽,吳培榕,孟慶欣
(湖州師范學(xué)院 理學(xué)院,浙江 湖州 313000)
信息繭房(informationcocoons)是由哈佛大學(xué)教授凱斯·桑斯坦提出的一個概念,是指人們的信息領(lǐng)域習(xí)慣性地被自己的興趣所引導(dǎo),從而將自己的生活桎梏于像蠶繭一般的“繭房”中的現(xiàn)象[1].隨著互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,用戶獲得的信息越來越窄化、個性化,信息繭房現(xiàn)象也越趨于明顯.國外對信息繭房的研究較早,西方學(xué)者更傾向于認(rèn)為信息繭房可能只是“一個擔(dān)憂”和“不準(zhǔn)確的預(yù)言”,真正的信息繭房可能并不存在.在政治領(lǐng)域,西班牙學(xué)者Cardenal通過研究西班牙媒介系統(tǒng)發(fā)現(xiàn),用戶獲取的信息呈現(xiàn)多元化;在社會領(lǐng)域,印度數(shù)學(xué)科學(xué)家和英國學(xué)者認(rèn)為,假新聞能夠通過“信息繭房”進(jìn)行傳播,甚至很多帶有情緒偏見的信息也能夠通過信息繭房進(jìn)行傳播,給社會帶來極大的危害.而國內(nèi)學(xué)者對信息繭房更傾向認(rèn)為其真實存在且不能隨意地將概念外延.最明顯的概念外延現(xiàn)象是在“信息繭房”與“過濾氣泡”這兩大概念上的混用.合理的概念外延有利于掌握信息繭房的范圍和打破信息桎梏.目前,國內(nèi)有關(guān)信息繭房的研究較多[2-7],主要停留在利用問卷調(diào)查、SPSS等統(tǒng)計軟件進(jìn)行統(tǒng)計分析,并針對個案提出一些改進(jìn)措施.例如,徐翔等利用BERT模型,以新浪微博用戶為例,實證檢視社交網(wǎng)絡(luò)內(nèi)容生產(chǎn)中的用戶“繭房趨同性”現(xiàn)象[8];張禹基于SOR理論,以高校大學(xué)生為研究對象,實證信息繭房對傳統(tǒng)文化認(rèn)同的影響[9];崔椒潔等通過引入正當(dāng)程序規(guī)則限制數(shù)據(jù)挖掘機(jī)構(gòu)的數(shù)據(jù)權(quán)力,建立數(shù)據(jù)挖掘機(jī)構(gòu)與個人信息主體之間有效互動的通道和程序,以助于實現(xiàn)對個人信息的保護(hù)[10];彭曉曉利用內(nèi)容分析方法和社會網(wǎng)絡(luò)分析方法,以廣告業(yè)界和學(xué)界為例,證實桑斯坦提出的“信息繭房”效應(yīng)的存在[11];任秋菊通過數(shù)據(jù)分析,以新冠病毒疫情為例,證實日常生活信息查詢行為表現(xiàn)出較強(qiáng)的社會網(wǎng)絡(luò)依賴[12].這些研究都受限于一定群體,不能很好地反映信息繭房的實際存在.因此,如何盡可能地規(guī)避信息繭房,削減信息繭房效應(yīng)的消極作用,這是本文的研究重點.尤其是對信息高速流通和發(fā)展的浙江省,如何從用戶角度出發(fā)建立數(shù)學(xué)模型,是本文的創(chuàng)新與特色.
目前,在信息繭房預(yù)測模型的研究中,大多只采用單一的算法建立模型,如支持向量機(jī)等.本文通過隨機(jī)森林、支持向量機(jī)、樸素貝葉斯3種模型的對比分析,選取最優(yōu)模型,建立信息繭房預(yù)測模型;采用adaboost、GBDT集成學(xué)習(xí)方法構(gòu)建信息繭房與系統(tǒng)主導(dǎo)模式/用戶主導(dǎo)模式之間的Boosting集成回歸模型,并比較兩個模型的評估指標(biāo),最終得出最優(yōu)模型.
支持向量機(jī)模型(SVM)是一種二分類模型,它的基本模型是定義在特征空間上間隔最大的線性分類器.它能非常成功地處理回歸問題(時間序列分析)、模式識別(分類問題、判別分析)等問題,并可推廣應(yīng)用于預(yù)測和綜合評價等領(lǐng)域.例如,葉林等利用支持向量機(jī)法的結(jié)構(gòu)風(fēng)險最小化原則,建立了短期風(fēng)電功率組合預(yù)測模型[13];袁勝發(fā)等研究了支持向量機(jī)在機(jī)械故障診斷中的應(yīng)用[14].
樸素貝葉斯算法是基于特征條件獨(dú)立假設(shè)和貝葉斯定理的一種分類算法.首先,基于特征條件獨(dú)立假設(shè),對已給定的訓(xùn)練數(shù)據(jù)集學(xué)習(xí)輸入輸出的聯(lián)合概率分布;其次,基于此模型,利用貝葉斯定理求使得實例X后驗概率最大的輸出y.例如,范慧芳等在考慮特征屬性與類別之間,以及各特征屬性之間的依賴關(guān)系的基礎(chǔ)上,利用ReliefF算法和相關(guān)系數(shù)法分別對特征屬性進(jìn)行加權(quán)處理,構(gòu)造了一個基于樸素貝葉斯定理的改進(jìn)的樸素貝葉斯網(wǎng)絡(luò)模型[15].
隨機(jī)森林模型(RF)是先利用重采樣技術(shù),從原始訓(xùn)練樣本集N個樣本中隨機(jī)抽取k個樣本進(jìn)行替換,生成一個新的訓(xùn)練樣本集,然后生成k個分類樹,最后形成基于自助樣本集的隨機(jī)森林.當(dāng)需要對某個樣本進(jìn)行預(yù)測時,先統(tǒng)計森林中每棵樹對該樣本的預(yù)測結(jié)果,然后通過投票法從這些預(yù)測結(jié)果中選出最后的結(jié)果.單一決策樹簡單的分類能力被龐大數(shù)量的森林結(jié)構(gòu)綜合起來,最終的分類結(jié)果經(jīng)投票選取后,比單棵決策樹的準(zhǔn)確率及效率大大提高.例如,張雷等利用RF處理預(yù)測變量數(shù)目極大且超過觀測值數(shù)目這類情況,并對其進(jìn)行云南松分布模擬研究[16];賴成光等基于RF構(gòu)建洪災(zāi)風(fēng)險評價模型[17].
提升樹模型是機(jī)器學(xué)習(xí)中處理分類問題的常用方法之一.其基本思想是:增加前一個基學(xué)習(xí)器在訓(xùn)練過程中預(yù)測錯誤樣本的權(quán)重,使后續(xù)基學(xué)習(xí)器更加關(guān)注這些打標(biāo)錯誤的訓(xùn)練樣本,以盡可能地糾正這些錯誤,從而一直向下串行直至產(chǎn)生需要的T個基學(xué)習(xí)器,最終對T個基學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合,產(chǎn)生集成學(xué)習(xí)器.例如,馮中華等利用梯度提升樹算法實現(xiàn)了一個高校的DGA域名檢測模型[18].
特征選取與數(shù)據(jù)預(yù)處理流程見圖1.
將X的特征名稱設(shè)為年級、性格、擁有電子產(chǎn)品的數(shù)量、興趣廣泛程度、用戶心理指標(biāo)1~4、用戶行為指標(biāo)1~7、用戶信息素養(yǎng)1~4、系統(tǒng)習(xí)慣導(dǎo)向1~3、信息相關(guān)性1~4、技術(shù)智能程度1~3.將Y的特征名稱設(shè)為類型.
根據(jù)所選取的特征,針對浙江省高校學(xué)生初步設(shè)計調(diào)查問卷,并發(fā)放80份問卷進(jìn)行前期預(yù)調(diào)查.依據(jù)預(yù)調(diào)查結(jié)果對問卷不合理處做出改進(jìn),形成最終問卷.利用最終問卷,通過線上與線下相結(jié)合的方式進(jìn)行問卷調(diào)查,共發(fā)放問卷500份,回收500份,其中有效問卷481份,男生300份、女生181份,有效回收率為96.2%.本文將以問卷結(jié)果轉(zhuǎn)化所得的數(shù)據(jù)作為數(shù)據(jù)樣本.
對本文所研究的二分類問題進(jìn)行數(shù)據(jù)分析,發(fā)現(xiàn)標(biāo)簽為0的一類占比為70.1%,標(biāo)簽為1的一類占比為29.9%,兩者差異高達(dá)40.2%,數(shù)據(jù)樣本嚴(yán)重失衡.因此,本文采用ADASYN算法對失衡數(shù)據(jù)進(jìn)行處理.
ADASYN算法是在SMOTE(Synthetic Minority Over-sampling Technique)算法的基礎(chǔ)上提出的一種自適應(yīng)的合成樣本生成算法,相當(dāng)于一種插值算法.其基本思想為:根據(jù)每個少數(shù)類樣本周圍的分布密度決定生成合成樣本的數(shù)量.首先,計算每個少數(shù)類樣本周圍的密度;然后,根據(jù)所得的密度確定生成合成樣本的數(shù)量,密度越大的樣本生成的合成樣本越多,越能夠準(zhǔn)確反映數(shù)據(jù)集的分布情況.
ADASYN算法的具體數(shù)據(jù)采樣過程為:
對m個樣本的數(shù)據(jù)集{xi,yi},i=1,2,…,m,其中xi為n維特征空間X中的一個實例,yi∈Y={1,-1}是與xi相關(guān)的類別識別標(biāo)簽.將ms和mi分別定義為少數(shù)類樣本和多數(shù)類樣本.因此,ms≤ml,且ms+ml=m.
第一步,計算數(shù)據(jù)樣本不平衡程度,d=ms/ml,d∈(0,1].
第二步,計算需要為少數(shù)類樣本生成的合成樣本數(shù)量,G=(ml-ms)×β,其中β為一個參數(shù),可在生成合成數(shù)據(jù)后指定所需的平衡水平.若β=1,則表示創(chuàng)建了一個完全平衡的數(shù)據(jù)集.
第五步,從數(shù)據(jù)xi的K個最近鄰中隨機(jī)選擇一個少數(shù)類樣本xzi,通過公式si=xi+(xzi-xi)×λ產(chǎn)生合成樣本,其中λ∈[0,1]為一個隨機(jī)數(shù),(xzi-xi)為n維空間中的差異向量.
預(yù)處理前后數(shù)據(jù)對比見表1.
表1 非平衡數(shù)據(jù)與平衡數(shù)據(jù)對比
通過ADASYN算法對數(shù)據(jù)樣本預(yù)處理后,標(biāo)簽為0的一類占51.6%,標(biāo)簽為1的一類占48.4%,數(shù)據(jù)達(dá)到均衡標(biāo)準(zhǔn).
為提升模型的預(yù)測準(zhǔn)確率,本文進(jìn)行特征工程、數(shù)據(jù)樣本的平衡工作.下面利用GBDT模型進(jìn)行消融實驗,以驗證特征工程和樣本數(shù)據(jù)的平衡是有效的.
原始模型評估結(jié)果見表2.
表2 利用原始數(shù)據(jù)建立的GBDT模型的評估結(jié)果
實驗1:在建立GBDT模型的基礎(chǔ)上加特征工程,模型評估結(jié)果見表3.
表3 已進(jìn)行特征工程的數(shù)據(jù)建立的GBDT模型的評估結(jié)果
實驗2:在建立GBDT模型的基礎(chǔ)上加對樣本數(shù)據(jù)的平衡,模型評估結(jié)果見表4.
表4 已平衡的樣本數(shù)據(jù)建立的GBDT模型的評估結(jié)果
實驗3:在建立GBDT模型的基礎(chǔ)上加特征工程和樣本數(shù)據(jù)的平衡,模型評估結(jié)果見表5.
表5 已進(jìn)行特征工程和平衡的數(shù)據(jù)建立的GBDT模型的評估結(jié)果
結(jié)果表明,實驗1和實驗2的模型效果都低于實驗3,說明同時進(jìn)行特征工程和樣本數(shù)據(jù)的平衡工作對GBDT模型的提升是有效的.
在構(gòu)建和使用信息繭房的監(jiān)督學(xué)習(xí)預(yù)測模型和集成回歸模型前,將信息繭房問卷數(shù)據(jù)集劃分為訓(xùn)練集和測試集,訓(xùn)練集與測試集的比例為7∶3.本研究采用多模型比較分析選取最優(yōu)模型.
信息繭房預(yù)測模型流程見圖2.
圖2 信息繭房預(yù)測模型流程
3.1.1 樸素貝葉斯預(yù)測模型的構(gòu)建與分析
首先,構(gòu)建樸素貝葉斯的3種不同模型,即高斯模型、多項式模型、伯努利模型.針對這3種不同模型,對數(shù)據(jù)進(jìn)行分析處理:由于數(shù)據(jù)特征都為離散類型,所以通過對特征概率的平滑處理,構(gòu)建多項式模型;由于數(shù)據(jù)集的一些特征不符合高斯分布,所以通過平方根變化使特征數(shù)據(jù)正態(tài)化,構(gòu)建高斯模型;由于離散數(shù)據(jù)變量取值不同,所以通過定義一個二值化方法將輸入特征值二值化,構(gòu)建伯努利模型.然后,將包含多個實例點的X_testset傳入構(gòu)建好的貝葉斯模型預(yù)測函數(shù)中,對測試數(shù)據(jù)點進(jìn)行預(yù)測劃分,并將返回值存儲到對應(yīng)的文件名稱中.最后,通過metrics.accuracy_score函數(shù)計算3種貝葉斯模型的預(yù)測精度.
通過分析得到,高斯模型在訓(xùn)練集上的預(yù)測準(zhǔn)確率最高,為0.74;伯努利模型和多項式模型在訓(xùn)練集上的預(yù)測準(zhǔn)確率相對較低,分別為0.54和0.62;高斯模型在測試集上的預(yù)測準(zhǔn)確率最高,為0.63.針對伯努利模型,通過調(diào)整binarize參數(shù)值發(fā)現(xiàn),當(dāng)binarize參數(shù)值太大或太小時,伯努利模型的預(yù)測準(zhǔn)確率呈斷崖式下降,見圖3.因此,參數(shù)值的選取必須在樣本集所有特征值的最小值和最大值之間.圖3中,當(dāng)binarize值在4.5附近時,伯努利貝模型的預(yù)測準(zhǔn)確率較高.
圖3 不同參數(shù)值下伯努利模型的預(yù)測準(zhǔn)確率
3.1.2 SVM預(yù)測模型的構(gòu)建與分析
由于問卷數(shù)據(jù)具有線性不可分性,所以本文選用非線性支持向量機(jī)模型.本研究在Mercer定理的基礎(chǔ)上選取徑向基函數(shù)(RBF)作為核函數(shù),將低維空間中算得的數(shù)據(jù)輸入空間映射到高維特征空間,構(gòu)造最優(yōu)超平面,并對構(gòu)建模型分類規(guī)律的可靠性進(jìn)行檢驗.SVM模型評估結(jié)果見表6.
表6 SVM模型評估結(jié)果
3.1.3 隨機(jī)森林預(yù)測模型的構(gòu)建與分析
利用RandomForestClassifier()模型,構(gòu)建信息繭房預(yù)測模型.其步驟為:
圖4 隨機(jī)森林模型混淆矩陣圖
(1)對浙江省高校學(xué)生信息繭房問卷數(shù)據(jù)進(jìn)行導(dǎo)入,并獲取響應(yīng)變量和特征矩陣;
(2)將數(shù)據(jù)集劃分為70%訓(xùn)練集和30%測試集;
(3)用訓(xùn)練特征矩陣和訓(xùn)練響應(yīng)變量訓(xùn)練并構(gòu)建隨機(jī)森林信息繭房預(yù)測模型;
(4)使用已構(gòu)建的模型對測試集進(jìn)行預(yù)測,并比較預(yù)測值與實際值;
(5)計算模型預(yù)測的精度.
繪制成的隨機(jī)森林模型混淆矩陣見圖4.混淆矩陣的對角線元素為預(yù)測正確的樣本量.由圖4可得,隨機(jī)森林模型的預(yù)測準(zhǔn)確率為72%.
3.1.4 3種信息繭房預(yù)測模型的比較
通過分析發(fā)現(xiàn),支持向量機(jī)模型在訓(xùn)練數(shù)據(jù)集上的模型準(zhǔn)確率、召回率、精確率和F1均比在測試集上的高,說明該模型在測試集上的預(yù)測損失較大,存在過擬合現(xiàn)象.雖然支持向量機(jī)模型有利于解決特征空間較大的機(jī)器學(xué)習(xí)問題,但當(dāng)觀測樣本較多時,其預(yù)測的效率并不高.因此,本文不選用支持向量機(jī)模型.
通過分析隨機(jī)森林模型和樸素貝葉斯模型發(fā)現(xiàn),隨機(jī)森林模型的預(yù)測準(zhǔn)確率為72%,略低于高斯模型的預(yù)測準(zhǔn)確率.其原因可能是:訓(xùn)練數(shù)據(jù)及測試數(shù)據(jù)中有許多特征屬性的取值太多,如問卷中有許多量表題的取值都是1~5,這會對隨機(jī)森林模型的分類預(yù)測結(jié)果產(chǎn)生影響,因此隨機(jī)森林對這些數(shù)據(jù)產(chǎn)生的屬性權(quán)值不能完全采用;而高斯模型通過計算樣本數(shù)據(jù)的概率分布對其分類,量表中的取值對其影響較小,且高斯模型的處理效率較高,在信息繭房預(yù)測中的準(zhǔn)確率高達(dá)74%.因此,本文選用高斯模型作為信息繭房的預(yù)測模型.
信息繭房集成回歸模型流程見圖5.
3.2.1 提升樹模型的建立
分別利用adaboost、GBDT模型,將用戶心理指標(biāo)1~4、用戶行為指標(biāo)1~7、用戶信息素養(yǎng)1~4、系統(tǒng)習(xí)慣導(dǎo)向1~3、信息相關(guān)性1~4、技術(shù)智能程度1~3作為特征,學(xué)習(xí)率設(shè)為1,構(gòu)建是否處于信息繭房與系統(tǒng)主導(dǎo)模式和用戶主導(dǎo)模式之間的集成回歸模型.
3.2.2 提升樹模型的結(jié)果
從adaboost模型特征篩選結(jié)果看,感興趣信息所在的頁面內(nèi)容安排模式是類似的特征重要性為10%(最大特征重要性為20%),對判斷是否處于信息繭房起到重要作用.
通過繪制adaboost混淆矩陣檢驗?zāi)P偷念A(yù)測準(zhǔn)確性,混淆矩陣見圖6.混淆矩陣的對角線元素為預(yù)測正確的樣本量[7].adaboost模型評估結(jié)果見表7,adaboost模型測試數(shù)據(jù)評估結(jié)果見表8.
表7 Adaboost模型評估結(jié)果
表8 Adaboost模型測試數(shù)據(jù)評估結(jié)果
從GBDT模型特征篩選結(jié)果看,推送信息與自己日常生活聯(lián)系的特征重要性為6.9%(最大特征重要性為7%),不能快捷準(zhǔn)確地讀取自己獲得信息的特征重要性為6.9%(最大特征重要性為7%).這些重要特征對判斷是否處于信息繭房起關(guān)鍵作用.
通過繪制GBDT混淆矩陣檢驗?zāi)P皖A(yù)測的準(zhǔn)確性,混淆矩陣見圖7.混淆矩陣的對角線元素為預(yù)測正確的樣本量.GBDT模型評估結(jié)果見表9,GBDT模型測試數(shù)據(jù)評估結(jié)果見表10.
圖7 GBDT模型混淆矩陣圖
表9 GBDT模型評估結(jié)果
表10 GBDT模型測試數(shù)據(jù)評估結(jié)果
3.2.3 Adaboost模型與GBDT模型的對比
通過比較adaboost和GBDT兩個模型在訓(xùn)練集和測試集上的準(zhǔn)確率、召回率、精確率和F1,發(fā)現(xiàn)adaboost在訓(xùn)練集上的4項參數(shù)數(shù)值均低于GBDT,在測試集上的4項參數(shù)數(shù)值也均低于GBDT.因此,本文選擇GBDT作為構(gòu)建是否處于信息繭房與系統(tǒng)主導(dǎo)模式和用戶主導(dǎo)模式之間的集成回歸模型.
根據(jù)以上模型和預(yù)測結(jié)果可知,56.67%的浙江高校大學(xué)生未受到信息繭房的影響,43.33%的大學(xué)生處于信息繭房狀態(tài).這說明浙江省高校大學(xué)生在行為和心理指標(biāo)方面表現(xiàn)良好,具備較高的信息素養(yǎng)水平.這一趨勢可能與浙江省的信息化發(fā)展水平和教育水平密切相關(guān).本文采用3種機(jī)器學(xué)習(xí)模型進(jìn)行信息繭房預(yù)測,并對他們進(jìn)行比較分析.這些模型雖然在預(yù)測上表現(xiàn)出色,但預(yù)測準(zhǔn)確率仍有提升空間.因此,以后的研究應(yīng)采用多模型融合方法,如stacking異質(zhì)集成學(xué)習(xí),來提高模型的預(yù)測準(zhǔn)確率,以有助于更準(zhǔn)確地預(yù)測浙江省高校大學(xué)生是否受信息繭房的影響.