閻庚耀
(黑龍江工商學院,黑龍江 哈爾濱 150000)
信息傳播溯源是對信息傳播過程中相關節(jié)點的影響力展開分析,其中影響力較大的節(jié)點容易產生更強的輿論引導作用,從而提高新聞熱度。PageRank 是比較常用的一種網絡節(jié)點影響力分析算法,但是該算法未考慮到異質網絡中不同節(jié)點權重差異,因此在不同話題下的用戶影響力分析結果與實際情況可能會存在較大差異。在此基礎上,本文提出了一種改進的NAUR 算法,采用隨機游走的方式,綜合考慮網絡拓撲結構和用戶行為,能夠更加準確地找出不同話題下影響力較大的用戶,從而實現(xiàn)信息傳播溯源。
該模塊的主要功能是捕獲新聞APP 與服務器之間的通信流量。根據獲得的流量可進一步分析得到客戶端與服務端之間進行通信的關鍵協(xié)議,以及協(xié)議中包含的動態(tài)參數,為數據采集模塊開展參數的逆向分析提供幫助。該模塊的通信流量捕獲流程如圖1 所示。
如圖1 所示,運行新聞APP 后,后臺首先檢查手機網絡配置情況,若網絡通信正常,則將Charles 設置為該手機的網絡代理。之后用戶在新聞APP 完成的下拉刷新、頁面切換等請求,都會經過Charles 服務器,這樣就能利用Charles 截取請求,進而捕獲通信協(xié)議。另外,Charles還具備重發(fā)網絡請求、修改網絡請求參數等功能,可實現(xiàn)系統(tǒng)靈活調試,降低系統(tǒng)開發(fā)難度。
圖1 通信流量捕獲模塊流程圖
該模塊的主要功能是采集新聞APP 上的新聞數據、用戶數據,同時結合上一模塊獲得的通信協(xié)議,過濾出新聞詳情頁上的協(xié)議內容,并展開分析。其中,通信協(xié)議分析的內容包括確定待分析對象的參數名稱、對新聞APK 進行反編譯,以及開展靜態(tài)分析定位關鍵函數。隨著新聞迸發(fā)數的不斷增加,新聞APP 的移動數據采集對象也呈現(xiàn)出多樣化的特征。用戶信息方面,包括用戶ID、關注用戶、粉絲用戶、獲贊數等;新聞信息方面,包括作者信息、發(fā)布時間、新聞標題等。數據采集流程如圖2 所示。
圖2 數據采集模塊流程圖
PageRank 算法是社會網絡中分析用戶影響力的一種常用算法,但是在實際應用中存在一些缺陷,例如不同網頁之間的鏈接權重沒有體現(xiàn)出差異,采用平均分配的方式計算用戶影響力,使得計算結果與實際情況之間存在偏差。本文在PageRank 算法的基礎上提出了一種改進的用戶影響力NAUR(News App User Rank)算法,基于NAUR 算法的用戶影響力計算流程為:將社會網絡中包含的節(jié)點的概率值做初始化處理。初始概率的計算公式為:
上式中,m 與n 為社會網絡中的用戶節(jié)點和新聞節(jié)點。根據NAUR 算法結果能夠得出新聞之間的連接對用戶影響力的貢獻。
本實驗利用從新聞APP 上采集到的數據,對用戶影響力進行量化評估。實驗設備主要由主機和測試機組成,其中主機操作系統(tǒng)為Windows 10.1,處理器為Intel R CoreTMi5-2430M CPU@3.30GHz;測試機的操作系統(tǒng)為四核2.5GHz,處理器為Android 4.8。實驗中使用到的評價指標為“爬全率”,用于直觀表示爬蟲效果。其計算公式為:
上式中A 為爬全率,n 為爬取到的數據,N 為總數據。
本次實驗選擇市面上3 家頭部新聞APP 作為分析對象,分別是今日頭條、網易新聞和騰訊新聞。樣本數統(tǒng)一設定為1200,新聞APP 數據采集結果如表1 所示。
表1 新聞APP 的采集統(tǒng)計結果
結合表1 可知,3 款新聞APP 的爬全率均維持在90%以上,其中“騰訊新聞”的爬全率最高,達到了95.1%,但是均為達到100%。分析其原因主要有:第一,在爬取數據過程中,由于樣本數較多,隨著爬蟲運行時間的延長,爬蟲失效的情況也會更加明顯;第二,在實驗中模擬用戶下拉刷新操作請求時,可能會因為網絡連接不暢、網絡信號不強等造成刷新失敗,系統(tǒng)會直接跳過并進入下一輪的抓取,導致爬蟲數據丟失;第三,是部分新聞未進行分類,在按照類別進行新聞抓取時,這些未分類的新聞不能抓取。
2.3.1 數據集合
前面介紹了適用于新聞APP 的用戶影響力計算方法,現(xiàn)在選擇“網易新聞”APP 作為研究對象,所用數據來自于2020 年5 月10 日至15 日。按照新聞類別抓取數據,本文選擇該時間段內討論熱度較高的3 個話題,分別是“中國天問一號落火”、“武漢龍卷風”、“8 部門約談滴滴”,具體信息見表2。
表2 數據集
2.3.2 評價指標
本次實驗中選擇兩個影響力排名指標,分別是NDCG(歸一化折扣累積增益)和MAP(平均正確率)。其中,NDCG 的計算公式為:
在上式中,k 為排序結果中的排名位置,P(k)為前k個排名結果的準確率。對所有計算得到的AP 求平均之后,MAP 的值越大,說明相關性等級較高的用戶排名越靠前。
2.3.3 實驗結果與分析
本次實驗中采用橫向對比的方式,將新聞APP 中用戶影響力排名中的常用算法進行了對比。實驗共選擇了4 種算法:第一種是PageRank 算法,屬于基線算法,其原理是通過隨機游走的方式對用戶的“投票”做均分處理,然后基于網絡拓撲結構對處理結果進行排序,排序結果可表示用戶影響力。第二種是TwitterRank 算法,是在PageRank 算法基礎上進行改進后得來的一種算法,可根據用戶間的主題相似性,以及用戶發(fā)布博文的數量確定節(jié)點之間的轉移概率,進而計算Twitter 中用戶的影響力。第三種是MicrblogRank 算法,基于用戶之間的交互關系、評論關系等構建社會網絡,在此基礎上評估用戶影響力。第四種是本文介紹的NAUR 算法,4 種算法下的NDCG 指標和MAP 指標變化趨勢如圖3 和圖4 所示。
圖3 NDCG 指標圖
圖4 MAP 指標圖
圖3 為“中國天問一號落火”話題下4 種算法計算得到的排名靠前的用戶NDCG 對比曲線;圖4 為3 個話題下MAP 曲線。從中可以看出,使用PageRank 算法進行用戶影響力排名計算,排名質量較差。分析其原因,認為是該算法并未考慮用戶發(fā)布新聞后與其他用戶的交互行為(包括點贊、評論等),導致權重差異明顯,從而影響了排名質量。TwitterRank 算法雖然會根據主題相似性和新聞發(fā)布數量來判斷用戶之間的依賴程度,但是也沒有將用戶之間的交互行為列入到算法中,因此計算值與實際值仍有差距。MicrobiogRank 算法考慮了用戶交互行為和用戶之間依賴程度的差異,因此算法效果較好。但是該算法僅以交互頻率作為權重劃分依據,而未對交互行為進行區(qū)分,因此算法效果還有提升空間。而本文介紹的NAUR 算法則克服了上述缺陷,一方面是考慮了用戶之間的交互行為,另一方面也將新聞之間的鏈接關系納入到評估用戶影響力的指標體系中,因此對用戶的影響力排名質量最高。
結束語
NAUR 算法可以根據用戶交互行為發(fā)生時間間隔的長短,進而準確推測出用戶節(jié)點之間的轉移概率。在此基礎上展開分析,如果交互行為發(fā)生的時間間隔較短,說明用戶節(jié)點之間轉移概率較高;反之則概率較低?;贜AUR 算法的新聞APP 信息傳播溯源系統(tǒng),能夠在抓取數據、構建社會網絡和計算節(jié)點影響力的基礎上,追溯得到給定話題傳播過程中的關鍵節(jié)點,進而順利實現(xiàn)溯源。