李晶
摘 要: 網(wǎng)絡(luò)熱門話題的跟蹤對(duì)社會(huì)穩(wěn)定、國(guó)家安全具有重要作用,針對(duì)傳統(tǒng)網(wǎng)絡(luò)熱門話題跟蹤模型誤差大的缺陷,提出改進(jìn)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)熱門話題的跟蹤和檢測(cè)模型。首先對(duì)網(wǎng)絡(luò)熱門話題的跟蹤和檢測(cè)現(xiàn)狀進(jìn)行分析;然后收集網(wǎng)絡(luò)熱門話題相關(guān)數(shù)據(jù),采用神經(jīng)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)熱門話題的跟蹤進(jìn)行建模,實(shí)現(xiàn)網(wǎng)絡(luò)熱門話題的檢測(cè),并對(duì)神經(jīng)網(wǎng)絡(luò)的局限性進(jìn)行改進(jìn);最后采用具體網(wǎng)絡(luò)熱門話題的跟蹤和檢測(cè)實(shí)驗(yàn)對(duì)模型的有效性進(jìn)行測(cè)試,與其他網(wǎng)絡(luò)熱門話題的跟蹤和檢測(cè)模型相比,改進(jìn)神經(jīng)網(wǎng)絡(luò)提高了網(wǎng)絡(luò)熱門話題的跟蹤精度,降低了網(wǎng)絡(luò)熱門話題的檢測(cè)錯(cuò)誤率,可以為網(wǎng)絡(luò)輿情管理者提供可靠的信息。
關(guān)鍵詞: 網(wǎng)絡(luò)熱門話題; 話題跟蹤; 話題檢測(cè); 跟蹤與檢測(cè)模型; 神經(jīng)網(wǎng)絡(luò); 檢測(cè)錯(cuò)誤率
中圖分類號(hào): TN711?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)03?0128?04
Abstract: The tracking of network hot topic plays an important role in social stability and national security. Since the tracking model of the traditional network hot topics has large error, a tracking and detection model of the network hot topics based on improved neural network is proposed. The tracking and detection status of the network hot topics is analyzed, and then the relevant data of the network hot topics is collected. The neural network is used to model the network hot topics tracking, and detect the network hot topics. The limitation of the neural network is improved. The effectiveness of the model is tested with the tracking and detection experiments of specific network hot topics. In comparison with other tracking and detection models of network hot topics, the improved neural network model can improve the tracking accuracy of the network hot topics, reduce the error detection rate of the network hot topics, and provide the reliable information for the network public opinion managers.
Keywords: network hot topic; topic tracking; topic detection; tracking and detection model; neural network; error detection rate
0 引 言
隨著信息處理技術(shù)的不斷成熟,再加上網(wǎng)絡(luò)應(yīng)用范圍的不斷拓寬,網(wǎng)絡(luò)上的熱門話題成為人們關(guān)注的焦點(diǎn)[1]。網(wǎng)絡(luò)熱門話題有關(guān)于人們生活中的小事,也有關(guān)于國(guó)家發(fā)展的大事,每一個(gè)個(gè)體都可以發(fā)表自己的看法,當(dāng)一個(gè)負(fù)面的網(wǎng)絡(luò)熱門話題在網(wǎng)絡(luò)上迅速擴(kuò)散時(shí),會(huì)對(duì)社會(huì)穩(wěn)定、經(jīng)濟(jì)的發(fā)展以及人們的生活產(chǎn)生干擾[2],而網(wǎng)絡(luò)熱門話題的跟蹤和檢測(cè)可以幫助相關(guān)組織部門掌握網(wǎng)絡(luò)熱門話題的變化動(dòng)態(tài),可以提前做出一些預(yù)判,將一些負(fù)面的網(wǎng)絡(luò)熱門話題抑制在萌芽狀態(tài),因此,提高網(wǎng)絡(luò)熱門話題的檢測(cè)精度和跟蹤的準(zhǔn)確性,降低網(wǎng)絡(luò)熱門話題的誤檢率一直是學(xué)者們追求的目標(biāo)[3?4]。
網(wǎng)絡(luò)熱門話題的追蹤建模與檢測(cè)是一個(gè)熱點(diǎn)問題,為此,有學(xué)者提出基于時(shí)間序列法的網(wǎng)絡(luò)熱門話題的跟蹤與檢測(cè)模型,如滑動(dòng)回歸模型、指數(shù)平滑模型,它們根據(jù)網(wǎng)絡(luò)熱門話題的有關(guān)帖子數(shù),如跟帖率等對(duì)網(wǎng)絡(luò)熱門話題的發(fā)展態(tài)勢(shì)進(jìn)行預(yù)估,該類模型建模過程相當(dāng)簡(jiǎn)單,而且實(shí)現(xiàn)起來十分容易[5],但是它們屬于一種靜態(tài)模型,當(dāng)有新的數(shù)據(jù)更新時(shí),模型的自適應(yīng)能力比較強(qiáng),而且只能對(duì)網(wǎng)絡(luò)熱門話題的性能變化態(tài)勢(shì)進(jìn)行跟蹤與檢測(cè)[6]。網(wǎng)絡(luò)熱門話題受到個(gè)體的心理、圈子范圍等因素的誘導(dǎo),不單是一種線性的變化特點(diǎn),同時(shí)具有非平穩(wěn)性、隨機(jī)性變化特點(diǎn),這樣時(shí)間序列檢測(cè)模型的局限性就十分明顯,導(dǎo)致網(wǎng)絡(luò)熱門話題的誤檢率相當(dāng)高,漏檢率也急劇上升[7]。針對(duì)時(shí)間序列分析模型的局限性,近些年出現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)熱門話題跟蹤與檢測(cè)模型,神經(jīng)網(wǎng)絡(luò)通過其強(qiáng)大的學(xué)習(xí)能力對(duì)網(wǎng)絡(luò)熱門話題的變化特點(diǎn)進(jìn)行擬合,跟蹤其變化趨勢(shì),尤其對(duì)于隨機(jī)性、平穩(wěn)性的網(wǎng)絡(luò)熱門話題跟蹤效果好,其中BP神經(jīng)網(wǎng)絡(luò)在網(wǎng)絡(luò)熱門話題建模中的應(yīng)用范圍最廣[8?10]。BP神經(jīng)網(wǎng)絡(luò)的參數(shù)直接決定網(wǎng)絡(luò)熱門話題的跟蹤和檢測(cè)效果,如果參數(shù)選擇不合理,那么網(wǎng)絡(luò)熱門話題的檢測(cè)精度低。當(dāng)前BP神經(jīng)網(wǎng)絡(luò)的參數(shù)由工作人員根據(jù)經(jīng)驗(yàn)確定,參數(shù)的合理性與工作人員的經(jīng)驗(yàn)豐富度相關(guān),導(dǎo)致網(wǎng)絡(luò)熱門話題跟蹤和檢測(cè)結(jié)果不穩(wěn)定[11?12]。
針對(duì)傳統(tǒng)網(wǎng)絡(luò)熱門話題的跟蹤模型誤差大的缺陷,本文提出改進(jìn)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)熱門話題的跟蹤和檢測(cè)模型,采用具體實(shí)驗(yàn)測(cè)試其性能,改進(jìn)神經(jīng)網(wǎng)絡(luò)提高了網(wǎng)絡(luò)熱門話題的跟蹤精度,降低了網(wǎng)絡(luò)熱門話題的檢測(cè)錯(cuò)誤率,可以為網(wǎng)絡(luò)輿情管理者提供可靠的信息。endprint
1 BP神經(jīng)網(wǎng)絡(luò)和差分進(jìn)化算法
1.1 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種經(jīng)典的前饋神經(jīng)網(wǎng)絡(luò),與其他類型的神經(jīng)網(wǎng)絡(luò)相比,由于具有誤差反饋功能,因此可以更好地逼近復(fù)雜系統(tǒng),建模精度高。通常情況下,BP神經(jīng)網(wǎng)絡(luò)由許多神經(jīng)元組成,神經(jīng)元互相連接,組成一定的拓?fù)浣Y(jié)構(gòu),最常用的結(jié)構(gòu)為輸入層、隱含層、輸出層的三層結(jié)構(gòu),它們的神經(jīng)元數(shù)量分別為和BP神經(jīng)網(wǎng)絡(luò)的輸入和輸出定義為表示隱含層的連接權(quán)值,表示隱含層的閾值,表示隱含層的變換函數(shù),表示輸出層的連接權(quán)值,表示輸出層的閾值,其中輸入層和隱含層之間信息的正向傳遞方式為:
隱含層和輸出層之間信息的正向傳遞方式為:
BP神經(jīng)網(wǎng)絡(luò)通過訓(xùn)練,可以得到輸出層的估計(jì)誤差,具體為:
式中為實(shí)際輸出。
當(dāng)估計(jì)誤差比期望誤差高時(shí),進(jìn)行誤差反饋操作,對(duì)進(jìn)行估計(jì)并采用梯度下降算法進(jìn)行更新,其中輸出層連接權(quán)值和閾值具體更新如下:
式中表示變化速率。
隱含層連接權(quán)值和閾值具體變化如下:
由于神經(jīng)網(wǎng)絡(luò)的連接權(quán)值和閾值影響其訓(xùn)練效果,所以采用差分進(jìn)化算法進(jìn)行在線優(yōu)化,以提高網(wǎng)絡(luò)熱門話題的跟蹤和檢測(cè)精度。
1.2 差分進(jìn)化算法
差分進(jìn)化算法屬于啟發(fā)式算法,其工作原理與其他啟發(fā)式算法相似,主要通過個(gè)體間的合作與競(jìng)爭(zhēng)找到問題的最優(yōu)解,具體操作如下:
1) 變異操作。隨機(jī)選擇4個(gè)個(gè)體和當(dāng)前最優(yōu)個(gè)體進(jìn)行變異操作,產(chǎn)生新的個(gè)體,具體方式為:
式中:表示變異后的個(gè)體;表示當(dāng)前最優(yōu)個(gè)體;表示第一個(gè)被選擇變異的個(gè)體;是當(dāng)前進(jìn)化代數(shù);表示差分量的縮放程度。
2) 交叉操作。交叉是增加種群多樣性的一個(gè)重要方法,具體為:
式中:表示交叉概率;表示隨機(jī)數(shù)。
3) 選擇操作。差分進(jìn)化算法和遺傳算法的最大區(qū)別就是選擇方式不同,其中差分進(jìn)化算法采用“貪婪”搜索策略進(jìn)行個(gè)體選擇操作。交叉的新個(gè)體和比較,誰更優(yōu)誰就進(jìn)入下一代,選擇方式具體如下:
式中為問題求解的目標(biāo)函數(shù)。
2 改進(jìn)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)熱門話題跟蹤和檢測(cè)模型
2.1 提取網(wǎng)絡(luò)熱門話題的特征
要對(duì)網(wǎng)絡(luò)熱門話題進(jìn)行追蹤建模,首先從網(wǎng)絡(luò)熱門話題中提取反映話題重要信息的特征,當(dāng)前選擇分詞和權(quán)重描述特征,通過增量式TF?IDF計(jì)算權(quán)重。設(shè)在時(shí)刻新增的熱門話題帖子數(shù)為則包括分詞的帖子數(shù)的計(jì)算公式為:
式中為第時(shí)刻包括分詞的帖子數(shù)。
此時(shí)帖子中的分詞的權(quán)重計(jì)算公式為:
式中:表示規(guī)范化操作;為帖子中的分詞的頻度;為當(dāng)前的帖子數(shù)量。
2.2 改進(jìn)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)熱門話題跟蹤和檢測(cè)模型的工作步驟
改進(jìn)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)熱門話題跟蹤和檢測(cè)模型的工作步驟具體如下:
1) 對(duì)一個(gè)具體網(wǎng)絡(luò)熱門話題,收集相關(guān)信息,主要包括跟帖數(shù)、相關(guān)報(bào)道等。
2) 對(duì)相關(guān)信息進(jìn)行切分操作,提取與網(wǎng)絡(luò)熱門話題有關(guān)的重要信息,并進(jìn)行分詞操作。
3) 提取能夠描述網(wǎng)絡(luò)熱門話題的特征,然后根據(jù)式(12)計(jì)算網(wǎng)絡(luò)熱門話題特征的權(quán)重。
4) 根據(jù)權(quán)重對(duì)網(wǎng)絡(luò)熱門話題特征進(jìn)行排序,選出最前面一些特征描述該網(wǎng)絡(luò)熱門話題。
5) 將特征作為神經(jīng)網(wǎng)絡(luò)的輸入,帖子數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸出,建立神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)樣本。
6) 將網(wǎng)絡(luò)熱門話題的訓(xùn)練樣本輸入到神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并根據(jù)選擇的特征數(shù)量確定神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。
7) 采用差分進(jìn)化算法對(duì)連接權(quán)值和閾值進(jìn)行在線優(yōu)化,使BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)熱門話題檢測(cè)訓(xùn)練誤差朝著實(shí)際要求的方向發(fā)展。
8) 當(dāng)網(wǎng)絡(luò)熱門話題檢測(cè)的訓(xùn)練誤差達(dá)到期望的要求時(shí),終止訓(xùn)練,確定最優(yōu)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)熱門話題跟蹤和檢測(cè)模型。
9) 采用網(wǎng)絡(luò)熱門話題的驗(yàn)證樣本對(duì)建立的網(wǎng)絡(luò)熱門話題跟蹤和檢測(cè)模型性能進(jìn)行測(cè)試,并對(duì)結(jié)果進(jìn)行分析。
綜上可知,改進(jìn)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)熱門話題跟蹤和檢測(cè)模型工作流程如圖1所示。
3 仿真測(cè)試
3.1 數(shù)據(jù)集
為了分析改進(jìn)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)熱門話題跟蹤和檢測(cè)效果,選擇網(wǎng)絡(luò)熱門話題的通用測(cè)試數(shù)據(jù)TDT4作為實(shí)驗(yàn)對(duì)象,將數(shù)據(jù)分為兩部分:訓(xùn)練樣本集和驗(yàn)證樣本集,樣本數(shù)量的比例為31。為了使網(wǎng)絡(luò)熱門話題檢測(cè)模型的結(jié)果具有可比性,構(gòu)建了2個(gè)網(wǎng)絡(luò)熱門話題檢測(cè)對(duì)比模型,具體為文獻(xiàn)[12]的檢測(cè)模型及傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)。采用網(wǎng)絡(luò)熱門話題跟蹤和檢測(cè)的漏檢率、誤檢率進(jìn)行評(píng)價(jià)[13]。
3.2 結(jié)果與分析
針對(duì)TDT4數(shù)據(jù)集,為了使實(shí)驗(yàn)結(jié)果公平,執(zhí)行5次仿真實(shí)驗(yàn),每一次和的結(jié)果如圖2和圖3所示,對(duì)和進(jìn)行分析可知,改進(jìn)神經(jīng)網(wǎng)絡(luò)的和比對(duì)比模型的值均低,表明獲得了高精度的網(wǎng)絡(luò)熱門話題跟蹤和檢測(cè)精度,通過差分進(jìn)化算法對(duì)BP神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行在線優(yōu)化,建立整體性能優(yōu)異的網(wǎng)絡(luò)熱門話題跟蹤和檢測(cè)模型。
在網(wǎng)絡(luò)熱門話題的檢測(cè)應(yīng)用中,檢測(cè)實(shí)效性要求較強(qiáng),為此統(tǒng)計(jì)每一個(gè)模型的平均執(zhí)行時(shí)間,結(jié)果如圖4所示。從圖4可知,通過差分進(jìn)化算法對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,減少了網(wǎng)絡(luò)時(shí)間,提升了網(wǎng)絡(luò)熱門話題跟蹤和檢測(cè)效率。
4 結(jié) 語
網(wǎng)絡(luò)熱門話題檢測(cè)具有重要的實(shí)際應(yīng)用價(jià)值,為了克服當(dāng)前網(wǎng)絡(luò)熱門話題檢測(cè)模型存在誤檢率高、準(zhǔn)確度差的缺點(diǎn),提出改進(jìn)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)熱門話題追蹤和檢測(cè)模型,并通過具體實(shí)驗(yàn)對(duì)其性能進(jìn)行檢測(cè),可以得到如下結(jié)論:
1) 采用神經(jīng)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)熱門話題的變化特點(diǎn)進(jìn)行跟蹤,可以發(fā)現(xiàn)其將來的變化趨勢(shì),提高了網(wǎng)絡(luò)熱門話題的檢測(cè)準(zhǔn)確性。
2) 采用差分進(jìn)化算法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行在線優(yōu)化,可以根據(jù)具體網(wǎng)絡(luò)熱門話題建立合理的跟蹤檢測(cè)模型,有利于提高網(wǎng)絡(luò)熱門話題的跟蹤精度,降低網(wǎng)絡(luò)熱門話題檢測(cè)的錯(cuò)誤率。endprint
3) 該模型具有較好的通用性,可以應(yīng)用到其他復(fù)雜問題的建模中,具有較高的應(yīng)用價(jià)值。
參考文獻(xiàn)
[1] 洪宇,張宇,劉挺,等.話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J].中文信息學(xué)報(bào),2007,21(6):71?87.
HONG Yu, ZHANG Yu, LIU Ting, et al. Evaluation and research of topic detection and tracking [J]. Chinese information journal, 2007, 21(6): 71?87.
[2] 曾依靈,許洪波.網(wǎng)絡(luò)熱點(diǎn)信息發(fā)現(xiàn)研究[J].通信學(xué)報(bào),2007,28(12):141?146.
ZENG Yiling, XU Hongbo. Research on the hot spot information of the network [J]. Journal of communications, 2007, 28(12): 141?146.
[3] 周亞東,孫欽東,管曉宏,等.流量?jī)?nèi)容詞語相關(guān)度的網(wǎng)絡(luò)熱點(diǎn)話題提取[J].西安交通大學(xué)學(xué)報(bào),2007,41(10):1142?1145.
ZHOU Yadong, SUN Qindong, GUAN Xiaohong, et al. Network hot topic extraction based on relevance of flow content words [J]. Journal of Xian Jiaotong University, 2007, 41(10): 1142?1145.
[4] 遲呈英,李紅.基于改進(jìn)TF* PDF算法的網(wǎng)絡(luò)新聞熱點(diǎn)話題檢測(cè)和跟蹤[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(12):311?314.
CHI Chengying, LI Hong. Hot topic detection and tracking of network news based on improved TF*PDF algorithm [J]. Computer applications and software, 2013, 30(12): 311?314.
[5] 王巍,楊武,齊海鳳.基于多中心模型的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)算法[J].南京理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,33(4):422?431.
WANG Wei, YANG Wu, QI Haifeng. A hot topic detection algorithm based on multi center model [J]. Journal of Nanjing University of Science and Technology (natural science edition), 2009, 33(4): 422?431.
[6] 金珠,林鴻飛,趙晶.基于HowNet的話題跟蹤及傾向性分類研究[J].情報(bào)學(xué)報(bào),2005,24(5):555?561.
JIN Zhu, LIN Hongfei, ZHAO Jing. Research on topic tracking and tendency classification based on HowNet [J]. Journal of information science, 2005, 24(5): 555?561.
[7] 洪宇,倉(cāng)玉,姚建民.話題跟蹤中靜態(tài)和動(dòng)態(tài)話題模型的核捕捉衰減[J].軟件學(xué)報(bào),2012,23(5):1100?1119.
HONG Yu, CANG Yu, YAO Jianmin. Kernel capture attenuation of static and dynamic topic models in topic tracking [J]. Journal of software, 2012, 23(5): 1100?1119.
[8] 姚長(zhǎng)青,杜永萍.基于主題的輿情跟蹤方法研究及性能評(píng)價(jià)[J].圖書情報(bào)工作,2012(18):50?53.
YAO Changqing, DU Yongping. Research and performance evaluation of topic based public opinion tracking method [J]. Library and information work, 2012(18): 50?53.
[9] 張曉艷,王挺,梁曉波.LDA模型在話題追蹤中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2011,38(z1):136?139.
ZHANG Xiaoyan, WANG Ting, LIANG Xiaobo. Application of LDA model in topic tracking [J]. Computer science, 2011, 38(S1): 136?139.
[10] 廖君華,孫克迎,鐘麗霞.一種基于時(shí)序主題模型的網(wǎng)絡(luò)熱點(diǎn)話題演化分析系統(tǒng)[J].圖書情報(bào)工作,2013,57(9):96?102.
LIAO Junhua, SUN Keying, ZHONG Lixia. A network topic hot topic evolution analysis system based on temporal topic model [J]. Library and information work, 2013, 57(9): 96?102.
[11] 李保利,俞士汶.話題識(shí)別與跟蹤研究[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(17):7?10.
LI Baoli, YU Shiwen. Topic recognition and tracking research [J]. Computer engineering and applications, 2003, 39(17): 7?10.
[12] 肖紅,許少華.改進(jìn)的話題檢測(cè)和跟蹤算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(9):84?88.
XIAO Hong, XU Shaohua. Research on improved topic detection and tracking algorithm [J]. Computer technology and development, 2014, 24(9): 84?88.
[13] 周學(xué)廣,高飛,孫艷.基于依存連接權(quán)VSM的子話題檢測(cè)與跟蹤方法[J].通信學(xué)報(bào),2013,34(8):1?9.
ZHOU Xueguang, GAO Fei, SUN Yan. Sub topic detection and tracking method based on dependency join weight VSM [J]. Journal of communications, 2013, 34(8): 1?9.endprint