国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

主成分分析與BP神經(jīng)網(wǎng)絡(luò)在微博輿情預(yù)判中的應(yīng)用

2016-05-14 02:46:14饒浩陳海媚
現(xiàn)代情報 2016年7期
關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò)主成分分析

饒浩 陳海媚

〔摘要〕首先通過主成分分析消除原始指標(biāo)之間的相關(guān)性,使指標(biāo)數(shù)量變少且相互之間不相關(guān),從而構(gòu)建綜合預(yù)判指標(biāo),再利用BP神經(jīng)網(wǎng)絡(luò)建立微博輿情預(yù)判模型。實驗選取2013年微博熱門話題作為訓(xùn)練樣本,選取2014年的話題作為預(yù)測。實驗結(jié)果表明,主成分分析有助于去除原始樣本數(shù)據(jù)的冗余,簡化了網(wǎng)絡(luò)的復(fù)雜度,所得到的結(jié)果更加準(zhǔn)確。因此,該模型較僅使用BP神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性更高。

〔關(guān)鍵詞〕主成分分析;BP神經(jīng)網(wǎng)絡(luò);微博輿情;預(yù)判模型

DOI:10.3969/j.issn.1008-0821.2016.07.011

〔中圖分類號〕G206〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2016)07-0058-05

針對輿情的研究,國外起步較早,從19世紀(jì)中期初級發(fā)展,到20世紀(jì)中期已經(jīng)走向成熟[1]。在我國,專門針對輿情的研究,大致始于2004年,黨的十六屆四中全會提出:“建立輿情匯集和分析機(jī)制,暢通社情民意反映渠道”后,“輿情”這一詞才逐漸被社會各界所熟悉并使用,此后在我國成立了有關(guān)輿情的研究中心。

目前我國針對輿情分析指標(biāo)的研究有很多,如曾潤喜等在建立網(wǎng)絡(luò)輿情分級預(yù)警機(jī)制的基礎(chǔ)上,構(gòu)建了警源、警兆、警情3類指標(biāo)體系[2]。高承實等結(jié)合信息空間模型構(gòu)建了微博輿情的三維空間,建立了社會類指標(biāo)與技術(shù)類指標(biāo)、輿情主體與輿情受眾之間的關(guān)系[3]。方潔等從利益相關(guān)者的視角出發(fā),結(jié)合信息空間模型分析微博輿情傳播的過程,構(gòu)建微博輿情監(jiān)測指標(biāo)[4]。王長寧等分析微博輿情的傳播特點,在此基礎(chǔ)上建立微博輿情預(yù)警體系[5]。也有眾多學(xué)者針對預(yù)警模型進(jìn)行研究,如張華采用離散的時間序列描述微博輿情的趨勢,對微博文本中的熱點話題進(jìn)行提取、分析并對微博輿情進(jìn)行預(yù)測[6]。曹帥等建立了微博輿情發(fā)展趨勢的直線修正模型,闡釋了移動平均法能夠初步分析微博輿情的發(fā)展趨勢并對其進(jìn)行了預(yù)測[7]。張金偉等建立了一種基于性格、心情和情感空間的多層次心理預(yù)警模型,有效地實現(xiàn)了對微博情感的分析和描述[8]。邱智偉等對各維度包含的指標(biāo)與微博輿情進(jìn)行相關(guān)性檢驗,經(jīng)回歸分析構(gòu)建輿情微博數(shù)預(yù)測方程式,通過輿情微博數(shù)的增減確定微博輿情的漲落,從而構(gòu)建微博輿情預(yù)警模型[9]。林琛設(shè)計了包含網(wǎng)絡(luò)輿情監(jiān)測指標(biāo)、網(wǎng)絡(luò)輿情評估指標(biāo)與網(wǎng)絡(luò)輿情預(yù)警指標(biāo)的三層網(wǎng)絡(luò)輿情指標(biāo)體系[10]。

此外還有許多針對微博輿情的研究,例如李天龍等引入系統(tǒng)研究方法,界定了微博輿情生成機(jī)制[11]。張亞明等結(jié)合基于Vague集的AHP評估方法對輿情進(jìn)行實證分析[12]。唐曉波提出用依存句法分析來改進(jìn)傳統(tǒng)文本相似矩陣,以提高微博數(shù)據(jù)聚類準(zhǔn)確性[13]。王洪亮等同時從情報學(xué)和傳染病學(xué)的角度來研究突發(fā)自然災(zāi)害事件微博輿情蔓延特征[14]。高承實等結(jié)合信息空間模型構(gòu)建了微博輿情的三維空間,運用層次分析法,建立了微博輿情監(jiān)測指標(biāo)體系[15]。

建立科學(xué)的微博監(jiān)測指標(biāo)是進(jìn)行輿情預(yù)判的前提。雖然針對微博監(jiān)測指標(biāo)的研究已有很多,但是許多學(xué)者的研究只涉及到了定性的層面,而沒有更深入的進(jìn)行定量分析。也有一些學(xué)者涉及到了定量的研究,但是研究所得到的指標(biāo)難以獲取,導(dǎo)致很難進(jìn)行預(yù)判監(jiān)控;并且得到的定量的指標(biāo)之間可能還會存在著一定的相關(guān)性,導(dǎo)致預(yù)判監(jiān)控的結(jié)果準(zhǔn)確率不夠高。

71主成分分析與BP神經(jīng)網(wǎng)絡(luò)模型的建立

本研究嘗試建立基于主成分分析與BP神經(jīng)網(wǎng)絡(luò)的微博網(wǎng)絡(luò)社群突發(fā)輿情預(yù)判模型,通過主成分分析消除指標(biāo)之間的相關(guān)性,再利用BP神經(jīng)網(wǎng)絡(luò)人工智能的特點,通過最速下降法的學(xué)習(xí),輸出話題等級。主成分分析使指標(biāo)數(shù)量變少且相互之間不相關(guān),再利用BP神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性映射,有效處理這些內(nèi)部機(jī)制復(fù)雜的輿情管控問題。研究以期幫助相關(guān)部門及時了解微博的輿情,有助于其對正面信息加大力度傳播,對負(fù)面信息加以預(yù)警,從而保障群眾對相關(guān)部門的信任與支持,利于國家和諧穩(wěn)定可持續(xù)的發(fā)展[16]。

BP(Back Propagation)神經(jīng)網(wǎng)絡(luò),即誤差反傳誤差反向傳播算法的學(xué)習(xí)過程,由信息的正向傳播和誤差的反向傳播兩個過程組成。輸入層各節(jié)點接收輸入信息,并傳遞給隱含層各節(jié)點;隱含層負(fù)責(zé)信息變換,考慮到增加隱含層的節(jié)點數(shù)比增加隱含層的層數(shù)更便于計算,不會使網(wǎng)絡(luò)太過于復(fù)雜化,因此本文的隱含層為單隱層結(jié)構(gòu);隱含層傳遞信息到輸出層各節(jié)點,完成一次信息的正向傳播。當(dāng)實際輸出與期望輸出不符時,誤差通過輸出層,按誤差梯度下降的方式修正各層權(quán)值,向隱含層、輸入層逐層反傳。信息正向傳播和誤差反向傳播的交替進(jìn)行,使各層權(quán)值不斷調(diào)整,一直到網(wǎng)絡(luò)輸出的誤差減少到可以接受的范圍或者預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止[17]。

本研究采用主成分分析構(gòu)建微博網(wǎng)絡(luò)輿情預(yù)判指標(biāo)體系,盡可能多的考慮對預(yù)判結(jié)果有影響的指標(biāo)??墒巧婕暗亩鄠€指標(biāo)之間可能會存在一定的相關(guān)性,比如說:活躍粉絲多的微博用戶可能發(fā)出一條微博會有很多的評論量。因此找出幾個為原來指標(biāo)的線性組合的綜合指標(biāo)就顯得很重要了。綜合指標(biāo)有以下幾個特點:(1)綜合指標(biāo)是原始指標(biāo)的線性組合,因此保留了原始指標(biāo)的主要信息;(2)彼此之間不相關(guān);(3)比原始指標(biāo)具有某些優(yōu)越性質(zhì)。這使得在研究指標(biāo)體系時更加容易[18]。

通過主成分分析可以消除指標(biāo)之間的相關(guān)性,用原始指標(biāo)的線性組合形成的相互之間不相關(guān)的綜合指標(biāo)來代替原始指標(biāo),選取特征值大于1并且原始指標(biāo)的大部分信息可被解釋的若干個綜合指標(biāo),此時得到的綜合指標(biāo)的數(shù)量會少于原始指標(biāo),從而減少指標(biāo),去除原始樣本數(shù)據(jù)的冗余,利于數(shù)據(jù)的整理與計算;再利用BP神經(jīng)網(wǎng)絡(luò),分別用原始指標(biāo)和綜合指標(biāo)作為輸入,通過數(shù)據(jù)流的正向傳輸和反向傳輸兩個過程的交替進(jìn)行,分別輸出話題等級,比較兩種輸入所得到的輸出結(jié)果[18]。所建立的綜合模型見圖1。圖1主成分分析與BP神經(jīng)網(wǎng)絡(luò)模型

2主成分分析法與BP神經(jīng)網(wǎng)絡(luò)的結(jié)合應(yīng)用

21話題表

由于該類問題沒有Benchmark算例,此處選取的訓(xùn)練樣本與預(yù)測樣本僅為說明模型使用過程,具體如下:根據(jù)新浪微博數(shù)據(jù)中心提供的2013年1月-2013年12月微博熱門話題盤點及新浪微博2013年熱門事件話題大盤點,選取2013年十大熱點話題為預(yù)警度最高的Ⅰ級(特別嚴(yán)重),在各月中排在前面但沒在十大話題出現(xiàn)的作為Ⅱ級(嚴(yán)重),在各月中排在中間位置的作為Ⅲ級(較重),在各月中排名相對較后的作為Ⅳ級(一般),訓(xùn)練話題表如表1所示。以同樣的方法選取2014年的話題作為預(yù)測,預(yù)測話題表如表2所示。

22對數(shù)據(jù)進(jìn)行主成分分析

微博熱度由廣播數(shù)x1、收聽數(shù)x2、聽眾數(shù)x3、平均轉(zhuǎn)播數(shù) and 平均評論數(shù)x4、聽眾的平均收聽人數(shù)x5、聽眾的平均聽眾人數(shù)x6、聽眾的平均等級x7、收聽人的平均收聽人數(shù)x8、收聽人的平均聽眾人數(shù)x9、收聽人的平均等級x10、手機(jī)達(dá)人x11、QQ會員x12、轉(zhuǎn)播達(dá)人x13、天下無雙x14、微博勞模x15、青春正能量x16、秒微創(chuàng)意x17、事實派x18、微生活x19、微愛校園行x20、投票達(dá)人x21、禮物達(dá)人x22、新鮮達(dá)人x23、熱心達(dá)人x24、奇吃妙享x25、評論達(dá)人x26、點贊狂魔x27、心情簽到達(dá)人x28、動感勛章x29、新星主播x30、沙發(fā)王x31、蒲公英印記x32這32個原始指標(biāo)組成。隨機(jī)選取324個名人,獲取上述數(shù)據(jù)。經(jīng)過主成分分析處理之后得到綜合指標(biāo)X1、X2、X3、X4、X5、X6,這6個綜合指標(biāo)能概括32個原始指標(biāo)7781%的信息,達(dá)到了降低復(fù)雜度的同時盡量保留大部分信息的目的。

23建立BP神經(jīng)網(wǎng)絡(luò)模型

以話題為關(guān)鍵詞,獲取該話題轉(zhuǎn)發(fā)量最多的10位名人的32個原始指標(biāo)(其中有些指標(biāo)是該話題所特有的,比如:平均轉(zhuǎn)播數(shù) and 平均評論數(shù);還有一些指標(biāo)是該名人所特有的,比如:廣播數(shù)、收聽數(shù)),分別計算32個原始指標(biāo)的平均值作為該關(guān)鍵詞的相應(yīng)原始指標(biāo)。

(1)直接用32個原始指標(biāo)x1、x2…x32作為BP神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)。以訓(xùn)練樣本話題的數(shù)據(jù)為樣本對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后用預(yù)測樣本的數(shù)據(jù)進(jìn)行輸入,比較輸出結(jié)果與真實結(jié)果。

(2)32個原始指標(biāo)先根據(jù)主成分分析得到的公式算出6個綜合指標(biāo),再把得到的6個綜合指標(biāo)X1、X2、X3、X4、X5、X6作為BP神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),經(jīng)過訓(xùn)練學(xué)習(xí)后把輸出結(jié)果與真實結(jié)果進(jìn)行比較。

兩種方法的運行結(jié)果對比如圖2所示。

24結(jié)果分析

為了使結(jié)果看起來更直觀。將準(zhǔn)確率分為一級準(zhǔn)確率、二級準(zhǔn)確率、三級準(zhǔn)確率、四級準(zhǔn)確率。其中,一級準(zhǔn)確率:輸出結(jié)果與真實結(jié)果相同的話題數(shù)/總話題數(shù);二級準(zhǔn)確率:輸出結(jié)果與真實結(jié)果相差一個等級(例:真實結(jié)果為Ⅰ級預(yù)警,而預(yù)測結(jié)果為Ⅱ級預(yù)警,反過來亦然)的話題數(shù)/總話題數(shù);三級準(zhǔn)確率:輸出結(jié)果與真實結(jié)果相差兩個等級(例:真實結(jié)果為Ⅰ級預(yù)警,而預(yù)測結(jié)果為Ⅲ級預(yù)警)的話題數(shù)/總話題數(shù);四級準(zhǔn)確率:輸出結(jié)果與真實結(jié)果相差3個等級(例:真實結(jié)果為Ⅰ級預(yù)警,而預(yù)測結(jié)果為Ⅳ級預(yù)警)的話題數(shù)/總話題數(shù)。根據(jù)定義,計算出兩種方法所得結(jié)果的準(zhǔn)確率:法一得到的一級準(zhǔn)確率為22/40=55%,二級準(zhǔn)確率為11/40=275%,三級準(zhǔn)確率為4/40=10%,四級準(zhǔn)確率為3/40=75%。而法二得到的輸出結(jié)果一級準(zhǔn)確率為35/40=875%,二級準(zhǔn)確率為2/40=5%,三級準(zhǔn)確率為1/40=25%,四級準(zhǔn)確率為2/40=5%。由此可以得到,經(jīng)過主成分分析后預(yù)警結(jié)果的一級準(zhǔn)確率比沒有進(jìn)行主成分分析提高了325%;而誤差比較明顯的三級準(zhǔn)確率和四級準(zhǔn)確率比沒有進(jìn)行主成分分析降低了10%。發(fā)圖2運行結(jié)果對比圖

現(xiàn)因為主成分分析有助于去除原始樣本數(shù)據(jù)的冗余,簡化了網(wǎng)絡(luò)的復(fù)雜度,所以所得到的結(jié)果更加準(zhǔn)確。

另一方面,方法一訓(xùn)練時間為1秒,進(jìn)行了235次迭代,錯誤率為0308。方法二訓(xùn)練時間為1秒,進(jìn)行了297次迭代,錯誤率為185*10^(5)。雖然訓(xùn)練時間與迭代次數(shù)都差不多,可是誤差卻是幾個數(shù)量級的區(qū)別??梢姾喕W(wǎng)絡(luò)的復(fù)雜度可以在同樣的時間內(nèi)進(jìn)行更加有效的學(xué)習(xí)。

由此可以得出,為了實驗的準(zhǔn)確性,需要獲取盡可能多的原始數(shù)據(jù),可是過多的原始數(shù)據(jù)之間不可避免的可能會有一定的相關(guān)性,這就導(dǎo)致了矛盾的存在。而采用主成分分析的方法,可以有效的減少這種矛盾,使結(jié)果更加準(zhǔn)確。

3結(jié)語

本研究結(jié)合主成分分析與BP神經(jīng)網(wǎng)絡(luò)來構(gòu)建微博網(wǎng)絡(luò)社群突發(fā)輿情危機(jī)預(yù)判模型,通過實例來驗證模型的準(zhǔn)確性。此模型較僅使用BP神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性更高。此外,該模型也會存在著一些缺點。首先是進(jìn)行主成分分析的324位名人是隨機(jī)選取的,在此進(jìn)行改進(jìn)(如把名人細(xì)分:體育類、新聞類、綜藝類等)并增加名人的數(shù)量,預(yù)判結(jié)果的準(zhǔn)確性可能會有所增長。其次是以話題為關(guān)鍵詞獲取原始指標(biāo)時為了獲取的方便,是以轉(zhuǎn)發(fā)量為考慮對象的,而沒有充分結(jié)合所有方面進(jìn)行考慮,且獲取的名人數(shù)量不夠多。再次此刻獲取2013年某個關(guān)鍵詞的數(shù)據(jù),獲取到的是當(dāng)前的數(shù)據(jù),用當(dāng)前數(shù)據(jù)的值來分析2013年的情況,不可避免的存在一定的誤差。最后也存在BP神經(jīng)網(wǎng)絡(luò)固有的缺點,就是容易陷入局部極小值點,結(jié)果也會根據(jù)隱含層的元素個數(shù)而改變。

該模型的預(yù)判結(jié)果的準(zhǔn)確性將隨著原始指標(biāo)的合理性、訓(xùn)練集數(shù)量的增加而增長。研究所得到的結(jié)果可以為輿情的管理提供有效的指導(dǎo)。

參考文獻(xiàn)

[1]艾新革.國內(nèi)外輿情研究述略[J].圖書館學(xué)刊,2011,(9):140-142.

[2]曾潤喜.網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警指標(biāo)體系構(gòu)建[J].情報理論與實踐,2010,(1):77-80.

[3]高承實,榮星,陳越.微博輿情監(jiān)測指標(biāo)體系研究[J].情報雜志,2011,(9):66-70.

[4]方潔,龔立群,魏疆.基于利益相關(guān)者理論的微博輿情中的用戶分類研究[J].情報科學(xué),2014,(1):18-22.

[5]王長寧,陳維勤,許浩.對微博輿情熱度監(jiān)測及預(yù)警的指標(biāo)體系的研究[J].計算機(jī)與現(xiàn)代化,2013,(1):126-129.

[6]張華.基于優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的微博輿情預(yù)測模型研究[D].武漢:華中師范大學(xué),2014.

[7]曹帥,蘭月新,蘇國強(qiáng),等.基于移動平均法的微博輿情預(yù)測模型研究[J].湖北警官學(xué)院學(xué)報,2014,(3):40-42.

[8]張金偉,劉曉平.基于心理預(yù)警模型的微博情感識別研究[J].合肥工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2013,(11):1318-1322.

[9]邱智偉.基于混沌理論的微博輿情預(yù)警模型研究[D].廣州:華南理工大學(xué),2015.

[10]林琛.基于網(wǎng)絡(luò)輿論形成過程的輿情指標(biāo)體系構(gòu)建研究[J].情報科學(xué),2015,(1):146-149.

[11]李天龍,李明德,張宏邦.微博輿情生成機(jī)制研究[J].情報雜志,2014,(9):117-122.

[12]張亞明,劉婉瑩,劉海鷗.基于Vague集的微博輿情評估體系研究[J].情報雜志,2014,(4):84-89.

[13]唐曉波,肖璐.基于依存句法分析的微博主題挖掘模型研究[J].情報科學(xué),2015,(9):61-65.

[14]王洪亮,周海煒.突發(fā)自然災(zāi)害事件微博輿情蔓延規(guī)律與控制研究[J].情報雜志,2013,(9):23-28.

[15]高承實,榮星,陳越.微博輿情監(jiān)測指標(biāo)體系研究[J].情報雜志,2011,(9):66-70.

[16]潘芳,張霞,仲偉俊.基于BP神經(jīng)網(wǎng)絡(luò)的微博網(wǎng)絡(luò)社群突發(fā)輿情的預(yù)警監(jiān)控[J].情報雜志,2014,(5):125-128.

[17]楊淑娥,黃禮.基于BP神經(jīng)網(wǎng)絡(luò)的上市公司財務(wù)預(yù)警模型[J].系統(tǒng)工程理論與實踐,2005,(1):12-18.

[18]陳建宏,劉浪,周智勇,等.基于主成分分析與神經(jīng)網(wǎng)絡(luò)的采礦方法優(yōu)選[J].中南大學(xué)學(xué)報:自然科學(xué)版,2010,(5):1967-1972.

(本文責(zé)任編輯:郭沫含)

猜你喜歡
BP神經(jīng)網(wǎng)絡(luò)主成分分析
就bp神經(jīng)網(wǎng)絡(luò)銀行選址模型的相關(guān)研究
基于DEA—GA—BP的建設(shè)工程評標(biāo)方法研究
價值工程(2016年30期)2016-11-24 13:17:31
基于BP神經(jīng)網(wǎng)絡(luò)的旅行社發(fā)展方向研究
商情(2016年39期)2016-11-21 09:30:36
基于NAR模型的上海市房產(chǎn)稅規(guī)模預(yù)測
主成分分析法在大學(xué)英語寫作評價中的應(yīng)用
江蘇省客源市場影響因素研究
SPSS在環(huán)境地球化學(xué)中的應(yīng)用
考試周刊(2016年84期)2016-11-11 23:57:34
復(fù)雜背景下的手勢識別方法
BP神經(jīng)網(wǎng)絡(luò)在軟件質(zhì)量評價中的應(yīng)用研究 
長沙建設(shè)國家中心城市的瓶頸及其解決路徑
塔河县| 外汇| 大冶市| 清水河县| 屯昌县| 昌吉市| 朝阳区| 石楼县| 河北区| 金寨县| 克什克腾旗| 察雅县| 滨海县| 扎兰屯市| 张家川| 周口市| 凤翔县| 资溪县| 化隆| 廊坊市| 金乡县| 板桥市| 北辰区| 伽师县| 铜川市| 灵台县| 乌鲁木齐市| 鄢陵县| 东山县| 开化县| 涟水县| 廊坊市| 五指山市| 白山市| 北辰区| 芜湖市| 玛沁县| 开原市| 嘉祥县| 南平市| 黄浦区|