国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

推特上中國(guó)形象的主題與情感分析

2017-05-04 14:14肖明易紅發(fā)
對(duì)外傳播 2017年3期
關(guān)鍵詞:極性推文熱門(mén)

肖明+易紅發(fā)

國(guó)家形象是一個(gè)國(guó)家的綜合實(shí)力(即硬實(shí)力和軟實(shí)力的總和)和核心價(jià)值觀(guān)的體現(xiàn),是一個(gè)國(guó)家在國(guó)際社會(huì)中所展示的整體面貌,以及國(guó)際社會(huì)對(duì)其綜合實(shí)力、核心價(jià)值觀(guān)和整體面貌的感受和評(píng)價(jià)。

傳統(tǒng)的國(guó)家形象研究有兩種途徑,一是對(duì)媒體上特別是主流報(bào)紙上有關(guān)中國(guó)的報(bào)道進(jìn)行內(nèi)容分析,二是針對(duì)民眾進(jìn)行調(diào)查,來(lái)了解外國(guó)民眾對(duì)中國(guó)的評(píng)價(jià)。

自2006年推特(Twitter)誕生以來(lái),自媒體或稱(chēng)社交媒體成了傳統(tǒng)媒介機(jī)構(gòu)與公眾發(fā)表意見(jiàn)的新平臺(tái)。本研究中,我們采用文本挖掘技術(shù),對(duì)推特上涉及中國(guó)的英文熱門(mén)推文進(jìn)行了分析。研究目的是了解和描述推特英語(yǔ)用戶(hù)在發(fā)布的熱門(mén)推文中,涉及中國(guó)時(shí)關(guān)注的是哪些主題,呈現(xiàn)出來(lái)的態(tài)度及情感又是怎樣的,以期對(duì)對(duì)外傳播工作有所啟示。

一、研究方法

推特平臺(tái)上共有超過(guò)30種的語(yǔ)言版本,但主要語(yǔ)言為英語(yǔ),本研究以英文版本為研究范圍,研究對(duì)象是海外媒體及公眾所發(fā)布的涉及中國(guó)、中國(guó)人的熱門(mén)推文。采用新興的文本挖掘方法,對(duì)非結(jié)構(gòu)化的推文文本進(jìn)行挖掘和處理,工作流程包括了文本的獲取、分詞與過(guò)濾、主題建模、情感分析四個(gè)步驟。

1.文本數(shù)據(jù)的獲取

在獲取文本數(shù)據(jù)過(guò)程中,我們不區(qū)分大小寫(xiě),以“China”或者“Chinese”為關(guān)鍵詞對(duì)熱門(mén)推文進(jìn)行了檢索。熱門(mén)推文是被轉(zhuǎn)推或被收藏過(guò)的推文。搜索熱門(mén)推文而不是全部推文,主要是考慮到了熱門(mén)推文的影響力以及工作量問(wèn)題。所搜索語(yǔ)言為英語(yǔ),這主要是考慮到推特用戶(hù)的主要語(yǔ)言為英語(yǔ),用戶(hù)所發(fā)布的推文也多為英文。推特是在2006年3月開(kāi)始運(yùn)營(yíng)的,本研究的數(shù)據(jù)收集時(shí)間是在2014年初,所以搜索的時(shí)間周期為2006年3月到2013年12月。

利用爬蟲(chóng)軟件GooSeeker對(duì)檢索出來(lái)的熱門(mén)推文進(jìn)行了抓取。GooSeeker是火狐瀏覽器的插件,包括兩個(gè)部分:定義提取規(guī)則的MetaStudio和用于信息采集DataScraper。利用爬蟲(chóng)技術(shù)獲得的原始數(shù)據(jù)包括四個(gè)字段,分別是“用戶(hù)名”“昵稱(chēng)”“推文發(fā)布日期”,以及“推文文本”。其中“用戶(hù)名”和“昵稱(chēng)”是用戶(hù)屬性數(shù)據(jù);“推文發(fā)布日期”是推文屬性數(shù)據(jù);“推文文本”屬于內(nèi)容數(shù)據(jù),是文本形式的,“推文發(fā)布日期”是我們要進(jìn)行分析的非結(jié)構(gòu)化數(shù)據(jù)。

第一條含關(guān)鍵詞“China”或“Chinese”的熱門(mén)推文發(fā)布于2006年4月30日,推文內(nèi)容如下:

picking up two out-of-state twitterers, heading out for the best Chinese in SF - Elizas.

因?yàn)楸狙芯克P(guān)心的是外國(guó)人如何呈現(xiàn)中國(guó)形象,所以去除了中國(guó)人或中國(guó)機(jī)構(gòu)所發(fā)布的推文。首先,我們認(rèn)定“昵稱(chēng)”中含中文字符的用戶(hù)是中國(guó)人,刪除他們所發(fā)的推文,共計(jì)26,318條。其次,我們認(rèn)定用戶(hù)名或昵稱(chēng)中含“China”或“Chinese”的用戶(hù)也與中國(guó)有關(guān),去除他們所發(fā)的推文,共計(jì)53,212條。最終獲得有效的熱門(mén)推文一共是842,917條。

2.文本預(yù)處理

對(duì)推文的預(yù)處理包括了分詞和過(guò)濾,主要運(yùn)用自然語(yǔ)言處理技術(shù)(NLP),利用Python的nltk包進(jìn)行了操作。

我們的研究對(duì)象是推特上的英文的涉華推文,分詞方法就是簡(jiǎn)單的基于空格和標(biāo)點(diǎn)符號(hào)的英文分詞法。

過(guò)濾是指過(guò)濾掉文本中的html鏈接、@人名、標(biāo)點(diǎn)符號(hào),以及不必要的空格。同時(shí)過(guò)濾掉非英文字母、數(shù)字、小于或等于三個(gè)字符的詞(這些詞,如the、or、and等絕大多數(shù)為無(wú)意義的虛詞),同時(shí)在停用詞(Stop Words)表的基礎(chǔ)上,過(guò)濾掉停用詞。最后將所有英文字母轉(zhuǎn)換為小寫(xiě)。

3.主題建模及主題命名

主題建模(topic modeling)是本研究中最為關(guān)鍵的一步,利用Stanford TMT 0.4.0軟件對(duì)涉華推文的主題進(jìn)行LDA(狄利克雷分配模型)建模。Stanford TMT由斯坦福自然語(yǔ)言處理小組(The Stanford Natural Language Processing Group)開(kāi)發(fā),基于JAVA,用Scala編寫(xiě),有完整的API文檔。LDA建模方法是基于無(wú)監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),不采用任何的主觀(guān)方法去標(biāo)識(shí)推文,能夠更為客觀(guān)地發(fā)現(xiàn)文本中是否存在著潛在主題。

經(jīng)過(guò)了反復(fù)的測(cè)試,本研究最終選擇最大迭代次數(shù)為1000,常見(jiàn)詞過(guò)濾數(shù)量為20的結(jié)果,最終從80多萬(wàn)條推文中提取了30個(gè)主題。

對(duì)于所提取的30個(gè)主題,軟件輸出結(jié)果中會(huì)給出每個(gè)主題所對(duì)應(yīng)的前20個(gè)關(guān)鍵詞以及每個(gè)關(guān)鍵詞的貢獻(xiàn)度。根據(jù)各個(gè)主題所包含的關(guān)鍵詞的特點(diǎn),經(jīng)過(guò)反復(fù)討論,最終對(duì)各個(gè)主題進(jìn)行了命名。

4.情感分析

本研究的情感分析(sentiment analysis)應(yīng)用機(jī)器學(xué)習(xí)技術(shù),采用樸素貝葉斯(Naive Bayes)算法,對(duì)每一條推文的極性與情感進(jìn)行識(shí)別。具體的操作采用了R語(yǔ)言中的sentiment包。

R語(yǔ)言中的sentiment包在識(shí)別極性(polarity)時(shí),會(huì)先為每條推文的每種可能極性打分。即每條推文都有兩種可能性negative(消極、負(fù)向、否定)和positive(積極、正向、肯定)的得分。當(dāng)兩種極性得分相差較大時(shí),則極性擬合為得分較高的極性類(lèi)別。當(dāng)兩種極性得分相差不大時(shí),則擬合一種新的極性類(lèi)別,即neutral(中立)。

R語(yǔ)言中的sentiment包在識(shí)別情感時(shí),共有六種情感:anger(憤怒)、disgust(厭惡)、fear(恐懼)、joy(喜悅)、sadness(悲傷)和surprise(驚奇)。在分析時(shí)會(huì)先為每條推文的每種可能情感打分。當(dāng)六種情感可能性中有一種可能性的得分特別突出,那么該推文的實(shí)際情感就擬合為該類(lèi)別。如果六種情感可能性得分相差不大時(shí),則情感類(lèi)別擬合為unknow(未知)。如此可知,如果某條推文被擬合得到某一類(lèi)情感,則該情感一定是強(qiáng)烈的情感。

二、研究結(jié)果

1.涉華推文的主題分布

本研究采用LDA主題建模方法把80多萬(wàn)條涉華熱門(mén)英文推文凝聚為30個(gè)主題,各個(gè)主題的名稱(chēng)及其占所有主題的百分比如表1所示。

可以看到,涉華熱門(mén)推文中有關(guān)飲食的主題有三個(gè),根據(jù)場(chǎng)景的不同分別為“飲食與家庭生活”“飲食與娛樂(lè)”,以及“飲食與學(xué)校生活”,三個(gè)主題合計(jì)為10.98%。即有關(guān)中華飲食的推文所占比例最高,推特用戶(hù)中最關(guān)心的中國(guó)議題是飲食。

在飲食主題之后的占比數(shù)量多的五個(gè)主題依次是:“亞洲局勢(shì)”“美國(guó)總統(tǒng)選舉”“金融市場(chǎng)”“社會(huì)化媒體”,以及“經(jīng)濟(jì)增長(zhǎng)”,這五個(gè)主題累計(jì)百分比為26%,超過(guò)了四分之一 。

在國(guó)家形象研究中,常見(jiàn)的主題分類(lèi)是政治、經(jīng)濟(jì)、社會(huì)及文化的四分法,這也是傳統(tǒng)調(diào)查法和內(nèi)容分析方法比較經(jīng)常采用的分類(lèi)法。

按照政治、經(jīng)濟(jì)、社會(huì)及文化的四分法,本研究中利用主題模型生成的“亞洲局勢(shì)”“美國(guó)總統(tǒng)選舉”“地區(qū)爭(zhēng)端”“西藏話(huà)題”“媒介審查”“人權(quán)話(huà)題”“港臺(tái)話(huà)題”“政治丑聞”,以及“計(jì)劃生育”等九個(gè)主題屬于政治范疇,所占比例為32.6%。

屬于經(jīng)濟(jì)類(lèi)的主題包括“金融市場(chǎng)”“經(jīng)濟(jì)增長(zhǎng)”“奢侈品市場(chǎng)”“蘋(píng)果產(chǎn)品”“污染與健康”,以及“航天與探月工程”,共六項(xiàng),所占比例為20%。

屬于文化類(lèi)的包括“大熊貓與長(zhǎng)城”“閱讀與諺語(yǔ)”“好萊塢電影”“學(xué)校學(xué)習(xí)”“語(yǔ)言學(xué)習(xí)”“韓流”,以及“傳統(tǒng)醫(yī)學(xué)”,共七個(gè)主題,所占比例為21%。

屬于社會(huì)類(lèi)的主題包括“社會(huì)化媒體”“飲食與家庭生活”“自然災(zāi)害與治安”“飲食與娛樂(lè)”“飲食與學(xué)校生活”“奧運(yùn)會(huì)”“城市生活”,以及“籃球與足球”,共計(jì)八個(gè),所占比例為26.4%。

2.不同年份及不同議題的極性分析

通過(guò)極性分析,我們發(fā)現(xiàn)所分析的80多萬(wàn)條英文涉華熱門(mén)推文中,有54.81%的推文極性為積極正向的;消極負(fù)向的推文占31.99%;中立推文比例為13.20%。

歷時(shí)來(lái)看,2006年的數(shù)據(jù)因?yàn)閿?shù)量很少,忽略不記。從2007年到2013年各年度的極性變化是不大的。負(fù)面評(píng)價(jià)的標(biāo)準(zhǔn)差為1.87%,正面評(píng)價(jià)的標(biāo)準(zhǔn)差為1.32%,中性評(píng)價(jià)的變化范圍最小,標(biāo)準(zhǔn)差不到1%。

從變化的情況來(lái)看,2008年的推文積極正面的評(píng)價(jià)比例最低,為52%;消極負(fù)面評(píng)價(jià)的比例為35.65%,是歷年來(lái)最高的。2008年中國(guó)發(fā)生的重大事件包括北京奧運(yùn)會(huì)、汶川地震、毒奶粉事件,以及全球性的金融危機(jī)。

按照政治、經(jīng)濟(jì)、文化、社會(huì)四個(gè)大類(lèi)別來(lái)看,在政治類(lèi)議題中,積極正面的評(píng)價(jià)為54.73%,略低于經(jīng)濟(jì)、社會(huì)及文化議題中正面評(píng)價(jià)的比例。

3. 不同年份及不同議題的情感分析

總體來(lái)看,只有25.54%的推文表現(xiàn)出了強(qiáng)烈的情感。近四分之三的推文都沒(méi)有表現(xiàn)出強(qiáng)烈的情感,情感擬合為unknown。

歷時(shí)來(lái)看,隨著時(shí)間的推移,涉華熱門(mén)推文表現(xiàn)出強(qiáng)烈情感的比例越來(lái)越多。在2007年,只有20.1% 表達(dá)出了強(qiáng)烈的情感,而2013年,這個(gè)比例已經(jīng)提升到26.5%。這表明,就中國(guó)議題而言,推特用戶(hù)越來(lái)越傾向于表達(dá)出強(qiáng)烈的情感。

從所表達(dá)出來(lái)的情感來(lái)看,比例最高的情感是喜悅,占比14.19%;其次為憤怒,占3.49%;排在第三位的情感是難過(guò),比例為3.07%。

從居前兩位的情感joy和anger的變化來(lái)看,joy呈現(xiàn)出逐年提高的趨勢(shì),這說(shuō)明涉華熱門(mén)推文中,含有喜悅情感的比例越來(lái)越多;而anger呈現(xiàn)出小幅上下波動(dòng)的態(tài)勢(shì)。

從議題來(lái)看,社會(huì)類(lèi)和文化類(lèi)議題中表現(xiàn)出強(qiáng)烈情感的比例都在27%上下;而經(jīng)濟(jì)、政治類(lèi)議題中具有強(qiáng)烈情感的比例都不足25%。

三、結(jié)論

本研究著眼于推特上英文用戶(hù)對(duì)有關(guān)中國(guó)議題的呈現(xiàn),采用爬蟲(chóng)程序獲取數(shù)據(jù),利用NLP技術(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,采用主題建模和情感分析兩種技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理,得到以下結(jié)論:

1.從數(shù)量上看,英文涉華熱門(mén)推文的數(shù)量在逐年增加。表明世界對(duì)中國(guó)及中國(guó)相關(guān)事物的關(guān)注度在持續(xù)提高。

2.“飲食”成為英文涉華熱門(mén)推文中關(guān)注度最高的主題,超過(guò)十分之一的推文都與中國(guó)飲食有關(guān)。

3.從政治、經(jīng)濟(jì)、文化和社會(huì)四大類(lèi)議題來(lái)看,英文涉華熱門(mén)推文中政治類(lèi)主題所占比例最高。

4.英文涉華熱門(mén)推文總體上的極性以積極正向?yàn)橹???偟膩?lái)看,推文中只有四分之一表現(xiàn)出了明顯的情感,從表現(xiàn)出來(lái)的情感的情況來(lái)看,喜悅高居第一位,然后依次是生氣和難過(guò)。從各年度歷時(shí)來(lái)看,表現(xiàn)出喜悅情感的比例有上升的趨勢(shì)。

(本研究為中國(guó)傳媒大學(xué)亞洲傳媒中心資助項(xiàng)目“西方自媒體中的中國(guó)形象研究”的階段性成果)

「參考文獻(xiàn)」

1.張培晶、宋蕾:《基于LDA的微博文本主題建模方法研究述評(píng)》,《圖書(shū)情報(bào)工作》,2012年第12期。

2.趙妍妍等:《文本情感分析》,《軟件學(xué)報(bào)》,2010年第8期。

3.Hofmann T. (2001). Unsupervised learning by probabilistic latent semantic analysis [J]. Machine Learning, 42(1): 177-196.

4.Blei D, Ng A, Jordan M.(2003). Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003(3):993-1022.

5.OConnor, Brendan; Balasubramanyan, Ramnath; Routledge Bryan R.; and Smith, Noah A.. ‘ From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series(2010).Tepper School of Business. Paper 559.

猜你喜歡
極性推文熱門(mén)
徽州文化在社交媒體Twitter上的傳播研究
有機(jī)反應(yīng)極性機(jī)理試劑分類(lèi)的探索
特朗普上任至今發(fā)推文1.1萬(wàn)條
跟蹤導(dǎo)練(四)
特朗普推文哪條最招人煩
2009年熱門(mén)特色風(fēng)味小吃
鍵的極性與分子極性判斷的探究
有機(jī)物的溶解性規(guī)律
本月熱門(mén)產(chǎn)品報(bào)價(jià)
陵川县| 腾冲县| 托里县| 左云县| 吐鲁番市| 都江堰市| 开封市| 台中市| 铁力市| 鲁山县| 六枝特区| 阜南县| 九龙坡区| 双柏县| 阿瓦提县| 浪卡子县| 宝坻区| 中阳县| 博野县| 通州市| 松溪县| 商都县| 延边| 来宾市| 芜湖县| 新晃| 大悟县| 鞍山市| 资兴市| 五家渠市| 罗山县| 马关县| 阿拉善右旗| 清水县| 仪陇县| 长白| 承德县| 准格尔旗| 黄骅市| 安宁市| 娄底市|