王藝靜 錢清
摘要:文章針對微博輿情事件,搜集相關(guān)討論并劃分不同主題進(jìn)行分析,結(jié)合情感分析與LDA主題模型,把握網(wǎng)民對輿情事件的不同態(tài)度,為國貨及相關(guān)領(lǐng)域提供借鑒意義。文章搜集微博話題“H&M禁用新疆棉”的相關(guān)評論,處理數(shù)據(jù)得到高頻詞,進(jìn)一步將話題細(xì)化為兩個部分,分別繪制詞云圖并計算TF-IDF值,使用Snow?NLP計算情感分?jǐn)?shù),制作情感分?jǐn)?shù)圖。同時進(jìn)行LDA主題模型劃分主題,深入掌握各主題下的討論熱點。結(jié)果表明,網(wǎng)民不僅圍繞“H&M禁用新疆棉”本身話題進(jìn)行討論,同時對李寧等國貨進(jìn)行討論,通過情感分析得出網(wǎng)民對“禁用新疆棉”事件的情感態(tài)度持負(fù)面,對國貨產(chǎn)品的情感態(tài)度持正面,但針對國貨的相關(guān)討論,較多關(guān)注明星及相關(guān)代言人,未真正觸及國貨產(chǎn)品本身。
關(guān)鍵詞:新疆棉;微博;輿情事件;情感分析;LDA;國貨
中圖分類號:G206 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-8883(2022)05-0037-03
基金項目:本論文為貴州省科技計劃項目研究成果,項目編號:黔科合基礎(chǔ)-ZK[2021]一般312;貴州省普通高等學(xué)校青年科技人才成長項目研究成果,項目編號:黔教合KY字[2021]136
一、引言
隨著經(jīng)濟(jì)社會的發(fā)展和科技的進(jìn)步,互聯(lián)網(wǎng)已深入人們的日常生活,截至2021年12月,互聯(lián)網(wǎng)普及率達(dá)73%,較2020年12月提升2.6%[1]。微博集娛樂、社交、營銷于一身,以其無門檻、傳播快等特點深受大眾喜愛,其每天都會產(chǎn)生大量的數(shù)據(jù),成為影響力日益增強(qiáng)的網(wǎng)絡(luò)輿論傳播中心[2]。因此,搜集這些信息進(jìn)行分析,了解網(wǎng)民的立場和情感態(tài)度,對把握網(wǎng)絡(luò)輿情有一定的參考價值。
隨著經(jīng)濟(jì)的快速發(fā)展,人們對生活質(zhì)量的要求越來越高,主要圍繞吃穿住行展開一系列的活動。然而,國際知名服飾品牌H&M在網(wǎng)絡(luò)上突然宣布禁用新疆棉,此消息一出,網(wǎng)民紛紛在微博相關(guān)話題下發(fā)表自己的觀點。
二、相關(guān)研究
(一)情感分析
情感分析是通過分析帶有褒貶傾向的主觀文本,挖掘其中的觀點,以更加直觀的形式呈現(xiàn)給大家[3]。
近年來,國內(nèi)情感分析大都圍繞微博熱點話題,如安璐等[4]以突發(fā)公共衛(wèi)生事件“寨卡病毒”為例,搜集微博相關(guān)話題,分析不同主題下的情感強(qiáng)度。唐曉波等[5]搜集微博中有關(guān)魅族手機(jī)的評論,進(jìn)行情感詞和特征詞的匹配,得出網(wǎng)民對手機(jī)的使用感受。現(xiàn)有的輿情情感分析已有了一定的成果,但尚未有針對國貨及“禁用新疆棉”事件的情感分析。
(二)主題模型
主題模型是一種通過海量文本挖掘出文字背后隱藏的語義主題信息的統(tǒng)計模型。LDA在主題模型中占有非常重要的地位,目前劉干等[6]提出改進(jìn)LDA主題模型,研究微博熱點中的話題分布。邱均平等[7]指出,基于LDA模型搜集知網(wǎng)中的相關(guān)文獻(xiàn),有利于相關(guān)研究人員了解該領(lǐng)域的發(fā)展。通過LDA進(jìn)行主題構(gòu)建,得到詞匯對應(yīng)的主題,可以更好地對數(shù)據(jù)進(jìn)行分析。
三、數(shù)據(jù)處理
(一)數(shù)據(jù)采集及處理
依托Python自定義編程,有目標(biāo)地搜集微博話題“H&M禁用新疆棉”的相關(guān)評論,爬取2021年3月24日—4月24日之間的評論數(shù)據(jù),共計21054條,進(jìn)行數(shù)據(jù)清洗,最終得到有效數(shù)據(jù)17449條。
(二)數(shù)據(jù)分析
對有效數(shù)據(jù)進(jìn)行高頻詞統(tǒng)計分析,如表1所示,除卻新疆棉本身事件的相關(guān)討論,“李寧”“肖戰(zhàn)”“代言人”“國貨”等詞語也是網(wǎng)民討論的熱點。因此將數(shù)據(jù)細(xì)化為兩個部分,一部分是關(guān)于“H&M禁用新疆棉”事件本身的討論,另一部分是由輿情事件引發(fā)的國貨相關(guān)討論,之后的實驗也將分別從兩個部分入手分析。
四、實驗分析
(一)TF-IDF
TF-IDF可以過濾掉常見的詞語,保留更為重要的詞語。一個詞越重要,TF-IDF值就越高[8]。
展示兩個部分下排名前十的重要性詞語。有關(guān)H&M事件(見圖1)的重要性排名,前三分別是“新疆棉”“中國”“倒閉”,其中“新疆棉”的重要程度為0.9565,遠(yuǎn)超其他詞語。一方面網(wǎng)民紛紛譴責(zé)H&M禁用新疆棉的行為,另一方面網(wǎng)民自發(fā)表示“我支持新疆棉”。與國貨相關(guān)(見圖2)的重要性排名,前三分別是“李寧”“肖戰(zhàn)”“國貨”。李寧率先支持新疆棉,作為國貨代表順利出圈,成為眾多網(wǎng)民討論的目標(biāo),緊接著李寧宣布肖戰(zhàn)為全球代言人,因此有關(guān)肖戰(zhàn)的評論也越來越多。
(二)情感分析
情感分?jǐn)?shù)值在0~1之間,當(dāng)結(jié)果大于0.5,情感較為積極,當(dāng)結(jié)果小于0.5,情感較為消極。對兩個部分中的每條評論進(jìn)行情感打分,得到最終平均值,其中關(guān)于H&M事件的情感平均值為0.433,有關(guān)國貨討論的情感平均值為0.746。繪制情感分?jǐn)?shù)波動圖,有關(guān)H&M事件(見圖3)的評論大都偏負(fù)面,而有關(guān)國貨(見圖4)的評論大都偏積極,部分消極分?jǐn)?shù)是針對價格提高及不喜歡代言人的評論。
(三)LDA主題模型
一個詞可能對應(yīng)多個主題,通過LDA細(xì)化不同主題,能夠更好地對數(shù)據(jù)進(jìn)行分析和挖掘。
通過LDA主題劃分,H&M事件的評論(見表2)分為三個主題,分別是產(chǎn)品質(zhì)量、退出市場及對道歉聲明的討論。從中可知,不少網(wǎng)民要求H&M道歉,并紛紛表示之前購買的該品牌的衣服質(zhì)量差;其次認(rèn)為H&M做法不尊重中國消費(fèi)者,要求H&M退出中國市場;隨后H&M發(fā)表道歉聲明,但網(wǎng)民并不滿意,情緒較為負(fù)面。
有關(guān)國貨的討論(見表3)劃分為兩個主題,分別是對國貨本身的討論及對代言人的討論。李寧作為國貨代表者,成為網(wǎng)民討論的重點,不少人表示李寧加油,支持國貨。隨著李寧宣布肖戰(zhàn)為全球代言人,討論從國貨產(chǎn)品轉(zhuǎn)移到了明星本身,不少人對代言人發(fā)表看法。
五、實驗結(jié)果及相關(guān)建議
針對新疆棉這一事件,搜集網(wǎng)民的微博評論,進(jìn)行情感分析,把握網(wǎng)民對事件的不同態(tài)度,進(jìn)行主題構(gòu)建,可以深入挖掘各主題下的討論熱點。
(一)實驗結(jié)果
結(jié)果表明,網(wǎng)民對H&M事件的評論大多持負(fù)面態(tài)度,要求H&M退出中國市場且不會再購買旗下產(chǎn)品。針對國貨的討論大多持正面態(tài)度,希望國貨加油,但在李寧的相關(guān)評論中,網(wǎng)民討論的熱點更多地放在了代言人身上,本應(yīng)當(dāng)以產(chǎn)品及其質(zhì)量出圈的國貨商品,反被明星的熱度壓了一頭。一部分網(wǎng)民表示支持,認(rèn)為明星效應(yīng)能提升銷量;另一部分網(wǎng)民則認(rèn)為,明星代言會讓品牌方漲價,忽視自身產(chǎn)品的發(fā)展。
(二)相關(guān)建議
對于輿情事件本身,相關(guān)部門應(yīng)正確把握輿論走向,避免造謠輿論充斥網(wǎng)絡(luò)環(huán)境,引發(fā)社會恐慌;網(wǎng)民自身應(yīng)當(dāng)理性發(fā)表觀點,不盲目跟風(fēng),合理消費(fèi);國貨品牌應(yīng)當(dāng)提高自身硬實力,加強(qiáng)創(chuàng)新和品牌設(shè)計,不應(yīng)當(dāng)過多關(guān)注明星代言,忽視產(chǎn)品的發(fā)展。
六、結(jié)語
隨著科技的不斷進(jìn)步,網(wǎng)絡(luò)已深入人們的日常生活,網(wǎng)民可以針對不同事件發(fā)表自己的看法。“H&M禁用新疆棉”事件極大地傷害了中國消費(fèi)者的情感,引爆了網(wǎng)絡(luò)輿情,同時國民開始對國貨進(jìn)行思考。分析這一輿情事件,一方面可以把握網(wǎng)民對H&M品牌方的消極抵制態(tài)度,另一方面可以了解到明星效應(yīng)為國貨帶來的熱度。國貨應(yīng)當(dāng)加強(qiáng)創(chuàng)新設(shè)計,增強(qiáng)自身吸引力,實現(xiàn)長久發(fā)展。
參考文獻(xiàn):
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心.第49次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL].中國互聯(lián)網(wǎng)絡(luò)信息中心,http://www.cnnic.cn/ hlwfzyj/hlwxzbg/hlwtjbg/202202/P020220407403488048001.pdf,2022-02-25.
[2] 紀(jì)雪梅.特定事件情境下中文微博用戶情感挖掘與傳播研究[D].天津:南開大學(xué),2014.
[3] 毛龍龍.基于LDA模型的微博情感分析技術(shù)研究[D].蘭州:西北師范大學(xué),2015.
[4] 安璐,吳林.融合主題與情感特征的突發(fā)事件微博輿情演化分析[J].圖書情報工作,2017,61(15):120-129.
[5] 唐曉波,蘭玉婷.基于特征本體的微博產(chǎn)品評論情感分析[J].圖書情報工作,2016,60(16):121-136.
[6] 劉干,林杰豪,翟雯熠.基于中心詞和LDA的微博熱點話題發(fā)現(xiàn)研究[J].情報雜志,2021,40(5):143-148.
[7] 邱均平,沈超.基于LDA模型的國內(nèi)大數(shù)據(jù)研究熱點主題分析[J].現(xiàn)代情報,2021,41(9):22-31.
[8] 施聰鶯,徐朝軍,楊曉江. TFIDF算法研究綜述[J].計算機(jī)應(yīng)用,2009,29(6):167-170.
作者簡介 王藝靜,碩士在讀,研究方向:信息資源管理。錢清,博士,副教授,研究方向:數(shù)據(jù)分析、信息可視化分析。