摘要:隨著互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的飛速發(fā)展,新媒體平臺也隨之迅速發(fā)展,其中,抖音是最受高職大學生歡迎的新媒體平臺之一,對高職院校教育教學網(wǎng)絡(luò)輿情環(huán)境產(chǎn)生了巨大的影響,因此對高職院校的教育教學抖音輿情數(shù)據(jù)進行研究具有重要的意義。用Python編程技術(shù)對抖音平臺上的高職教育教學輿情數(shù)據(jù)進行抓取與可視化分析,為高職院校治理教育教學網(wǎng)絡(luò)輿情環(huán)境提供真實有效的數(shù)據(jù)支持。
關(guān)鍵詞:教育教學網(wǎng)絡(luò)輿情Python可視化
中圖分類號:TP311
PublicOpinionDataCaptureandAnalysisofTiktok"HigherVocationalEducationTeaching"BasedonPython
PENGJianZHOUYangfan
HunanFinancialandIndustrialVocational-TechnicalCollege,Hengyang,Hu’nanProvince,421002China
Abstract:WiththerapiddevelopmentoftheInternetandBigDatatechnology,newmediaplatformshavealsodevelopedrapidly.Amongthem,Tiktokisoneofthemostpopularnewmediaplatformsforhighervocationalcollegestudents,whichhasahugeimpactontheonlinepublicopinionenvironmentofhighervocationalcollegeeducationandteaching.Therefore,itisofgreatsignificancetostudytheTiktokpublicopiniondataofhighervocationalcollegeeducationandteaching.PythonprogramingtechnologyisusedtocaptureandvisuallyanalyzetheteachingpublicopiniondataofhighervocationaleducationonTiktokplatformand,soastoproviderealandeffectivedatasupportforhighervocationalcollegestomanagetheeducationandteachingnetworkpublicopinionenvironment.
KeyWords:Educationandteaching;Onlinepublicopinion;Python;Visualization
目前,抖音已成為網(wǎng)絡(luò)輿情傳播最廣泛的新媒體平臺之一,越來越多的高職大學生成為了抖音網(wǎng)絡(luò)輿情的傳播者,在諸多的輿情中,教育教學領(lǐng)域的輿情對高職大學生身心發(fā)展的影響尤為巨大,對抖音上的高職院校教育教學網(wǎng)絡(luò)輿情數(shù)據(jù)進行抓取和分析具有重要意義。針對傳統(tǒng)數(shù)據(jù)抓取方法存在抓取成功率小和時延長的問題,一種基于Python爬蟲技術(shù)的互聯(lián)網(wǎng)數(shù)據(jù)抓取方法已被提出,該方法的抓取成功率高,時延短[1]。使用網(wǎng)絡(luò)爬蟲對數(shù)據(jù)抓取后,需要對抓取的數(shù)據(jù)進行解析以獲取目標信息。使用Chrome抓包分析可以對動態(tài)頁面的少量信息進行獲取,而正則表達方式可以更高效地對頁面中大量的數(shù)據(jù)進行獲取[2]。已有研究以“安徽審計職業(yè)學院百度貼吧”為例,分析Python網(wǎng)絡(luò)爬蟲技術(shù)的實現(xiàn)原理,爬取貼吧內(nèi)的文本數(shù)據(jù),利用分詞、詞頻統(tǒng)計、詞云圖制作等技術(shù)進行數(shù)據(jù)分析,為校園相關(guān)部門輿情引導提供幫助和新的思路[3]。抖音是高職院校教育教學網(wǎng)絡(luò)輿情傳播最廣泛和最便捷的網(wǎng)絡(luò)平臺之一,而目前利用Python網(wǎng)絡(luò)爬蟲技術(shù)對高職院校教育教學領(lǐng)域的抖音網(wǎng)絡(luò)輿情數(shù)據(jù)的抓取與可視化分析方法都還沒有完備的實驗研究,因此,利用Python編程技術(shù)對抖音平臺上的高職院校網(wǎng)絡(luò)輿情數(shù)據(jù)進行抓取和可視化分析具有重要的研究價值。
1爬蟲論述
1.1爬蟲簡介
目前,人類已經(jīng)進入大數(shù)據(jù)時代,互聯(lián)網(wǎng)上分布著大量的網(wǎng)絡(luò)數(shù)據(jù),這些網(wǎng)絡(luò)數(shù)據(jù)對人們的生活產(chǎn)生了巨大的影響,為了快速與及時地獲取網(wǎng)絡(luò)數(shù)據(jù),網(wǎng)路爬蟲技術(shù)也隨之應(yīng)運而生。網(wǎng)絡(luò)爬蟲是一種按照網(wǎng)絡(luò)協(xié)議編寫相應(yīng)代碼來自動抓取萬維網(wǎng)數(shù)據(jù)的一種程序。該程序一共包含三個模塊,分別是數(shù)據(jù)請求、數(shù)據(jù)解析和數(shù)據(jù)保存[。本研究利用Python程序?qū)崿F(xiàn)爬蟲技術(shù)。
1.2爬蟲的意義
隨著互聯(lián)網(wǎng)與大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)越來越受到高職院校青年大學生的關(guān)注,網(wǎng)絡(luò)輿情的傳播對大學生的身心健康發(fā)展產(chǎn)生了巨大的影響。由于網(wǎng)絡(luò)數(shù)據(jù)具有數(shù)據(jù)量大、價值密度低、數(shù)據(jù)處理速度快的特點,利用爬蟲技術(shù)來及時獲取所需數(shù)據(jù),可以為后期決策提供支持與依據(jù)。
網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中發(fā)揮著巨大的作用,極大地促進了網(wǎng)頁數(shù)據(jù)更新的及時性和全面性,展開對網(wǎng)絡(luò)爬蟲技術(shù)的相關(guān)研究和分析,有利于推動搜索引擎的優(yōu)化升級,以便實現(xiàn)更好地為網(wǎng)絡(luò)社會服務(wù)。
在網(wǎng)絡(luò)數(shù)據(jù)的獲取中,網(wǎng)絡(luò)爬蟲技術(shù)發(fā)揮著重要的作用,例如,爬蟲所獲得的數(shù)據(jù)不僅可以為教育、金融、醫(yī)療等方面的研究提供依據(jù),還可以實現(xiàn)數(shù)據(jù)的實時更新,確保信息的時效性。
1.3Python爬蟲的執(zhí)行流程
在網(wǎng)絡(luò)爬蟲技術(shù)中,由于Python的兼容性強,因利用Python實現(xiàn)網(wǎng)絡(luò)爬蟲技術(shù)逐漸成為主流方法。利用Python編程爬取網(wǎng)絡(luò)數(shù)據(jù)主要分為以下步驟:首先,利用Python的requests庫的get或者post方法向目標網(wǎng)站發(fā)出HTTP請求爬取網(wǎng)頁源代碼數(shù)據(jù),然后根據(jù)網(wǎng)頁源代碼數(shù)據(jù)的特點與格式調(diào)用相應(yīng)的解析函數(shù)對頁面源代碼數(shù)據(jù)進行解析以提取所需的目標字段數(shù)據(jù),最后將提取的目標字段數(shù)據(jù)進行預處理后保存到本地文件或數(shù)據(jù)庫中。
2數(shù)據(jù)抓取與可視化分析實驗
2.1實驗內(nèi)容
本研究利用爬蟲抓取了抖音平臺以“高職教育教學”關(guān)鍵詞的短視頻輿情數(shù)據(jù),并將爬取的數(shù)據(jù)進行了提取,提取的字段為標題、點贊數(shù)、評論數(shù)、收藏數(shù)、轉(zhuǎn)發(fā)數(shù)、發(fā)布時間,最終對提取后的字段數(shù)據(jù)進行可視化分析。
2.2實驗步驟
首先,確定爬蟲采集的高職教育教學網(wǎng)絡(luò)輿情數(shù)據(jù)的抖音平臺鏈接;其次,獲取數(shù)據(jù)來源網(wǎng)站源代碼數(shù)據(jù),并對源代碼數(shù)據(jù)進行解析;然后,提取解析數(shù)據(jù)中的標題、收藏數(shù)、評論數(shù)、點贊數(shù)、轉(zhuǎn)發(fā)數(shù)、發(fā)布時間字段的短視頻輿情數(shù)據(jù);最后,對抖音短視頻輿情數(shù)據(jù)進行可視化分析。
2.2.1網(wǎng)頁源碼數(shù)據(jù)抓取
在網(wǎng)絡(luò)爬蟲技術(shù)中,由于Python的兼容性強,因此利用Python實現(xiàn)網(wǎng)絡(luò)爬蟲技術(shù)逐漸成為主流方法[4]。利用Python編程爬取網(wǎng)絡(luò)數(shù)據(jù)一般流程為:首先,利用Python的requests庫的get或者post方法向目標網(wǎng)站發(fā)出HTTP請求爬取網(wǎng)頁源代碼數(shù)據(jù),然后根據(jù)網(wǎng)頁源代碼數(shù)據(jù)的特點與格式調(diào)用相應(yīng)的解析函數(shù)對頁面源代碼數(shù)據(jù)進行解析以提取所需的目標字段數(shù)據(jù),最后將提取的目標字段數(shù)據(jù)進行預處理后保存到本地文件或數(shù)據(jù)庫中。在本研究數(shù)據(jù)抓取中,首先,打開抖音官方網(wǎng)站,搜索以“高職教育教學”關(guān)鍵詞的抖音短視頻輿情信息頁面,確定抖音平臺的高職院校網(wǎng)絡(luò)輿情數(shù)據(jù)鏈接。然后,按快捷鍵F12打開網(wǎng)頁檢查功能,確定爬蟲請求頭headers中的一系列參數(shù),其中就包括相應(yīng)的referer、User-Agent及cookie所對應(yīng)的內(nèi)容,還有搜索請求參數(shù)中params的一系列參數(shù),其中包括搜索關(guān)鍵詞keyword“高職院校”、頁碼偏移量offset及每頁記錄條數(shù)count。最后,利用Python的requests庫的get方法將上一步確定的參數(shù)傳入方法中并向目標網(wǎng)頁請求數(shù)據(jù),請求數(shù)據(jù)一開始執(zhí)行之后就會翻頁爬取數(shù)據(jù),第一頁的頁碼偏移量offset為0,記錄條數(shù)count為16,從第二頁開始,之后每一頁的頁碼偏移量offset都比上一頁增加10,記錄條數(shù)count保持為10不變。由于網(wǎng)絡(luò)爬蟲具有獲取數(shù)據(jù)速度快、頻率高的特點,一般的網(wǎng)站后臺服務(wù)器會設(shè)置反爬蟲機制以限制爬蟲頻繁請求網(wǎng)站數(shù)據(jù),從而導致爬蟲程序無法繼續(xù)順利進行。由于目標網(wǎng)站存在反爬機制,所爬取的數(shù)據(jù)量有限,待爬到一定數(shù)據(jù)量后程序?qū)⒆詣咏K止[5]。
2.2.2網(wǎng)頁源碼數(shù)據(jù)解析與提取
通過上一步執(zhí)行后,已獲得關(guān)鍵詞為“高職教育教學”的抖音短視頻輿情網(wǎng)頁源代碼數(shù)據(jù),該數(shù)據(jù)的格式為json格式,該步驟中調(diào)用json方法將請求得到的json格式的網(wǎng)頁源代碼數(shù)據(jù)轉(zhuǎn)換成字典,通過對字典中的鍵進行索引可以提取相應(yīng)的標題數(shù)、收藏數(shù)、評論數(shù)、點贊數(shù)、轉(zhuǎn)發(fā)數(shù)、發(fā)布時間目標字段信息。
2.2.3保存數(shù)據(jù)
通過上一步執(zhí)行后,已獲得關(guān)鍵詞為“高職教育教學”的抖音短視頻輿情目標字段數(shù)據(jù),該步驟中調(diào)用csv庫的writer接口將標題、收藏數(shù)、評論數(shù)、點贊數(shù)、轉(zhuǎn)發(fā)數(shù)、發(fā)布時間數(shù)據(jù)寫入到csv文件中,前10條數(shù)據(jù)展示如表1所示。
2.2.4分詞與去停用詞
本研究為了繪制以“高職教育教學”為關(guān)鍵詞的抖音短視頻標題文本中的詞語與詞頻分布的詞云圖,需要對標題數(shù)據(jù)進行分詞與去停用詞處理。在分詞器中,Jieba是優(yōu)秀的中文分詞器,它依靠中文詞庫確定漢字之間的關(guān)聯(lián)概念,將漢字間概率大的字符串組成詞組,形成分詞結(jié)果[6]。對標題數(shù)據(jù)進行分詞與去停用詞處理的步驟為:首先,采用jieba分詞工具的lcut方法對標題文本進行中文分詞處理,處理后直接返回詞語列表。然后,在哈工大的中文停用詞庫補充“高職教育教學”為關(guān)鍵詞中的詞語后利用補充后的停用詞庫去除分詞后詞語列表中的停用詞以提高數(shù)據(jù)可視化分析的質(zhì)量。
2.2.5數(shù)據(jù)可視化
詞云圖是一種計算機可視化技術(shù),用于文檔摘要的文本挖掘,簡單且用戶友好,被廣泛用于各種現(xiàn)實生活中的應(yīng)用程序,而不受領(lǐng)域限制,將給定原始文本或文檔中最突出的關(guān)鍵字投影到視覺畫布上[7]。本研究繪制詞云圖具體步驟如下:首先,利用collections庫中的Counter模塊對已完成分詞和去停用詞處理的抖音短視頻標題列數(shù)據(jù)進行詞頻統(tǒng)計。其次,將詞頻統(tǒng)計結(jié)果轉(zhuǎn)換成字典類型,從而得到以詞語與詞頻所對應(yīng)的鍵值對構(gòu)成的字典。再次,將字典輸入到wordcloud庫的generate_from_frequencies函數(shù)中進行繪制詞云圖。最后,使用Matplotlib庫輸出顯示以“高職教育教學”為關(guān)鍵詞的抖音短視頻標題文本中詞頻最高的前50個詞語的詞云圖,繪制的詞云圖如圖1所示。
餅圖是在媒體上非常容易理解和受歡迎的常見圖形[8]。本研究繪制餅圖具體步驟如下:首先,采用字符串匹配方法將解析與提取的目標數(shù)據(jù)中的標題字段劃分為素質(zhì)、專業(yè)、比賽、考試、科研五個不同類別的教育教學標簽,這五個標簽將作為餅圖扇形的分類標簽。其次,調(diào)用pandas庫的groupby方法按照領(lǐng)域標簽進行分組。再次,調(diào)用mean方法計算不同領(lǐng)域類別分組下的抖音短視頻的評論數(shù)的平均值,并將每個評論數(shù)的平均值除以平均值和結(jié)果保留小數(shù)點后兩位來實現(xiàn)歸一化處理。最后,將計算不同類別分組下的抖音短視頻的歸一化后的平均評論數(shù)和上述五個標簽傳入matplotlib庫的pie方法中,從而繪制高職院校不同領(lǐng)域抖音短視頻的平均評論數(shù)占比分布的餅圖。繪制的餅圖如圖2所示。
2.3實驗結(jié)果分析
從圖1中可以看出,高職院校教育教學領(lǐng)域抖音短視頻的“單招”“高考”詞語較為明顯突出,是兩個熱度非常高的詞語,在抖音短視頻輿情傳播中單招和高考相關(guān)的短視頻相比其他詞語相關(guān)的短視頻出現(xiàn)的頻率會更高。從圖2中可以看出,高職院校教育教學在專業(yè)、考試方面的抖音短視頻平均評論數(shù)所占比例較大,在素質(zhì)、科研與比賽方面的抖音短視頻平均評論數(shù)所占比例較小。
3結(jié)論
本研究以抖音網(wǎng)站的短視頻數(shù)據(jù)為數(shù)據(jù)源,使用Python爬蟲對以“高職教育教學”為關(guān)鍵詞的抖音短視頻的輿情數(shù)據(jù)進行了爬取。然后對所爬取的數(shù)據(jù)進行解析與提取。通過繪制高職院校抖音短視頻標題中詞頻最高的前50個詞語的詞云圖進行可視化分析,得出結(jié)論為:“單招”和“高考”是非常明顯突出的詞語,這里說明單招與高考是高職院校非常關(guān)注的教育教學考試,因此對單招與高考方面的網(wǎng)絡(luò)輿情加強監(jiān)管與治理不但有利于高職院校自身的建設(shè)與發(fā)展,而且有利于教育引導準備參加考試的考生樹立誠信公正的考試觀念。通過高職院校不同領(lǐng)域抖音短視頻的平均評論數(shù)占比分布餅圖進行可視化分析,得出結(jié)論為:高職院校在考試、專業(yè)教育教學方面的抖音短視頻平均評論數(shù)占的比例較大,在素質(zhì)、科研與比賽方面的抖音短視頻平均評論數(shù)占的比例較小,建議高職院校在教育教學上應(yīng)持續(xù)加強專業(yè)、考試方面的網(wǎng)絡(luò)輿情監(jiān)控與治理,同時加大力度對素質(zhì)、科研與比賽方面的教學建設(shè)以提高在網(wǎng)絡(luò)輿情上的關(guān)注度,從而教育和促進高職大學生在專業(yè)技能與人文素質(zhì)方面全面發(fā)展,激發(fā)青年大學生努力學習、積極探索和敢于創(chuàng)新的潛能。
參考文獻
[1] 王芳.基于Python爬蟲技術(shù)的互聯(lián)網(wǎng)數(shù)據(jù)抓取方法設(shè)計[J].信息與電腦(理論版),2023,35(7):41-43.
[2] 溫婭娜,袁梓梁,何詠宸,等.基于Python爬蟲技術(shù)的網(wǎng)頁解析與數(shù)據(jù)獲取研究[J].現(xiàn)代信息科技,2020,4(1):12-13,16.
[3] 丁然.基于Python爬蟲技術(shù)的高校網(wǎng)絡(luò)輿情數(shù)據(jù)分析研究:以“安徽審計職業(yè)學院百度貼吧”為例[J].現(xiàn)代信息科技,2023,7(5):106-108,112.
[4] 古志敏,吳明珠.基于Python網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[J].電腦編程技巧與維護,2023(9):163-166.
[5] 胡海潮.基于新浪微博的爬蟲程序設(shè)計與實現(xiàn)[J].無線互聯(lián)科技,2018,15(9):40-42.
[6] 唐宇.基于信息熵的中文地質(zhì)文本分詞[D].長沙:中南大學,2023.
[7] RAJANVM,RAMANUJANA.ArchitectureofaSemanticWordCloudVisualization[J].Springer,Cham,2021.
[8] BESSLERLR.PieChartsandDonutCharts[J].Apress,Berkeley,CA,2023,4:187-220.