朱鳳山
摘要
我國的智慧校園建設和數(shù)字化校園建設已經(jīng)持續(xù)多年,積累的相當數(shù)量的數(shù)字化信息,反映了各學校發(fā)展歷程中的關切點。校園在線新聞是數(shù)字化校園與智慧校園建設的組成部分,建立新聞主題分析模型,對在線新聞進行智能化的挖掘、統(tǒng)計和分析,提供相應參考數(shù)據(jù),有利于智慧校園建設和完善。新聞主題分析模型運用Python編程語言實現(xiàn)爬蟲程序,建立數(shù)據(jù)獲取模塊,經(jīng)清洗和結構化處理后,借助HanLp技術進行詞語切分,實現(xiàn)中文語法分詞,統(tǒng)計、分析在線新聞的隱含信息和潛在價值。最后使用該分析模型針對某高校近五年新聞數(shù)據(jù),按照時間和主題進行了分析和匯總
【關鍵詞】在線新聞 Python HanLP 主題分析模型
1 引言
智慧校園是在本世紀初,全球進入信息化大背景下,我國在十二五規(guī)劃中明確提出來的,它以數(shù)字校園建設與發(fā)展為基本出發(fā)點與落腳點。2015年國務院頒發(fā)了《關于積極推進“互聯(lián)網(wǎng)+”行動的指導意見》,進一步明確要求加快推進互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等相關技術的創(chuàng)新應用,推動國家大數(shù)據(jù)戰(zhàn)略和數(shù)據(jù)資源開放共享?!盎ヂ?lián)網(wǎng)+”行動引起了社會各行業(yè)、領域的廣泛探討,教育領域所提倡的智慧校園也包含在內。
隨著大數(shù)據(jù)時代的到來,對數(shù)據(jù)進行分析、整理和歸納,從而為決策者提供決策支持,己受到各行各業(yè)的廣泛關注的。國內外的很多研究者已經(jīng)對如何高效利用大數(shù)據(jù)進行了廣泛和深入的研究。高校門戶網(wǎng)站是高校數(shù)字化校園與智慧校園建設的組成部分,承擔著對外宣傳的重任,同時又是在校師生獲取信息的重要途徑??茖W、合理、高效的門戶網(wǎng)站可以作為高校對外展示的一張名片,它反映了高校的信息化程度,是高校軟實力的體現(xiàn)。因此,借鑒大數(shù)據(jù)分析技術,構建在線校園新聞主題分析模型,對高校在線新聞主題進行挖掘、分析、統(tǒng)計,對高校開展信息化建設和智慧校園建設都有積極意義。
智慧校園建設將成為教育信息化的最終形態(tài)。李有增認為智慧校園是融合提升高校教學、管理和服務的新模式,是教育信息化的高級形態(tài)。智慧校園所提倡的智慧,其內涵不是簡單的數(shù)字信息化,而是創(chuàng)新和創(chuàng)造。建設智慧校園要結合云計算和大數(shù)據(jù)分析等科研技術,有效的對各種資源進行整合。在線校園新聞主題分析模型就是以大數(shù)據(jù)分析為基礎,對高校所發(fā)布到門戶網(wǎng)站上的校園新聞進行主題挖掘和分析,提供反饋結果,用以提升在線校園新聞管理的智慧程度。
2 分析模型的構建
在線新聞主題分析模型依據(jù)所加工數(shù)據(jù)的流向劃分,主要包括數(shù)據(jù)獲取與結構化處理,中文分詞處理,統(tǒng)計與分析,可視化呈現(xiàn)四個環(huán)節(jié),如圖1所示。
2.1 數(shù)據(jù)的獲取與結構化處理
鑒于校園網(wǎng)新聞內容都是以HTML文本方式呈現(xiàn),分析模型在獲取數(shù)據(jù)時采用Python語言編寫的“爬蟲”來完成。Python編寫“爬蟲”程序時可以自行設計功能函數(shù),通過多線程機制優(yōu)化運行;也可以借助成熟的函數(shù)庫或框架,如Beautiful Soup、Scrapy等。在本模型中采用的是前者。
為了讓“爬蟲”程序比較穩(wěn)健,在實現(xiàn)過程中采取相應策略抵抗“反爬蟲”程序。通過URL訪問HTML頁面時,動態(tài)更改user-agent,偽造用戶代理,以防止服務器封殺。控制“爬蟲”程序執(zhí)行速率,隨機每1~5秒執(zhí)行一次爬取操作。讀取到頁面內容后,進行數(shù)據(jù)類型識別,如果是新聞信息數(shù)據(jù),分發(fā)到數(shù)據(jù)清洗與整理模塊;如果是新的頁面URL鏈接,加入URL列表集合?!芭老x”程序從入口頁面開始之后,不斷從URL列表中提取新的頁面,爬取所需內容,并進行標記,以防止重復爬取。結構化處理模塊讀取新聞信息以及相關屬性,如新聞發(fā)布日期、發(fā)布者等,重新組織為結構化數(shù)據(jù),借助pymysql模塊存入Mysql數(shù)據(jù)庫。由于所需采集數(shù)據(jù)具有很強的規(guī)律性,使用“爬蟲”程序提取URL時,可以屏蔽無關鏈接,避免Python程序執(zhí)行時耗費很長時間。如果需要處理的URL種類較多,且無固定分組模式,可以借助Python的多進程或多線程技術,采用緩存優(yōu)化和并發(fā)性訪問,從而可以提升執(zhí)行性能。
2.2 新聞主題的分詞
中文分詞是基于HTML頁面數(shù)據(jù)挖掘的前提。按照分詞算法的不同,可以分為基于字符串匹配算法、基于理解的算法和基于統(tǒng)計的算法。根據(jù)分詞與詞性標注是否融合的不同,又可分為單純分詞的非融合算法和分詞與標注同時進行的融合算法。目前,比較流行的中文分詞算法是基于統(tǒng)計模型的機器學習方法。
在新聞主題分析模型中,采用的分詞算法是由HanLP封裝的。HanLP是由一系列模型與算法組成的開發(fā)工具包,用于提供自然語言處理技術在軟件開發(fā)中的應用[4]。HanLP提供了多種分詞算法的實現(xiàn),如最短路分詞、N-最短路分詞、CRI分詞等,中心思想是基于統(tǒng)計的自然語言處理。它較為完善的實現(xiàn)了詞法分析、句法分析和語義理解等功能。HanLP工具包同時具備架構清晰、語料時新、可自定義詞典等特點,hanlp.properties配置文件想具體信息如下,其中mywords.txt文件即為自定義的詞典。
root=E:/eclipseSpace/test/
CoreDictionaryPath=data/dictionary/CoreNatureDictionary.txt
BiGramDictionaryPath=data/dictionary/CoreNatureDictionary.ngram.txt
CoreStopWordDictionaryPath=data/dictionary/stopwords.txt
CoreSynonymDictionaryDictionaryPath=data/dictionary/synonym/CoreSynonym.txt
PersonDictionaryPath=data/dictionary/person/nr.txl
PersonDictionaryTrPath=data/dictionary/person/nr.tr.txt
TraditionalChineseDictionaryPath=data/dictionary/tc/TraditionalChinese.txt
CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt;mywords.txt;現(xiàn)代漢語補充詞庫.txt;全國地名大全.txt ns;人名詞典.txt;機構名詞典.txt;地名.txt
ns;data/dictionary/person/nrf.txt.nrf
CRFSegmentModelPath=data/model/segment/CR]SegmentModel.txt
HMMSegmentModelPath=data/model/segment/HMMSegmentModel.bin
ShowTermNature=true
2.3 統(tǒng)計分析與可視化呈現(xiàn)
分析模型的最終目的是對獲取到的數(shù)據(jù)進行統(tǒng)計、分析,并予以呈現(xiàn)??梢暬尸F(xiàn)利用數(shù)據(jù)窗口的直觀、全面,對挖掘出的數(shù)據(jù),通過視覺化,把信息變成了一種信息地圖,避免迷失在數(shù)字信息中時。數(shù)據(jù)信息地可視化呈現(xiàn),在大數(shù)據(jù)應用逐漸普及的情況下,顯得尤為重要。
統(tǒng)計和分析模塊主要從頻度分析、主題分析和熱度分析三個方面展開。頻度分析是對特定時間段內,在線新聞發(fā)布數(shù)量的統(tǒng)計和分析;主題分析是對特定時間段內,所發(fā)布在線新聞的主題進行統(tǒng)計和分析;熱度分析是對主題分析結果的進一步挖掘,尋找特定時間段內在線新聞的熱點、關切點,它能反應高校比較重視的事件,體現(xiàn)高校管理的發(fā)展與變化趨勢。
在實現(xiàn)可視化呈現(xiàn)時,選擇Highcharts圖標庫。它是一套用Javascript語言編寫實現(xiàn)的,支持所有主流瀏覽器和移動平臺(android、iOS等),開源免費的輕量JS庫。Highcharts可以較為簡單的在Web頁面或Web應用程序中添加具有交互性的圖表,即為方便的呈現(xiàn)數(shù)據(jù)。
3 分析模型的應用
為檢驗在線校園新聞主題分析模型的應用效果,選擇華北某省屬高校的在線校園新聞進行實踐應用測試。使用Python編寫的“爬蟲”程序,共獲取數(shù)據(jù)4193條,時間跨度為2012-06-18到2018-06-01。為了便于統(tǒng)計和分析,截取2013-01-01到2017-12-31之間五年的數(shù)據(jù),共計3687條數(shù)據(jù),進行主題分詞,頻度分析和熱度分析。
新聞主題的獲取較為完善、清晰,沒有混入其他文本信息和HTML元素,說明Python程序的執(zhí)行較為穩(wěn)定,預定模式匹配比較成功。
3.1 新聞發(fā)布頻度分析
在被選數(shù)據(jù)集合中,該高校在線新聞發(fā)布量為2013年423篇,2014年864篇,2015年774篇,2016年739篇,2017年887篇,整體趨勢為正向增長,如圖2所示。在大力推廣數(shù)字化校園建設,智慧校園建設的進程中,校園新聞可以作為傳播和反映校園文化精神的載體。校園新聞可以服務于大學文化建設,同時可以作為校園文化建設的手段。積極、合理、適度的校園新聞發(fā)布量,是反映校園文化內涵、樹立高校形象和辦學特色的重要形式,能夠增強教師和學生的凝聚力,使其有歸屬感,同時營造積極向上的數(shù)字化校園氛圍。
近五年的數(shù)據(jù)信息顯示,校園新聞在月度發(fā)布量上與高校的學期時間跨度正向匹配。9月至轉年1月為第一學期(上半學期);3月至7月為第二學期(下半學期),調整之后的月度新聞發(fā)布量如圖3所示。寒暑假期間的新聞發(fā)布量最低,學期中新聞發(fā)布量較高。比較有意思的是,近五年的數(shù)據(jù)反映,兩個學期的發(fā)文量并不平均,第一學期明顯的發(fā)文量明顯高于第二學期。
3.2 新聞主題與熱度分析
經(jīng)HanLP分詞模塊對所提取新聞主題分詞后,進行數(shù)據(jù)清洗,主要從不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)和重復的數(shù)據(jù)三個方面進行清洗。在數(shù)據(jù)處理過程中還過濾了與單位信息密切相關的數(shù)據(jù)。
整理之后的數(shù)據(jù)按照詞語在新聞主題中出現(xiàn)次數(shù)高低拍序,出現(xiàn)次數(shù)越多,則意味著該詞語具備更高的熱度指數(shù)。2013年度,排名前五位的熱度詞匯有“我校”、“召開”、“工作”、“舉行”、“全國”;2014年度,排名前五位的熱度詞匯有“我?!?、“天津市”、“舉行”、“召開”、“工作”;2015年度,排名前五位的熱度詞匯有“我校”、“召開”、“工作”、“天津市”、“舉行”;2016年度,排名前五位的熱度詞匯有“我?!薄ⅰ罢匍_”、“工作”、“舉行”、“天津市”;2017年度,排名前五位的熱度詞匯有“我校”、“召開”、“工作”、“天津市”、“舉行”。各年度熱詞排行榜具體信息可以參考圖4至圖80
除去“我校”、“召開”、“舉行”、“工作”等在新聞主題發(fā)布時較為常用的詞匯,位于熱度詞匯排行榜中其他詞匯則可以標明該所高校的新聞關切點所在,如“學生”、“學習”、“教育”、“教師”等,這些詞匯在近5年的排行榜中都有所反應。
4 總結
基于Python和HanLp技術的在線新聞主題分析模型,使用Python采集Web數(shù)據(jù),經(jīng)數(shù)據(jù)清洗和結構化整理之后,借助HanLP中文語法工具分詞,統(tǒng)計、分析在線新聞的隱含信息和潛在價值,體現(xiàn)了數(shù)據(jù)挖掘的意義,對校園信息化建設和信息化管理提供支持。
4.1 提供決策支持
在線新聞主題經(jīng)過中文分詞、聚類等方法,可以收集到相關信息,為管理者提供信息反饋和決策支持。通過抽取門戶網(wǎng)站各主題的信息,對主題進行深入挖掘,可以讓管理者更加深刻的從多角度的了解高校門戶網(wǎng)站的內容發(fā)布情況,也可以作為高校領導對相關事件的決策判斷基礎。通過信息技術將數(shù)據(jù)所隱藏的信息發(fā)掘出來,實現(xiàn)數(shù)據(jù)價值的有效利用,為相關決策提供數(shù)據(jù)支撐。在此基礎上,對挖掘出的數(shù)據(jù)進一步分類,這也數(shù)據(jù)挖掘領域的重要方向,通過描述性的數(shù)據(jù)特征,將歸為一類的數(shù)據(jù)劃分為一個領域。基于Python和HanLp技術的在線新聞主題分析模型可以分析高校門戶網(wǎng)站主題新聞內容,從而找出高校新聞主題的相關信息,將信息進行歸納和總結,以便讓管理者做出更加正確的決策。
4.2 提供縱向和橫向對比數(shù)據(jù)
使用基于Python和HanLp技術的在線新聞主題分析模型,可以縱向分析同一學校在不同時間段、不同歷史時期的關注點,找出該歷史時期下的工作重點??v向切分的時間段可以按照年、月、周為單位,這需要對分析模型中“統(tǒng)計和分析”模塊的參數(shù)進行調整。同時,該分析模型可以應用于不同學校在線新聞主題的挖掘和分析,橫向對比學校之間的關切點。綜合使用縱向和橫向對比數(shù)據(jù),可以發(fā)現(xiàn)某一個特定時間段下,不同學校之間的發(fā)展變化,提供數(shù)據(jù)支撐。
4.3 分析模型存在的問題
當前,在線新聞主題分析模型是針對同一個高校新聞網(wǎng)站進行的,基于Python的爬蟲模塊在匹配新聞URl時,只限定于當前域,對域外的URL不進行處理,這種挖掘數(shù)據(jù)的方式,可以提高效率,但降低了靈活性。通過實踐應用,分析模型在獲取數(shù)據(jù)和分析數(shù)據(jù)時都可以比較高效、穩(wěn)定。分析模型下一步需要完善的功能是可以比較智能的對所指定的多所高校新聞站點,自動的爬取數(shù)據(jù);同時提供校際橫向關切點數(shù)據(jù)分析功能模塊。
參考文獻
[1]潘慶超,吳東偉.高校門戶網(wǎng)站設計與實現(xiàn)[J].電腦知識與技術,2014(04):838-840.
[2]蔣東興,付小龍等.高校智慧校園技術參考模型設計[J].中國電化教育,2016(09):108-P114.
[3]陳琳,王蔚等.智慧校園的智慧本質探討--兼論智慧校園“智慧缺失”及建設策略[J].遠程教育雜志,2016(04):17-24.
[4]Han Language Processing[EB/OL],http://hanlp.linrunsoft.com/,2018-6-6.
[5]李有增,周全等.關于高校智慧校園建設的若干思考[J],中國電化教育,2018(01):112-117.