国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘方法在文本分析中的應(yīng)用*
——以十九大報告、習近平講話等文本為例

2020-05-13 07:59張林泉
關(guān)鍵詞:圖譜導圖文本

張林泉

(廣東女子職業(yè)技術(shù)學院)

0 引言

黨的十九大召開以來,如何讓十九大精神往深處走、往心里去、往實里落,一直是人們關(guān)注的大事.針對存在理論學習思想認識站位不高、觀點理解不深、思想脈絡(luò)含糊不清、框架掌握不全等問題,給出文本分析新視角,豐富研究手段,開展思維導圖政治學練,文本挖掘都是十分重要的.以習近平十九大報告、講話等文本為研究對象,基于Python自然語言處理方法,運用語料庫,探索引入數(shù)據(jù)挖掘方法進行理論學習,創(chuàng)新理論武裝新模式,旨在有計劃地提升理論學習的系統(tǒng)性、整體性和連貫性,提高政治站位,堅定維護核心,堅守精神高地,永葆政治本色,切實學深悟透,真正做到學思用貫通、知信行統(tǒng)一.

1 文本文件的思維導圖梳理

思維導圖作為一種可視化教學輔助工具已引起中外學者的廣泛關(guān)注[1].以思維導圖的形式分析比以文本的形式具體寫出來更快、更具體、更形象,能夠從全局上把握十九大內(nèi)容.思維導圖研究可以提供一種有效的宏觀分析框架,能提綱挈領(lǐng)地從整體上把握十九大報告的理論價值和現(xiàn)實價值.有利于深化拓寬思想政治教育研究的視野;有利于進一步完善研究方法,推動課程改革創(chuàng)新;豐富和發(fā)展新時代中國特色社會主義教育的理論內(nèi)容;有利于學習貫徹落實新思想、新論斷.依據(jù)十九大報告,參考習近平談治國理政、黨章、習近平相關(guān)重要論述等相關(guān)資料法規(guī),分三大板塊、十三部分梳理制作了十九大報告全文(中英版)的思維導圖,理清了重大理論的“思維脈絡(luò)”.思維導圖可以展示黨的十九大報告的邏輯結(jié)構(gòu)[2](如圖1所示),黨的十九大報告總體框架的邏輯體系[3],習近平新時代中國特色社會主義思想和基本方略的邏輯結(jié)構(gòu)[4-6],“四個偉大”的內(nèi)在邏輯[7-11].

圖1 黨的十九大報告的邏輯結(jié)構(gòu)

2 文本文件的詞云和知識圖譜挖掘

詞云圖是文本挖掘中最重要的可視化技術(shù),它應(yīng)用核心詞匯的字體體積衡量詞頻的大小,配以不同的顏色和形狀,更直觀地反映詞匯的重要性差異.詞云圖通過對文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺上的突出,使文本的閱讀者僅需快速瀏覽便可把握文本中的核心信息.知識圖譜是結(jié)構(gòu)化的語義知識庫,用于迅速描述物理世界中的實體、概念、屬性、相互關(guān)系等.Shiffrin R M認為知識圖譜的研究目的是幫助研究者簡化海量復雜的信息,揭示知識發(fā)展結(jié)構(gòu),研究方法是發(fā)現(xiàn)數(shù)據(jù)信息處理和繪制圖形[12].對文本數(shù)據(jù)基于Python 的第三方庫 jieba、WordCloud 、NLTK(Natural Language Toolkit) 進行分詞和基于“詞頻-逆文本頻率” (TF-IDF,Term Frequency- Inverse Document Frequency)提取關(guān)鍵詞、去停用詞和統(tǒng)計詞頻,生成詞云.Gephi是一個開源跨平臺基于JVM的復雜網(wǎng)絡(luò)分析可視化軟件,可用于探索數(shù)據(jù)分析、鏈路分析、社交網(wǎng)絡(luò)分析、生物網(wǎng)絡(luò)分析等[13].對文本關(guān)鍵詞提取(information extraction) ,建立共現(xiàn)矩陣,進行主題關(guān)鍵詞共現(xiàn)分析,利用復雜網(wǎng)絡(luò)分析軟件Gephi構(gòu)建主題知識圖譜,揭示高頻詞之間存在的潛在聯(lián)系,獲取文本的基本框架.文本文件和圖2表明:中國特色社會主義是改革開放以來黨的全部理論和實踐的主題,“八個明確”和“十四個堅持”從理論和實踐結(jié)合上系統(tǒng)回答新時代堅持和發(fā)展什么樣的中國特色社會主義、怎樣堅持和發(fā)展中國特色社會主義.“發(fā)展”這個詞的節(jié)點中介中心度(betweenness centrality)值568.85在整個語義網(wǎng)絡(luò)中最高,凸顯了“發(fā)展”在語義網(wǎng)絡(luò)中極高的重要性.

圖2 十九大報告知識圖譜

圖3 深圳方案(2020~2025)詞云

圖4 抗擊疫情表彰講話詞云

詞云、知識圖譜的文本挖掘方法,在整體把握習近平新時代中國特色社會主義思想的邏輯架構(gòu)和特點上,具有重要價值,有助于更清晰地把握新思想引領(lǐng)下中國改革發(fā)展的脈絡(luò).《深圳建設(shè)中國特色社會主義先行示范區(qū)綜合改革試點實施方案(2020~2025年)》中提出了新時代黨中央賦予深圳的歷史使命,如圖3所示.黨中央支持深圳實施綜合改革試點,以清單批量授權(quán)方式賦予深圳在重要領(lǐng)域和關(guān)鍵環(huán)節(jié)改革上更多自主權(quán).深圳要在重要領(lǐng)域推出一批重大改革措施,形成一批可復制可推廣的重大制度創(chuàng)新成果.習近平使用“十個必須堅持”總結(jié)經(jīng)濟特區(qū)40年改革開放、創(chuàng)新發(fā)展積累的寶貴經(jīng)驗,對新時代經(jīng)濟特區(qū)在更高起點上推進改革開放作出了六方面重大戰(zhàn)略部署.體現(xiàn)了新時代中國特色社會主義思想、“十四個堅持”與深圳40周年的講話“十個必須堅持”一脈相承,必須倍加珍惜、長期堅持,在實踐中不斷豐富和發(fā)展.由圖5~7可見“發(fā)展”、“和平”為時代的主題.發(fā)展為了人民,發(fā)展依靠人民,十九屆五中全會為全面把握新發(fā)展階段,全面貫徹新發(fā)展理念,推動更高質(zhì)量、更有效率、更加公平、更可持續(xù)、更為安全的發(fā)展,著力構(gòu)建新發(fā)展格局指明了前進的方向.

圖5 深圳40周年講話知識圖譜

圖6 抗美援朝70周年講話詞云

圖7 黨的十九屆五中全會公報詞云

3 文本文件的情感分析

文本情感分析是自然語言處理的一個重要部分,與語音情感分析類似,通過處理提取給定文本中的信息來衡量說話者、作者的觀點、感覺、態(tài)度和情緒,廣泛用于分析公司調(diào)查、反饋、社交媒體、電影評論、商品、用戶評論等,其構(gòu)想是分析人們對一個特定實體的反應(yīng),并采取基于他們的情感的有見地的行動[14].VADER是一個基于詞典和規(guī)則的情感分析開源python庫,可輸入想要識別的文本進行情感分析.針對通用場景下帶有主觀描述的文本,自動判斷該文本的情感極性類別并給出相應(yīng)的置信度,情感極性分為中立、積極、消極、復合.以十九大報告全文(英版)“14個堅持”前4個為例,表1給出了情感極性分析值,多項呈現(xiàn)積極、中立、消極、復合的傾向,其中,堅持全面深化改革積極值為1(見表1).

表1 情感分析

4 文本文件的結(jié)構(gòu)分析

短語結(jié)構(gòu)樹(constituent tree)與依存樹(dependency tree)是自然語言處理(Natural Language Processing, NLP)中的兩種典型的樹結(jié)構(gòu)[15].短語結(jié)構(gòu)樹用來表達句子的句法結(jié)構(gòu),其只有葉子結(jié)點與輸入句子中的詞語相關(guān)聯(lián),其他中間結(jié)點都是標記短語成分如圖8所示.句法分析主要揭示語言成分的關(guān)系,重視該成分在句法結(jié)構(gòu)的作用.

依存樹用來揭示句子中詞與詞的依存關(guān)系,分析識別句子中的“主謂賓”、“定狀補”等語法成分,以更好地理解語義關(guān)系,其每個結(jié)點都是一個詞語如圖9所示.

圖8 短語結(jié)構(gòu)樹constituent tree

圖9 依存結(jié)構(gòu)樹dependency tree

5 結(jié)語

綜上所述,利用Python多樣化自然語言處理方法,對文本文件的內(nèi)容進行系統(tǒng)深入研究,在全面系統(tǒng)的基礎(chǔ)上,抓住關(guān)鍵信息、挖掘隱含信息、突出重點,提高理論研究效率.首先,通過詞云對文本中出現(xiàn)高頻詞,把握文本中的核心信息;其次,通過知識圖譜,進行主題關(guān)鍵詞共現(xiàn)分析,揭示高頻詞之間存在的潛在聯(lián)系、內(nèi)在信息,獲取文本的基本框架,形象化地展示信息;再次,通過情感分析,對信息進行分析和決策;最后,通過結(jié)構(gòu)分析,揭示語言成分的關(guān)系和句子中詞與詞的依存關(guān)系,更加客觀分析其內(nèi)在的信息,更好地理解語義關(guān)系.梳理這些體系的邏輯結(jié)構(gòu),探討和尋找它們之間的內(nèi)在聯(lián)系,對于更好地從宏觀上把握、微觀中領(lǐng)悟,進而更加深入地學習領(lǐng)會好黨的十九大精神和習近平系列講話,落實工作部署,具有重要作用.

猜你喜歡
圖譜導圖文本
基于圖對比注意力網(wǎng)絡(luò)的知識圖譜補全
文本聯(lián)讀學概括 細致觀察促寫作
繪一張成長圖譜
初中群文閱讀的文本選擇及組織
應(yīng)用思維導圖 提升學生化學學習力
思維導圖在歷史知識復習中的應(yīng)用
作為“文本鏈”的元電影
圖表
黨的十九大報告思維導圖
第6章 一次函數(shù)
拜泉县| 浮梁县| 玉林市| 当阳市| 浑源县| 平舆县| 曲周县| 胶南市| 霍城县| 铜鼓县| 剑河县| 伊金霍洛旗| 通渭县| 突泉县| 宜丰县| 黄冈市| 仁化县| 惠水县| 台江县| 潍坊市| 大同市| 长岭县| 呼伦贝尔市| 忻州市| 平武县| 蚌埠市| 巩留县| 泰安市| 巴林右旗| 桃园县| 韶关市| 香港| 岱山县| 石景山区| 潜山县| 台前县| 南部县| 新宁县| 永修县| 仪征市| 南安市|