張 辛
江蘇建筑職業(yè)技術(shù)學(xué)院,江蘇 徐州 221116
習(xí)近平總書記提出的全面從嚴(yán)治黨是對(duì)90多年管黨治黨實(shí)踐中一直堅(jiān)持的從嚴(yán)治黨理論的新的認(rèn)識(shí)和升華[1]。全面從嚴(yán)治黨的思想是習(xí)近平新時(shí)代中國(guó)特色社會(huì)主義思想的重要組成部分[2],總書記的系列重要講話為黨的建設(shè)立了新理念、提出了新要求、制定了新舉措。崔治忠認(rèn)為全面從嚴(yán)治黨的理論基礎(chǔ)來(lái)源于經(jīng)典馬克思理論。肖霜認(rèn)為黨的十九大報(bào)告的精髓之一就是全面從嚴(yán)治黨。龍麗波從淵源背景、基本內(nèi)容和黨建價(jià)值三個(gè)方面論述了全面從嚴(yán)治黨思想。王偉從學(xué)理上研究分析了全面從嚴(yán)治黨科學(xué)體系的構(gòu)成和特征。樊金山論述了全面從嚴(yán)治黨實(shí)踐邏輯。從這些文獻(xiàn)可以看出雖然研究的方向和層次眾多但是主要集中對(duì)全面從嚴(yán)治黨思想的宏觀思考、結(jié)構(gòu)性論述,但是從微觀角度的研究還比較少。
關(guān)鍵詞是一篇文章的核心與骨架,掌握一篇文章的關(guān)鍵詞對(duì)清晰理解文章內(nèi)容,把握文章結(jié)構(gòu),領(lǐng)會(huì)文章思想,記憶文章概要起到重要作用。本文選擇中紀(jì)委網(wǎng)站整理的習(xí)近平總書記全面從嚴(yán)治黨重要論述學(xué)習(xí)專題數(shù)據(jù)庫(kù)為研究對(duì)象,利用TFIDF算法提取重要論述中的關(guān)鍵詞,通從關(guān)鍵詞這個(gè)細(xì)微角度分析學(xué)習(xí)習(xí)近平總書記全面從嚴(yán)治黨論述。
表1 全面從嚴(yán)治黨重要論述基本結(jié)構(gòu)表
習(xí)近平總書記全面從嚴(yán)治黨重要論述數(shù)據(jù)庫(kù)是中紀(jì)委網(wǎng)站權(quán)威發(fā)布重要學(xué)習(xí)平臺(tái)。其中學(xué)習(xí)專題是黨的十九大后建立的一個(gè)全面從嚴(yán)治黨思想的學(xué)習(xí)中心。它將十八大以來(lái)總書記在全面從嚴(yán)治黨方面的重要論述按照黨的十九大全面從嚴(yán)治黨的體系分成了九個(gè)方面、52個(gè)小類,共整理收錄了315項(xiàng)各類講話和文件中的全面從嚴(yán)治黨論述1303條,共計(jì)27萬(wàn)余字。從表1中可以看出,這些論述的篇幅并不相同。在表2中匯總了重要論述中涉及到的次數(shù)最多的前十位會(huì)議,可以看出集中體現(xiàn)全面從嚴(yán)治黨思想的重要出處。
表2 重要論述中涉及到的次數(shù)最多的前十位會(huì)議
表3 部分重要論述關(guān)鍵詞表
分析全面從嚴(yán)治黨論述數(shù)據(jù)結(jié)構(gòu)只能從整體上厘清一個(gè)框架,通過(guò)對(duì)論述關(guān)鍵詞的研究,可以從更細(xì)微的角度了解全面從嚴(yán)治黨思想的重要內(nèi)容。
與一般學(xué)術(shù)論文不同,一方面論述文章內(nèi)容豐富也沒(méi)有人為設(shè)置的關(guān)鍵詞,另一方面論述數(shù)據(jù)是不同文章段落的重新組合歸類,因此原文章題目對(duì)內(nèi)容掌握意義不大。因此需要一些自動(dòng)化的算法對(duì)大規(guī)模文本進(jìn)行關(guān)鍵詞提取。TFIDF就是這樣一個(gè)關(guān)鍵詞提取算法。TF指文本中的詞頻,一般等于某個(gè)詞出現(xiàn)的次數(shù)。IDF指“逆文檔頻率”,是一個(gè)用來(lái)衡量一個(gè)詞常見(jiàn)程度的值。它的一般常見(jiàn)的公式:
TF*IDF得到的值就是某詞語(yǔ)的重要程度,按照重要程度排序后,前幾名的就是文章的關(guān)鍵詞。
以黨的十九大報(bào)告第十三部分第五段約三百字提取關(guān)鍵詞,提取排名前10的關(guān)鍵詞為:全黨、遠(yuǎn)大理想、共同理想、中國(guó)特色社會(huì)主義、思想、共產(chǎn)主義、堅(jiān)定、建設(shè)、總開(kāi)關(guān)、武裝頭腦。從中可以看出TFIDF算法提取出的關(guān)鍵詞基本可以表現(xiàn)原文核心內(nèi)容,基本可以刻畫出原文骨架。
為了防止jieba分詞系統(tǒng)對(duì)全面從嚴(yán)治特有詞匯無(wú)法識(shí)別,而導(dǎo)致分詞結(jié)果過(guò)于細(xì)碎,首先要建立用戶詞典。以全面從嚴(yán)治黨為主題,在知網(wǎng)核心期刊數(shù)據(jù)庫(kù)中提取最新500篇文章的關(guān)鍵詞,將這些關(guān)鍵詞去重后做為分詞的專用數(shù)據(jù)庫(kù),共得到用戶詞典詞條1022條。提取關(guān)鍵詞后,見(jiàn)表3,可以看出提取出的排名前十的關(guān)鍵詞與二級(jí)分類的標(biāo)題表達(dá)內(nèi)容十分相似,大部分標(biāo)題中的詞語(yǔ)都包含在了關(guān)鍵詞中,由此可見(jiàn),一方面關(guān)鍵詞很好的表達(dá)了論述的核心內(nèi)容,另一方面論述的主要內(nèi)容確實(shí)是圍繞標(biāo)題展開(kāi)。由于前十關(guān)鍵詞與二級(jí)分類標(biāo)題中的詞語(yǔ)有一定的重復(fù)性,為了更多的領(lǐng)會(huì)論述的精神,再去除標(biāo)題中出現(xiàn)的關(guān)鍵詞后,在表4中列出了不含標(biāo)題詞的排名前十的關(guān)鍵詞。將二級(jí)分類的標(biāo)題和不含標(biāo)題詞的排名前十關(guān)鍵詞結(jié)合在一起,基本上展現(xiàn)了二級(jí)分類下的骨架內(nèi)容。如從尊崇黨章這部分的關(guān)鍵詞,可以看出尊崇黨章是“全面從嚴(yán)治黨”、加強(qiáng)“黨的建設(shè)”的必然要求,要求的范圍包括“全體黨員”和“領(lǐng)導(dǎo)干部”,要求做的工作是“自覺(jué)”“學(xué)習(xí)”“貫徹”,特別是“黨的紀(jì)律”,最終目標(biāo)是為了“群眾”。
通過(guò)以上分析可以看到一方面利用關(guān)鍵詞提取技術(shù)可以對(duì)習(xí)近平總書記全面從嚴(yán)治黨重要論述數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)計(jì)分析,可以幫助我們進(jìn)一步把握好思想脈絡(luò)、領(lǐng)會(huì)好思想精髓、記憶好思想表述。另一方面TFIDF算法提取出的關(guān)鍵詞基本可以反映每個(gè)二級(jí)分類下論述的關(guān)鍵信息。通過(guò)對(duì)關(guān)鍵詞的學(xué)習(xí),可以進(jìn)一步加強(qiáng)對(duì)重要論述的理解和記憶,為學(xué)習(xí)習(xí)近平新時(shí)代中國(guó)特色社會(huì)主義思想提供了一個(gè)新視角。