馬婉貞 陳淑婷 李雅潔 明濤
摘要:隨著數(shù)字化轉(zhuǎn)型的新趨勢(shì)到來,為解決企業(yè)審計(jì)或辦公人員面對(duì)海量數(shù)字化文檔工作效率低、重復(fù)工作等問題,本文在傳統(tǒng)機(jī)器學(xué)習(xí)SVM的基礎(chǔ)上,加入文本預(yù)處理、TF-IDF算法、LDA算法,構(gòu)建了一套多策略混合的文本關(guān)鍵情感詞識(shí)別模型。通過模型測(cè)試及與單一SVM分類器模型的對(duì)比實(shí)驗(yàn),結(jié)果顯示本文構(gòu)建的混合模型F1值達(dá)到了89.08%,比單一SVM分類器模型提升了22.58%,證明該模型對(duì)關(guān)鍵情感詞的識(shí)別有一定程度的提升,應(yīng)用于辦公或項(xiàng)目管控場(chǎng)景,可以有效提升企業(yè)審計(jì)辦公智能化水平。
關(guān)鍵詞:機(jī)器學(xué)習(xí);情緒識(shí)別;TF-IDF;SVM;LDA
引言
隨著互聯(lián)網(wǎng)技術(shù)及各個(gè)政府機(jī)構(gòu)或企事業(yè)單位數(shù)字化建設(shè)的快速發(fā)展,各類文本信息數(shù)據(jù)呈爆發(fā)性增長(zhǎng),為進(jìn)一步提高辦公文件審校效率,及時(shí)下發(fā)日常相關(guān)文件文書;進(jìn)一步優(yōu)化項(xiàng)目資料規(guī)范化管理檢查流程,提升項(xiàng)目文檔審計(jì)效率,降低工作成本,防范項(xiàng)目審計(jì)風(fēng)險(xiǎn),本文對(duì)TF-IDF(詞頻-逆文檔頻率)算法、LDA(隱狄利克雷)算法及SVM(支持向量機(jī))算法進(jìn)行融合,以句子為最小分析單元,以辦公文件敏感詞及項(xiàng)目建設(shè)負(fù)面清單關(guān)鍵字為情感詞典,計(jì)算整句情感詞得分,輸出整個(gè)文本內(nèi)容情感傾向性,深入開展智慧辦公和智能化管控場(chǎng)景應(yīng)用,提升工作效率。
1.相關(guān)工作
現(xiàn)如今,對(duì)自然語言的文本數(shù)據(jù)分析已成為當(dāng)下研究的熱點(diǎn)。單從文本分類而言,其指的是在人為規(guī)定好的分類標(biāo)準(zhǔn)下,根據(jù)文本自身含義對(duì)文本數(shù)據(jù)進(jìn)行分類的過程。而文本情緒分析則是對(duì)文本內(nèi)容中的關(guān)鍵情感信息進(jìn)行挖掘,并進(jìn)一步分析處理,進(jìn)行文本情緒識(shí)別的過程。通過對(duì)文本中的情感成分進(jìn)行提取,分析出文本中的隱含情感,對(duì)文本的情緒、觀點(diǎn)和態(tài)度作出歸納判斷。
隨著機(jī)器學(xué)習(xí)模型在自然語言處理領(lǐng)域的不斷發(fā)展,對(duì)其模型的優(yōu)化也隨之引起了各類研究學(xué)者的關(guān)注。機(jī)器學(xué)習(xí)模型廣泛被分成監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),其中應(yīng)用最為廣泛的則是監(jiān)督學(xué)習(xí)模型,比如Pang等人對(duì)比了樸素貝葉斯、最大熵和SVM算法在多個(gè)特征集中的應(yīng)用,得出了SVM相較于其它學(xué)習(xí)模型表現(xiàn)出了較高的優(yōu)勢(shì)。針對(duì)半監(jiān)督學(xué)習(xí)方面,文獻(xiàn)證明了圖形半監(jiān)督學(xué)習(xí)算法具有較優(yōu)性能。針對(duì)無監(jiān)督學(xué)習(xí)方面,文獻(xiàn)提出了一種基于非隨機(jī)初始化的無監(jiān)督學(xué)習(xí)模型,并在特征中采用文本統(tǒng)計(jì)分析算法進(jìn)行擴(kuò)展,獲得了較好效果。現(xiàn)如今隨著對(duì)單一模型的研究日漸成熟,效果已然到達(dá)瓶頸期,開始有研究學(xué)者將目光轉(zhuǎn)移到混合學(xué)習(xí)模型領(lǐng)域,比如文獻(xiàn)構(gòu)建出一種基于 SVM 和 CRF(條件隨機(jī)場(chǎng)算法)的情感分析系統(tǒng),輸出結(jié)果表現(xiàn)出了良好的反饋效果,證明多策略混合模型有著相對(duì)于單個(gè)模型的優(yōu)越性。
TF-IDF算法是一種針對(duì)關(guān)鍵詞的統(tǒng)計(jì)分析方法,具有簡(jiǎn)單、可靠性高等特征,用于評(píng)估一個(gè)詞對(duì)一個(gè)文件集或者一個(gè)語料庫(kù)的重要程度,這類算法能有效減弱常用詞對(duì)關(guān)鍵詞的影響,提高關(guān)鍵詞與文本間的關(guān)聯(lián)性。LDA是一種監(jiān)督學(xué)習(xí)的降維技術(shù),就是將數(shù)據(jù)在低維度上進(jìn)行投影,投影后獲得類內(nèi)方差最小,類間方差最大的輸出。LDA既可以用來降維,又可以用來分類,并且它在降維過程中可以使用關(guān)鍵詞分類的先驗(yàn)知識(shí),這也符合本文多策略混合模型構(gòu)建技術(shù)路線要求。因此通過以上研究及大量調(diào)研分析工作,本文確定了主要機(jī)器學(xué)習(xí)模型SVM,再使用TF-IDF及LDA(線性判別分析)進(jìn)行特征空間優(yōu)化完善。
2.基于多策略混合的文本關(guān)鍵情感詞識(shí)別方法
2.1算法流程
為解決以上眾多困境,本文實(shí)驗(yàn)方法及流程如圖1所示,首先通過文本去噪、基于同義詞詞林和互信息量的方法對(duì)已有的辦公文書敏感詞和項(xiàng)目負(fù)面清單關(guān)鍵詞情緒詞典進(jìn)行進(jìn)一步擴(kuò)展;使用TF-IDF算法對(duì)文本數(shù)據(jù)中的關(guān)鍵詞計(jì)算權(quán)重值,并以此權(quán)重建立文本提取特征矩陣;采用線性SVM分類器對(duì)文本內(nèi)容進(jìn)行關(guān)鍵情感詞分類,對(duì)每個(gè)句子有無關(guān)鍵詞進(jìn)行判斷;其次,使用LDA算法對(duì)關(guān)鍵詞判斷進(jìn)行細(xì)化分析,得到文本特征矩陣;最后使用非線性SVM對(duì)特征變量?jī)?yōu)化映射,得到最終句子的關(guān)鍵詞傾向結(jié)果。
2.2數(shù)據(jù)預(yù)處理
本文分析的情感詞并非屬于廣泛理解的情感詞典,而是針對(duì)具體辦公或者項(xiàng)目管控情景下的關(guān)鍵詞,因此開展文本情緒分析前,需進(jìn)行數(shù)據(jù)預(yù)處理,流程如圖2:
1)輸入a.初始文檔數(shù)據(jù):包含通報(bào)、通知、批示等辦公文書以及項(xiàng)目全過程資料;
b.辦公文件敏感詞:定密模型文件、公文敏感詞庫(kù);
c.項(xiàng)目負(fù)面清單:項(xiàng)目負(fù)面清單庫(kù);
2)文本去噪:對(duì)以上輸入數(shù)據(jù)去除語氣副詞、助詞等無用信息,提取基礎(chǔ)關(guān)鍵詞;
3)同義詞詞林:對(duì)基礎(chǔ)關(guān)鍵詞通過同義詞詞典找到關(guān)鍵詞的同義詞,從而擴(kuò)展基礎(chǔ)關(guān)鍵詞詞典;
4)互信息量:對(duì)全文本文檔數(shù)據(jù)及關(guān)鍵詞詞典,借助網(wǎng)絡(luò)共享程序包(https://www.omegaxyz.com/2018/08/03/mifs/),進(jìn)行文本數(shù)據(jù)與關(guān)鍵詞的互信息量計(jì)算,進(jìn)一步擴(kuò)展基礎(chǔ)關(guān)鍵詞詞典;
5)輸出本文所定于的關(guān)鍵情感詞詞典。
2.3 TF-IDF算法處理
TF-IDF算法是一種根據(jù)單詞在語料庫(kù)中出現(xiàn)頻次判斷其重要程度的統(tǒng)計(jì)方法,主要思想是先對(duì)詞頻(term frequency,TF) 進(jìn)行統(tǒng)計(jì),認(rèn)為詞語出現(xiàn)次數(shù)越多,則文檔可能與該詞語有越多的正向關(guān)聯(lián)性,再通過逆文檔頻率(inverse document frequency,IDF) 減少常見詞的權(quán)重[8],計(jì)算公式為:
其中TFIDF表示詞頻TF和逆文檔頻率IDF的乘積,TFIDF值越大,對(duì)當(dāng)前文本的重要性越大。本文利用TF-IDF算法,給關(guān)鍵情感詞賦予權(quán)重,進(jìn)行特征提取,將關(guān)鍵情感詞轉(zhuǎn)化為詞頻向量,建立文本提取矩陣。
2.4線性SVM分析
SVM是一種用于分類的算法,分為線性可分和非線性可分,通俗理解所謂線性和非線性就是指能夠用一條直線直接劃分?jǐn)?shù)據(jù)。
本文根據(jù)特征矩陣高維、稀疏特征,先采用線性SVM分類器對(duì)文本內(nèi)容進(jìn)行關(guān)鍵情感詞分類,對(duì)每個(gè)句子有無關(guān)鍵詞進(jìn)行判斷。
經(jīng)過LDA細(xì)化分析后,再采用非線性SVM分類器將低維變量映射到高維特征空間,在高維特征空間計(jì)算內(nèi)積,建立非線性分類器,實(shí)現(xiàn)文本關(guān)鍵情感詞的識(shí)別。
2.5 LDA細(xì)化分析
LDA算法的原理就是將帶上標(biāo)簽的數(shù)據(jù)/點(diǎn),通過投影到維度更低的空間中,促使投影后的點(diǎn)將會(huì)按類別區(qū)分,形成一簇一簇情形,最終相同類別的數(shù)據(jù)/點(diǎn),將會(huì)在投影后的空間中更接近。
本文利用LDA算法對(duì)經(jīng)過線性SVM分類器處理后的帶有標(biāo)簽的數(shù)據(jù)進(jìn)行投影,將有無關(guān)鍵詞的句子區(qū)分更開;將有關(guān)鍵詞的句子按隱含關(guān)鍵情感詞進(jìn)行進(jìn)一步聚類,得到句子與隱含關(guān)鍵情感詞的對(duì)應(yīng)概率矩陣,以此作為文本特征矩陣。
3.實(shí)驗(yàn)
3.1實(shí)驗(yàn)環(huán)境搭建
本文依托于企業(yè)智能化辦公項(xiàng)目,數(shù)據(jù)集均來自企業(yè)內(nèi)部文件及模型:
a)初始文檔數(shù)據(jù):包含企業(yè)2017-2021年發(fā)布的通報(bào)、通知、批示等辦公文書以及項(xiàng)目全過程資料,共計(jì)5899條;
b)辦公文件敏感詞:企業(yè)自有的定密模型文件、公文敏感詞庫(kù);
c)項(xiàng)目負(fù)面清單:企業(yè)自有的項(xiàng)目負(fù)面清單庫(kù)。
實(shí)驗(yàn)環(huán)境:i7-8700CPU/64,內(nèi)存/256G,固態(tài)/2T硬盤,RTX2080ti-11G顯卡的高性能工作站,運(yùn)行操作系統(tǒng)為:Ubuntu18.04。
3.2實(shí)驗(yàn)評(píng)估指標(biāo)
模型效果優(yōu)劣廣泛采用精確率P、召回率R以及 F1 值 3 個(gè)標(biāo)準(zhǔn)作為實(shí)驗(yàn)評(píng)估指標(biāo),值越高,則模型效果越好。
在本文中,精確率P又稱查準(zhǔn)率,就是指預(yù)測(cè)為關(guān)鍵情感的文件條目中實(shí)際關(guān)鍵情感的文件條目占比。
召回率R又稱查全率,就是指實(shí)際關(guān)鍵情感的文件條目中被預(yù)測(cè)為關(guān)鍵情感的文件條目占比。
F1值,就是指精確率和召回率的加權(quán)調(diào)和平均值,是綜合性的評(píng)價(jià)指標(biāo)。本文采用綜合評(píng)價(jià)指標(biāo)F1值衡量模型的關(guān)鍵情感識(shí)別效果。公式為:
3.3實(shí)驗(yàn)結(jié)果
使用數(shù)據(jù)預(yù)處理后的關(guān)鍵情感詞典及基礎(chǔ)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),通過本文構(gòu)建的多策略混合的文本關(guān)鍵情感識(shí)別模型進(jìn)行訓(xùn)練,再使用測(cè)試集合對(duì)模型進(jìn)行多個(gè)方面的測(cè)試,模型關(guān)鍵情感傾向評(píng)估結(jié)果如表1(由于本文涉及企業(yè)內(nèi)部事項(xiàng),這里選取部分關(guān)鍵情感詞進(jìn)行結(jié)果展示):
由表1可知,此次模型測(cè)試測(cè)出的精確率、召回率以及F1值得均值分別達(dá)到了89.57%、88.61%以及89.08%。為進(jìn)一步評(píng)估構(gòu)建的混合模型優(yōu)越性,本文采取了對(duì)比分析法,利用單個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)SVM分類器,同樣輸入數(shù)據(jù)預(yù)處理后的關(guān)鍵情感詞典及基礎(chǔ)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,使用相同測(cè)試指標(biāo)進(jìn)行測(cè)試,測(cè)試結(jié)果如圖3:
由圖3可知,本文構(gòu)建的混合模型比單個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)模型精確率提升了23.58%、召回率提升了21.58%、F1值提升了22.58%,綜合性能大大提高。
綜上所述,本文構(gòu)建的多策略混合文本關(guān)鍵情感詞識(shí)別模型整體性能優(yōu)于單一傳統(tǒng)機(jī)器學(xué)習(xí)模型,且具有良好的識(shí)別效果,應(yīng)用于辦公或項(xiàng)目管控場(chǎng)景,可以有效提高工作效率,提升企業(yè)審計(jì)智能化水平。
4.結(jié)束語
為有效迎接企業(yè)數(shù)字化轉(zhuǎn)型新趨勢(shì),解決企業(yè)審計(jì)或辦公人員面對(duì)海量數(shù)字化文檔工作效率低、重復(fù)工作等問題,本文在傳統(tǒng)機(jī)器學(xué)習(xí)SVM的基礎(chǔ)上,加入文本預(yù)處理、TF-IDF算法、LDA算法,構(gòu)建出一套多策略混合的文本關(guān)鍵情感詞識(shí)別模型。通過模型測(cè)試及與單一SVM分類器模型的對(duì)比實(shí)驗(yàn),結(jié)果顯示本文構(gòu)建的混合模型在性能上有了顯著的提高。
參考文獻(xiàn):
[1]張膂.基于LPAL模型的超文本分析[J].微型電腦應(yīng)用,2016,32(03):77-80.
[2]袁彬. 基于語義特征的文本分類算法研究[D].北京郵電大學(xué),2016.
[3]焦桐. 面向微博文本的情緒內(nèi)容分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué),2018.
[4]Pang B .Thumbs up? sentiment classification using machine learning techniques[J]. Proc. EMNLP,2002,2002.
[5]Sindhwani P V . Document-Word Co-regularization for Semi-supervised Sentiment Analysis[J]. IEEE Computer Society,2008.
[6]AAS ,AFL ,B M P . Sentiment analysisAn automatic contextual analysis and ensemble clustering approach and comparison[J]. Data & Knowledge Engineering,2018,115:194-213.
[7]Ting-Ting L I ,Dong-Hong J I ,Computer S O ,et al. Sentiment analysis of micro-blog based on SVM and CRF using various combinations of features[J]. Application Research of Computers,2015.
[8]張蕾,姜宇,孫莉.一種改進(jìn)型TF-IDF文本聚類方法[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2021,59(05):1199-1204.
[9]顏端武,梅喜瑞,楊雄飛,朱鵬.基于主題模型和詞向量融合的微博文本主題聚類研究[J].現(xiàn)代情報(bào),2021,41(10):67-74.
國(guó)家電網(wǎng)公司電力數(shù)據(jù)“口袋書”關(guān)鍵技術(shù)及產(chǎn)品設(shè)計(jì)研發(fā)科技項(xiàng)目基金支持。