摘要:為改善建筑信用管理中對(duì)信用信息的文檔管理依賴人力勞動(dòng)的現(xiàn)狀,文章提出一種基于自然語言處理技術(shù)(NLP)的建筑企業(yè)失信行為信息文本分類方法。首先,基于Skip-Gram詞向量模型利用已標(biāo)注數(shù)據(jù)和大量無標(biāo)注獲取文本的詞向量表示;其次,運(yùn)用融入注意力機(jī)制(attention-mechanism)的雙向長短期記憶網(wǎng)絡(luò)模型(BiLSTM)對(duì)已標(biāo)注數(shù)據(jù)進(jìn)行特征提取與文本分類。結(jié)果表明:在小樣本訓(xùn)練中,使用較大的語料庫訓(xùn)練詞向量模型可有效提高文本分類模型的分類效果,BiLSTM-Attention模型的分類性能優(yōu)于對(duì)照模型,基于NLP的文本分類方法能夠?qū)崿F(xiàn)對(duì)建筑企業(yè)失信行為信息的快速自動(dòng)分類。
關(guān)鍵詞:失信行為信息,行政處罰,Skip-Gram詞向量,注意力機(jī)制,文本分類
中圖分類號(hào):F426.92
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1674-9545(2024)03-0099-(08)
DOI:10.19717/j.cnki.jjun.2024.03.021
目前建筑行業(yè)中存在大量非結(jié)構(gòu)化信息文本,例如工程事故報(bào)告、工程建設(shè)合同、安全檢查記錄、建筑主體行政處罰記錄、建筑業(yè)法律合同和裁判文書等。運(yùn)用NLP將大量非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化文本數(shù)據(jù),以便建筑業(yè)相關(guān)管理人員在工作范圍內(nèi)高效率地對(duì)文本信息進(jìn)行處理,這是目前建筑業(yè)數(shù)字化發(fā)展的方向之一[1]。
建筑市場(chǎng)信用管理是以建筑市場(chǎng)主體信用信息和信用行為信息為依據(jù),在信用信息標(biāo)準(zhǔn)化的基礎(chǔ)上,對(duì)主體信用狀況進(jìn)行綜合評(píng)價(jià)的過程?!蹲》亢统青l(xiāng)建設(shè)部2023年信用體系建設(shè)工作要點(diǎn)》中指出,要運(yùn)用大數(shù)據(jù)、人工智能等手段提高綜合監(jiān)管效能。在建筑市場(chǎng)信用管理中,主體失信行為主要是縣級(jí)及以上住房和城鄉(xiāng)建設(shè)部門產(chǎn)生的行政處罰信息以及經(jīng)有關(guān)部門認(rèn)定的其他不良信用信息,是建筑市場(chǎng)主體信用評(píng)價(jià)的重要依據(jù)。目前,建筑市場(chǎng)行政處罰信息多以非結(jié)構(gòu)化的文本形式儲(chǔ)存,大量的非結(jié)構(gòu)化文本數(shù)據(jù)降低了信用管理部門以完整的形式獲取、分析和重用信息的效率[2]。
建筑市場(chǎng)行政處罰信息通常以行政處罰決定書文本形式公示在各級(jí)住房和城鄉(xiāng)建設(shè)部門網(wǎng)站上,且其中絕大部分是關(guān)于建筑企業(yè)的行政處罰信息。因此,文本針對(duì)建筑市場(chǎng)信用管理中的基礎(chǔ)性工作—建筑企業(yè)失信行為信息的分類問題展開研究。文章采用基于NLP技術(shù)的文本分類方法,利用各級(jí)住房和城鄉(xiāng)建設(shè)部門產(chǎn)生的行政處罰決定書,以《建筑市場(chǎng)信用信息分級(jí)標(biāo)準(zhǔn)(征求意見稿)》為分類依據(jù),構(gòu)建Skip-Gram+BiLSTM-Attention文本分類模型,實(shí)現(xiàn)建筑企業(yè)行政處罰決定書的自動(dòng)分類,并將幾種常見的文本分類模型所得結(jié)果進(jìn)行比較。
1文獻(xiàn)綜述
文本分類,是根據(jù)目標(biāo)文本的主體或內(nèi)容,將大量文本按預(yù)先設(shè)定好的分類體系或標(biāo)準(zhǔn)歸屬到兩個(gè)或多個(gè)類別中的過程,是NLP技術(shù)常見的應(yīng)用場(chǎng)景之一[3]。
NLP在建筑工程領(lǐng)域的應(yīng)用起步較晚,在文本分類方面,Zhang等[4]采用基于機(jī)器學(xué)習(xí)的文本分類模型,對(duì)建筑事故報(bào)告中的事故原因進(jìn)行分類,識(shí)別潛在的事故風(fēng)險(xiǎn)因素;李華等[5]提出了基于改進(jìn)BERT的建筑事故隱患文本分類模型,為建筑企業(yè)項(xiàng)目安全管理智能化提供了理論支持;蔣海剛[6]基于Word2vec詞向量模型構(gòu)建了文本分類器,實(shí)現(xiàn)了建筑運(yùn)維工單自動(dòng)分類;周紅等[7]提出一種基于CNN和LSTM的融合模型,實(shí)現(xiàn)了對(duì)不同類型的建筑工程合同大規(guī)模地快速分類和歸檔;夏占杰[8]提出一種數(shù)據(jù)增強(qiáng)方法,解決了建筑安全檢查紀(jì)要文本分類過程中樣本不均衡的問題。
基于上述研究,NLP在建筑工程領(lǐng)域的文本分類任務(wù)中已經(jīng)取得了一定成果,其主要工作是:獲取文本詞向量特征和構(gòu)建文本分類器。在送入分類器之前,應(yīng)將文本數(shù)據(jù)轉(zhuǎn)化為向量形式,詞向量分為基于頻率嵌入和基于預(yù)測(cè)嵌入。基于頻率嵌入的詞向量(如TF-IDF)忽略了詞的順序和上下文語境,為解決這一問題,Mikolov等[9]提出了基于預(yù)測(cè)上下文詞語的Word2vec詞向量模型,其包含CBOW和Skip-Gram兩種不同的模型架構(gòu),能夠捕獲詞語之間豐富的語義關(guān)系。在構(gòu)建文本分類器方面,如專注視覺任務(wù)的CNN模型,在遷移應(yīng)用于文本分類任務(wù)后也取得一定成功。雙向長短期記憶網(wǎng)絡(luò)模型(bi-directional long short-term memory,BiLSTM)[10]在LSTM的基礎(chǔ)上,可以更好地捕獲雙向的語義依賴關(guān)系。Lai等[11]提出的TextRCNN模型結(jié)合了RNN和CNN的優(yōu)點(diǎn),利用用雙向循環(huán)結(jié)構(gòu)獲取上下文信息。Johnson等[12]提出的深度金字塔卷積神經(jīng)網(wǎng)絡(luò)(deep pyramid convolutional neural networksfor text categorization,DPCNN),解決了CNN抽取長距離文本依賴關(guān)系的問題。
建筑市場(chǎng)信用管理領(lǐng)域中的相關(guān)文本包含大量長序列,且含有大量專業(yè)性詞語,針對(duì)文本特點(diǎn)和任務(wù)需求需要選擇不同種類的模型并進(jìn)行微調(diào),使得在模型能夠在文本分類任務(wù)中取得較好的效果。NLP中的文本分類及相關(guān)技術(shù)應(yīng)用在我國建筑市場(chǎng)信用管理領(lǐng)域仍處于起步階段,未來還有很多發(fā)展空間。
2建筑市場(chǎng)失信行為信息分類模型構(gòu)建
根據(jù)任務(wù)目標(biāo)不同,文本分類任務(wù)主要分為三種:?jiǎn)螛?biāo)簽文本分類,即在有限個(gè)類別標(biāo)簽中,每個(gè)文本有且僅有一個(gè)類別與之匹配;多標(biāo)簽文本分類,即一個(gè)文本可以同時(shí)被貼上多個(gè)類別標(biāo)簽;層級(jí)標(biāo)簽文本分類,即各個(gè)類別標(biāo)簽之前存在從屬關(guān)系。在建筑企業(yè)失信行為信息的分類管理過程中,首先需要判斷該條信息屬于哪一個(gè)類別,是單標(biāo)簽文本分類問題。文章NLP文本分類主要流程包含:文本數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、詞向量表示、訓(xùn)練文本分類模型,如圖1所示。
2.1文本數(shù)據(jù)獲取
文章采用網(wǎng)絡(luò)爬蟲技術(shù)對(duì)各級(jí)住房和城鄉(xiāng)建設(shè)部門公布的行政處罰文本數(shù)據(jù)進(jìn)行爬取,實(shí)現(xiàn)政府網(wǎng)站網(wǎng)頁的自動(dòng)翻頁與信息下載,提高文本數(shù)據(jù)獲取的效率;再通過法律信息數(shù)據(jù)庫中的行政處罰模塊對(duì)行政處罰文本數(shù)據(jù)進(jìn)行補(bǔ)充,構(gòu)成行政處罰文本數(shù)據(jù)語料庫。
2.2文本數(shù)據(jù)預(yù)處理
對(duì)原始行政處罰文本進(jìn)行分詞處理,并引入停用詞表,將大量無用符號(hào)與無意義詞語剔除。文章采用Python開源的中文分詞軟件包jieba進(jìn)行分詞,并引入停用詞表去除停用詞。
2.3基于Skip-Gram的文本詞向量表示
在進(jìn)行文本分類模型訓(xùn)練之前,需要將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)能夠識(shí)別的數(shù)字向量形式。為獲取更準(zhǔn)確豐富的文本詞向量表示,提高文本分類模型的分類效果,行政處罰文本語料庫由兩部分組成:一部分是已經(jīng)標(biāo)注好類別的樣本,用于訓(xùn)練文本分類模型;另一部分是包括前者在內(nèi)的含有大量無標(biāo)注類別的樣本,用于詞向量模型的無監(jiān)督訓(xùn)練,以獲取靜態(tài)詞的向量表示。
Word2vec是一種無監(jiān)督式詞向量模型,其在大量無監(jiān)督語料庫詞向量訓(xùn)練任務(wù)中都表現(xiàn)出穩(wěn)定高效的特點(diǎn),是運(yùn)用最廣泛的一種文本詞向量模型。Word2vec核心思想是通過詞的上下文得到詞的向量化表示,其有兩種不同的模型架構(gòu):CBOW,通過中心詞的上下文來預(yù)測(cè)中心詞;Skip-Gram,通過中心詞來預(yù)測(cè)上下文的詞。CBOW在訓(xùn)練速度上有較大優(yōu)勢(shì),而Skip-Gram在小樣本和專業(yè)領(lǐng)域的的詞向量訓(xùn)練上更加精確,因此文章采用word2vec的Skip-Gram架構(gòu)進(jìn)行文本的詞向量表示。
2.4 BiLSTM-Attention文本分類模型
文章采用LSTM的變體BiLSTM模型進(jìn)行文本分類任務(wù)的特征提取,并在此基礎(chǔ)上融入注意力機(jī)制優(yōu)化文本特征,增加模型對(duì)重點(diǎn)信息的關(guān)注,提高模型分類性能。采用Skip-Gram模型進(jìn)行詞向量訓(xùn)練,并經(jīng)過嵌入層送入BiLSTM-Attention模型,參考Zhou等[13]提出的BiLSTM-Attention模型結(jié)構(gòu),如圖2所示。
文章采用的Bilstm-Attention模型包含5個(gè)組成部分,分別是:輸入層、嵌入層、BiLSTM層、注意力層、輸出層。
2.4.1輸出層"對(duì)中文語料庫進(jìn)行3.2中的預(yù)處理,包括分詞和去除停用詞等,將已經(jīng)分好詞的中文語料庫經(jīng)輸入層輸入到模型中。
2.4.2嵌入層"嵌入層的處理方法有兩種,分為動(dòng)態(tài)詞嵌入和靜態(tài)詞嵌入[14]。動(dòng)態(tài)詞嵌入,在訓(xùn)練過程中獲得詞語的向量表示,并會(huì)隨著模型的傳播過程進(jìn)行更新,適合大型的文本語料庫的模型訓(xùn)練;靜態(tài)詞嵌入,詞的向量表示是預(yù)訓(xùn)練好的,并且在整個(gè)模型訓(xùn)練過程中保持不變。在小樣本訓(xùn)練中,動(dòng)態(tài)詞向量嵌入可能導(dǎo)致模型過度擬合樣本中的噪聲數(shù)據(jù),因此文章采用Skip-Gram模型進(jìn)行靜態(tài)詞嵌入,將語料庫中的每一個(gè)詞映射成固定長度的向量。
輸入層輸入的是經(jīng)過數(shù)據(jù)預(yù)處理的樣本,并通過查找詞典的方式得到預(yù)訓(xùn)練的詞向量,然后輸入到嵌入層進(jìn)行文本的向量化表示。給定一個(gè)包含N個(gè)詞語的句子S=x1,x2,x3,…,xN,其中每一個(gè)詞語xi都被詞向量矩陣Wwrd轉(zhuǎn)化為一個(gè)實(shí)數(shù)向量ei,表達(dá)式為:
ei=Wwrd·vi,Wwrd∈Rdw·V(1)
式(1)中,Wwrd為詞向量矩陣,vi為詞xi的詞嵌入向量,通過預(yù)訓(xùn)練詞向量模型獲得;dw為詞向量維度,文章中詞向量維度為300;V為大小固定的詞匯表,V表示詞匯表的大小,文章中無監(jiān)督訓(xùn)練語料庫中的詞匯數(shù)量為15056。
2.4.3 BiLSTM層"在LSTM的基礎(chǔ)上,BiLSTM可以同時(shí)考慮前后兩個(gè)方向的序列信息,其在前方向和后方向都包含一個(gè)完整的LSTM結(jié)構(gòu)。BiLSTM包含兩個(gè)方向的隱藏層狀態(tài),能夠從兩個(gè)方向的序列中獲取更豐富的文本特征,最終的輸出是兩個(gè)方向的拼接,提高了模型性能。BiLSTM在t時(shí)刻的隱藏層狀態(tài)ht由正反兩個(gè)隱藏層狀態(tài)ht和ht共同決定,表達(dá)式為:
ht=fU1et+U2ht-1ht=fU3et+U4ht+1ht=gU5ht+U6ht(2)
式(2)中,U1、U2、U5為正向傳播中的權(quán)重矩陣;U3、U4、U6為反向傳播中的權(quán)重矩陣;f和g為激活函數(shù)。
2.4.4注意力層"Bahdanau等[15]將計(jì)算機(jī)視覺領(lǐng)域的注意力機(jī)制遷移應(yīng)用于機(jī)器翻譯,后來廣泛應(yīng)用于NLP領(lǐng)域。其核心思想是,在處理序列數(shù)據(jù)時(shí)動(dòng)態(tài)調(diào)整和分配每個(gè)輸入位置的權(quán)重,使模型集中注意于序列數(shù)據(jù)中最相關(guān)的部分,從而提高模型性能。
假設(shè)BiLSTM層輸出樣本由T個(gè)詞組成,其向量合集表示為H=h1,h2,h3,…,hT。其經(jīng)Attention層計(jì)算得到向量r,計(jì)算表達(dá)式為
M=tanhHα=softmaxwTMr=HαT(3)
式(3)中:將H中的向量逐個(gè)經(jīng)tanh函數(shù)運(yùn)算得到矩陣M;w為經(jīng)學(xué)習(xí)得到的參數(shù)向量,經(jīng)softmax函數(shù)運(yùn)算得到注意力權(quán)重向量α;r為attention層的輸出向量。
最終用于分類的向量表示為
h*=tanhr(4)
2.4.5輸出層"將上一層的隱藏層狀態(tài)h*作為輸入,使用softmax分類器來預(yù)測(cè)分類標(biāo)簽,其表達(dá)式為
P︿y|S=softmaxWsh*+bsy︿=argmaxyP︿y|S(5)
式(5)中:P︿y|S表示給定樣本S的條件下,預(yù)測(cè)類別為y的概率分布;Ws為權(quán)重矩陣;bs為偏置向量;argmaxy表示取概率分布中最高概率的類別作為預(yù)測(cè)結(jié)果,結(jié)果為y︿。
3實(shí)驗(yàn)
3.1文本數(shù)據(jù)語料庫
目前,建筑領(lǐng)域的文本分類研究多采用行業(yè)部門網(wǎng)站或企業(yè)公布的開源數(shù)據(jù)。文章使用八爪魚網(wǎng)絡(luò)爬蟲軟件對(duì)山東省、江蘇省等各級(jí)住房和城鄉(xiāng)建設(shè)部門網(wǎng)站公布數(shù)據(jù)進(jìn)行收集整理,并通過“威科先行”法律信息庫(https://law.wkinfo.com.cn/)中的“行政處罰”模塊進(jìn)行補(bǔ)充。
文本數(shù)據(jù)語料庫由兩部分組成:一部分是已標(biāo)注類別數(shù)據(jù),用于文本分類器的有監(jiān)督學(xué)習(xí);另一部是無標(biāo)注類別數(shù)據(jù)。已標(biāo)注數(shù)據(jù)加上無標(biāo)注數(shù)據(jù)共同用于詞向量模型的無監(jiān)督學(xué)習(xí)。已標(biāo)注數(shù)據(jù)1670份,無標(biāo)注數(shù)據(jù)3936份,將已標(biāo)注數(shù)據(jù)按8∶2劃分為訓(xùn)練集和測(cè)試集,其組成如圖3所示。
由于樣本搜集難度較大,文章共篩選了11種建筑企業(yè)失信行為行政處罰文本數(shù)據(jù):Ax為監(jiān)理單位,Bx為建設(shè)單位,Cx為施工單位。已標(biāo)注數(shù)據(jù)樣本類別分布如表1所示。
3.2對(duì)照組實(shí)驗(yàn)
文章共設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn):
(1)采用1670份和(1670+3936)份行政處罰文本語料庫分別訓(xùn)練Skip-Gram模型,測(cè)試兩者在BiLSTM-Attention模型上的分類效果。
(2)基于Skip-Gram詞向量模型的5種不同的文本分類模型進(jìn)行對(duì)照實(shí)驗(yàn),分別是BiLSTM-Attention、TextCNN、TextRCNN、BiLSTM、DPCNN文本分類模型。
3.3參數(shù)設(shè)置
為在行政處罰信息文本分類任務(wù)中取得更好的分類效果,文章對(duì)模型的超參數(shù)進(jìn)行了設(shè)置,如表2所示。
batch_size為每次送入模型的樣本數(shù)量,epochs為樣本在模型中的迭代次數(shù),learning_rate為學(xué)習(xí)率,設(shè)置drop_out為0.5來緩解過度擬合。BiLSTM的兩個(gè)隱藏層單元數(shù)分別設(shè)置為128、64。
3.4實(shí)驗(yàn)環(huán)境
文章基于PyTorch 1.1框架實(shí)現(xiàn)文本分類算法程序,PyTorch是一個(gè)開源的機(jī)器學(xué)習(xí)庫,它提供了活的張量計(jì)算庫,使得構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)變得更加直觀和靈活。使用jieba中文分詞庫進(jìn)行文本數(shù)據(jù)預(yù)處理,gensim庫訓(xùn)練中文詞向量。搭建模型的環(huán)境為Python 3.7,集成開發(fā)環(huán)境為PyCharm 2023.1.1。文章的計(jì)算機(jī)配置為Intel(R)、Core(TM)、i7-10750H CPU,GPU為NVIDIA GeForce RTX 2060。
3.5評(píng)價(jià)指標(biāo)
對(duì)于模型在各個(gè)類別上的分類性能,文章采用精確率(P)、召回率(R)、F1值(F1)作為測(cè)定模型對(duì)類別Ci分類效果好壞的評(píng)級(jí)指標(biāo)。精確率指所有被分類模型預(yù)測(cè)為類別Ci的樣本中實(shí)際為Ci的樣本所占比例;召回率指類別Ci中被正確預(yù)測(cè)的樣本所占的比例;F1值由精確率和召回率的調(diào)和平均數(shù)計(jì)算所得,是反映模型穩(wěn)健程度的綜合評(píng)價(jià)指標(biāo)。計(jì)算表達(dá)式為:
Pi=TPiTPi+FPiRi=TPiTPi+FNiF1i=2×Pi×RiPi+Ri(6)
式(6)中,TPi指被預(yù)測(cè)為類別Ci的樣本中實(shí)際類別為Ci的樣本數(shù)量;FPi指被預(yù)測(cè)為類別Ci的樣本中類別不是Ci樣本數(shù)量;FNi指類別為Ci的樣本中被錯(cuò)誤預(yù)測(cè)為其他類別的樣本數(shù)量。
對(duì)于模型的整體性能,文章采用準(zhǔn)確率(A)、宏平均(M)、加權(quán)平均(W)對(duì)模型在測(cè)試集合上的整體分類效果進(jìn)行評(píng)價(jià)。準(zhǔn)確率指所有被正確預(yù)測(cè)的樣本占總樣本的比例;宏平均指在不考慮頻數(shù)的情況下每個(gè)類別的某一指標(biāo)相加后除以類別個(gè)數(shù)所得的平均值;加權(quán)平均指將每個(gè)類別的某一指標(biāo)乘以該類別樣本數(shù)占總樣本數(shù)的比例后相加所得的平均值。
準(zhǔn)確率的計(jì)算表達(dá)式為:
A=Ncorrect∑mi=1Ni(7)
式(7)中:Ncorrect為測(cè)試集中所有被正確預(yù)測(cè)的樣本數(shù);Ni為測(cè)試集中類別Ci的樣本數(shù)量;m為樣本類別數(shù)。
宏平均包括:宏精確率(MP)、宏召回率(MR)、宏F1值(MF1),計(jì)算表達(dá)式為:
MP=1m∑mi=1PiMR=1m∑mi=1RiMF1=1m∑mi=1F1i(8)
加權(quán)平均包括:加權(quán)平均精確率(WP)、加權(quán)平均召回率(WR)、加權(quán)平均F1值(WF1),計(jì)算表達(dá)式為:
WP=∑mi=1Pi×Ni∑mi=1NiWR=∑mi=1Ri×Ni∑mi=1NiWF1=∑mi=1F1i×Ni∑mi=1Ni(9)
3.6實(shí)驗(yàn)結(jié)果與分析
3.6.1基于不同語料庫的Skip-Gram模型對(duì)比"文章采用的行政處罰文本語料庫包含已標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)兩部分,分別基于兩種不同規(guī)模的語料庫訓(xùn)練Skip-Gram模型。Skip-Gram(1):使用已標(biāo)注加無標(biāo)注的共5606份文本數(shù)據(jù)訓(xùn)練Skip-Gram模型;Skip-Gram(2):僅使用已標(biāo)注的1670份文本數(shù)據(jù)訓(xùn)練Skip-Gram模型。
將兩者分別接入BiLSTM-Attention模型,測(cè)試兩者在已標(biāo)注文本數(shù)據(jù)上的分類效果。采用準(zhǔn)確率、宏平均、加權(quán)平均進(jìn)行結(jié)果評(píng)價(jià),如表3所示。
表3中,Skip-Gram(1)的準(zhǔn)確率達(dá)到0.953,相比Skip-Gram(2)提高了2.2%;宏平均指標(biāo)分別達(dá)到了0.953、0.951、0.952,相比分別提高了2.1%、2.3%、2.2%;加權(quán)平均指標(biāo)分別達(dá)到了0.951、0.955、0.953,相比分別提高了2.1%、2.2%、2.2%。以上結(jié)果表明,在特定領(lǐng)域的小樣本分類模型訓(xùn)練前,采用更大的同類型語料庫訓(xùn)練詞向量模型,對(duì)文本分類模型性能有一定的提升。
3.6.2基于Skip-Gram的5種文本分類模型對(duì)比"(1)模型在各個(gè)類別上的分類性能?;赟kip-Gram模型,測(cè)試BiLSTM-attention模型與其他4種文本分類模型在測(cè)試集上的各個(gè)類別分類效果,結(jié)果如表4所示。
表4分別是5種文本分類模型在11類建筑企業(yè)失信行為信息測(cè)試集樣本上的精確率(P)、召回率(R)、F1值(F1)。從測(cè)試集樣本各個(gè)類別的分類效果來看,BiLSTM-Attention模型的P、R、F1值大部分都優(yōu)于其他4種模型,其次是TextCNN。只有A1一種有關(guān)監(jiān)理單位的失信行為樣本,不同于建設(shè)單位或施工單位,在各級(jí)住建部門網(wǎng)站上監(jiān)理單位相關(guān)的行政處罰樣本較少,有關(guān)監(jiān)理單位的樣本相對(duì)于其他樣本特征較為明顯,故在5種分類模型上P、R、F1值都在0.8以上,取得了不錯(cuò)的分類效果。同理,B1和B2建設(shè)單位的樣本種類也僅有2種,BiLSTM-Attention和TextCNN的分類效果最好,兩者P、R、F1值均大于0.9,在TextRCNN、BiLSTM、DPCNN上也均大于0.8。在C1~C7中,C3和C4的分類效果最差,除BiLSTM-Attention外,其余4種模型在C3或C4中的P均不足0.8。分析原因,可能是在類別C3和C4中是按“設(shè)計(jì)圖或設(shè)計(jì)標(biāo)準(zhǔn)”為依據(jù)分類,建筑施工標(biāo)準(zhǔn)涉及方面多,標(biāo)準(zhǔn)繁多冗雜導(dǎo)致了模型分類精度下降。除類別C3和C4外,BiLSTM-Attention和TextCNN的P都達(dá)到了0.9以上,R和F1值也都在0.8以上,DPCNN的分類效果最差。以上結(jié)果表明,基于注意力機(jī)制的BiLSTM-Attention模型各類別的P、R、F1值相比BiLSTM提升明顯,在5中分類模型中效果最好,其次是TextCNN、TextRCNN、BiLSTM和DPCNN。
(2)模型的整體分類性能。5種模型的準(zhǔn)確率、宏平均、加權(quán)平均指標(biāo)如表5所示。
表5中,從左至右的5中文本分類模型的準(zhǔn)確率、宏平均指標(biāo)、加權(quán)平均指標(biāo)依次下降。從測(cè)試集樣本的整體分類效果來看,由于樣本分布相對(duì)均勻,B1最多為230份,C5和C7最少為117份,所以同一種分類模型的宏平均指標(biāo)和加權(quán)平均指標(biāo)非常相近。BiLSTM-Attention、TextCNN和TextRCNN的準(zhǔn)確率最高,分別為0.953、0.927和0.909,都達(dá)到了0.9以上,宏平均指標(biāo)和加權(quán)平均指標(biāo)也都在0.9以上,其中BiLSTM-Attention的各項(xiàng)指標(biāo)最高。BiLSTM-Attention相較于BiLSTM在融入注意力機(jī)制后提升較為明顯,準(zhǔn)確率提高了10.2%,宏平均指標(biāo)分別提高了7.9%、10.7%、10.6%,加權(quán)平均指標(biāo)分別提高了7.4%、10.2%、9.8%。
實(shí)驗(yàn)表明,BiLSTM在融入注意力機(jī)制后加強(qiáng)了模型對(duì)關(guān)鍵信息的關(guān)注,使模型能更好地提取文本特征,有效提高模型性能,相較于其他的文本分類模型取得了很好的文本分類效果。
4結(jié)論
文章采用基于NLP的Skip-Gram+BiLSTM-Attention文本分類模型,實(shí)現(xiàn)了對(duì)建筑市場(chǎng)中建筑企業(yè)失信行為信息的自動(dòng)分類。在1670條標(biāo)注文本數(shù)據(jù)的基礎(chǔ)上,搜集大量無標(biāo)注數(shù)據(jù),獲取更加豐富的文本詞向量表示。在采用BiLSTM模型基礎(chǔ)上加入注意力機(jī)制層,使模型關(guān)注文本中的重點(diǎn)信息,從而提高文本分類效果。設(shè)置模型對(duì)比實(shí)驗(yàn),對(duì)比各模型分類的精確率、召回率、F1值、準(zhǔn)確率、宏平均、加權(quán)平均等指標(biāo),與TextCNN等模型相比分類效果有明顯提升,驗(yàn)證了模型的有效性。
參考文獻(xiàn):
[1]張晨,王建東,羅宵,等.工程管理數(shù)字化關(guān)鍵技術(shù)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用,2023,43(S1):187.
[2]王煜,鄧暉,李曉瑤,等.自然語言處理技術(shù)在建筑工程中的應(yīng)用研究綜述[J].圖學(xué)學(xué)報(bào),2020,41(4):501.
[3]于游,付鈺,吳曉平.中文文本分類方法綜述[J].網(wǎng)絡(luò)與信息安全學(xué)報(bào),2019,5(5):1.
[4]Zhang F,F(xiàn)leyeh H,Wang X,et al. Construction site accident analysis using text mining and natural language processing techniques [J]. Automation in Construction,2019,99(1):238.
[5]李華,陳俞源,高紅,等.基于改進(jìn)Bert模型的建筑事故隱患分類方法研究[J].安全與環(huán)境學(xué)報(bào),2022,22(3):1421.
[6]蔣海剛.詞向量文本挖掘技術(shù)在建筑設(shè)施管理應(yīng)用研究[J].電腦知識(shí)與技術(shù),2021,17(33):22.
[7]周紅,湯世隆,顧佳楠,等.基于自然語言處理和深度學(xué)習(xí)的建設(shè)工程合同智能分類方法研究[J].科技管理研究,2023,43(8):165.
[8]夏占杰.基于深度學(xué)習(xí)的建筑安全檢查紀(jì)要文本挖掘研究[D].北京:北京化工大學(xué),2023.
[9]Mikolov T,Chen K,Corrado G, et al. Efficient estimation of word representations in vector space [C].ICLR,2013,1301.
[10]Huang Z,Xu W,Yu K. Bidirectional lstm-crf models for sequence tagging [J]. Computer Science,2015,4(1):1508.
[11]Lai S,Xu L,Liu K,et al. Recurrent convolutional neural networks for text classification [C]. Proceedings of the AAAI conference on artificial intelligence,2015,2267.
[12]Johnson R,Zhang T. Deep pyramid convolutional neural networks for text categorization [C]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).2017,562.
[13]Zhou P,Shi W,Tian J,et al. Attention-based bidirectional long short-term memory networks for relation classification [C]. Proceedings of the 54th annual meeting of the association for computational linguistics (Volume 2: Short papers),2016,207.
[14]曾駿,王子威,于揚(yáng),等.自然語言處理領(lǐng)域中的詞嵌入方法綜述[J].計(jì)算機(jī)科學(xué)與探索,2024,18(1):24.
[15]Bahdanau D,Cho K,Bengio Y. Neural machine translation by jointly learning to align and translate [C]. Proceedings of the 3rd International Conference on Learning Representations,2015:1.
Research onthe Classification of Bad Credit Information in
Construction Market Based on Natural Language Processing
ZHANG Zhensen, REN Yuxuan, CAO Jichang
(School of Management Engineering, Qingdao University of Technology, Qingdao 266525)
ABSTRACT"In order to improve the status quo of relying on human labor for document management of credit information in construction credit management, This paper proposed a text categorization method based on Natural Language Processing (NLP) for the information of construction enterprise's bad credit information. Firstly, the word vector representation of the text was obtained based on Skip-Gram model using labeled data and a large number of unlabeled; secondly, the Bi-directional Long-Short Term Memory Network (BiLSTM), which incorporated the Attention-Mechanism, was used to perform feature extraction and text classification on the labeled data. The results showed that: in small-sample training, using a larger corpus to train the word vector model could effectively improve the classification performance of the text classification model, the NLP-based text classification method could realize the fast and automatic classification of the information about the bad Credit information of construction enterprises.
KEY WORDS"bad credit information;administrative penalty;Skip-Gram word vector;Attention-Mechanism; text classification
(責(zé)任編輯"王一諾)
九江學(xué)院學(xué)報(bào)(自然科學(xué)版)2024年3期