郭瀟楠, 王仁超*, 毛三軍, 彭相國
(1.天津大學(xué)建筑工程學(xué)院, 天津 300354; 2.長江三峽技術(shù)經(jīng)濟(jì)發(fā)展有限公司, 北京100043)
21世紀(jì)以來,以深度學(xué)習(xí)、大數(shù)據(jù)為核心的人工智能技術(shù)正推動傳統(tǒng)合同審查模式進(jìn)行變革,人工智能技術(shù)已經(jīng)廣泛應(yīng)用于合同修改與審核業(yè)務(wù)當(dāng)中。1987年,首次國際人工智能法律會議(ICAIL)在美國波士頓東北大學(xué)舉辦,會議討論了人工智能與法律的跨學(xué)科領(lǐng)域的研究和應(yīng)用;1991年,國際人工智能與法律協(xié)會(IAAIL)正式成立,協(xié)會的主要議題包括法律文本自動分類、摘要自動生成等人工智能技術(shù);2016年,IBM公司基于IBM沃森(Watson)智能電腦平臺研發(fā)了世界首個人工智能律師Ross,自此以后,法律自動化合規(guī)審查、合同審核不斷涌現(xiàn)。
施工組織設(shè)計是指導(dǎo)工程建設(shè)全過程活動的技術(shù)、經(jīng)濟(jì)和組織的綜合性文件,其編制質(zhì)量對于工程建設(shè)成本、質(zhì)量、進(jìn)度、安全具有重要的影響。工程建設(shè)不同階段,需要編制大量不同類型的施工組織設(shè)計文件,這些施組文件編制、審查是工程技術(shù)人員主要日常工作之一,提高施組文件的編制、審查效率和質(zhì)量,對于提高工程建設(shè)管理水平具有重要的作用。
傳統(tǒng)的施組文件審查主要依靠具有一定經(jīng)驗的技術(shù)負(fù)責(zé)人員人工審查,審查質(zhì)量一方面取決于審查人員的經(jīng)驗知識,另一方面,與審查人員的責(zé)任感、可利用時間以及手頭已有規(guī)范資料等有關(guān)。在時間倉促、資料有限情況下,難免對施組文件存在問題出現(xiàn)遺漏審查的情況。
近年來,隨著深度學(xué)習(xí)、大數(shù)據(jù)等人工智能技術(shù),尤其是基于自然語言理解的文本分析、知識挖掘技術(shù)的發(fā)展,使得施工組織設(shè)計文檔智慧輔助審查成為可能?;谧匀徽Z言理解的文本分析、知識挖掘技術(shù)在法律合同文本審查[1-2]、醫(yī)療文檔處理[3]、新聞?wù)崛4]等方面的研究和成功應(yīng)用,可為施工組織設(shè)計智慧輔助審查提供一定的借鑒。在工程建設(shè)領(lǐng)域,有關(guān)建筑工程管理規(guī)范條文[5]檢索、有關(guān)混凝土壩施工文檔知識智能識別及挖掘[6]、有關(guān)工程施工進(jìn)度關(guān)鍵工序詞提取與信息挖掘[7]、調(diào)水工程巡檢文本智能分類[8]等方面的研究表明:非結(jié)構(gòu)化文檔知識挖掘正成為工程建設(shè)領(lǐng)域研究的重要方向之一。
但是,由于施工組織設(shè)計文檔具有類型多樣、長文本、針對對象類型多、涉及內(nèi)容廣等特點(diǎn),要實(shí)現(xiàn)智慧輔助審查還存在較大的難度。為此,針對施工組織設(shè)計文檔智慧輔助審查中基礎(chǔ)性工作之一——文本分類問題開展研究。施工組織設(shè)計審查主要包括施工組織設(shè)計文本的全面性、可操作性、針對性、先進(jìn)性等。其中全面性指的是施工組織設(shè)計文檔依據(jù)施工組織設(shè)計編制規(guī)范編制基本內(nèi)容,包括工程概況、施工部署、施工進(jìn)度計劃、施工準(zhǔn)備與資源配置計劃、主要施工方法等;可操作性指的是施工組織設(shè)計文本中各項作業(yè)是否符合實(shí)際,合理可行,如頂管施工中黃土土質(zhì)條件不適用于偏心破碎泥水平衡掘進(jìn)機(jī);針對性主要指施工組織設(shè)計文本是否對工程重難點(diǎn)把握到位;先進(jìn)性審查施工組織設(shè)計是否采用新技術(shù)新工藝等;施工組織設(shè)計文本分類可以對施工組織設(shè)計文本快速精準(zhǔn)分類,劃分文本主題,為施工組織設(shè)計的全面性審查提供依據(jù);此外通過對施工組織文本的分類挖掘,對后續(xù)依據(jù)主題類別應(yīng)用知識圖譜挖掘其中有關(guān)地質(zhì)條件、水文以及氣象條件、工程重難點(diǎn)、施工新技術(shù)新方法等信息提供基礎(chǔ),是實(shí)現(xiàn)施工組織設(shè)計文檔智慧輔助審查的重要手段之一。
基于Bi-LSTM Attention的施工組織設(shè)計文本分類方法,利用房建、隧道、公路、橋梁施工組織設(shè)計以及污水管道等常見的施工組織設(shè)計文檔,利用工程概況這一部分內(nèi)容訓(xùn)練施工組織設(shè)計文本分類模型,并進(jìn)行了幾種分類方法所得結(jié)果比較研究。
自然語言處理中,文本分類的目的主要是通過將已經(jīng)被標(biāo)注的訓(xùn)練集通過分類模型訓(xùn)練,實(shí)現(xiàn)新的文檔類別的自動判斷,文本分類早起源與國外,從基于知識的方法轉(zhuǎn)變?yōu)榛跈C(jī)器學(xué)習(xí)的方法,現(xiàn)在被廣泛應(yīng)用于中文專利[9]、影視評價[10]、醫(yī)學(xué)文獻(xiàn)[11]等各個領(lǐng)域。
對于文本分類的研究起源于20世紀(jì)50年代,Luhn[12]提出了利用詞頻統(tǒng)計來進(jìn)行文本分類的方法;Maron等[13]提出了利用關(guān)鍵詞給文本分類的方法,基于此方法,文本自動分類也在逐步應(yīng)用;Salton等[14]基于空間密度計算的方法為文檔選取最佳索引詞匯,但是這需要人工的定義分類規(guī)則,無法適應(yīng)于大規(guī)模的分類任務(wù)。
文本分類主要包括數(shù)據(jù)預(yù)處理、文本表示、特征降維。目前,詞向量的表示有基于One-hot(獨(dú)熱編碼),還有基于詞向量(Word2vec),One-hot是一個詞袋模型,它基于詞與詞之間相互獨(dú)立的假設(shè),不能考慮上下文的關(guān)系。Collobert等[15]提出了基于詞向量訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;Huang等[16]提出了運(yùn)用上下文訓(xùn)練詞向量的方法;Mikolov等[17]首次提出了Word2vec詞向量模型,連續(xù)詞袋模型(continuous bag-of-word model,CBOW)模型類似于神經(jīng)網(wǎng)絡(luò)模型,其目的是通過上下文相關(guān)單詞去預(yù)測目標(biāo)單詞的出現(xiàn)概率,跳字模型(continuous skip-gram model, Skip-gram)模型恰恰相反,它是利用某個單詞去預(yù)測其相關(guān)的上下文單詞。Word2vec模型應(yīng)用CBOW或Skip-gram作為詞嵌入的工具,根據(jù)給定的語料庫,通過訓(xùn)練模型將詞語表達(dá)成向量形式,訓(xùn)練生成的詞向量要比傳統(tǒng)的One-hot(獨(dú)熱表示)富含更多語義信息,并且避免了詞向量維度過高難以計算以及不能充分表示詞與詞之間的關(guān)系的問題。特征降維主要是對特征向量進(jìn)行降維處理,特征向量維度過高,分類模型可能無法處理,常用的方法有文檔頻次法(document frequency,DF)、互信息(mutual information,MI)法、信息增益(information gain)法、卡方檢驗(CHI)法等[18]。
Bahdanau等[19]首次將Attention 機(jī)制運(yùn)用于機(jī)器翻譯任務(wù)中;Zhang等[20]基于循環(huán)神經(jīng)網(wǎng)絡(luò)(gate recurrent unit,GRU)提取上下文語義信息,結(jié)合 Attention 機(jī)制,模型的準(zhǔn)確率和訓(xùn)練速度均有提升;滕金保等[10]利用多通道注意力機(jī)制對輸出信息進(jìn)行融合,有效提高文本分類的效果。
基于長短時記憶網(wǎng)絡(luò)(long short-term memory,Bi-LSTM)的文本分類模型,只考慮到上文語境并提取文本特征向量。Shu等[21]提出了雙向長短時記憶網(wǎng)絡(luò)(bi-directional long short-term memory,Bi-LSTM),Bi-LSTM綜合考慮文本的上下文語境,通過正向隱藏層和反向隱藏層兩個方向捕捉文本特征,提取更為豐富的語義信息,提高分類模型性能。近年來,基于FastText[22]、BERT[11]、深度金字塔卷積神經(jīng)網(wǎng)絡(luò)DPCNN[23]、Transformer[24]等新型模型以及各種集成模型廣泛應(yīng)用于文本分類的任務(wù)中。
基于以上研究,結(jié)合當(dāng)前市政施工領(lǐng)域工作需求,采用Bi-LSTM Attention模型,將其應(yīng)用于市政施工組織設(shè)計文本分類研究當(dāng)中,首先利用Word2vec訓(xùn)練詞向量,獲取具有豐富語義信息的詞向量,接著利用雙向LSTM提取上下文語義信息,得到更加全面的特征向量,最后加入Attention機(jī)制,在保留全面性的前提下關(guān)注關(guān)鍵信息,以期提升模型的分類性能。
文本分類在自然語言處理中扮演著非常重要的角色,最早的文本分類依賴于手工構(gòu)建分類數(shù)據(jù)集,耗時費(fèi)力,不利于大規(guī)模投入使用。目前,基于自動文本分類通過有監(jiān)督學(xué)習(xí),將非結(jié)構(gòu)化的信息處理為計算機(jī)可處理的數(shù)據(jù)結(jié)構(gòu),是文本分類任務(wù)的一大難點(diǎn)。文本分類的一般流程如圖1所示,文本分類在輸入分類器之前主要步驟有:①文本預(yù)處理;②Word2vec詞向量表示;③特征降維。
圖1 文本分類一般流程圖Fig.1 General flowchart for text classification
文本預(yù)處理主要包括分詞和去除停用詞等操作。首先利用開源軟件包jieba進(jìn)行中文分詞,把文本內(nèi)容劃分為以詞為單位的序列,去除停用詞主要指的是將文本中反復(fù)出現(xiàn)并無特殊意義的詞進(jìn)行去除處理,這些詞的存在對于分類器的訓(xùn)練起不到任何作用,甚至?xí)ξ谋痉诸惖男Ч嬖诟蓴_,因此需要創(chuàng)建停用詞表,對文檔中含有停用詞的文本進(jìn)行過濾。
CBOW于2013年由 Mikolov等[17]提出,主要是將高維稀疏的詞向量轉(zhuǎn)化為低維稠密的向量空間,CBOW模型內(nèi)在思想主要是通過給文本上下文建模,將上下文詞語加權(quán)平均,最后用softmax函數(shù)計算的到中心詞的概率,并且得到詞向量。圖2展示了Word2vec詞嵌入構(gòu)造向量的過程。
CBOW模型的結(jié)構(gòu)類似神經(jīng)網(wǎng)絡(luò)模型,目標(biāo)函數(shù)可表示為
(1)
圖2 Word2vec詞嵌入構(gòu)造向量流程Fig.2 Word2vec word embedding construction vector process
式(1)中:p為條件概率;T為訓(xùn)練語料庫中出現(xiàn)詞匯的數(shù)量;Context為中心詞上下文窗口大?。粀t-c、wt-1、wt+1、wt+c表示輸入的詞向量;wt為輸出的詞向量。
在實(shí)際計算過程中會將目標(biāo)函數(shù)轉(zhuǎn)換為對數(shù)似然函數(shù)L,其表達(dá)式為
(2)
CBOW采用三層前饋神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)包括輸入層、映射層、輸出層,w(t-2),w(t-1),…,w(t+2)為輸入向量,映射層為計算過程,w(t)為輸出變量,如圖3所示。CBOW沒有隱藏層,在整個的網(wǎng)絡(luò)傳播過程中減少很多矩陣計算,節(jié)省了計算時間。輸出層通過上下文計算中心詞出現(xiàn)的概率,模型通過softmax函數(shù)進(jìn)行歸一化計算,具體表達(dá)式為
(3)
sum為映射層,主要是對輸入層的向量做求和累加,表示一個計算的 過程圖3 CBOW 模型結(jié)構(gòu)示意圖Fig.3 Schematic diagram of CBOW model structure
式(3)中:T為訓(xùn)練語料庫中出現(xiàn)詞匯的數(shù)量;yw(i)為向量y中第i個分量值。
應(yīng)用CBOW詞向量訓(xùn)練,得到訓(xùn)練后的詞向量可表示為
(4)
(5)
文檔頻率(document frequency,DF)是指文本集中包含某個特征的文檔個數(shù)。文檔頻率是最簡單的一種無監(jiān)督的特征降維方法,其時間復(fù)雜度和文本集的大小呈線性關(guān)系,不依賴類別信息,多用于文本分類。
文檔頻率主要就是計算訓(xùn)練集中每個特征詞的文檔頻率,再將文檔頻率小于設(shè)定閾值的特征詞移除,不作為訓(xùn)練的特征詞向量,在文本分類任務(wù)中,一般認(rèn)為出現(xiàn)頻率較多次數(shù)的詞匯更能表現(xiàn)文本特征,出現(xiàn)頻率少的詞匯要么是無用詞匯,要么對整體性能沒有影響。但實(shí)際上,小頻率的特征詞未必就是無用詞匯,大量的刪除出現(xiàn)次數(shù)少卻對分類特征明顯的詞匯可能會導(dǎo)致特征集類別判定能力下降,影響文本分類的效果。
在BiLSTM 的基礎(chǔ)上,本文提出基于雙向長短時記憶網(wǎng)絡(luò)的改進(jìn)注意力模型,Attention機(jī)制的加入能夠進(jìn)一步的優(yōu)化文本特征向量,解決信息冗余的問題,提高文本分類的準(zhǔn)確度,Bi-LSTM模型架構(gòu)圖4所示。
bw_hn為句子后向信息;fw_hn為句子前向信息圖4 Bi-LSTM模型架構(gòu)圖Fig.4 Bi-LSTM model architecture
所提出的模型包含5部分,即①嵌入層:將每個詞g映射成低維向量;②LSTM層:利用BLSTM從①獲得高層特征;③注意層:產(chǎn)生一個權(quán)重向量,通過將權(quán)重向量相乘,將每個時間步長的詞級特征合并成句子級特征向量;④輸出層:最終使用句子級特征向量進(jìn)行關(guān)系分類。
給定一個由n個詞組成的句子S為[w0,w1,w2,…,wn],每個單詞wi轉(zhuǎn)換為一個200維度的實(shí)數(shù)向量,在句子中的每個單詞,查詢詞嵌入矩陣Wwrd∈Rdw|V|,其中,V為一個固定詞匯數(shù)的詞典,本文模型中的詞匯數(shù)是6 002,dw為詞向量的維度,Wwrd通過訓(xùn)練詞向量得到,詞向量維度dw可控,輸入的詞通過從詞典查找的方式得到相應(yīng)的詞向量,詞典中沒有的詞通過隨機(jī)生成的方式得到,文本通過預(yù)處理之后輸入到嵌入層,完成文本的向量化表示。
BiLSTM是對LSTM進(jìn)行了改進(jìn),其與LSTM結(jié)構(gòu)大體相似,區(qū)別于LSTM的單向傳播,BiLSTM引入了兩個傳播方向相反,相互獨(dú)立的隱藏層,相較于LSTM,它能夠得到兩個關(guān)于輸入信息的向量,從正向和反向得到序列的上下文語義信息,提高模型的性能,參考Shu等[21]提出的BiLSTM結(jié)構(gòu),其表達(dá)式見式(6)~式(10)。
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
(6)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
(7)
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
(8)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
(9)
ht=ottanhct
(10)
式中:σ為sigmoid作為激活函數(shù);it、ft、ot、ct分別為輸入門、遺忘門、輸出門和記憶單元,其中,遺忘門ft決定細(xì)胞需要舍棄哪些特征信息,輸入門it決定給細(xì)胞狀態(tài)添加哪些特征信息;tanh為激活函數(shù);ht-1為前一個時間步的輸出;xt為當(dāng)前時間步的輸入;Wxi、Whi、Wci為輸入門it的權(quán)重;Wxf、Whf、Wcf為遺忘門ft的權(quán)重;Wxc、Whc為記憶單元ct的權(quán)重;Wxo、Who、Wco為輸出門ot的權(quán)重;bi、bf、bc、bo分別為輸入門偏置、遺忘門偏置、候選細(xì)胞偏置和輸出門偏置。
Attention機(jī)制被用于自然語言處理(NLP)最早是在Encoder-Decoder[25]中,多用于機(jī)器翻譯和人機(jī)對話當(dāng)中,將Attention機(jī)制引入文本分類模型,其優(yōu)勢在于使輸入的數(shù)據(jù)具有不同的權(quán)重信息并側(cè)重于權(quán)重較高的信息,提高分類效果。
M=tanhH
(11)
α=softmax(wTM)
(12)
r=HαT
(13)
式中:M為隱藏層單元;α為注意力向量;H為 BiLSTM 的輸出;r為Attention機(jī)制的輸出向量;w為訓(xùn)練好的詞向量。
最終被用來分類的句子可表示為
h*=tanhr
(14)
使用softmax分類器來預(yù)測類別,將分類器注意力層的h*作為輸入,可表示為
(15)
式(15)中:y為具體類別;S為輸入的句子向量。
(16)
(17)
式(17)中:ti為樣本的正確標(biāo)簽;yi為樣本的預(yù)測標(biāo)簽;m為所有文本的數(shù)量;θ為代價函數(shù)的參數(shù),θ越小,代價越?。沪藶長2正則化超參數(shù),將dropout和L2正則化相結(jié)合來緩解過擬合。
本實(shí)驗是基于Tensorflow框架上實(shí)現(xiàn)的,Tensorflow 是一款用于深度學(xué)習(xí)的開源框架,利用節(jié)點(diǎn)之間的數(shù)據(jù)流傳遞數(shù)據(jù)并進(jìn)行計算。Tensorflow最開始由Google大腦的研究院以及工程師研發(fā),用于機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的研究,2015年10月開源,其架構(gòu)靈活,能夠支持各種網(wǎng)絡(luò)模型,具有良好的通用性。本實(shí)驗的計算機(jī)配置情況如表1所示。
表1 計算機(jī)配置情況Table 1 Computer configuration situation
本實(shí)驗一共運(yùn)用了5種文本分類的算法做對比實(shí)驗,在相同的數(shù)據(jù)集上進(jìn)行實(shí)驗。4種對比實(shí)驗分別為:基于Word2Vec詞向量表示,RCNN(region-convolutional neural networks)文本分類方法、CNN文本分類方法、Transformer文本分類方法、Bi-lSTM文本分類方法、Bi-lSTM-Attention文本分類方法。
目前,文本分類大多采用已經(jīng)開源的數(shù)據(jù)集,通過手機(jī)郵件語料數(shù)據(jù)集[18]、IMDB影評數(shù)據(jù)集、復(fù)旦大學(xué)中文語料庫以及利用Python爬蟲從專業(yè)網(wǎng)站上獲取相關(guān)專業(yè)文本數(shù)據(jù)集,然后利用神經(jīng)網(wǎng)絡(luò)方法實(shí)現(xiàn)施工組織設(shè)計文本自動分類,采用通過網(wǎng)絡(luò)下載以及調(diào)研等各種方式收集不同類型的施工組織設(shè)計文檔,構(gòu)建文本分類的數(shù)據(jù)集。
通過對“土木在線”網(wǎng)站(https://bbs.co188.com/)數(shù)據(jù)以及長江大保護(hù)相關(guān)單位所提供數(shù)據(jù)進(jìn)行收集整理,本實(shí)驗語料數(shù)據(jù)主要集中于市政相關(guān)的施工組織設(shè)計文檔,主要涵蓋了房建、污水管道、公路、隧道、橋梁5個領(lǐng)域。施工組織設(shè)計文檔的編寫應(yīng)以相關(guān)編制規(guī)范為依據(jù),內(nèi)容上都必須包括涵蓋整個工程項目的概況信息、施工部署、全程進(jìn)度安排、施工準(zhǔn)備工作、主要機(jī)械人員配置情況、采用的施工方法、施工現(xiàn)場總平面布置等,選擇最具有分類特征的工程概況作為分類文本,工程概況包括工程地理位置、主要工程量等以及水文、地質(zhì)、氣象條件等現(xiàn)場施工條件信息。
鑒于收集數(shù)據(jù)的難度較大,本實(shí)驗收集了房建、污水管道、公路、隧道、橋梁的數(shù)據(jù)集,總計1 720份施工組織設(shè)計文檔,其中房建868份、污水管道224份、公路282份、隧道和橋梁分別為143和203份,本實(shí)驗選定80%的文本作為訓(xùn)練數(shù)據(jù)集,20%的文本作為測試數(shù)據(jù)集。
使用分詞工具jieba和停用詞表分別進(jìn)行分詞和去除停用詞后利用Word2vec進(jìn)行詞向量的構(gòu)造,Word2vec預(yù)訓(xùn)練詞向量維度為200,窗口大小設(shè)置為10,利用CBOW進(jìn)行訓(xùn)練。
(1)Bi-LSTM文本分類模型的參數(shù)設(shè)置。Bi-LSTM隱藏層神經(jīng)元設(shè)置為128,單詞訓(xùn)練樣本batch size設(shè)置為128,驗證集比率rate為0.8,詞匯量vocab_size為6 000。所有樣本共進(jìn)行20輪循環(huán)訓(xùn)練,學(xué)習(xí)率為0.001。
(2)對比實(shí)驗中的參數(shù)設(shè)置。RCNN隱藏層神經(jīng)元為256,丟棄率Dropout為0.5;CNN卷積核的數(shù)目為128,卷積核的大小為2、3、4,Dropout為0.5;Transformer中內(nèi)層一維卷積核的數(shù)量為64,多頭注意力數(shù)目為8,transformer block的數(shù)量為1,LayerNorm中的最小除數(shù)為1×10-8,Dropout為0.5;Bi-LSTM 和Bi-lSTM-Attention文本分類模型中隱藏層神經(jīng)元為128,Dropout為0.5。
精確率(precision,記為P)、召回率(recall,記為R)、F值是評價單個類型文本分類效果的主要指標(biāo)。共包含5種類別,分別用A1、A2、A3、A4、A5表示。TP(true positive)表示原本類別為Ai并且被分類到Ai的樣本數(shù);FP(false positive)表示原本類別不是Ci卻被分類到Ci的樣本數(shù);FN(false negative)表示原本類別為Ci卻被劃分到其他類別中的樣本個數(shù);TN(true negative)表示原本不屬于Ci也沒有被分類到Ci的樣本數(shù)。
精確率P指正確分類到某個類別的樣本數(shù)量占全部被分類器劃分到這個類別樣本數(shù)量的百分比,其計算公式為
(18)
召回率R指正確分類到某個類別的樣本數(shù)量占全部樣本中實(shí)際屬于這個類別的樣本數(shù)量的百分比,其計算公式為
(19)
F值是一個綜合指標(biāo),是精確率和召回率的倒數(shù)平均值,其計算公式為
(20)
對于評估分類器對于所有分類文本的性能時,采用準(zhǔn)確率、微平均、宏平均、以及加權(quán)平均。
準(zhǔn)確率(accuracy,記為Accuracy)指的是分類正確的樣本數(shù)和總樣本數(shù)的比值,其計算公式為
(21)
對于評估分類器對于所有分類文本的性能時,采用微平均、宏平均以及加權(quán)平均作評估。
微平均精確率(Micro_P)、微平均召回率(Micro_R)、微平均F值(Micro_F)計算公式分別為
(22)
(23)
(24)
宏平均精確率(Macro_P)、宏平均召回率(Macro_R)、宏平均F值(Macro_F)計算公式分別為
(25)
(26)
(27)
式中:Pi、Ri分別為第i類的精確率、召回率;m為總類別數(shù)。
加權(quán)平均精確率Weight_P、加權(quán)平均召回率Weight_R、加權(quán)平均F值Weight_F的計算公式分別為
(28)
(29)
(30)
4.6.1 各類別文檔分類結(jié)果與分析
對基于Attention的Bi-LSTM特征提取與其他4種文本分類模型進(jìn)行對比實(shí)驗,結(jié)果如表2所示。
表2為房建、污水管道、鐵路、公路、隧道數(shù)據(jù)集在5種文本分類模型上分類精確率、召回率、F值,表中依次表示為Pre、Rec、F??梢钥闯觯贏ttention的Bi-LSTM的文本分類模型基本在每個分類上的3個評價指標(biāo)均高于其他模型。在數(shù)據(jù)收集上,房建類施工組織設(shè)計文本收集數(shù)量868份,Bi-LSTM-Attention、CNN、Bi-LSTM的精確率、召回率、F值均在0.9以上;RCNN和Transformer精確率分別為0.84和0.82;公路收集數(shù)據(jù)分別為282份,其在CNN和Bi-LSTM-Attention模型的分類效果較好,精確率分別為0.64和0.75,召回率分別為0.95和0.92,F(xiàn)值分別為0.77和0.82,在其他3種模型的表現(xiàn)稍次;污水管道、橋梁、隧道等數(shù)據(jù)較少的文本中,CNN和Bi-LSTM-Attention依然優(yōu)于其他模型,其中RCNN表現(xiàn)最差,在污水管道以及隧道的數(shù)據(jù)集上并沒有得到有效的訓(xùn)練,Transformer在隧道數(shù)據(jù)集上訓(xùn)練效果較差??傮w來說,在房建這個數(shù)據(jù)集較多的類別上,幾種模型的分類效果約為0.9,Bi-LSTM-Attention精確率、召回率、F值均為0.97,分類性能最好。結(jié)果表明,融入Attention機(jī)制Bi-LSTM文本分類模型的精確度、召回率、F值等相比于其他模型均有明顯提升。
4.6.2 整體分類結(jié)果與分析
在Sk-learn里,Micro-average平均下,多分類的Accuracy、Recall和Precision是一致的,因此只給出模型準(zhǔn)確率(Accuracy)、宏平均(Macro-average)、以及加權(quán)平均(Weight-average)的統(tǒng)計結(jié)果,如表3所示。
Bi-LSTM-Attention、CNN、Bi-LSTM、Transformer、RCNN分類準(zhǔn)確率、宏平均值及加權(quán)平均值依次降低。Bi-LSTM-Attention和CNN的模型準(zhǔn)確率最佳,分別為0.85和0.82;Bi-LSTM-Attention在Macro_P、Macro_R、Macro_F分別為0.8、0.75、0.75,比表現(xiàn)稍差的CNN分別高出5%、6%、5%;Bi-LSTM-Attention在Weight_P、Weight_R、Weight_F分別為0.86、0.85、0.85,比CNN分別高出2%、3%、4%。實(shí)驗表明,加入 Attention 機(jī)制的文本分類模型能夠綜合考慮上下文信息,其能夠存儲更多的語義信息,提取更多的文本特征,Attention機(jī)制加強(qiáng)了關(guān)鍵信息對分類的影響,可提升文本分類模型的精度。
表2 5種模型文本分類性能Table 2 Text classification performance of five models
表3 模型整體分類性能Table 3 Overall classification performance of the model
(1)為實(shí)現(xiàn)市政相關(guān)施工組織設(shè)計文本的分類,基于Bi-LSTM加入Attention機(jī)制,利用注意力機(jī)制進(jìn)一步對提取到的特征向量進(jìn)行優(yōu)化,BiLSTM則是對LSTM進(jìn)行了改進(jìn),區(qū)別于LSTM的單向傳播,BiLSTM引入了兩個傳播方向相反,相互獨(dú)立的隱藏層,它能夠得到兩個關(guān)于輸入信息的向量,從正向和反向得到序列的上下文語義信息,提高了模型的性能。通過設(shè)置實(shí)驗,對比了5種文本分類方法,通過統(tǒng)計各類別文檔分類結(jié)果的準(zhǔn)確率、召回率、F值等評價指標(biāo)評估模型在單個類別數(shù)據(jù)集的分類性能,通過Accuracy、Macro_F、Weighted_F評估模型在整體數(shù)據(jù)集上的分類性能。實(shí)驗表明,融入 Attention 機(jī)制Bi-LSTM文本分類模型相比于其他模型均有明顯提升。
(2)不足之處在于在做分類研究使用的是施工組織設(shè)計文本數(shù)據(jù)集,數(shù)據(jù)有限,導(dǎo)致數(shù)據(jù)少的分類模型訓(xùn)練效果差;后續(xù)考慮將CNN和Attention Bi-LSTM集成來提高文本分類模型性能并通過研究少樣本文本分類模型提高模型應(yīng)用能力;基于文本分類研究利用知識圖譜進(jìn)行規(guī)則推理挖掘施工組織設(shè)計文本關(guān)鍵信息以輔助施工組織設(shè)計文檔智慧審查。