蔣海剛
摘要:該文挖掘是自然語(yǔ)言處理技術(shù)(NLP)在人工智能應(yīng)用領(lǐng)域的一個(gè)重要落地場(chǎng)景。文章以建筑設(shè)施運(yùn)維工單短文本分類(lèi)器構(gòu)建為背景,分析了具有稀疏特征的短文本分類(lèi)技術(shù)難點(diǎn),提出了基于Word2vec算法模型構(gòu)建建筑運(yùn)維工單文本詞向量特征,通過(guò)有監(jiān)督機(jī)器學(xué)習(xí)模型將強(qiáng)關(guān)聯(lián)規(guī)則加入短文本分類(lèi)器訓(xùn)練過(guò)程中,通過(guò)短文本詞向量特征改善,優(yōu)化短文本分類(lèi)準(zhǔn)確率、召回率和 F1 值。通過(guò)驗(yàn)證,建筑運(yùn)維工單專(zhuān)業(yè)自動(dòng)分類(lèi)識(shí)別成功率達(dá)89%,為分析建筑運(yùn)維服務(wù)訴求提供數(shù)據(jù)依據(jù)和基礎(chǔ)。
關(guān)鍵詞: 詞向量;短文本挖掘;非結(jié)構(gòu)化數(shù)據(jù);建筑數(shù)據(jù)管理
中圖分類(lèi)號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)33-0022-04
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1引言
近年來(lái),隨著信息技術(shù)的日新月異,尤其是人工智能技術(shù)的發(fā)展,在建筑運(yùn)維領(lǐng)域也開(kāi)始探索應(yīng)用人工智能賦能建筑數(shù)字化運(yùn)維服務(wù)。建筑運(yùn)維工單是建筑運(yùn)維過(guò)程中描述性的非結(jié)構(gòu)化文本數(shù)據(jù),其中包括對(duì)建筑維保對(duì)象故障、專(zhuān)業(yè)、維修記錄的描述性信息。傳統(tǒng)的基于結(jié)構(gòu)化數(shù)據(jù)的數(shù)值分析方法較難適用于這類(lèi)非結(jié)構(gòu)化文本數(shù)據(jù)的分析和挖掘工作[1]。因此需要引入自然語(yǔ)言處理(NLP)中的文本挖掘技術(shù),將文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的向量處理,形成工單文本的詞頻、詞性、關(guān)鍵詞等特征標(biāo)注信息,并對(duì)建筑運(yùn)維工單文本進(jìn)行語(yǔ)料庫(kù)構(gòu)建,應(yīng)用機(jī)器學(xué)習(xí)算法對(duì)文本完成預(yù)訓(xùn)練結(jié)果集輸出,形成建筑維保工單文本語(yǔ)義的深度挖掘能力,最終輸出建筑運(yùn)維工單可視化分析報(bào)告,為建筑運(yùn)維服務(wù)提供主動(dòng)式建筑設(shè)施維保建議,是當(dāng)前建筑運(yùn)維領(lǐng)域應(yīng)用自然語(yǔ)言處理(NLP)技術(shù)進(jìn)行建筑運(yùn)維非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用的人工智能應(yīng)用場(chǎng)景之一[2]。
2建筑運(yùn)維工單文本特征
建筑運(yùn)維工單主要分為維修工單、維保工單。維修工單內(nèi)容通常是用戶(hù)報(bào)修信息和維修人員維修記錄其工單文本長(zhǎng)度統(tǒng)計(jì)一般都在200字符以?xún)?nèi),具有明顯的短文本特征如圖1所示,且屬于非規(guī)范性口語(yǔ)化嚴(yán)重的短文本[3]。建筑運(yùn)維工單文本描述通常不遵守語(yǔ)法規(guī)則;且工單描述信息由于字?jǐn)?shù)少,本身所包含的有效信息也較少,這樣造成工單文本的統(tǒng)計(jì)特征非常稀疏,并且特征集的維數(shù)非常高,因而通過(guò)機(jī)器理解短文本面臨極大的技術(shù)挑戰(zhàn)[3]。同樣在建筑維保工單短文本挖掘過(guò)程中會(huì)遇到上述數(shù)據(jù)擾動(dòng)的干擾,影響建筑運(yùn)維文本語(yǔ)義真實(shí)意圖的理解。短文本的特征使得傳統(tǒng)基于詞袋模型文本挖掘方法很難對(duì)其進(jìn)行有效建模。近年來(lái)基于深度學(xué)習(xí)算法的應(yīng)用成熟在一定程度上提升了對(duì)于語(yǔ)義特征稀疏的短文本挖掘效率。
3 短文本挖掘技術(shù)研究
文本挖掘是非結(jié)構(gòu)化數(shù)據(jù)處理的一個(gè)重要分支,其本質(zhì)是將文本數(shù)據(jù)通過(guò)向量化方式形成結(jié)構(gòu)化文本信息描述,進(jìn)而提煉出有價(jià)值的知識(shí)信息。文本挖掘主要步驟包括數(shù)據(jù)收集、文本預(yù)處理、數(shù)據(jù)挖掘和可視化、搭建模型和模型評(píng)估 [4]。目前文本挖掘技術(shù)已經(jīng)在關(guān)鍵詞提取、文本自動(dòng)摘要、文本聚類(lèi)、文本分類(lèi)、文本主題模型、文本觀(guān)點(diǎn)抽取、情感分析等領(lǐng)域得到廣泛的應(yīng)用。
詞向量(Word Embedding)是為了讓計(jì)算機(jī)能夠處理的一種詞的表示。短文本分類(lèi)的關(guān)鍵在于詞向量矩陣的降維處理,短文本向量表達(dá)特征有高維、稀疏等問(wèn)題,通過(guò)降維處理可以減小數(shù)據(jù)維度和需要的存儲(chǔ)空間、節(jié)約模型訓(xùn)練計(jì)算時(shí)間、去掉冗余變量、提高算法的準(zhǔn)確度[1]。
4 文本分類(lèi)方法研究
文本分類(lèi)是指將文本描述歸類(lèi)到已知的文本類(lèi)別中,其主要包括文本預(yù)處理和分類(lèi)器模型構(gòu)建兩個(gè)過(guò)程,文本分類(lèi)流程如圖2所示。
4.1文本向量化預(yù)處理技術(shù)
文本挖掘是自然語(yǔ)言處理在主要研究?jī)?nèi)容,并且是人工智能和機(jī)器學(xué)習(xí)算法的主要應(yīng)用場(chǎng)景。近年來(lái),文本向量化研究已備受關(guān)注,目前大致有三種常用技術(shù)路徑可供選擇:基于規(guī)則特征匹配的方法;基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法(特征工程 + 分類(lèi)算法);基于深度學(xué)習(xí)的方法(詞向量 + 神經(jīng)網(wǎng)絡(luò))。Word2vec是Google研究團(tuán)隊(duì)里的Tomas Mikolov等人于2013年的兩篇研究論文中提出的一種使用一層神經(jīng)網(wǎng)絡(luò)高效訓(xùn)練詞向量模型的方法 [5]。Word2vec 最有價(jià)值的是讓不帶語(yǔ)義信息的詞帶上了語(yǔ)義信息,其次把詞語(yǔ)從 one-hot encoder 形式的表示降維到 Word2vec 形式的表示,是一種研究短文本分析的常用方法[5,6]。
4.2 文本語(yǔ)料庫(kù)構(gòu)建技術(shù)研究
文本向量化需依次經(jīng)歷分詞、詞向量化和詞向量組合的過(guò)程。目前主流的詞向量方法都存在不同的缺陷?,F(xiàn)有的向量化方法是依賴(lài)于詞袋模型產(chǎn)生文本向量表達(dá),然而短文本中有些詞與文本要義關(guān)聯(lián)度較低,但對(duì)文本用向量表示的影響較大。因此需要抽取短文本關(guān)鍵詞并以此和TF-IDF權(quán)重組合形成文本向量更能反映短文本語(yǔ)義的特征信息。因此本次研究的對(duì)象建筑運(yùn)維工單短文本挖掘,通過(guò)構(gòu)建建筑運(yùn)維語(yǔ)料庫(kù)提升文本向量化的準(zhǔn)確度其技術(shù)實(shí)現(xiàn)方式,如圖3所示。
4.3文本分類(lèi)器模型構(gòu)建
分類(lèi)器模型構(gòu)建過(guò)程即通過(guò)相應(yīng)的算法,根據(jù)文本預(yù)訓(xùn)練后的生成訓(xùn)練結(jié)果生集,依據(jù)訓(xùn)練結(jié)果進(jìn)行文本分類(lèi)測(cè)試驗(yàn)證分類(lèi)器構(gòu)建的有效性。目前國(guó)內(nèi)中文文本分類(lèi)研究主要集中在樸素貝葉斯算法、K近鄰算法、支持向量機(jī)算法、決策樹(shù)算法等[5]。
4.4 分類(lèi)器模型效果評(píng)估
用來(lái)評(píng)價(jià)文本分類(lèi)器的指標(biāo)非常多,在實(shí)際應(yīng)用中需要根據(jù)場(chǎng)景來(lái)選擇甚至是設(shè)計(jì)評(píng)價(jià)分類(lèi)器的指標(biāo)。在本文研究中結(jié)合建筑運(yùn)維工單文本的特征,采用準(zhǔn)確率(Accuracy,簡(jiǎn)記為A)、精確率(Precision,簡(jiǎn)記為 P)、召回率(Recall,簡(jiǎn)記為 R)、 F1 測(cè)量值(簡(jiǎn)記為 F1)4項(xiàng)指標(biāo)用于評(píng)估分類(lèi)器效果[7],相關(guān)概念和指標(biāo)定義如下:
TP:被模型預(yù)測(cè)為正的正樣本? TN:被模型預(yù)測(cè)為負(fù)的負(fù)樣本
FP:被模型預(yù)測(cè)為正的負(fù)樣本? FN: 被模型預(yù)測(cè)為負(fù)的正樣本
準(zhǔn)確率(Accuracy) 公式(1)表達(dá)式為:
精確率(Precision) 公式(2):表達(dá)式為:
召回率(Recall)公式(3):表達(dá)式為:
F1 測(cè)量值(F1 Score)公式(4):表達(dá)式為:
上述分類(lèi)評(píng)估指標(biāo)各有優(yōu)缺點(diǎn)。召回率主要評(píng)估分類(lèi)器的查全程度,精確率主要評(píng)估的是分類(lèi)器預(yù)測(cè)的準(zhǔn)確能力。二者指標(biāo)通常有沖突,需要通過(guò)F1值進(jìn)行平衡[8]。建筑運(yùn)維工單維修專(zhuān)業(yè)分類(lèi)器關(guān)注的是分類(lèi)的維修專(zhuān)業(yè)是否精確,因此在本研究中主要側(cè)重于對(duì)分類(lèi)器模型的精確度的評(píng)估,通過(guò)F1分?jǐn)?shù)平衡其與召回率的關(guān)系。
5 建筑運(yùn)維工單文本挖掘應(yīng)用實(shí)踐
5.1 工單文本預(yù)訓(xùn)練
本研究以某建筑運(yùn)維公司2020年1月-2020年12月期間產(chǎn)生的工單文本為文本預(yù)訓(xùn)練數(shù)據(jù)集,從工單內(nèi)容出發(fā)進(jìn)行中文分詞、詞向量計(jì)算以及TF-IDF(詞頻-逆向文件頻率)統(tǒng)計(jì),工單訓(xùn)練數(shù)據(jù)集記錄數(shù)為19,029條。本次研究使用中文分詞工具是Jieba分詞,使用Python 3.8編寫(xiě)工單預(yù)訓(xùn)練腳本文件。通過(guò)完善和加入用戶(hù)自定義專(zhuān)業(yè)詞庫(kù)和停用詞庫(kù)來(lái)優(yōu)化中文分詞結(jié)果,最終分詞得到 49,760個(gè)建筑維保詞匯,將分詞結(jié)果去除停用詞處理后,再進(jìn)行特征降維處理,結(jié)合建筑運(yùn)維專(zhuān)業(yè)特征從詞性、詞頻、權(quán)重以及詞義與詞頻關(guān)系等多維度進(jìn)行特征信息選擇[7],所形成的建筑運(yùn)維專(zhuān)業(yè)特征語(yǔ)料分布,如圖4所示。
5.2? 建筑維修專(zhuān)業(yè)分類(lèi)器模型構(gòu)建
5.2.1 訓(xùn)練集數(shù)據(jù)選取
在建筑運(yùn)維服務(wù)項(xiàng)目中,用戶(hù)通過(guò)工單反映出的建筑設(shè)施問(wèn)題多種多樣,為統(tǒng)一、準(zhǔn)確、詳細(xì)地反映用戶(hù)的建筑運(yùn)行訴求,本研究以某建筑機(jī)電運(yùn)維項(xiàng)目在建筑運(yùn)維服務(wù)過(guò)程中產(chǎn)生的“熱點(diǎn)詞匯”為文本研究對(duì)象,如“脫落”“漏水”“空調(diào)”“照明”等,如圖5所示。隨機(jī)從工單中篩選出含“熱點(diǎn)詞”樣本工單作為工單專(zhuān)業(yè)分類(lèi)的訓(xùn)練集。
5.2.2 分類(lèi)器模型確定
通過(guò)Python腳本調(diào)用文本挖掘算法庫(kù)構(gòu)建4個(gè)備選分類(lèi)器模型,并對(duì)比分析不同分類(lèi)器的分類(lèi)效果,對(duì)比結(jié)果如圖6所示:
由圖7的可知,從箱體圖上可以看出Sklearn Linear SVC (線(xiàn)性支持向量機(jī))的準(zhǔn)確率評(píng)估值達(dá)到90% 以上命中率,基于模型有效性評(píng)估結(jié)果,對(duì)比研究認(rèn)為L(zhǎng)inear SVC使用One-vs-rest來(lái)生成分類(lèi)器,通過(guò)構(gòu)造N個(gè)分類(lèi)器,可以獲取的建筑工單文本的比較重要的向量化特征[5,9]。因此,綜合平衡后確定Linear SVC分類(lèi)模型作為建筑運(yùn)維工單專(zhuān)業(yè)分類(lèi)器模型選擇。
5.3 建筑運(yùn)維專(zhuān)業(yè)分類(lèi)評(píng)估及結(jié)果
從分類(lèi)結(jié)果中隨機(jī)抽選 12,500張工單進(jìn)行效果評(píng)估,評(píng)估結(jié)果如表1所示。
從表1的分類(lèi)結(jié)果分析,模型查全率(Recall)達(dá)到50%,錯(cuò)誤率33%。
從分類(lèi)器評(píng)估結(jié)果分析該工單分類(lèi)訓(xùn)練集識(shí)別出正確工單專(zhuān)業(yè)分類(lèi)的概率僅為67%。因此對(duì)建筑工單專(zhuān)業(yè)分類(lèi)模型進(jìn)行調(diào)優(yōu)。模型調(diào)優(yōu)主要從三個(gè)方面進(jìn)行改進(jìn):
1) 完善建筑運(yùn)維專(zhuān)業(yè)詞庫(kù)和停用詞庫(kù)使中文分詞結(jié)果更精準(zhǔn);
2) 根據(jù)工單詞頻統(tǒng)計(jì)選擇更精準(zhǔn)的特征詞強(qiáng)化工單分類(lèi)訓(xùn)練;
3) 調(diào)整Linear SVC模型參數(shù),增加訓(xùn)練迭代次數(shù)優(yōu)化分類(lèi)器預(yù)測(cè)效果。
分類(lèi)器模型調(diào)整后,結(jié)果評(píng)估見(jiàn)表2。
由表2可知,經(jīng)過(guò)模型優(yōu)化后,準(zhǔn)確率和查準(zhǔn)率分別提高至 89%、83%,在業(yè)務(wù)可接受范圍內(nèi)。通過(guò)驗(yàn)證對(duì)比認(rèn)為,調(diào)整后的分類(lèi)器模型對(duì)全量工單專(zhuān)業(yè)分類(lèi)測(cè)試結(jié)果為正確率為88.62%,共準(zhǔn)確識(shí)別出工單維修專(zhuān)業(yè)16,935張,工單專(zhuān)業(yè)類(lèi)型識(shí)別情況如圖7所示。
5.4 建筑運(yùn)維工單專(zhuān)業(yè)自動(dòng)分類(lèi)器應(yīng)用展望
以建筑運(yùn)維質(zhì)量評(píng)估可視化分析為例,在原始報(bào)告中對(duì)于工單專(zhuān)業(yè)的分類(lèi)是以建筑系統(tǒng)分類(lèi)為依據(jù),例如電氣、暖通、給排水、弱電等,但實(shí)際運(yùn)行環(huán)境中存在著“工單是屬于某建筑系統(tǒng)但維修專(zhuān)業(yè)是歸屬于其他專(zhuān)業(yè)的情況”。而用戶(hù)表達(dá)的建筑問(wèn)題會(huì)被忽略或者隱藏在系統(tǒng)分類(lèi)標(biāo)簽下得不到反映。同時(shí),在分配工單任務(wù)時(shí),受到人員直覺(jué)經(jīng)驗(yàn)、業(yè)務(wù)環(huán)境因素和固有的系統(tǒng)分類(lèi)方法影響,使得維修專(zhuān)業(yè)分類(lèi)結(jié)果偏離工單所需反映的問(wèn)題實(shí)際。經(jīng)工單專(zhuān)業(yè)分類(lèi)器自動(dòng)分類(lèi)后,用戶(hù)表達(dá)的訴求和反映的問(wèn)題可直接以工單維修專(zhuān)業(yè)維度進(jìn)行分類(lèi)統(tǒng)計(jì)并進(jìn)行可視化報(bào)告呈現(xiàn),如圖8所示。通過(guò)試點(diǎn)項(xiàng)目驗(yàn)證,通過(guò)維修專(zhuān)業(yè)分類(lèi)可視化呈現(xiàn),試點(diǎn)項(xiàng)目主動(dòng)發(fā)現(xiàn)和洞悉了建筑物維修重點(diǎn)專(zhuān)業(yè),通過(guò)文本數(shù)據(jù)可視化提升了建筑物運(yùn)維服務(wù)質(zhì)量和效率。
6 結(jié)束語(yǔ)
本文研究在當(dāng)前建筑運(yùn)維工單統(tǒng)計(jì)分析不充分,主動(dòng)式建筑運(yùn)維服務(wù)能力待提升的背景下,提出基于詞向量Word2vec的文本挖掘技術(shù),對(duì)建筑運(yùn)維服務(wù)過(guò)程中形成的報(bào)障工單進(jìn)行短文本分析應(yīng)用研究,形成面向建筑運(yùn)維短文本挖掘?qū)嶒?yàn)性研究結(jié)果。通過(guò)研究驗(yàn)證認(rèn)為:基于工單專(zhuān)業(yè)分類(lèi)器的算法實(shí)現(xiàn)可以成為工單自動(dòng)化派單功能實(shí)現(xiàn)的基礎(chǔ)。驗(yàn)證結(jié)果表明:工單專(zhuān)業(yè)識(shí)別準(zhǔn)確率達(dá)到89%。原型系統(tǒng)驗(yàn)證了從工單語(yǔ)義描述出發(fā),準(zhǔn)確地將隱藏在海量工單中的關(guān)鍵信息進(jìn)行數(shù)據(jù)特征描述和呈現(xiàn),降低人為介入工單專(zhuān)業(yè)標(biāo)識(shí)的技術(shù)可行性。此外,從分類(lèi)后的工單中還能進(jìn)一步提煉出建筑運(yùn)維服務(wù)中相關(guān)事件的關(guān)聯(lián)影響程度,通過(guò)工單溯源分析出建筑運(yùn)維服務(wù)活動(dòng)中存在的問(wèn)題,為建筑運(yùn)維服務(wù)質(zhì)量的改進(jìn)提供數(shù)據(jù)依據(jù)。
參考文獻(xiàn):
[1] 王煜,鄧暉,李曉瑤,等.自然語(yǔ)言處理技術(shù)在建筑工程中的應(yīng)用研究綜述[J].圖學(xué)學(xué)報(bào),2020,41(4):501-511.
[2] 王煙.自然語(yǔ)言處理技術(shù)在建筑使用后評(píng)價(jià)中的應(yīng)用[J].南方建筑,2019(1):82-87.
[3] 章昉,顏華駒,劉明君,等.基于詞項(xiàng)關(guān)聯(lián)的短文本分類(lèi)研究[J].集成技術(shù),2015,4(3):69-78.
[4] 李顥,張吉皓.基于文本挖掘技術(shù)的客服投訴工單自動(dòng)分類(lèi)探討[J].移動(dòng)通信,2017,41(23):66-72.
[5] 蘇玉龍,張著洪.基于關(guān)鍵詞的文本向量化與分類(lèi)算法研究[J].貴州大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,35(3):101-105.
[6] 余傳明,李浩男,安璐.基于多任務(wù)深度學(xué)習(xí)的文本情感原因分析[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,37(1):50-61.
[7] Minaee S,Kalchbrenner N,Cambria E,et al.Deep learning—based text classification[J].ACM Computing Surveys,2021,54(3):1-40.
[8] 鄒云峰,何維民,趙洪瑩,等.文本挖掘技術(shù)在電力工單數(shù)據(jù)分析中的應(yīng)用[J].現(xiàn)代電子技術(shù),2016,39(17):149-152.
[9] Tang D Y,Wei F R,Yang N,et al.Learning sentiment-specific word embedding for twitter sentiment classification[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Baltimore,Maryland.Stroudsburg,PA,USA:Association for Computational Linguistics,2014:1555-1565.
【通聯(lián)編輯:聞翔軍】