摘 要:針對(duì)電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)條款內(nèi)容存在差異問題,提出了一種基于特征和語義的電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)差異分析方法。該方法通過條款特征提取、特征語義分析、特征權(quán)重評(píng)定和條款差異分析4個(gè)環(huán)節(jié),有效解決傳統(tǒng)文本相似度計(jì)算方法適用性不足的問題。進(jìn)一步對(duì)電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)條款結(jié)構(gòu)化,分析挖掘條款間存在的差異情況。通過真實(shí)標(biāo)準(zhǔn)條款進(jìn)行實(shí)驗(yàn),將本文方法同其他算法比較,結(jié)果表明本文所提方法在相似度計(jì)算方面優(yōu)于其他參與比較算法,并能指出條款的差異情況。
關(guān)鍵詞:電網(wǎng)設(shè)備,技術(shù)標(biāo)準(zhǔn),相似度,差異分析
0 引 言
標(biāo)準(zhǔn)被定義為可用于通過提供特性、指南、規(guī)范或要求來確保產(chǎn)品、流程、服務(wù)和材料適合其目的的文件(國(guó)際標(biāo)準(zhǔn)化組織,2017)。目前,電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)條款內(nèi)容存在差異,利用NLP(Natural Language Processing,自然語言處理)等處理電力行業(yè)的標(biāo)準(zhǔn)差異條款問題尚不成熟,NLP是將人類間交流溝通轉(zhuǎn)化為機(jī)器語言,目的是實(shí)現(xiàn)人機(jī)交互[1-2]?;谠~嵌入、深度學(xué)習(xí)和無監(jiān)督學(xué)習(xí)與遷移學(xué)習(xí)和語言模型與機(jī)制等關(guān)鍵技術(shù),自然語言處理實(shí)現(xiàn)了中文分析、語義分析和命名實(shí)體識(shí)別、構(gòu)建知識(shí)圖譜和信息檢索等功能。目前,國(guó)家越發(fā)重視自然語言處理、大模型等人工智能技術(shù),因此,對(duì)自然語言處理進(jìn)行深入研究具有重要作用。
語義相似度指的是詞義之間的相似程度,由語義距離和語義相關(guān)性決定。影響語義相似度的因素有語義關(guān)系、語義距離、調(diào)節(jié)參數(shù)和節(jié)點(diǎn)深度。近年來,語義相似度已經(jīng)成為自然語言處理中的重要研究方向,并且在眾多場(chǎng)景如智能問答、實(shí)體消歧[3]、輿情分析、情感分析[4]都應(yīng)用廣泛。文本相似度是通過其內(nèi)容屬性及非內(nèi)容屬性確定相似程度[5]。文本相似度計(jì)算是通過將文本轉(zhuǎn)化為特征向量,通過對(duì)比兩個(gè)文本的向量值來判斷其相似度[6]。文本相似度計(jì)算應(yīng)用于文本查重、文本分類檢索[7],智能推薦系統(tǒng)[8]等多方面,同時(shí),在電力智能交互平臺(tái)上,系統(tǒng)可以根據(jù)用戶提問,通過自然語言處理快速檢索,將結(jié)果反饋給用戶[9]。
1 文本相似度
文本相似度從文本的長(zhǎng)短程度可以分為長(zhǎng)文本相似度和短文本相似度。早期對(duì)文本相似度的研究主要是通過關(guān)鍵詞匹配來實(shí)現(xiàn),而忽略了語義的重要性。文本相似度對(duì)于文本分類、詞義消歧、關(guān)系抽取等方面具有至關(guān)重要的作用。隨著大模型等人工智能技術(shù)的發(fā)展,目前,主要有兩種主要的文本相似度研究方向。
基于詞頻的文本相似度算法是通過比較文本中詞語的相似性來判斷其相似程度,如:TF-IDF(Term Frequency-Inverse Document Frequency)[9],它通過詞頻來區(qū)分與其他文檔的特征。最長(zhǎng)公共子序列(LCS)算法[10]是通過查找文本間的最長(zhǎng)公共序列來計(jì)算文本相似度。SimHash[11]提出了一種新的局部敏感哈希算法,通過哈希函數(shù)將文本轉(zhuǎn)化為向量,進(jìn)而通過計(jì)算兩個(gè)向量之間的余弦來評(píng)估相似度。俞婷婷提出一種基于改進(jìn)的Jaccard系數(shù)文檔相似度計(jì)算方法,該方法主要考慮詞在文檔中所占比例來計(jì)算文本相似度[12]。
基于深度學(xué)習(xí)的文本相似度算法研究主要有無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)兩種方法。google在2013年提出word2vec,通過windows窗口的移動(dòng)來獲取詞的上下文關(guān)系,從而將詞轉(zhuǎn)化為向量。Huang[13]等提出一種深度學(xué)習(xí)模型,該模型將高緯度向量轉(zhuǎn)到低維度向量,然后通過兩個(gè)低緯度向量的余弦值來計(jì)算短文本相似度,同時(shí),還使用了單詞哈希的技術(shù)擴(kuò)大了深度語義模型,以便于處理大規(guī)模的數(shù)據(jù)。Shen等人[14]提出了CLSM(Convolutional LatentSemantic Model),該模型從每個(gè)詞開始通過卷積層來獲取上下文關(guān)系以降低維度,用于搜索查詢和Web文檔的語義向量表示。ReimersN等人[15]提出了S-BERT模型,該模型基于BERT模型,通過兩個(gè)編碼解碼的雙塔網(wǎng)絡(luò)來實(shí)現(xiàn)文本相似度的計(jì)算。盧美情[16]提出一種基于SBERT的文本匹配改進(jìn)模型SBMAA。該模型首先利用SBERT實(shí)現(xiàn)文本的向量化表示,同時(shí),引入多頭注意力的對(duì)齊,增加句向量交互,并通過拼接融合層來獲取交互信息的能力。實(shí)驗(yàn)表明,提出的SBMAA模型能夠有效提升文本匹配的效果,且具有一定的魯棒性。目前,針對(duì)電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)條款內(nèi)容存在差異問題,本文提出一種基于特征和語義的電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)條款差異分析方法。
2 基于特征和語義的標(biāo)準(zhǔn)條款差異分析方法
基于特征和語義的電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)條款差異分析方法包含4方面內(nèi)容:條款特征提取、特征語義分析、特征權(quán)重評(píng)定、條款差異分析。
2.1 條款特征提取
在電力行業(yè)技術(shù)標(biāo)準(zhǔn)條款中,實(shí)體詞語和語義是選擇特征詞的兩個(gè)主要依據(jù)。傳統(tǒng)通過詞頻、語義等方法選擇文本關(guān)鍵詞,容易遺漏數(shù)量較少的核心關(guān)鍵詞。在此,以電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)條款為例來說明此問題,“GB/T 50832-2013《1000kV 系統(tǒng)電氣裝置安裝工程電氣設(shè)備交接試驗(yàn)標(biāo)準(zhǔn)》中3電力變壓器,3.0.12 油中溶解氣體分析應(yīng)符合下列規(guī)定:3.油中溶解氣體含量應(yīng)無乙炔,且總烴小于或等于20mL/L,氫氣小于或等于10mL/L?!薄半娏ψ儔浩鳌弊鳛楹诵年P(guān)鍵詞,在本條條款中僅出現(xiàn)1次。因此,本文方法基于HanLP中文分詞、命名實(shí)體識(shí)別和電網(wǎng)設(shè)備專業(yè)詞庫從條款文本中提取特征詞。
從電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)中拆解的條款記作c,第i個(gè)條款記作ci。從標(biāo)準(zhǔn)條款ci中提取的實(shí)體、屬性等內(nèi)容作為特征詞fj(j=1,2,…,l),形成特征詞集合Ai,即Ai={f1,f2,…,fl}。例如:示例條款提取的特征詞集合A={電力變壓器,油,溶解氣體,乙炔,氧氣…}。
2.2 特征語義分析
為了解決特征詞一義多詞問題,確定實(shí)體、屬性和屬性值之間的關(guān)系,采用語義理解技術(shù)開展特征詞標(biāo)準(zhǔn)化處理和條款內(nèi)容深入分析。
特征詞標(biāo)準(zhǔn)化處理。本方法采用電網(wǎng)設(shè)備專業(yè)詞庫與歐氏距離結(jié)合的方式開展特征詞標(biāo)準(zhǔn)化處理,若在電網(wǎng)設(shè)備專業(yè)詞庫中明確指出該特征詞不是標(biāo)準(zhǔn)詞語,則以詞庫中的標(biāo)準(zhǔn)化特征詞進(jìn)行替換;若在電網(wǎng)設(shè)備專業(yè)詞庫中未找到類似詞語,則將該特征詞作為標(biāo)準(zhǔn)詞語,并補(bǔ)充進(jìn)專業(yè)詞庫。
標(biāo)準(zhǔn)條款內(nèi)容深入分析?;贖anLP詞性標(biāo)注對(duì)標(biāo)準(zhǔn)條款內(nèi)容進(jìn)行深入分析,挖掘條款中存在的“實(shí)體-屬性-屬性值”關(guān)系,如圖1所示。
2.3 特征權(quán)重評(píng)定
本文方法結(jié)合電網(wǎng)設(shè)備圖譜網(wǎng)絡(luò)拓?fù)浜吞卣髟~位置計(jì)算特征詞權(quán)重。
定義1 特征詞fj在電網(wǎng)設(shè)備網(wǎng)絡(luò)拓?fù)渲芯嚯x根節(jié)點(diǎn)的最短距離記作Dfj。
定義2 特征詞fj在標(biāo)準(zhǔn)條款中的位置記作Pfj。若特征詞fj從技術(shù)標(biāo)準(zhǔn)的標(biāo)題中提取,則Pfj=1;若特征詞i從技術(shù)標(biāo)準(zhǔn)的非標(biāo)題中提取,則Pfj=2。
根據(jù)定義1、定義2,特征詞 的權(quán)重按式(1)計(jì)算:
ωi=α×Dfj+β×Pfj(1)
其中,α和β為常數(shù),分別表示Dfj和Pfj的占比;特征詞i的權(quán)重值ωi越小,代表特征詞越重要。
按照權(quán)重值自小向大調(diào)整特征詞順序,形成電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)條款結(jié)構(gòu)化的基本結(jié)構(gòu),如圖2所示。
2.4 條款差異分析
在分析標(biāo)準(zhǔn)條款cm和 cn的差異情況時(shí),首先提取兩個(gè)條款的特征向量集合Am={ f1,f2,… ,fp}和An={ f1,f2,… ,fq};其次,通過特征語義分析和特征權(quán)重評(píng)定兩個(gè)環(huán)節(jié),對(duì)特征詞標(biāo)準(zhǔn)化處理、“實(shí)體-屬性-屬性值”關(guān)系挖掘和特征詞順序調(diào)整;再次,比較兩個(gè)條款的相應(yīng)特征詞內(nèi)容,按式(2)計(jì)算兩個(gè)條款的相似度Simmn;最后,通過比較對(duì)應(yīng)特征詞的屬性和屬性值,分析標(biāo)準(zhǔn)條款cm和cn的差異性,尤其是屬性值的差異情況。
Sim mn=t/min(p,q)(2)
其中,p為標(biāo)準(zhǔn)條款cm提取出的特征詞數(shù)量,q為標(biāo)準(zhǔn)條款cn提取出的特征詞數(shù)量,min(p,q)為p和q中的最小值,t為標(biāo)準(zhǔn)條款cm和cn中相同特征詞的數(shù)量。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)硬件的CPU為Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz 1.80 GHz,內(nèi)存為16GB,操作系統(tǒng)為Windows 10(64bit)。算法研發(fā)語言為python(Python 3.11),研發(fā)平臺(tái)為PyCharm。
3.2 實(shí)驗(yàn)數(shù)據(jù)
從《電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)差異條款統(tǒng)一意見》中隨機(jī)抽取10組存在差異的條款內(nèi)容。為了實(shí)驗(yàn)方便,條款內(nèi)容統(tǒng)一按照文本方式編排。
3.3 實(shí)驗(yàn)結(jié)果
在本文算法實(shí)驗(yàn)中,3.4節(jié)所提供兩個(gè)條款相似度Simmn計(jì)算公式中α和β分別為0.6和0.4。同時(shí),選取Jaccard、TF-IDF、SBERT等3個(gè)算法進(jìn)行實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行比較。為了使實(shí)驗(yàn)結(jié)果更直觀,將4種算法計(jì)算10組樣本相似度情況繪制折線圖,如圖3所示。
3.4 結(jié)果分析
從圖3中可以看出,在計(jì)算電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)條款相似度方面,Jaccard和TF-IDF 算法計(jì)算結(jié)果不理想,本文算法和SBERT算法遠(yuǎn)優(yōu)于其他兩種算法,本文在相似度上又有所提升,有利于發(fā)現(xiàn)相似條款內(nèi)容。同時(shí),本文算法可準(zhǔn)確發(fā)現(xiàn)條款間存在的差異性,例如可準(zhǔn)確發(fā)現(xiàn)變壓器油中總烴量要求存在的差異性,如表1所示。
4 結(jié) 語
本文提出的基于特征和語義的標(biāo)準(zhǔn)條款差異分析方法,從條款特征提取、特征語義分析、特征權(quán)重評(píng)定、條款差異分析4個(gè)方面開展相關(guān)工作。通過真實(shí)電網(wǎng)設(shè)備技術(shù)標(biāo)準(zhǔn)條款進(jìn)行實(shí)驗(yàn),結(jié)果表明本文方法在標(biāo)準(zhǔn)條款相似度計(jì)算和條款差異情況分析方面優(yōu)于Jaccard、TF-IDF、SBERT算法。但是,本文方法未考慮到標(biāo)準(zhǔn)中表格數(shù)據(jù),仍需進(jìn)一步優(yōu)化完善。
參考文獻(xiàn)
[1]趙京勝,宋夢(mèng)雪,高祥.自然語言處理發(fā)展及應(yīng)用綜述[J].信息技術(shù)與信息化,2019(07):142-145.
[2]高源.自然語言處理發(fā)展與應(yīng)用概述[ J ] .中國(guó)新通信,2019,21(02):117-118.
[3]Attardi G , Rossi S D , Simi M .TANL-1: coreference resolutionby parse analysis and similarity clustering[J].proceedings ofinternational workshop on semantic evaluation, 2010.
[4]蔣昊達(dá), 趙春蕾, 陳瀚, 等. 基于改進(jìn)T F - I D F 與B E R T 的領(lǐng)域情感詞典構(gòu)建方法[ J ] . 計(jì)算機(jī)科學(xué),2024,51(S1):162-170.
[5]Wang J , Dong Y .Measurement of Text Similarity: ASurvey[J].Information (Switzerland), 2020, 11(9):421.DOI:10.3390/info11090421.
[6]胡澤文,王效岳,白如江.國(guó)內(nèi)外文本分類研究計(jì)量分析與綜述[J].圖書情報(bào)工作,2011,55(06):78-81+142.
[7]張娜娜.基于機(jī)器學(xué)習(xí)的智能推薦系統(tǒng)設(shè)計(jì)與優(yōu)化研究[J].家電維修,2024(01):37-39.
[8]荊江平,智明,楊飛,等. 基于數(shù)據(jù)分析的新型電力系統(tǒng)電力智能交互平臺(tái)的短文本相似性研究與應(yīng)用[J/OL].電測(cè)與儀表,1-7[2 0 2 4 - 0 8-16 ].ht t ps: // knscnki-net.webvpn.ncepu.edu.cn/kcms/detail/23.1202.TH.20240429.1847.005.html.
[9]Ramos J .Using TF-IDF to Determine Word Relevance in Document Queries[J]. 2003.DOI:doi:http://dx.doi.org/.
[10]Ch vát a l , Va c láv, S a n k o f f D . L o n g e s t c o m m o nsubsequences of two random sequences[J].Journal ofApplied Probability, 1975, 12(02):306-315.DOI:10.1017/s0021900200047999.
[11]Charikar, Moses S .Similarity estimation techniquesfrom rounding algorithms[C]//Applied and ComputationalH a r m o n i c A n a l y s i s . A C M , 2 0 0 2 : 3 8 0 - 3 8 8 .DOI:10.1145/509907.509965.
[12]俞婷婷,徐彭娜,江育娥,等.基于改進(jìn)的Jaccard系數(shù)文檔相似度計(jì)算方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(12):137-142.DOI:10.15888/j.cnki.csa.006123.
[13]Huang P S , He X , Gao J ,et al.Learning deep structured semantic models for web search using clickthroughdata[C]//Conference on Information and Knowledge?GjRsYOnVBa/br+cqwUEtoArBW0JOzw5CjOXpRe37SRs=;Management.ACM, 2013.DOI:10.1145/2505515.2505665.
[14]Shen Y , He X , Gao J ,et al.A Latent Semantic Modelwith Convolutional-Pooling Structure for InformationRetrieval[C]//Conference on Information and KnowledgeManagement.ACM, 2014.DOI:10.1145/2661829.2661935.
[15]Reimers N , Gurevych I .Sentence-BERT: SentenceEmbeddings using S iamese B ERT-Networks[J]. 2019.DOI:10.18653/v1/D19-1410.
[16]盧美情,申妍燕.一種基于孿生網(wǎng)絡(luò)預(yù)訓(xùn)練語言模型的文本匹配方法研究[J].集成技術(shù),2023,12(02):53-63.