武鈺智 ??『?/p>
摘要:[目的]針對(duì)當(dāng)前民事問(wèn)句數(shù)據(jù)集不完全以及法律問(wèn)答問(wèn)句分類(lèi)模型中存在無(wú)法利用語(yǔ)境信息或難以學(xué)習(xí)到復(fù)雜語(yǔ)句表示的問(wèn)題,構(gòu)建了基于BERT的問(wèn)句分類(lèi)模型。[方法]通過(guò)爬取的6萬(wàn)人工標(biāo)記的民事相關(guān)問(wèn)句作為分類(lèi)的訓(xùn)練樣本,構(gòu)建了基于BERT-Base-Chinese的民事相關(guān)問(wèn)句分類(lèi)模型進(jìn)行分類(lèi)研究,并與SVM方法做對(duì)比基準(zhǔn)。[結(jié)果]基于BERT的民事相關(guān)問(wèn)句分類(lèi)模型的分類(lèi)效果均優(yōu)于SVM方法,精準(zhǔn)率和F1值分別達(dá)到0.978和0.973,F(xiàn)1值比SVM方法高出25.5%。[局限]僅對(duì)法律領(lǐng)域下的民事類(lèi)別做了分類(lèi)實(shí)驗(yàn),沒(méi)有將法律全部領(lǐng)域納入。[結(jié)論]基于BERT的問(wèn)句分類(lèi)方法能夠顯著提高民事相關(guān)問(wèn)句的分類(lèi)效果,可以作為民事問(wèn)答系統(tǒng)的問(wèn)句分類(lèi)模型。
關(guān)鍵詞:?jiǎn)柧浞诸?lèi);BERT;民事問(wèn)句
中圖分類(lèi)號(hào): TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)01-0004-04
Abstract:[Objective] Aiming at the problems of the data set of the current civil question is incomplete and unable to use contextual information or difficult to learn complex sentence representation in the legal question answering classification model ,the question classification model based on BERT was constructed.[Methods] This study takes 60,000 manually marked civil issue-related question sentences as training samples for classification, and constructs a civil issue-related question classification model based on the BERT-Base-Chinese to perform cataloguing research, and the SVM method was used as a comparison benchmark. [Results] The question classification model of civil-related questions based on BERT is better than the SVM model in classification effect, the F1-score and precision respectively reaches 0.978 and 0.973, and the F1-score is about 25.5% higher than the SVM model .[Limitations]It only classifies the civil categories in the field of law,but does not include the whole field of law. [Conclusion] The question classification model based on BERT can significantly improve the classification effect of civil-related question and can be used as the question classification model for the civil-related question answering system.
Key words:question classification ; BERT; civil issues
隨著我國(guó)社會(huì)主義法制建設(shè)的不斷加強(qiáng),民事法律由于關(guān)系民生大眾而變得炙手可熱。然而由于人們提出的民事問(wèn)題只能由持證律師進(jìn)行解答,并且我國(guó)現(xiàn)在的人均律師擁有率遠(yuǎn)遠(yuǎn)低于歐美等國(guó)家,這就導(dǎo)致一大批在線法律問(wèn)答平臺(tái)的回答率較低并且很難及時(shí)對(duì)提出的問(wèn)題進(jìn)行解答[1]。近年來(lái),由于深度學(xué)習(xí)和人工智能的高速發(fā)展,金融、教育、醫(yī)療等領(lǐng)域都開(kāi)始使用人工智能技術(shù)來(lái)完成各種各樣的工作,因此如何將人工智能技術(shù)應(yīng)用到法律領(lǐng)域成為重要的課題,而構(gòu)建出一個(gè)專(zhuān)業(yè)的民事領(lǐng)域問(wèn)答模型能夠更好地解決回答率較低以及滿足大眾的需求[2-4]。問(wèn)答系統(tǒng)(Question Answering System, QA)是自然語(yǔ)言處理和信息檢索相關(guān)的重要學(xué)科,它可以滿足人們對(duì)快速、準(zhǔn)確地獲取信息的需求[5]。在問(wèn)答系統(tǒng)中一般有三個(gè)研究的基本問(wèn)題,分別是問(wèn)題分析、信息檢索和答案抽取,其中問(wèn)題分析主要是通過(guò)對(duì)問(wèn)句分類(lèi)等方面進(jìn)行分析,是問(wèn)答系統(tǒng)的重要模塊,也是提高問(wèn)答系統(tǒng)檢索效率的關(guān)鍵要素[6][7]。
當(dāng)前關(guān)于問(wèn)句分類(lèi)的研究,傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法均有廣泛的應(yīng)用。傳統(tǒng)機(jī)器學(xué)習(xí)問(wèn)句分類(lèi)方法是利用人工標(biāo)注得到訓(xùn)練樣本,再經(jīng)過(guò)預(yù)處理后,經(jīng)過(guò)特征工程得到特征表征,然后交給分類(lèi)器監(jiān)督訓(xùn)練,得到預(yù)測(cè)結(jié)果。常用的模型有樸素貝葉斯[8]、支持向量機(jī)[9-11]、K-鄰近模型[12]等。深度學(xué)習(xí)問(wèn)句分類(lèi)方法是通過(guò)一些深度學(xué)習(xí)網(wǎng)絡(luò)自動(dòng)進(jìn)行特征提取,然后進(jìn)行分類(lèi)。常用的模型有FastText、RCNN和TextRNN等[13-15]。隨著深度學(xué)習(xí)的不斷發(fā)展,基于預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型GPT(Generative Pre-trained Transformer)、BERT(Bidirectional Encoder Representations from Transformers)等在分類(lèi)任務(wù)的各項(xiàng)指標(biāo)上取得了顯著提升[16]。
法律領(lǐng)域作為一個(gè)有大量數(shù)據(jù)積累的領(lǐng)域,非常適合現(xiàn)在由數(shù)據(jù)驅(qū)動(dòng)的各種人工智能技術(shù)應(yīng)用,然而法律領(lǐng)域的數(shù)據(jù)集標(biāo)注需要大量法律領(lǐng)域的專(zhuān)業(yè)人士,這就導(dǎo)致法律領(lǐng)域的很多數(shù)據(jù)集規(guī)模并不夠大而且質(zhì)量也不夠高[17]。因此針對(duì)法律特定領(lǐng)域,只有少數(shù)研究人員展開(kāi)了法律問(wèn)答系統(tǒng)應(yīng)用的研究。莫濟(jì)謙構(gòu)建了基于CNN模型的中文法律問(wèn)句分類(lèi)模型,對(duì)采集到的250000條包括法律各個(gè)領(lǐng)域的問(wèn)句進(jìn)行粗細(xì)粒度分類(lèi)研究,其中細(xì)粒度分類(lèi)達(dá)到了92.14%的精度。此外還提出了基于長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的層次分類(lèi)模型,細(xì)粒度分類(lèi)達(dá)到了93.82%的精度[18]。劉葛泓等重點(diǎn)研究了基于文本卷積神經(jīng)網(wǎng)絡(luò)(Text-CNN)的合同法律智能問(wèn)答系統(tǒng),并針對(duì)合同法的文本特征對(duì)其問(wèn)句進(jìn)行分類(lèi),實(shí)現(xiàn)了95.9%的合同法問(wèn)句分類(lèi)準(zhǔn)確率[19]。
基于CNN、LSTM等架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型存在無(wú)法利用語(yǔ)境信息或難以學(xué)習(xí)到復(fù)雜語(yǔ)句表示,因此針對(duì)上述研究及問(wèn)題,本文研究構(gòu)建基于BERT的問(wèn)句分類(lèi)模型,并與SVM方法分別進(jìn)行民事相關(guān)問(wèn)句分類(lèi)實(shí)驗(yàn),然后分析其效果差異原因。
1 研究方法
1.1數(shù)據(jù)集的構(gòu)建
針對(duì)當(dāng)前法律特定領(lǐng)域的數(shù)據(jù)集規(guī)模不大質(zhì)量不高的問(wèn)題,本文通過(guò)爬蟲(chóng)技術(shù)在國(guó)內(nèi)專(zhuān)業(yè)法律問(wèn)答平臺(tái)(www.110.com/ask)爬取18種常見(jiàn)的民事領(lǐng)域的問(wèn)句,18種民事類(lèi)別如表1所示。
為了將爬取到的民事問(wèn)答數(shù)據(jù)轉(zhuǎn)換成可用于問(wèn)句分類(lèi)的數(shù)據(jù)集,需要將爬取到的語(yǔ)料進(jìn)行預(yù)處理(去除網(wǎng)頁(yè)信息、回答信息等),隨后按照6:3:1的比例劃分訓(xùn)練集train_data、開(kāi)發(fā)集dev_data和測(cè)試集test_data,從而構(gòu)建民事問(wèn)句分類(lèi)數(shù)據(jù)集,數(shù)據(jù)結(jié)構(gòu)如圖1所示。
1.2基于BERT的問(wèn)句分類(lèi)方法
進(jìn)行自然語(yǔ)言處理任務(wù)時(shí)通常會(huì)借助于語(yǔ)言模型,通常有兩種在下游任務(wù)應(yīng)用預(yù)訓(xùn)練語(yǔ)言表示的方法,分別是以ELMo為代表的基于特征的方法[20],在特定任務(wù)使用特定結(jié)構(gòu),將使用預(yù)訓(xùn)練語(yǔ)言模型訓(xùn)練出的詞向量作為特征,輸入到下游目標(biāo)任務(wù)中;還有一種是基于微調(diào)的方法,以GPT為代表,指在已經(jīng)訓(xùn)練好的語(yǔ)言模型的基礎(chǔ)上,加入少量的特定任務(wù)參數(shù), 例如對(duì)于分類(lèi)問(wèn)題在語(yǔ)言模型基礎(chǔ)上加一層softmax網(wǎng)絡(luò),然后在新的語(yǔ)料上重新訓(xùn)練來(lái)進(jìn)行微調(diào)。在上述模型中由于ELMO使用的是兩個(gè)單向LSTM替代雙向LSTM,兩者之間的參數(shù)并不互通,所以ELMO和GPT一樣都是單向語(yǔ)言模型。而B(niǎo)ERT是一種新的基于雙向Transformer的語(yǔ)言模型,相比于單向語(yǔ)言模型它能夠更深刻地理解語(yǔ)境,并且BERT進(jìn)一步完善和擴(kuò)展了GPT中設(shè)計(jì)的通用任務(wù)框架,使它適用于各種自然語(yǔ)言處理任務(wù)(如閱讀理解任務(wù)、分類(lèi)任務(wù))。因此本文構(gòu)建了基于BERT的民事問(wèn)句分類(lèi)模型,其模型結(jié)構(gòu)如圖2所示。
其中Toki表示第i個(gè)Token(隨機(jī)遮擋部分字符),Ei表示第 i個(gè)Token的嵌入向量,Ti表示第i個(gè)Token在經(jīng)過(guò)BERT處理之后得到的特征向量。
BERT的輸入部分是線性序列,兩個(gè)句子之間使用SEP進(jìn)行分割,在開(kāi)頭和結(jié)尾分別加一個(gè)CLS和SEP字符作為標(biāo)記。對(duì)于每一個(gè)字符都是由三種向量組成:詞向量、分段向量和位置信息向量,三種向量疊加便是BERT的輸入,如圖3所示。
本文中基于BERT的問(wèn)句分類(lèi)方法為直接調(diào)用Google發(fā)布的BERT-Base-Chinese模型,在加入訓(xùn)練數(shù)據(jù)得到輸出結(jié)果后增加一個(gè)分類(lèi)層進(jìn)行微調(diào),再將其應(yīng)用到問(wèn)句分類(lèi)任務(wù)中。
1.3 SVM分類(lèi)方法
由于SVM具有可靠的理論依據(jù),可解釋型較強(qiáng),在一些機(jī)器學(xué)習(xí)任務(wù)中具有良好的表現(xiàn),并且經(jīng)過(guò)發(fā)展也開(kāi)始應(yīng)用于多元分類(lèi)任務(wù),故選用SVM作為BERT的對(duì)比基準(zhǔn)模型[21][22]。
在進(jìn)行SVM分類(lèi)實(shí)驗(yàn)時(shí),本文采用一類(lèi)對(duì)余類(lèi)(One versus rest,OVR)方法構(gòu)建多類(lèi)分類(lèi)器,如圖4所示。
即假設(shè)總共有M個(gè)類(lèi)別,對(duì)于每一個(gè)類(lèi),將其作為+1類(lèi),而其余M-1個(gè)類(lèi)的所有樣本作為-1類(lèi),構(gòu)造一個(gè)二分類(lèi)SVM。對(duì)于1類(lèi),將2類(lèi)和3類(lèi)都當(dāng)成-1類(lèi),構(gòu)造二分類(lèi)SVM,其決策邊界為d1;對(duì)于2類(lèi),則將1類(lèi)和3類(lèi)都當(dāng)成-1類(lèi),構(gòu)造二分類(lèi)SVM,其決策邊界為d2;類(lèi)似地得到d3。
實(shí)驗(yàn)通過(guò)控制變量的方法分析分詞方法、特征提取等因素對(duì)SVM模型分類(lèi)效果的影響,選擇分類(lèi)效果最好的模型作為基于BERT問(wèn)句分類(lèi)實(shí)驗(yàn)方法的對(duì)比基準(zhǔn)。
1.4評(píng)估指標(biāo)
本文對(duì)于問(wèn)句分類(lèi)模型的評(píng)估指標(biāo)有三個(gè),分別是精準(zhǔn)率P(Precision)、召回率R(Recall)以及F1值(F1-Score)。精準(zhǔn)率又稱(chēng)查準(zhǔn)率,是針對(duì)預(yù)測(cè)結(jié)果而言的一個(gè)評(píng)價(jià)指標(biāo),在模型預(yù)測(cè)為正樣本的結(jié)果中,真正是正樣本所占的百分比。召回率又稱(chēng)為查全率,是針對(duì)原始樣本而言的一個(gè)評(píng)價(jià)指標(biāo),在實(shí)際為正樣本中,被預(yù)測(cè)為正樣本所占的百分比。針對(duì)精準(zhǔn)率和召回率都有其自己的缺點(diǎn):如果閾值較高,那么精準(zhǔn)率會(huì)高,但是會(huì)漏掉很多數(shù)據(jù);如果閾值較低,召回率高,但是預(yù)測(cè)的會(huì)很不準(zhǔn)確。所以最后采用調(diào)和平均數(shù)F1值來(lái)綜合考慮精準(zhǔn)率和召回率兩項(xiàng)指標(biāo):
2 實(shí)驗(yàn)結(jié)果分析
根據(jù)以上實(shí)驗(yàn)方法,本文分別構(gòu)建了基于BERT的問(wèn)句分類(lèi)模型和SVM分類(lèi)模型,使用經(jīng)過(guò)預(yù)處理的同一數(shù)據(jù)集進(jìn)行基于兩種方法的分類(lèi)實(shí)驗(yàn)。
2.1基于BERT問(wèn)句分類(lèi)模型的實(shí)驗(yàn)
使用BERT-Base-Chinese進(jìn)行分類(lèi)實(shí)驗(yàn),經(jīng)過(guò)不斷對(duì)訓(xùn)練輪數(shù)(num_train_epochs)、學(xué)習(xí)率(learning_rate)、最大序列長(zhǎng)度(max_seq_length)、批量大小(atch_size)等參數(shù)調(diào)整,本文參數(shù)選擇如下:
num_train_epochs=6;learning_rate=2e-5;max_seq_length=512;train_batch_size=16;dev_batch_size=8;test_batch_size=8,實(shí)驗(yàn)結(jié)果如表2所示。
2.2基于SVM問(wèn)句分類(lèi)模型的實(shí)驗(yàn)
為了分析分詞方法、特征提取等因素對(duì)SVM模型分類(lèi)效果的影響,本實(shí)驗(yàn)采取控制變量的方法進(jìn)行對(duì)比分析。經(jīng)過(guò)對(duì)比發(fā)現(xiàn),當(dāng)選用jieba分詞進(jìn)行語(yǔ)料預(yù)處理,設(shè)置一元詞、二元詞,通過(guò)TF-IDF方法進(jìn)行詞頻加權(quán),參數(shù)C的值設(shè)置為0.4時(shí)效果最好,實(shí)驗(yàn)結(jié)果如表3所示。
2.3分類(lèi)效果分析
為方便分析兩種方法在問(wèn)句分類(lèi)效果上差異的原因,將每組實(shí)驗(yàn)中分類(lèi)結(jié)果的平均精準(zhǔn)率、平均召回率和平均值整理在一起,如表4所示。
從表4可以得出,基于BERT的問(wèn)句分類(lèi)模型的分類(lèi)效果均優(yōu)于SVM方法,平均F1值比SVM方法高出25.5%。
對(duì)于基于BERT的問(wèn)句分類(lèi)方法,整體分類(lèi)效果較好,原因可能在于BERT相較于原來(lái)的語(yǔ)言模型可以做到并發(fā)執(zhí)行。提取詞在句子中的關(guān)系特征的同時(shí),能夠在多個(gè)不同層次提取關(guān)系特征,進(jìn)而更全面反映句子語(yǔ)義。因此即便在有大量數(shù)據(jù)的多類(lèi)別分類(lèi)任務(wù)中BERT也可以取得很好的效果。
原因可能在于SVM方法最初是為解決二分類(lèi)問(wèn)題而提出的,而面對(duì)本文中多分類(lèi)問(wèn)題,使用OVR方法構(gòu)建多類(lèi)分類(lèi)器時(shí),一方面會(huì)出現(xiàn)樣本不對(duì)稱(chēng)的情況,導(dǎo)致分類(lèi)結(jié)果出現(xiàn)偏差。另一方面SVM在求解二次規(guī)劃問(wèn)題時(shí),訓(xùn)練速度與m階矩陣的大小有關(guān)(m為樣本數(shù)),當(dāng)m越大時(shí),機(jī)器計(jì)算該矩陣的時(shí)間就越久。因此面對(duì)大量數(shù)據(jù)的多類(lèi)別分類(lèi)任務(wù)SVM方法難以有較好的表現(xiàn)。
綜上,本文提出的基于BERT的分類(lèi)模型表現(xiàn)出了良好的分類(lèi)效果,證明了該模型的有效性并能夠很好的應(yīng)用到面向民事領(lǐng)域的問(wèn)答問(wèn)句分類(lèi)問(wèn)題。
3 結(jié)論
本文針對(duì)民事問(wèn)句數(shù)據(jù)集不完全以及法律問(wèn)句存在語(yǔ)義信息復(fù)雜的問(wèn)題,構(gòu)建了基于BERT的民事問(wèn)答問(wèn)句分類(lèi)模型。對(duì)比分析了BERT和SVM兩種模型對(duì)民事問(wèn)句分類(lèi)效果的差異原因,由實(shí)驗(yàn)結(jié)果可知,基于BERT的問(wèn)句分類(lèi)模型的精準(zhǔn)率、召回率和F1值均高于SVM方法,表明基于BERT的問(wèn)句分類(lèi)模型能夠更高效提取文本的語(yǔ)義特征,對(duì)后續(xù)的分類(lèi)效果有很大的提升。
本文的局限性在于僅對(duì)法律領(lǐng)域下的民事類(lèi)別進(jìn)行了分類(lèi)實(shí)驗(yàn),并沒(méi)有將法律全部領(lǐng)域納入。在下一步工作中嘗試將其拓展到法律全領(lǐng)域當(dāng)中,更好地滿足人們對(duì)于法律問(wèn)題類(lèi)別識(shí)別的需求。
參考文獻(xiàn):
[1] 朱頌華.常年法律顧問(wèn)業(yè)務(wù)的現(xiàn)狀與對(duì)策[J].法制博覽,2020(7):170-171.
[2] Nakata N.Recent technical development of artificial intelligence for diagnostic medical imaging[J].JapaneseJournalofRadiology,2019,37(2):103-108.
[3] TimmermanA.Neural networks in finance and investing.Using artificial intelligence to improve realworldperformance[J].InternationalJournalofForecasting,1997,13(1):144-146.
[4] 周銘. 大數(shù)據(jù)時(shí)代的人工智能發(fā)展的法律思考[C]. 世界人工智能大會(huì)組委會(huì).《上海法學(xué)研究》集刊(2019年第9卷 總第9卷).世界人工智能大會(huì)組委會(huì):上海市法學(xué)會(huì),2019:223-233.
[5] Prager J.Open-domain question:answering[J].Foundations and Trends in Information Retrieval,2006,1(2):905-912.
[6] 鄭實(shí)福,劉挺,秦兵,等.自動(dòng)問(wèn)答綜述[J].中文信息學(xué)報(bào),2002,16(6):46-52.
[7] 張寧,朱禮軍.中文問(wèn)答系統(tǒng)問(wèn)句分析研究綜述[J].情報(bào)工程,2016,2(1):32-42.
[8] El Hindi K,AlSalmanH,QasemS,et al.Building an ensemble of fine-tuned naive Bayesian classifiers for text classification[J].Entropy,2018,20(11):857.
[9] Ou W,Huynh VN,Sriboonchitta S.Training attractive attribute classifiers based on opinion features extracted from review data[J].Electronic Commerce Research and Applications,2018,32:13-22.
[10] Jafari A , Hosseinejad M , Amiri A . Improvement in automatic classification of Persian documents by means of Na?ve Bayes and Representative Vector[C]// International Econference on Computer & Knowledge Engineering. IEEE, 2011.
[11] 蘇金樹(shù),張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2006,17(9):1848-1859.
[12] 李榮陸.文本分類(lèi)及其相關(guān)技術(shù)研究[D].上海:復(fù)旦大學(xué),2005.
[13] Zhang S,Chen Y,HuangXL,et al.Text classification of public feedbacks using convolutional neural network based on differential evolution algorithm[J].International Journal of Computers Communications &Control,2019,14(1):124-134.
[14]Lai S, Xu L, Liu K, et al. Recurrent convolutional neural networks for text classification[C]. national conference on artificial intelligence, 2015: 2267-2273.
[15]Le T, Kim J, Kim H, et al. Classification performance using gated recurrent unit recurrent neural network on energy disaggregation[C]. international conference on machine learning and cybernetics, 2016: 105-110.
[16] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].2018:arXiv:1810.04805[cs.CL].https://arxiv.org/abs/1810.04805
[17] 盧新玉.淺談我國(guó)目前作為法律人工智能基礎(chǔ)的司法大數(shù)據(jù)存在的問(wèn)題[J].法制博覽,2020(21):202-203.
[18] 莫濟(jì)謙.基于深度學(xué)習(xí)的法律問(wèn)題層疊分類(lèi)研究[D].長(zhǎng)沙:湖南大學(xué),2018.
[19] 劉葛泓,李金澤,李卞婷,等.基于Text-CNN聯(lián)合分類(lèi)與匹配的合同法律智能問(wèn)答系統(tǒng)研究[J].軟件工程,2020,23(6):8-12,4.
[20] Peters M E,Neumann M,Iyyer M,et al.Deepcontextualizedwordrepresentations[EB/OL].2018:arXiv:1802.05365[cs.CL].https://arxiv.org/abs/1802.05365
[21] 蕭嶸,王繼成,張福炎.支持向量機(jī)理論綜述[J].計(jì)算機(jī)科學(xué),2000,27(3):1-3.
[22] 白小明,邱桃榮.基于SVM和KNN算法的科技文獻(xiàn)自動(dòng)分類(lèi)研究[J].微計(jì)算機(jī)信息,2006,22(36):275-276,65.
【通聯(lián)編輯:唐一東】