国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT和混合神經(jīng)網(wǎng)絡(luò)的詐騙電話(huà)文本識(shí)別

2022-11-25 02:56許鴻奎周俊杰姜彤彤盧江坤張子楓胡文燁
關(guān)鍵詞:特征提取向量卷積

許鴻奎,周俊杰,姜彤彤,盧江坤,張子楓,胡文燁

(1.山東建筑大學(xué) 信息與電氣工程學(xué)院,山東 濟(jì)南 250101;2.山東省智能建筑技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 濟(jì)南 250101)

0 引 言

在互聯(lián)網(wǎng)和移動(dòng)通訊技術(shù)飛速發(fā)展的今天,科技在給人們的生活帶來(lái)了極大便利的同時(shí),也給從事電信詐騙的犯罪分子可乘之機(jī)。2020年以來(lái),全國(guó)公安機(jī)關(guān)共破獲電信網(wǎng)絡(luò)詐騙案件25.6萬(wàn)起,抓獲犯罪嫌疑人26.3萬(wàn)名,攔截詐騙電話(huà)1.4億個(gè)、詐騙短信8.7億條,為群眾直接避免經(jīng)濟(jì)損失1 200億元。2019年上半年公安部、最高檢發(fā)布《電信網(wǎng)絡(luò)詐騙治理研究報(bào)告》,在這個(gè)報(bào)告的統(tǒng)計(jì)中,排名前十的詐騙手法分別為交易詐騙、兼職詐騙、交友詐騙、返利詐騙、低價(jià)利誘詐騙、金融信用詐騙、仿冒詐騙、色情詐騙、免費(fèi)詐騙和盜號(hào)詐騙,這些手段被交叉運(yùn)用在電話(huà)詐騙之中,頗具威脅[1]。

詐騙電話(huà)文本在本質(zhì)上是一些包含詐騙語(yǔ)義的文本內(nèi)容,對(duì)電話(huà)詐騙文本的識(shí)別屬于自然語(yǔ)言處理領(lǐng)域的范疇。文本分類(lèi)[2]是自然語(yǔ)言處理中的一項(xiàng)任務(wù)類(lèi)型,從20世紀(jì)50年代開(kāi)始有人便開(kāi)始了相關(guān)研究。文本分類(lèi)方法主要分為兩個(gè)大類(lèi):傳統(tǒng)的機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的算法。傳統(tǒng)的機(jī)器學(xué)習(xí)方法包括支持向量機(jī)(Support Vector Machine,SVM)[3]、樸素貝葉斯等;基于深度學(xué)習(xí)的方法包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[4](Long Short-Term Memory,LSTM)等。

文本的特征提取直接影響到文本的分類(lèi)準(zhǔn)確率,傳統(tǒng)的方法主要采用手動(dòng)制作的特征,這主要依賴(lài)設(shè)計(jì)者的一些先驗(yàn)知識(shí),這在效率和特征表示的豐富程度上都有所欠缺。深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的發(fā)展為文本特征提取帶來(lái)了更為有力的支持,它可以從大量數(shù)據(jù)中自動(dòng)提取特征,通過(guò)大量的數(shù)據(jù)訓(xùn)練,挖掘出難以檢測(cè)的特征,在效率和特征表示豐富程度上都要優(yōu)于手工特征。

文本的詞嵌入表示在自然語(yǔ)言處理的過(guò)程中極為重要,直接關(guān)系到下一步網(wǎng)絡(luò)對(duì)文本特征的提取,從而影響最終模型輸出的結(jié)果。詞的分布式表示方法主要分為靜態(tài)詞嵌入和動(dòng)態(tài)詞嵌入兩種方式。靜態(tài)詞嵌入方式利用Word2vec、Glove(Global Vectors)等詞嵌入工具得到詞語(yǔ)的嵌入向量,由于是靜態(tài)的,不能解決一詞多義的問(wèn)題;動(dòng)態(tài)的詞嵌入方式如ELMo(Embedding from Language Model)、BERT(Bidirectional Encoder Representation from Transformers)等,能夠根據(jù)上下文的內(nèi)容及時(shí)調(diào)整向量表示,是特征較為豐富的一種詞表示方式。

綜上所述,該文采用詞嵌入BERT和混合神經(jīng)網(wǎng)絡(luò)BiLCNN,提出了電話(huà)詐騙文本識(shí)別模型BERT+BiLCNN,實(shí)現(xiàn)了對(duì)電話(huà)文本的識(shí)別,主要貢獻(xiàn)可總結(jié)為:

(1)構(gòu)建了電話(huà)詐騙文本數(shù)據(jù)集;

(2)探究了幾種不同的詞嵌入方式,通過(guò)實(shí)驗(yàn)分析比較了它們的性能;

(3)提出了一種識(shí)別電話(huà)詐騙文本的混合神經(jīng)網(wǎng)絡(luò)模型。

1 相關(guān)研究

基于電話(huà)文本的詐騙識(shí)別本質(zhì)上屬于自然語(yǔ)言處理(Natural Language Process,NLP),NLP中詞的表示方法是最基本的問(wèn)題?;谏窠?jīng)網(wǎng)絡(luò)的分布表示,又稱(chēng)為詞嵌入,是最為有效的方法。

Bengio等人在2003年提出神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model,NNLM)[5];2013年Mikolov等人[6]提出了詞嵌入向量工具Word2Vec,它包括兩種不同的訓(xùn)練方式CBOW(Continuous Bag-of-words)、Skip-Gram,CBOW用一個(gè)單詞的上下文來(lái)預(yù)測(cè)該單詞,Skip-Gram用一個(gè)單詞來(lái)預(yù)測(cè)該單詞的上下文,如圖1所示;與此同時(shí),斯坦福大學(xué)的Pennington等提出GloVe算法[7]同樣取得了出色的成績(jī)。Word2Vec、GloVe屬于靜態(tài)的詞嵌入方式,較傳統(tǒng)的詞嵌入方式如One-hot、TF-IDF[8],解決了向量維度過(guò)高和表達(dá)語(yǔ)義不準(zhǔn)確的問(wèn)題,以較低維度的稠密向量將文本的語(yǔ)義以向量形式表示出來(lái),極大地提升了分類(lèi)的結(jié)果。但它同樣存在一些問(wèn)題,這種方式經(jīng)過(guò)訓(xùn)練之后形成的向量表示是固定不變的,不能解決一詞多義的問(wèn)題。

在此之后,分布式表示出現(xiàn)了動(dòng)態(tài)詞嵌入的研究,Peters等人[9]在2018年提出了ELMo模型,ELMo采用雙向的LSTM作為特征提取器,ELMo的本質(zhì)思想為通過(guò)語(yǔ)言模型事先學(xué)習(xí)某個(gè)單詞的詞嵌入,倘若此時(shí)單詞為多義詞并不能進(jìn)行區(qū)分,當(dāng)不影響后續(xù)的使用過(guò)程,在實(shí)際的使用過(guò)程中,單詞已經(jīng)具備了特定的上下文,以此來(lái)調(diào)整單詞的嵌入;OpenAI實(shí)驗(yàn)室的Alec Radford等人在2018年提出了GPT(Generative Pre-Training)[10]模型,GPT采用特征提取Transformer,Transformer由谷歌團(tuán)隊(duì)在2017年提出,主要采用了多頭注意力機(jī)制;同樣在2018年谷歌團(tuán)隊(duì)提出了BERT模型[11],與ELMo不同的是它采用Transformer作為特征提取器[12],與GPT不同的是它采用雙向的Transformer結(jié)構(gòu),BERT以富含信息的向量形式表示文本的特征,同時(shí)解決了一詞多義的問(wèn)題。鑒于BERT出色的結(jié)構(gòu)和效果,該文選擇BERT作為電話(huà)詐騙文本的詞嵌入方式。

文獻(xiàn)[13-17]均采用詞嵌入的方式處理文本分類(lèi)領(lǐng)域的各類(lèi)任務(wù);文獻(xiàn)[18]利用BERT改進(jìn)Skip-Gram的詞嵌入方式,使得文本的表示不僅包含句法和表面特征,還包含來(lái)自大規(guī)模預(yù)訓(xùn)練的豐富知識(shí);周勝利等人[19]提出基于BERT遷移學(xué)習(xí)模型的新型網(wǎng)絡(luò)電信詐騙平臺(tái)預(yù)警方法,使用微調(diào)模型來(lái)預(yù)測(cè)和分類(lèi)新的網(wǎng)絡(luò)電信犯罪;文獻(xiàn)[20]提出標(biāo)簽嵌入的雙向注意模型提高了BERT的文本分類(lèi)框架性能;文獻(xiàn)[21]將BERT應(yīng)用于處理公共安全信息文本中;文獻(xiàn)[22]提出一種有效的截?cái)喾椒?,以?yīng)對(duì)BERT處理長(zhǎng)文本的局限性,利用上下文化的BERT詞嵌入有效的編碼輸入序列,在文本分類(lèi)問(wèn)題上表現(xiàn)出色。

該文采用混合神經(jīng)網(wǎng)絡(luò)BiLCNN對(duì)詞嵌入向量進(jìn)一步處理,Weston等人在2008年論述了卷積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用[23];2014年,Kim在通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)句子的分類(lèi)研究之中提出了textCNN模型[24],該模型只采用一層卷積網(wǎng)絡(luò)便取得了出色的效果;文獻(xiàn)[25]通過(guò)構(gòu)建多層卷積神經(jīng)網(wǎng)絡(luò)并引入注意力機(jī)制應(yīng)用于臨床命名實(shí)體識(shí)別;文獻(xiàn)[26]基于多尺度的卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的組合模型,在多任務(wù)的情緒分類(lèi)方面取得了出色的表現(xiàn)。

目前針對(duì)電話(huà)詐騙文本方面的研究較少,在以上研究中大多是基于非詐騙類(lèi)文本來(lái)解決所研究的問(wèn)題。因此,該文首先構(gòu)建了電話(huà)詐騙文本數(shù)據(jù)集,結(jié)合動(dòng)態(tài)的詞嵌入方式BERT以及混合神經(jīng)網(wǎng)絡(luò),基于文本分類(lèi)的方法,提出了一種能夠識(shí)別詐騙文本的BERT+BiLCNN模型。BERT詞嵌入方式相比于Word2Vec、ELMo等詞嵌入方式,對(duì)詐騙文本分類(lèi)的準(zhǔn)確率分別提高3.19%、1.89%,混合神經(jīng)網(wǎng)絡(luò)相比于卷積神經(jīng)網(wǎng)絡(luò)在準(zhǔn)確率上又有了進(jìn)一步的提升,證明了BERT+BiLCNN模型在詐騙電話(huà)文本識(shí)別上的有效性。

2 BERT詞嵌入和混合神經(jīng)網(wǎng)絡(luò)模型

該文采用BERT+BiLCNN作為電話(huà)詐騙文本識(shí)別模型,首先介紹整個(gè)模型的工作流程,其次介紹詞嵌入模型BERT,最后介紹混合神經(jīng)網(wǎng)絡(luò)對(duì)文本特征的提取,經(jīng)過(guò)Softmax層得到電話(huà)文本的詐騙識(shí)別概率。

2.1 BERT+BiLCNN模型

該文采用文本分類(lèi)方法對(duì)詐騙電話(huà)文本進(jìn)行識(shí)別,提出了一種基于詞嵌入和混合神經(jīng)網(wǎng)絡(luò)的融合模型BERT+BiLCNN,利用BERT強(qiáng)大的詞表示能力對(duì)詐騙文本進(jìn)行表示。首先將已經(jīng)訓(xùn)練好的詞嵌入模型Bert-base,Chinese作為字向量送入模型當(dāng)中,經(jīng)過(guò)詐騙電話(huà)文本訓(xùn)練之后獲得詐騙文本的詞嵌入表示,這些表示包含著詐騙文本的上下文關(guān)系、字序列信息、語(yǔ)法語(yǔ)義信息和深層的模型結(jié)構(gòu)信息,通過(guò)混合神經(jīng)網(wǎng)絡(luò)充分提取出文本的時(shí)序特征和局部相關(guān)特征并將其融合,最后經(jīng)Softmax層對(duì)詐騙電話(huà)文本進(jìn)行分類(lèi)。BERT+BiLCNN的模型流程如圖1所示。

2.2 BERT模型

BERT采用雙向的Transformer結(jié)構(gòu)進(jìn)行特征提取,這使得該模型的性能大大提升,BERT的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2所示。

從圖2可以看出,初始向量E1~En經(jīng)雙向的網(wǎng)絡(luò)結(jié)構(gòu)(Transformer)形成了具有特征信息的T1~Tn特征向量。

BERT輸入表示是三個(gè)不同的嵌入單元,它們是詞語(yǔ)嵌入(Token Embeddings)、分段嵌入(Segment Embeddings)和位置嵌入(Position Embeddings),BERT的輸入表示如圖3所示。輸入的文本在經(jīng)過(guò)分詞之后,將[CLS]加入到分詞結(jié)果的開(kāi)頭,[SEP]加入到分詞結(jié)果的結(jié)尾,進(jìn)行詞語(yǔ)塊嵌入;分段嵌入則是為了區(qū)分字詞是否來(lái)自同一個(gè)句子;Transformer的Encoder層無(wú)法捕獲文本的位置信息,因此需要位置嵌入來(lái)對(duì)其進(jìn)行表示。

2.3 混合神經(jīng)網(wǎng)絡(luò)

文本數(shù)據(jù)在經(jīng)過(guò)BERT的詞向量表示之后,采用混合神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)其進(jìn)行特征提取,分別經(jīng)過(guò)BiLSTM和CNN神經(jīng)網(wǎng)絡(luò)形成特征向量,之后對(duì)其進(jìn)行特征融合,融合之后的向量既包含文本的局部相關(guān)特征、距離時(shí)序特征,將融合特征向量送入Softmax層,從而輸出得到文本的詐騙概率。圖4為混合神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu)。

2.3.1 BiLSTM

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,它可以學(xué)習(xí)句子中的序列信息并將其記憶存儲(chǔ),這在很大程度上可以緩解梯度消失的問(wèn)題。在LSTM的內(nèi)部有著獨(dú)特的“門(mén)”結(jié)構(gòu),這種結(jié)構(gòu)可以自動(dòng)篩選信息,決定信息的存留。LSTM由輸入門(mén)、遺忘門(mén)、輸出門(mén)三個(gè)記憶單元組成,這是其核心部分,“遺忘門(mén)”控制是否保存前一時(shí)刻的細(xì)胞信息Ct-1,“輸入門(mén)”控制是否保留當(dāng)前時(shí)刻的細(xì)胞信息Ct,“輸出門(mén)”控制是否輸出新的細(xì)胞信息,其工作過(guò)程表示如下:

ft=σ(Wf·[ht-1,xt]+bf)

(1)

it=σ(Wx·[ht-1,xt]+bi)

(2)

Vt=tanh(Wc·[ht-1,xt]+bc)

(3)

Ct=ft*Ct-1+it*Vt

(4)

Ot=σ(Wo·[ht-1,xt]+bo)

(5)

ht=Ot*tanh(Ct)

(6)

其中,h表示輸出向量,W、b分別表示單元的權(quán)重向量和偏置值,σ(·)表示sigmoid激活函數(shù),tanh(·)表示雙曲正切激活函數(shù)。該文采用BiLSTM提取句子的雙向特征,形成的向量具有雙向的時(shí)序特征表示。BiLSTM的輸出如下式所示:

(7)

在某一時(shí)刻i,前向和后向的特征向量按位進(jìn)行加操作后形成了BiLSTM輸出向量。

2.3.2 CNN

在一個(gè)句子T中,假設(shè)詞向量在句子中的表示分別為t1,t2,…,tn,可以得到表示句子的矩陣T,即T=[t1,t2,…,tn],T∈Rd×n,其中n為詞向量的個(gè)數(shù),d為詞向量的維數(shù)。假設(shè)采用卷積核K對(duì)矩陣進(jìn)行卷積操作,K∈Kd×h,h表示為卷積核的寬度,則用下面的公式表示采用卷積核K對(duì)句子T的卷積運(yùn)算:

gi=tanh(+b)

(8)

其中,<·>為卷積計(jì)算,gi為所得卷積特征,gi∈R,i∈{1,2,…,n-h+1}。得到卷積特征之后,送入池化層,進(jìn)行池化運(yùn)算,采用下列公式:

(9)

其中,yi∈R。

使用不同尺度的卷積核K可以得到不同的輸出yi,假設(shè)存在s個(gè)不同的卷積核,K1∈Kd×h1,K2∈Kd×h2,…,Ks∈Kd×hsK,在經(jīng)過(guò)卷積操作后得到s個(gè)不同的輸出y1,y2,…,ys。連接這些輸出得到不同尺度的融合特征Y=[y1,y2,…,ys],Y∈RS。

2.3.3 Softmax分類(lèi)

詞嵌入向量經(jīng)過(guò)BiLSTM網(wǎng)絡(luò)后形成具有雙向時(shí)序特征的向量表示,經(jīng)過(guò)CNN網(wǎng)絡(luò)形成具有局部詞語(yǔ)間相關(guān)特征的向量表示,經(jīng)過(guò)向量拼接操作形成具有豐富特征的融合特征向量,如下式所示:

Z=Cat(H,Y)

(10)

其中,H為BiLSTM的輸出向量,Y為CNN的輸出向量,融合特征向量經(jīng)線(xiàn)性層處理之后,利用Softmax函數(shù)實(shí)現(xiàn)分類(lèi):

(11)

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)基于Windows10 64位操作系統(tǒng),CPU為Intel(R) Core(TM) i7-10700H CPU @2.90 GHz,內(nèi)存容量為16 GB,GPU為NVIDIA GeForce RTX 2060,顯存容量為6 GB,Python版本為3.7.9,基于Pytorch深度學(xué)習(xí)框架。

3.2 數(shù)據(jù)集

實(shí)驗(yàn)所用數(shù)據(jù)來(lái)自百度、知乎、微博、搜狐等各大網(wǎng)站,采用爬蟲(chóng)以及人工編寫(xiě)修改的方式來(lái)構(gòu)建數(shù)據(jù)集,內(nèi)容包括金融、教育、郵遞、銀行、交友、刷單、中彩票、冒充警察等多類(lèi)詐騙事件,幾乎涵蓋了所有的詐騙類(lèi)型。在每一條數(shù)據(jù)集的末尾處采取標(biāo)簽標(biāo)記的方式,將電話(huà)文本分為詐騙類(lèi)和正常類(lèi),分別以fraud、normal表示。數(shù)據(jù)集一共10 166條,選取6 000條用作訓(xùn)練集,3 000條用作驗(yàn)證集,1 166條用作測(cè)試集。表1為數(shù)據(jù)集的詳細(xì)情況。

3.3 評(píng)價(jià)標(biāo)準(zhǔn)

采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1測(cè)度值來(lái)對(duì)模型進(jìn)行評(píng)價(jià),公式如下所示:

(12)

(13)

(14)

(15)

其中,TP表示詐騙樣本預(yù)測(cè)為詐騙,TN表示正常樣本預(yù)測(cè)為正常,F(xiàn)P表示正常樣本預(yù)測(cè)為詐騙,F(xiàn)N表示詐騙樣本預(yù)測(cè)為正常。

表1 數(shù)據(jù)集統(tǒng)計(jì)

3.4 參數(shù)設(shè)置

表2為本次實(shí)驗(yàn)各項(xiàng)參數(shù)。

表2 實(shí)驗(yàn)參數(shù)設(shè)置

3.5 實(shí)驗(yàn)結(jié)果

各模型的評(píng)價(jià)指標(biāo)結(jié)果如表3所示。

表3 各模型評(píng)價(jià)指標(biāo)結(jié)果 %

為了更直觀地表示各模型的評(píng)價(jià)指標(biāo)結(jié)果,對(duì)數(shù)據(jù)進(jìn)行了柱狀圖表示,如圖5所示。

(1)從結(jié)果中可以看出,BERT+CNN組合模型的準(zhǔn)確率、精確率、召回率、F1測(cè)度值都要高于Word2Vec+CNN、ELMo+CNN模型,其中BERT+CNN的準(zhǔn)確率比ELMo+CNN高出1.89%,比Word2Vec+CNN高出3.19%,在F1測(cè)度值上分別比ELMo+CNN、Word2Vec+CNN高出1.91%、3.19%,以此可以看出BERT作為詞嵌入的優(yōu)越表現(xiàn)。

(2)ELMo+CNN在準(zhǔn)確率上比Word2Vec+CNN高出1.28%,在F1測(cè)度值上比其高出1.28%,ELMo是一種動(dòng)態(tài)的詞嵌入方式,可以根據(jù)上下文動(dòng)態(tài)地調(diào)整自己的詞嵌入方式,而Word2Vec是一種靜態(tài)的詞嵌入方式,其嵌入方式是固定的,從中可以看出動(dòng)態(tài)詞嵌入的優(yōu)越性。

(3)BERT+CNN在準(zhǔn)確率上比ELMo+CNN高出1.89%,在精確率、召回率、F1測(cè)度值上分別比其高出2.23%、1.73%、1.91%,ELMo采用雙向的LSTM作為特征提取器,以此來(lái)表示文本特征,而B(niǎo)ERT則采用雙向的Transformer結(jié)構(gòu),其基于attention機(jī)制,能夠更加豐富地提取文本的特征表示,因此在動(dòng)態(tài)詞嵌入的表示上BERT具有更加優(yōu)秀的表現(xiàn)。

(4)BERT+BiLCNN相較于BERT+CNN性能又有了進(jìn)一步的提升,在準(zhǔn)確率上比其高出0.95%,在精確率、召回率、F1測(cè)度值上分別比其高出0.58%、1.25%、1.00%,對(duì)比于Word2Vec+CNN、ELMo+CNN在準(zhǔn)確率上分別比其高出4.12%和2.84%。從實(shí)驗(yàn)數(shù)據(jù)上可以看出,BERT+BiLCNN在詐騙電話(huà)文本的識(shí)別上具有出色的表現(xiàn)。BiLSTM同時(shí)對(duì)文本的上下文進(jìn)行特征提取,經(jīng)該網(wǎng)絡(luò)處理之后的特征向量具有雙向時(shí)序特征,CNN對(duì)于文本局部特征進(jìn)行提取,混合神經(jīng)網(wǎng)絡(luò)BiLCNN融合了BiLSTM以及CNN兩部分特征,使得最終的特征向量具有了豐富的特征表示。

4 結(jié)束語(yǔ)

該文首先通過(guò)百度、知乎、搜狐、騰訊等各種互聯(lián)網(wǎng)資源構(gòu)建了中文詐騙電話(huà)文本數(shù)據(jù)集,采用文本分類(lèi)的方法,基于詞嵌入和混合神經(jīng)網(wǎng)絡(luò)對(duì)中文詐騙電話(huà)文本進(jìn)行識(shí)別,在詞嵌入上探究了靜態(tài)詞嵌入Word2Vec和動(dòng)態(tài)詞嵌入ELMo、BERT對(duì)于詐騙電話(huà)文本的表示,通過(guò)混合神經(jīng)網(wǎng)絡(luò)對(duì)句子中詞語(yǔ)、短語(yǔ)之間的相關(guān)信息以及文本的上下文信息進(jìn)行捕捉,豐富了文本特征,以便更好地實(shí)現(xiàn)文本分類(lèi)。在詐騙電話(huà)文本數(shù)據(jù)上的實(shí)驗(yàn),動(dòng)態(tài)詞嵌入模型BERT+CNN表現(xiàn)最為出色,在準(zhǔn)確率、精確率、召回率、F1測(cè)度值上都要高于其他兩種詞嵌入模型,而模型BERT+BiLCNN經(jīng)過(guò)混合神經(jīng)網(wǎng)絡(luò)的特征提取,各項(xiàng)評(píng)價(jià)指標(biāo)又有了進(jìn)一步的提升,由此采用BERT+BiLCNN模型實(shí)現(xiàn)了對(duì)中文詐騙電話(huà)文本的識(shí)別。該研究工作也存在著一定的不足之處,采用混合神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行拼接處理得到最終的特征向量,今后會(huì)考慮采用更加出色的特征融合方式。同時(shí)今后會(huì)在擴(kuò)大數(shù)據(jù)集上多做工作,同時(shí)關(guān)注社會(huì)上的詐騙案件,更新數(shù)據(jù)集中的詐騙類(lèi)型與套路。今后也將嘗試BERT與其他的模型的組合來(lái)探究對(duì)詐騙電話(huà)文本的識(shí)別。

猜你喜歡
特征提取向量卷積
向量的分解
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱(chēng)空洞卷積模塊①
聚焦“向量與三角”創(chuàng)新題
空間目標(biāo)的ISAR成像及輪廓特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
基于特征提取的繪本閱讀機(jī)器人設(shè)計(jì)方案
從濾波器理解卷積
微動(dòng)目標(biāo)雷達(dá)特征提取、成像與識(shí)別研究進(jìn)展
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
洪江市| 澎湖县| 宁远县| 郎溪县| 东乡族自治县| 温宿县| 双牌县| 巴楚县| 平遥县| 连云港市| 桂阳县| 潮州市| 错那县| 中宁县| 宣汉县| 昌平区| 赤水市| 定安县| 吴川市| 定南县| 抚远县| 建平县| 五家渠市| 蒙山县| 长岭县| 香格里拉县| 荣成市| 开远市| 宿松县| 武功县| 平南县| 苗栗县| 九江市| 沽源县| 连云港市| 沅陵县| 昭通市| 于田县| 凤冈县| 云南省| 新龙县|