基于知識(shí)和改進(jìn)深度學(xué)習(xí)的網(wǎng)絡(luò)主題文本快速過濾方法

2023-10-10 06:24:42劉麗娟

科學(xué)與信息化 2023年19期

劉麗娟

國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心上海分中心上海 201315

引言

網(wǎng)絡(luò)主題文本過濾是一個(gè)復(fù)雜的課題，目前存在手段單一、效率低下等問題?，F(xiàn)階段研究大部分依賴人工手段，效率低下，并且鑒于不同人思維存在局限性，評(píng)判標(biāo)準(zhǔn)不同[1]，導(dǎo)致主題文本的過濾結(jié)果有差異。此外，自動(dòng)化手段不能充分利用已有的經(jīng)驗(yàn)知識(shí)[2]，容易造成遺漏、誤判的現(xiàn)象。常用方法有用推薦系統(tǒng)[3]進(jìn)行過濾，通過word2vec[4]進(jìn)行內(nèi)容識(shí)別，用決策樹[5]識(shí)別敏感詞變體，但上述方法適用領(lǐng)域有限。因此，亟須一種智能方法將“被動(dòng)”查找主題文本轉(zhuǎn)變?yōu)椤爸鲃?dòng)”關(guān)聯(lián)知識(shí)、經(jīng)驗(yàn)，提高網(wǎng)絡(luò)主題文本的過濾效率。

目前知識(shí)圖譜[6]理論為過濾文本主題信息提供良好方法，深度學(xué)習(xí)理論[7]為模型訓(xùn)練提供了良好途徑，二者結(jié)合能智能化地實(shí)現(xiàn)網(wǎng)絡(luò)主題文本過濾。

本文提出一種基于知識(shí)和改進(jìn)深度學(xué)習(xí)的網(wǎng)絡(luò)主題文本快速過濾方法。首先對(duì)主題文本進(jìn)行理解，融合知識(shí)圖譜作為內(nèi)部知識(shí)嵌入；其次聯(lián)系上下文，對(duì)待查找主題文本進(jìn)行語義擴(kuò)展，作為外部知識(shí)嵌入；最后用改進(jìn)深度學(xué)習(xí)模型處理主題詞向量，依據(jù)目標(biāo)定位主題文本。實(shí)驗(yàn)表明，該方法鑒別網(wǎng)絡(luò)主題文本的準(zhǔn)確率較高，縮短運(yùn)算處理時(shí)間。

創(chuàng)新點(diǎn)在于：①在融合內(nèi)部知識(shí)基礎(chǔ)上，知識(shí)圖譜使理解的角度更為全面；②嵌入上下文外部知識(shí)擴(kuò)展語義，使主題過濾過程更為準(zhǔn)確；③融合上述內(nèi)、外部層次知識(shí)作為深度學(xué)習(xí)模型訓(xùn)練向量，使模型識(shí)別更為高效。

1 基于知識(shí)嵌入的主題文本分析

網(wǎng)絡(luò)主題文本鑒別是一個(gè)反復(fù)迭代的過程，主題文本知識(shí)是一個(gè)不斷豐富完善的過程，需用知識(shí)嵌入方法解決。知識(shí)嵌入是知識(shí)產(chǎn)生者與知識(shí)接受者之間交互的重要手段。知識(shí)嵌入分為內(nèi)部知識(shí)嵌入和外部知識(shí)嵌入。

1.1 內(nèi)部知識(shí)嵌入（嵌入知識(shí)圖譜）

內(nèi)部知識(shí)嵌入指知識(shí)圖譜的實(shí)體關(guān)系嵌入。傳統(tǒng)的主題文本識(shí)別方法難以綜合實(shí)體間關(guān)系，嵌入實(shí)體關(guān)系能完整語義表示知識(shí)單元，準(zhǔn)確識(shí)別主題文本。

實(shí)體關(guān)系以知識(shí)圖譜形式進(jìn)行嵌入。知識(shí)圖譜旨在描述真實(shí)世界存在的各種實(shí)體或概念及其關(guān)系，構(gòu)成語義網(wǎng)絡(luò)圖，節(jié)點(diǎn)表示實(shí)體或概念，邊由屬性或關(guān)系構(gòu)成。主題信息在知識(shí)圖譜中直觀表示為KG=＜head,relation,tail＞，其中head、tail分別是三元組的頭實(shí)體、尾實(shí)體，是KG的實(shí)體集合，relation={r1,r2,……,r|R|}是KG的關(guān)系集合，包含R種不同關(guān)系。使用Neo4j圖數(shù)據(jù)庫構(gòu)建知識(shí)圖譜，經(jīng)過規(guī)范化存儲(chǔ)能清晰地描述知識(shí)。

核心步驟是整合結(jié)構(gòu)化數(shù)據(jù)、實(shí)體抽取和關(guān)系抽取非結(jié)構(gòu)化數(shù)據(jù)，經(jīng)過初步層次知識(shí)表示，將實(shí)體關(guān)系轉(zhuǎn)化為連續(xù)的向量空間，經(jīng)過知識(shí)推理，發(fā)現(xiàn)知識(shí)，在保留知識(shí)圖譜的原有結(jié)構(gòu)基礎(chǔ)上完整嵌入實(shí)體關(guān)系。

對(duì)文本進(jìn)行分詞、詞性標(biāo)注及主題實(shí)體識(shí)別，去除停用詞和無意義的單字，得到一組包含n個(gè)描述主題特征的關(guān)鍵詞。一條由n個(gè)特征詞構(gòu)成的主題特征為x=[ ，，…]，其中是完整主題文本中第i個(gè)位置上的詞匯，將特征關(guān)鍵詞轉(zhuǎn)換為詞向量，映射為對(duì)應(yīng)的d維表示向量

1.2 外部知識(shí)嵌入（嵌入上下文）

外部知識(shí)嵌入指嵌入上下文。由于文本在不同語境下含義不同，故需研究上下文，以便更準(zhǔn)確地定位主題信息。結(jié)合主題文本過濾的范圍、對(duì)象，借助關(guān)聯(lián)關(guān)系，嵌入上下文進(jìn)行語義擴(kuò)展。主要過程是，定義主題文本上下文實(shí)體e，對(duì)上下文進(jìn)行數(shù)據(jù)預(yù)處理，包括分詞處理、去停用詞、詞頻統(tǒng)計(jì)等，加入約束條件，獲得提取主題特征結(jié)果的上下文向量。實(shí)體e的上下文向量context(e) ={ei|＜e,r,ei＞∈TopicInfoKG}，是主題知識(shí)圖譜TopicInfoKG相鄰一跳的結(jié)點(diǎn)集合，實(shí)體關(guān)系r為上下文實(shí)體提供補(bǔ)充知識(shí)，擴(kuò)展主題語義，提升主題的識(shí)別效率。

2 改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)主題文本過濾模型

在知識(shí)嵌入基礎(chǔ)上，建立改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)主題文本過濾模型，如圖1，共有四階段，第一階段是數(shù)據(jù)預(yù)處理，主要生成神經(jīng)元網(wǎng)絡(luò)輸入數(shù)據(jù)和嵌入矩陣；第二階段是神經(jīng)元網(wǎng)絡(luò)訓(xùn)練；第三階段是特征組合；第四階段用多重過濾機(jī)Multilayer Perceptron（MLP）實(shí)現(xiàn)分類。

圖1 模型處理階段

網(wǎng)絡(luò)輸出層用Sigmoid函數(shù)進(jìn)行二分類，定義域?yàn)?到1開區(qū)間，根據(jù)0.5進(jìn)行分界，若結(jié)果大于等于0.5，說明為正樣本，否則為負(fù)樣本，從而實(shí)現(xiàn)分類，過濾主題文本信息。計(jì)算公式如下：

知識(shí)操作具體過程是，從知識(shí)提取中得到每個(gè)詞語對(duì)應(yīng)的實(shí)體向量∈、實(shí)體上下文向量∈，k是實(shí)體嵌入的維數(shù)。對(duì)主題描述文本輸入包括主題特征向量詞語-實(shí)體對(duì)齊后的實(shí)體向量，實(shí)體上下文向量詞語-實(shí)體對(duì)齊轉(zhuǎn)換函數(shù)g(e)=tanh(Me+b)，通過上述操作，將特征連接在一起，輸入到詞向量空間，保持原有空間關(guān)系。主題文本x用e(x)表示。Softmax分類器輸入是主題描述文本e(x)，經(jīng)過歸一化得到主題文本在第k種主題的輸出概率，不斷訓(xùn)練直到模型符合擬合要求為止。

3 實(shí)驗(yàn)分析

用準(zhǔn)確度Accuracy、精度Precision、召回率Recall和F1值指標(biāo)分別評(píng)價(jià)主題文本檢測方法性能，比較關(guān)鍵詞法、互信息法、深度學(xué)習(xí)法、基于知識(shí)嵌入的改進(jìn)深度學(xué)習(xí)方法。TP表示正確分類下正樣本數(shù)，TN表示正確分類下負(fù)樣本數(shù)，F(xiàn)P表示負(fù)樣本誤分類為正樣本數(shù)量，F(xiàn)N表示正樣本誤分類為負(fù)樣本數(shù)量，公式分別如下：

針對(duì)“進(jìn)口博覽會(huì)”主題，對(duì)比上述方法，比較F1值，可知本文的知識(shí)嵌入改進(jìn)深度學(xué)習(xí)法的F1值最佳，如圖2。

圖2 不同方法的F1值比較

以響應(yīng)耗時(shí)為檢驗(yàn)指標(biāo)，比較用不同方法處理100個(gè)、200個(gè)、400個(gè)……個(gè)節(jié)點(diǎn)的應(yīng)用性能，如圖3所示。可看出隨著主題信息節(jié)點(diǎn)數(shù)量不斷增加，不同算法響應(yīng)耗時(shí)不斷減少。關(guān)鍵詞法、互信息法、深度學(xué)習(xí)法三種算法響應(yīng)耗時(shí)均在2s以上。而知識(shí)嵌入改進(jìn)深度學(xué)習(xí)法的處理耗時(shí)始終在1s內(nèi)，平均處理耗時(shí)在0.9s左右。綜上可看出，本文提出的方法能節(jié)省運(yùn)算處理時(shí)間，實(shí)現(xiàn)網(wǎng)絡(luò)主題文本準(zhǔn)確、快速過濾。

圖3 不同方法的耗時(shí)響應(yīng)時(shí)間

4 結(jié)語

本文提出一種基于知識(shí)和改進(jìn)深度學(xué)習(xí)的網(wǎng)絡(luò)主題文本快速過濾方法。貢獻(xiàn)有：①利用圖譜嵌入實(shí)體關(guān)系，獲得主題內(nèi)部知識(shí)；②通過嵌入上下文外部知識(shí)，豐富并擴(kuò)展語義范圍；③一個(gè)智能的改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)主題文本快速過濾模型。

下一步工作重點(diǎn)將關(guān)注知識(shí)圖譜嵌入的效率，重點(diǎn)考慮如何使知識(shí)描述更為豐富完整，并在此基礎(chǔ)上加強(qiáng)擴(kuò)展能力，增強(qiáng)處理能力。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡