劉麗娟
國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心上海分中心 上海 201315
網(wǎng)絡(luò)主題文本過濾是一個(gè)復(fù)雜的課題,目前存在手段單一、效率低下等問題?,F(xiàn)階段研究大部分依賴人工手段,效率低下,并且鑒于不同人思維存在局限性,評(píng)判標(biāo)準(zhǔn)不同[1],導(dǎo)致主題文本的過濾結(jié)果有差異。此外,自動(dòng)化手段不能充分利用已有的經(jīng)驗(yàn)知識(shí)[2],容易造成遺漏、誤判的現(xiàn)象。常用方法有用推薦系統(tǒng)[3]進(jìn)行過濾,通過word2vec[4]進(jìn)行內(nèi)容識(shí)別,用決策樹[5]識(shí)別敏感詞變體,但上述方法適用領(lǐng)域有限。因此,亟須一種智能方法將“被動(dòng)”查找主題文本轉(zhuǎn)變?yōu)椤爸鲃?dòng)”關(guān)聯(lián)知識(shí)、經(jīng)驗(yàn),提高網(wǎng)絡(luò)主題文本的過濾效率。
目前知識(shí)圖譜[6]理論為過濾文本主題信息提供良好方法,深度學(xué)習(xí)理論[7]為模型訓(xùn)練提供了良好途徑,二者結(jié)合能智能化地實(shí)現(xiàn)網(wǎng)絡(luò)主題文本過濾。
本文提出一種基于知識(shí)和改進(jìn)深度學(xué)習(xí)的網(wǎng)絡(luò)主題文本快速過濾方法。首先對(duì)主題文本進(jìn)行理解,融合知識(shí)圖譜作為內(nèi)部知識(shí)嵌入;其次聯(lián)系上下文,對(duì)待查找主題文本進(jìn)行語義擴(kuò)展,作為外部知識(shí)嵌入;最后用改進(jìn)深度學(xué)習(xí)模型處理主題詞向量,依據(jù)目標(biāo)定位主題文本。實(shí)驗(yàn)表明,該方法鑒別網(wǎng)絡(luò)主題文本的準(zhǔn)確率較高,縮短運(yùn)算處理時(shí)間。
創(chuàng)新點(diǎn)在于:①在融合內(nèi)部知識(shí)基礎(chǔ)上,知識(shí)圖譜使理解的角度更為全面;②嵌入上下文外部知識(shí)擴(kuò)展語義,使主題過濾過程更為準(zhǔn)確;③融合上述內(nèi)、外部層次知識(shí)作為深度學(xué)習(xí)模型訓(xùn)練向量,使模型識(shí)別更為高效。
網(wǎng)絡(luò)主題文本鑒別是一個(gè)反復(fù)迭代的過程,主題文本知識(shí)是一個(gè)不斷豐富完善的過程,需用知識(shí)嵌入方法解決。知識(shí)嵌入是知識(shí)產(chǎn)生者與知識(shí)接受者之間交互的重要手段。知識(shí)嵌入分為內(nèi)部知識(shí)嵌入和外部知識(shí)嵌入。
內(nèi)部知識(shí)嵌入指知識(shí)圖譜的實(shí)體關(guān)系嵌入。傳統(tǒng)的主題文本識(shí)別方法難以綜合實(shí)體間關(guān)系,嵌入實(shí)體關(guān)系能完整語義表示知識(shí)單元,準(zhǔn)確識(shí)別主題文本。
實(shí)體關(guān)系以知識(shí)圖譜形式進(jìn)行嵌入。知識(shí)圖譜旨在描述真實(shí)世界存在的各種實(shí)體或概念及其關(guān)系,構(gòu)成語義網(wǎng)絡(luò)圖,節(jié)點(diǎn)表示實(shí)體或概念,邊由屬性或關(guān)系構(gòu)成。主題信息在知識(shí)圖譜中直觀表示為KG=<head,relation,tail>,其中head、tail分別是三元組的頭實(shí)體、尾實(shí)體,是KG的實(shí)體集合,relation={r1,r2,……,r|R|}是KG的關(guān)系集合,包含R種不同關(guān)系。使用Neo4j圖數(shù)據(jù)庫構(gòu)建知識(shí)圖譜,經(jīng)過規(guī)范化存儲(chǔ)能清晰地描述知識(shí)。
核心步驟是整合結(jié)構(gòu)化數(shù)據(jù)、實(shí)體抽取和關(guān)系抽取非結(jié)構(gòu)化數(shù)據(jù),經(jīng)過初步層次知識(shí)表示,將實(shí)體關(guān)系轉(zhuǎn)化為連續(xù)的向量空間,經(jīng)過知識(shí)推理,發(fā)現(xiàn)知識(shí),在保留知識(shí)圖譜的原有結(jié)構(gòu)基礎(chǔ)上完整嵌入實(shí)體關(guān)系。
對(duì)文本進(jìn)行分詞、詞性標(biāo)注及主題實(shí)體識(shí)別,去除停用詞和無意義的單字,得到一組包含n個(gè)描述主題特征的關(guān)鍵詞。一條由n個(gè)特征詞構(gòu)成的主題特征為x=[ , ,…],其中 是完整主題文本中第i個(gè)位置上的詞匯,將特征關(guān)鍵詞轉(zhuǎn)換為詞向量,映射為對(duì)應(yīng)的d維表示向量
外部知識(shí)嵌入指嵌入上下文。由于文本在不同語境下含義不同,故需研究上下文,以便更準(zhǔn)確地定位主題信息。結(jié)合主題文本過濾的范圍、對(duì)象,借助關(guān)聯(lián)關(guān)系,嵌入上下文進(jìn)行語義擴(kuò)展。主要過程是,定義主題文本上下文實(shí)體e,對(duì)上下文進(jìn)行數(shù)據(jù)預(yù)處理,包括分詞處理、去停用詞、詞頻統(tǒng)計(jì)等,加入約束條件,獲得提取主題特征結(jié)果的上下文向量。實(shí)體e的上下文向量context(e) ={ei|<e,r,ei>∈TopicInfoKG},是主題知識(shí)圖譜TopicInfoKG相鄰一跳的結(jié)點(diǎn)集合,實(shí)體關(guān)系r為上下文實(shí)體提供補(bǔ)充知識(shí),擴(kuò)展主題語義,提升主題的識(shí)別效率。
在知識(shí)嵌入基礎(chǔ)上,建立改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)主題文本過濾模型,如圖1,共有四階段,第一階段是數(shù)據(jù)預(yù)處理,主要生成神經(jīng)元網(wǎng)絡(luò)輸入數(shù)據(jù)和嵌入矩陣;第二階段是神經(jīng)元網(wǎng)絡(luò)訓(xùn)練;第三階段是特征組合;第四階段用多重過濾機(jī)Multilayer Perceptron(MLP)實(shí)現(xiàn)分類。
圖1 模型處理階段
網(wǎng)絡(luò)輸出層用Sigmoid函數(shù)進(jìn)行二分類,定義域?yàn)?到1開區(qū)間,根據(jù)0.5進(jìn)行分界,若結(jié)果大于等于0.5,說明為正樣本,否則為負(fù)樣本,從而實(shí)現(xiàn)分類,過濾主題文本信息。計(jì)算公式如下:
知識(shí)操作具體過程是,從知識(shí)提取中得到每個(gè)詞語 對(duì)應(yīng)的實(shí)體向量∈、實(shí)體上下文向量∈,k是實(shí)體嵌入的維數(shù)。對(duì)主題描述文本輸入包括主題特征向量詞語-實(shí)體對(duì)齊后的實(shí)體向量,實(shí)體上下文向量詞語-實(shí)體對(duì)齊轉(zhuǎn)換函數(shù)g(e)=tanh(Me+b),通過上述操作,將特征連接在一起,輸入到詞向量空間,保持原有空間關(guān)系。主題文本x用e(x)表示。Softmax分類器輸入是主題描述文本e(x),經(jīng)過歸一化得到主題文本在第k種主題的輸出概率,不斷訓(xùn)練直到模型符合擬合要求為止。
用準(zhǔn)確度Accuracy、精度Precision、召回率Recall和F1值指標(biāo)分別評(píng)價(jià)主題文本檢測方法性能,比較關(guān)鍵詞法、互信息法、深度學(xué)習(xí)法、基于知識(shí)嵌入的改進(jìn)深度學(xué)習(xí)方法。TP表示正確分類下正樣本數(shù),TN表示正確分類下負(fù)樣本數(shù),F(xiàn)P表示負(fù)樣本誤分類為正樣本數(shù)量,F(xiàn)N表示正樣本誤分類為負(fù)樣本數(shù)量,公式分別如下:
針對(duì)“進(jìn)口博覽會(huì)”主題,對(duì)比上述方法,比較F1值,可知本文的知識(shí)嵌入改進(jìn)深度學(xué)習(xí)法的F1值最佳,如圖2。
圖2 不同方法的F1值比較
以響應(yīng)耗時(shí)為檢驗(yàn)指標(biāo),比較用不同方法處理100個(gè)、200個(gè)、400個(gè)……個(gè)節(jié)點(diǎn)的應(yīng)用性能,如圖3所示。可看出隨著主題信息節(jié)點(diǎn)數(shù)量不斷增加,不同算法響應(yīng)耗時(shí)不斷減少。關(guān)鍵詞法、互信息法、深度學(xué)習(xí)法三種算法響應(yīng)耗時(shí)均在2s以上。而知識(shí)嵌入改進(jìn)深度學(xué)習(xí)法的處理耗時(shí)始終在1s內(nèi),平均處理耗時(shí)在0.9s左右。綜上可看出,本文提出的方法能節(jié)省運(yùn)算處理時(shí)間,實(shí)現(xiàn)網(wǎng)絡(luò)主題文本準(zhǔn)確、快速過濾。
圖3 不同方法的耗時(shí)響應(yīng)時(shí)間
本文提出一種基于知識(shí)和改進(jìn)深度學(xué)習(xí)的網(wǎng)絡(luò)主題文本快速過濾方法。貢獻(xiàn)有:①利用圖譜嵌入實(shí)體關(guān)系,獲得主題內(nèi)部知識(shí);②通過嵌入上下文外部知識(shí),豐富并擴(kuò)展語義范圍;③一個(gè)智能的改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)主題文本快速過濾模型。
下一步工作重點(diǎn)將關(guān)注知識(shí)圖譜嵌入的效率,重點(diǎn)考慮如何使知識(shí)描述更為豐富完整,并在此基礎(chǔ)上加強(qiáng)擴(kuò)展能力,增強(qiáng)處理能力。