鐘 寒,徐藝嘉,鹿 浩,孫旌睿
(1.中國人民公安大學信息網(wǎng)絡安全學院,北京 102623;2.安全防范與風險評估公安部重點實驗室,北京 102623)
本體[1]包含著豐富的語義信息,是一種重要的知識庫,是智能信息檢索[2]、自然語言處理、信息建模、語義Web和信息抽取[3]等領域應用的基礎。在當前的人工智能領域中,本體技術也是研究熱點之一。根據(jù)需求建立的領域本體能有效進行知識表示,通過概念、屬性和概念之間的關系以及各種約束對特定領域的知識進行細致描述,可以表示成某一特定領域內(nèi)的特定知識。領域概念是領域本體的重要組成部分,如何從文本中準確地抽取核心概念是構建本體的前提和基礎。
隨著大數(shù)據(jù)的迅速發(fā)展,各領域產(chǎn)生了大量的文本,構建本體時需要從大量文本中將需要的概念抽取出來。然而,在大量概念中,部分概念在文本所屬領域具有一定的代表性,另外一部分概念與文本領域關聯(lián)性較低。為方便描述,本文將在文本所屬領域中具有代表性的概念統(tǒng)稱為核心概念。
綜上所述,領域概念對本體構建有著重要的作用,而文本是領域概念的主要來源,文本的核心概念抽取又是其中的一個關鍵環(huán)節(jié)?;诖?,本文以領域核心概念的自動抽取為研究目標,提出了一種基于模糊貝葉斯決策的文本核心概念抽取方法。該方法借鑒了傳統(tǒng)文本概念抽取的流程,對文本中概念特征進行重要性排序,能夠較為精準地抽取文本中的核心概念。
概念抽取是知識庫構建的第一要素,依賴于知識抽取等相關技術,當前國內(nèi)外的研究大多集中在關鍵詞提取方面。關鍵詞提取方法分為有監(jiān)督和無監(jiān)督2類[4],包括基于統(tǒng)計機器翻譯的方法、基于序列標注模型的方法[5]、基于排序?qū)W習的方法[6]和基于機器學習的分類方法等。近年來,深度學習模型在概念抽取任務上也得到了廣泛應用。常用的關鍵詞提取方法包括樸素貝葉斯、決策樹、最大熵算法和支持向量機等,都需要大量數(shù)據(jù)來訓練分類器。Wang等人[7]采用長短期記憶LSTM(Long Short-Term Memory)神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡CNN(Convolutional Neural Network)作為分類器提出了深度學習模型;趙洪等人[8]提出了深度學習模型Bi-LSTM-CRF,將中文文檔中每個詞的詞向量和詞性特征作為輸入,提升概念的抽取效率。通過機器學習進行概念的抽取是當前研究的熱點。Yuan等人[9]使用10種常見的統(tǒng)計數(shù)據(jù)作為訓練的特征,提出了一種機器學習方法,不同語料庫上的測試對比表明,該方法在概念抽取方面具有較高效率。丁澤源等人[10]在中文生物醫(yī)學領域基于深度學習提出了一種生物醫(yī)學實體關系抽取系統(tǒng),可以準確地從中文文本中抽取實體及關系。有監(jiān)督提取方法的預處理代價大,且依賴于人工標注和分類器特點。
無監(jiān)督提取方法通過對無標記的數(shù)據(jù)進行學習,能夠發(fā)現(xiàn)數(shù)據(jù)中隱藏的結構性知識,泛化能力強。因此,對于關鍵詞提取的研究主要集中于使用無監(jiān)督抽取方法。無監(jiān)督方法包括基于簡單統(tǒng)計、基于圖和基于主題的方法3類。在抽取準確率方面,一些研究人員采用外部資源包括參考語料庫、維基百科等來提高概念抽取的準確率,Lopes等人[11]通過采用候選術語與出現(xiàn)的參考語料庫頻率來評估候選概念的領域特點;Mykowiecka 等人[12]通過參考語料庫和短語的上下文提出了過濾不相干短語的方法,但是一些領域并沒有可用的外部資源;夏天[13]通過word2vec生成詞向量,融合維基百科文檔,根據(jù)詞語與聚類質(zhì)心的距離對詞語重要性加權,進而構建新的概率轉(zhuǎn)移矩陣;方俊偉等人[14]通過引入學術資源數(shù)據(jù)庫構建領域詞表,生成候選關鍵詞集合[15]。
綜上所述,基于深度學習的概念抽取方法在處理文本規(guī)模較大的任務時表現(xiàn)較優(yōu),具有較高的準確性和較強的穩(wěn)定性,但其依賴復雜的學習模型,導致跨領域泛化力相對弱,且需要大量的標注數(shù)據(jù)和較長的訓練時間。這些方法都將概念抽取視為一個二分類的問題,同時,在標注的過程中涉及到的標注的復雜性和主觀性都關系到最后的質(zhì)量,進而影響模型性能。針對以上問題,結合文本概念的專業(yè)性特點,本文采用模糊貝葉斯決策對傳統(tǒng)核心概念抽取方法進行改進。首先,隨機選取大量文本進行分詞對詞匯進行篩選優(yōu)化處理;其次,結合詞頻-逆向文件頻率TF-IDF(Term Frequency- Inverse Document Frequency)和信息熵對分詞進行特征值計算,提出概念隸屬度,根據(jù)詞匯的概念隸屬度進行排序;最后,抽取到核心概念詞匯,同時結合機器學習方法提高概念抽取效率。為避免人工標注的主觀失誤影響模型效果,本文以傳統(tǒng)抽取方法得出的結果作為語料庫來訓練和驗證本文方法的準確率和效率,將本文方法與傳統(tǒng)抽取方法對比以優(yōu)化本文方法中的各項參數(shù),使其達到最優(yōu)效果。
本文核心概念抽取主要包括3個階段:數(shù)據(jù)預處理階段、核心概念抽取階段和算法優(yōu)化處理階段。數(shù)據(jù)預處理階段通過分詞、去停用詞和詞性過濾得出候選詞;核心概念抽取階段基于TF-IDF進行詞匯的二元指標特征統(tǒng)計,提出了概念隸屬度并且計算各候選詞的概念隸屬度進而抽取核心概念,同時通過混淆矩陣驗證概念隸屬度方法抽取的核心概念的準確率;在算法優(yōu)化處理階段通過貝葉斯分類器及BP神經(jīng)網(wǎng)絡搭建對比模型,得出最優(yōu)實驗結果。整體框架如圖1所示。
Figure 1 Framework of text core concept extraction method based on fuzzy Bayesian decision-making圖1 基于模糊貝葉斯決策的文本核心概念抽取方法框架
在進行概念抽取之前,首先需要過濾得到候選概念。候選概念通常是由名詞或者帶有形容詞、副詞等修飾詞的短語組成[16],它們是待處理語料中具有代表性的概念。為了提升抽取的效率和準確率,本文采用自然語言處理技術將候選概念從文本中提取出來。首先,調(diào)用Python中的jieba分詞工具進行分詞和詞性標注;然后,去停用詞和虛詞;接著,利用jieba分詞進行詞頻統(tǒng)計并將候選概念降序排列;最后,根據(jù)概念詞的定義對詞性進行過濾,得到最終的候選概念集。
本文采用模糊綜合評價法,引入模糊統(tǒng)計對影響概念的各個因素是否應歸納為核心概念做出科學評判[17]。根據(jù)概念詞頻和詞頻-逆向文件頻率,提出一種概念的模糊關系表示,建立更為科學合理的隸屬關系。
為了描述概念的不確定性,本文以文獻[18]的模糊概念格為基礎,引入概念隸屬度,給出概念隸屬度的定義,將概念與概念詞頻、詞頻-逆向文件頻率等屬性的關系推廣到模糊關系,實現(xiàn)概念與屬性間非確定性關系的模糊表示。通過分析發(fā)現(xiàn),概念的詞頻特征和詞頻-逆向文件頻率這2個因素越高的概念,屬于核心概念的概率越大。
通常情況下,一個概念的詞頻越大,說明它出現(xiàn)的頻率越高,也可以說明這個概念越重要,這些都反映了該概念屬于核心概念的概率大小。通過挖掘概念的詞頻權重和TF-IDF權重,有助于定量分析概念屬于核心概念的概率,從而實現(xiàn)概念與特征間的模糊決策。在文獻[19]的基礎上,結合詞頻權重和TF-IDF權重獲取概念出現(xiàn)的頻率,并計算該詞的特征值。在經(jīng)過歸一化處理后,得到概念-特征模糊矩陣。概念隸屬度的計算過程描述如下:首先,對文本進行預處理獲得候選概念集D;然后,計算概念的詞頻權重wTF和TF-IDF權重wTF-IDF;最后,通過歸一化方式將值標準化,得到概念s在概念集D中不同概念的模糊隸屬度。規(guī)定隸屬度越大,概念屬于核心概念的概率越大。概念s在概念集D中的權重w值及歸一化計算如式(1)所示:
w=wTF×FTF+wTF-IDF×FTF×FIDF=
(1)
其中,F(xiàn)TF表示概念s在文檔di中出現(xiàn)的概率,F(xiàn)IDF表示逆向文本頻率,fs,i表示概念s在文檔di中出現(xiàn)的次數(shù),ND表示概念s出現(xiàn)在背景語料中的文檔數(shù),N表示背景語料的文檔總數(shù)。那么概念隸屬度μ(s,c)的計算如式(2)所示:
(2)
其中,μ(s,c)表示標準化后的概念s關于特征c的概念隸屬度,ts表示權重w標準化之后的值,tsmax是向量值中的最大值,tsmin是向量值中的最小值。
設定三元組K=(S,C,R)為一個模糊形式背景,其中,S為概念集,C是概念的特征集,R是S*C上的一個模糊關系。如果關系集中的任意元素,均存在一個映射,使得s∈S,c∈C滿足μ(s,c)∈[0,1],則μ(s,c)是概念s關于特征c的概念隸屬度,即概念隸屬度是S*C上的一個模糊關系。對概念的隸屬度進行評價,首先獲取大量候選概念,計算概念的詞頻權值和TF-IDF權值,然后對候選概念進行模糊分類。概念隸屬度的引入使得概念的抽取圍繞著核心概念集合,縮小了概念的抽取范圍,減少了噪聲數(shù)據(jù)的產(chǎn)生。
在統(tǒng)計學中,貝葉斯分類算法分類準確率高、簡單、速度快,是一種常用的分類方法。為了提升本文方法在實際運用中的效率和準確率,在抽取核心概念的基礎上,搭建一個貝葉斯分類器,便于在實際應用中對本文方法進行評估與改進。
設F={x1,x2,x3,…,xn}為待分類項集合即訓練集,訓練集和測試集根據(jù)一定的比例分配。x={a1,a2,a3}為一個待分類項即一個數(shù)據(jù)樣本,而每個a為x的一個特征屬性,一個待分類項有3個特征屬性。本文實驗中,a1為標準化后的TF-IDF值,a2為標準化后的詞頻,a3為熵權法的計算結果。本文實驗將待分類數(shù)據(jù)分為2類,G={y1,y2},y1為核心概念,y2為非核心概念。計算估計類先驗概率,本文實驗每個類別所占整體數(shù)據(jù)集的比例記為p。
假設特征的條件概率分布滿足正態(tài)分布,實現(xiàn)高斯貝葉斯分類器,采用概率密度函數(shù)計算條件概率p(x|g)。計算各個屬性在各類樣本的條件概率如式(3)所示:
(3)
其中,i個屬性分別表示a1,a2,a3;g表示y1和y2,μ(g,i)和σ(g,i)2分別是第g類樣本在第i個屬性上取值的均值和方差。
然后,對待分類數(shù)據(jù)進行分類時通過貝葉斯公式計算后驗概率分布并得出預測結果,如式(4)所示:
p(g|xi)=p(xi|g)*p
(4)
其中,p是先驗概率。
再通過式(5)取出后驗概率最大的作為最終預測結果:
(5)
本文采用THUCNews作為目標語料庫進行實驗。該語料庫包含了74萬篇新聞文檔,均由來自于新浪新聞RSS訂閱頻道的歷史數(shù)據(jù)篩選過濾生成[20]。本文從語料庫中隨機選取了涉及財經(jīng)的1 000篇文本進行概念抽取。
從文本中抽取核心概念,需要先對文本進行劃分,獲得由詞語組成的待抽取文本,然后篩選出符合概念詞詞性的分詞,最終得到包括10 685個候選概念的候選概念集。
本文實驗利用傳統(tǒng)TF-IDF算法對候選詞進行篩選分類,實驗中top-k設置為10 685,計算出所有候選詞的權重。結果如表1所示(以TF-IDF權重值前10的數(shù)據(jù)為例),然后選取大于TF-IDF權重平均值的候選詞構建候選概念集。
Table 1 Set of candidate concepts
結合信息熵對候選概念進行指標權重計算,進而對實驗數(shù)據(jù)進行概念詞抽取。指標由TF-IDF權重值及詞頻構成,為避免后續(xù)實驗數(shù)據(jù)規(guī)則不統(tǒng)一對實驗結果造成的影響,首先對實驗數(shù)據(jù)進行歸一化處理,歸一化處理后的TF-IDF權重值記為特征值1,歸一化后的詞頻記為特征值2。同時,本文根據(jù)熵權法指標權重計算式[21],通過輸入所有候選數(shù)據(jù)及歸一化指標得到各指標的權重,得出TF-IDF權重值所占指標權重為0.445 591 342,詞頻權重值所占指標權重為0.554 408 658。然后對實驗數(shù)據(jù)指標進行加權處理,計算出各候選概念的概念隸屬度,選取結果大于0.000 1的概念為核心概念,以本文方法排名前10的概念為例,如表2所示。
為了深入驗證本文方法的有效性和準確性,將本文方法與傳統(tǒng)TextRank算法[22]、LDA主題模型[23]、word2vec詞聚類模型[24]、RNN[25]及LSTM[26]進行對比,依次計算出概念抽取的準確率等各項模型評估參數(shù)結果,結果如圖2所示。
實驗結果表明,本文方法準確率最高,錯誤率最低,精確度方面與RNN、LSTM相近。在準確率方面,word2vec的準確率最低,達到了64%,本文方法的準確率為96%,比LSTM方法的91%提高了5%。在精確度方面,TextRank和word2vec的精確度較低,本文方法與RNN和LSTM的精確度接近,比這2種方法略高。在F1-Score方面,本文方法與其它方法對比達到了最優(yōu),TextRank的F1-Score最低為62%,本文方法達到了95%。無論從準確率還是效率,綜合評價本文方法都比其他方法更優(yōu),結果如表3所示。
Figure 2 Comparisive results of multiple methods圖2 多種方法的對比結果
由表3可以得出,本文方法在準確率、召回率和F1-Score值方面都高于其它方法的,精確率與LSTM接近,證明了本文方法的可行性和有效性。當然,在效率上本文方法相比其它方法還需要進一步改進,精確度也需要進一步提升。
針對概念抽取在領域本體構建中的重要性,本文提出了一種基于模糊貝葉斯決策的核心概念抽取方法,采用TF-IDF算法計算候選概念的各項特征值,結合概念隸屬度歸一化處理候選概念特征值,通過貝葉斯決策計算候選概念為核心概念的概率,實驗取得了較好的結果。這種方法不僅為核心概念的抽取提供了參考,同時也為下一步的關系挖掘和知識庫構建奠定了基礎。
Table 2 Conceptual membership calculation
Table 3 Comparisive results in several ways