鄒鼎杰
(中國人民解放軍國防大學 政治學院, 上海 200433)
圖書分類問題屬于文本分類問題,解決圖書分類問題的基本思路是將文本分類算法應(yīng)用到圖書分類中[1-3]。文獻[4]將LDA(latent dirichlet allocation)模型應(yīng)用到圖書分類中,采取復合加權(quán)策略將書目體例體信息和所在類目信息融合到模型之中,圖書分類性能得到了有效提升。文獻[5]將長短時間記憶神經(jīng)網(wǎng)絡(luò)(long short term memory neural network,LSTM)模型應(yīng)用到圖書分類中,將圖書的各描述字段組合成一個描述字符串,利用詞嵌入模型將描述字符串轉(zhuǎn)換成作為LSTM模型輸入的二維矩陣,通過構(gòu)建多個二元分類器解決多標簽分類問題。文獻[6]將門控循環(huán)單元網(wǎng)絡(luò)(gated recurrent unit neural networks,GRU)模型應(yīng)用到文本分類中,GRU在繼承LSTM門控制原理基礎(chǔ)上簡化了神經(jīng)元結(jié)構(gòu),模型復雜度更低,實際應(yīng)用效果更好。不同于文獻[5]直接將LSTM模型用于文本分類,文獻[6]只利用GRU能夠充分考慮上下文信息的優(yōu)勢提取文本重要特征,采用結(jié)構(gòu)更簡單、執(zhí)行更高效的樸素貝葉斯分類器完成文本分類,兩者結(jié)合更加提高了文本分類的效率和準確率。上述研究主要通過優(yōu)化模型提升圖書分類器性能,忽視了紙質(zhì)圖書的描述元數(shù)據(jù)較少這一現(xiàn)實問題。在輸入信息有限的情況下,再好的模型和算法也難以發(fā)揮出優(yōu)良性能。因此,本文提出從現(xiàn)有知識圖譜zhishi.me中提取關(guān)于圖書、作者和出版社3類實體的詳細信息,通過增加圖書的描述信息提升圖書分類準確率的解決方案。
知識圖譜(knowledge graph)最早由Google于2012年5月正式發(fā)布,主要用于提升google的搜索服務(wù)質(zhì)量,目前已經(jīng)成為Google語義搜索的關(guān)鍵支撐工具[7]。在基于知識圖譜的語義搜索中,人們輸入的檢索對象不再只被視作一段普通文本,而是與現(xiàn)實世界中對應(yīng)的實體[8-10]。比如輸入“姚明”,搜索引擎將識別出籃球運動員姚明,并在結(jié)果頁面的右側(cè)框中呈現(xiàn)姚明的簡要介紹信息,年齡、身高等屬性信息以及家長、妻子等關(guān)系信息。知識圖譜可以被視作Tim Berners-Lee年提出的鏈接數(shù)據(jù)(linked data)的一種應(yīng)用。實體是知識圖譜中最關(guān)鍵的概念,它既包括存在于物理世界中的具體事物,也包括僅存在于抽象世界的概念。實體包含兩類屬性[11],一類屬性是普通文本類型,比如姚明的身高、年齡等屬性;另一類屬性本身也是一種實體,比如姚明的家長、妻子等,這類屬性通常也被稱作關(guān)系。目前,互聯(lián)網(wǎng)上已經(jīng)發(fā)布了大量知識圖譜供人們使用,比較著名的知識圖譜有Knowledge Vault、Wolfram Alpha、Watson KB、DBpedia、YAGO KB、Facebook KB、Zhishi.me等[12]。其中Zhishi.me是目前在互聯(lián)網(wǎng)上發(fā)布的規(guī)模最大的中文知識圖譜之一[13],本文將從Zhishi.me中提取圖書、作者和出版社3類實體的詳細知識,以解決紙質(zhì)圖書描述性信息不足的問題。
Zhishi.me包含有從百度百科、互動百科和維基百科中抽取出的大約兩千萬個實體的詳細信息以及實體之間的關(guān)系,絕大多數(shù)圖書、作者和出版社的信息均可在Zhishi.me中查到。該知識庫由深圳狗尾草科技有限公司開發(fā),并發(fā)布在“中文開放知識圖譜”平臺上供公眾免費使用[14]。Zhishi.me中的實體主要包含9種屬性,各屬性的類型和功能見表1。
表1 Zhishi.me中實體的9種屬性
(1)
(2)
在樸素貝葉斯分類器中,模型的訓練過程就是通過訓練集統(tǒng)計先驗概率Pci和特征dj在類別ci中出現(xiàn)概率的過程。完成模型訓練后,對圖書的分類過程就是尋找圖書出現(xiàn)概率最大類別的過程,計算方法如式(3)所示
(3)
通常情況下,特征出現(xiàn)在類別中的條件概率Pdj|ci是一個較小的小數(shù),這些小數(shù)經(jīng)過連續(xù)乘操作以后得到的將是一個極小的小數(shù)。為了避免小數(shù)過小導致浮點數(shù)下界溢出,通常將式(3)兩邊同時取對數(shù),將乘法操作轉(zhuǎn)變?yōu)榧臃ú僮鱗17],尋找最大概率類的式(3)變換為式(4)的形式
(4)
與傳統(tǒng)的文本分類類似,圖書分類過程包括訓練和分類兩個過程,如圖1所示。特征融合處理步驟中,分別從數(shù)據(jù)集中提取圖書的書名、作者和出版社信息,然后從知識圖譜中抽取關(guān)于圖書、作者和出版社的詳細描述信息,利用分詞技術(shù)從這些信息中提取表示圖書內(nèi)容特征的關(guān)鍵詞。特征融合步驟中產(chǎn)生的關(guān)鍵詞規(guī)模龐大,不僅會占用過多的存儲空間,而且不利于提升分類器性能,因此需要采取某種策略選擇最能夠代表文檔內(nèi)容特征的關(guān)鍵詞,即特征選擇。明確每本圖書的特征詞和圖書的類號以后,即可訓練樸素貝葉斯分類器的關(guān)鍵參數(shù),主要是先驗概率和條件概率;訓練后的分類器模型可用于對新購圖書分類,分類過程中的特征融合和特征選擇過程與訓練過程中的處理方法完全一樣。
圖1 圖書分類過程
圖書館中紙質(zhì)圖書的描述元數(shù)據(jù)較為稀缺,與圖書內(nèi)容特征相關(guān)的元數(shù)據(jù)只有書名、作者和出版社。嚴格意義上講,只有書名能夠直接揭示內(nèi)容特征,作者和出版社只能間接揭示圖書內(nèi)容特征。單憑簡短的書名難以對圖書有效分類。因此,需要添加額外的內(nèi)容特征。Zhishi.me的9種屬性中,abstracts、infobox和category最能揭示實體的內(nèi)容特征,因此選擇這3種屬性內(nèi)容作為圖書、作者和出版社的詳細描述信息。labels字段雖然也能揭示內(nèi)容特征,但通常與原有實體標簽重復,不采用該字段中信息;其余5種屬性在內(nèi)容上與實體的描述沒有必然的相關(guān)性,所以也不作為補充信息。
在圖書分類中,關(guān)鍵詞是表示圖書內(nèi)容特征的最小語義單元,因此需要利用分詞技術(shù)從長文本中提取關(guān)鍵詞。分詞過程一般采用專門的分詞軟件包完成,本文使用Python語言版jieba分詞工具完成分詞。3個固有字段中,作者姓名和出版社直接作為特征詞,不必分詞。圖書名稱則需要通過分詞,提取細粒度的特征詞。實體的3種屬性中,abstracts是長文本,需要分詞。infobox是描述實體的基本屬性特征,本身就是短文本,所以不必分詞,直接作為特征詞。category屬性是對實體主題特征的揭示,既可以直接作為特征詞,也可以對其分詞后提取細粒度的特征詞。為確保category屬性完整形式能夠作為特征,需要將訓練集中所有的category屬性添加到j(luò)ieba分詞的字典中。在使用jieba分詞時,選擇“全模式”,既可以生成比較完整的長詞,又能夠得到細粒度的特征詞。
特征融合后形成的特征詞規(guī)模較大,如果將所有特征詞用于表示圖書內(nèi)容特征,會導致訓練后的模型占用過多內(nèi)存空間,影響分類器的應(yīng)用效果;低質(zhì)量的特征詞還有可能降低分類器性能,因此需要選擇高質(zhì)量的特征詞代表圖書內(nèi)容特征,刪除質(zhì)量較低的特征詞。在選擇特征值之前,需要刪除停用詞,這不僅有利于提高計算性能,也有助于提高分類器性能。選用TF-IDF權(quán)重作為選擇特征詞的標準。TF(term frequency)即特征詞頻率。通常情況下一個詞在書中出現(xiàn)頻率越高,越能夠代表這本書的內(nèi)容特征。由于不同圖書的特征詞數(shù)量差別較大,因此選擇相對頻率表示特征詞,特征詞w在圖書b中的頻率計算方法如式(5)所示,其中nw為特征詞在圖書b中出現(xiàn)的次數(shù),nb為圖書b中所有關(guān)鍵詞出現(xiàn)的總次數(shù)(不是關(guān)鍵詞數(shù))
(5)
IDF(inverse document frequency)即逆文本頻率指數(shù),表征特征詞在所有圖書中出現(xiàn)的普遍程度。如果特征詞w僅在少量圖書中出現(xiàn)過,那么w的IDF就比較高,在分類中起到的作用就越明顯;反之在分類中的重要性就比較低。IDF的計算方法如式(6)所示,其中N是訓練集中所有圖書的種數(shù),Nw是包含有特征詞w的圖書種數(shù)
(6)
特征詞w的TF-IDF值由該詞的TF值和IDF值相乘得到,如式(7)所示。計算圖書b中每個特征詞的TF-IDF值,然后將特征詞根據(jù)TF-IDF值由高到低排序,選取排名前k的特征詞作為圖書b的最終特征詞。最終選取的特征詞數(shù)量k的具體數(shù)值與分類器的效果密切相關(guān),需要根據(jù)實驗效果設(shè)定
(7)
樸素貝葉斯分類器的訓練過程就是通過訓練集的數(shù)據(jù)來估計圖書隨機出現(xiàn)在類別c中的先驗概率Pc,以及特征詞w出現(xiàn)在類別c中的條件概率Pd|c。先驗概率的估計方法如式(8)所示,其中N是訓練集所有圖書的種數(shù),Nc是訓練集中類別為c的圖書種數(shù)
(8)
條件概率Pw|c的估算方法如式(9)所示,其中Nd,c是類別為c的圖書中包含有特征詞d的圖書種數(shù)
(9)
訓練集中總會出現(xiàn)某特征詞w沒有出現(xiàn)在類別c中情況,這將導致條件概率為0。樸素貝葉斯公式的條件概率是通過先驗概率與各個特征的條件概率持續(xù)相乘得到,如果有一個特征的條件概率為0,那么這本書出現(xiàn)在這個類號中的概率將為0;這與真實情況不符。因此需要進行平滑處理,避免這種情況發(fā)生。引入拉普拉斯修正(Laplacian correction)做平滑處理,修正后的先驗概率和條件概率的計算方法分別如式(10)和式(11)所示,式中L為類別總數(shù)
(10)
(11)
訓練后得到的先驗概率是一個L維向量,條件概率是一個L×S的矩陣,其中S是從訓練集中提取的特征總數(shù)。將上述訓練參數(shù)存儲在哈希表中,在需要預測新書分類號時可通過查表獲取。假設(shè)先驗概率存儲在哈希表H1中,一本書應(yīng)當分配到類號c的先驗概率為H1c。假設(shè)條件概率存儲在哈希表H2中,特征詞w出現(xiàn)在類別c中的條件概率為H2cw。
分類預測過程就是根據(jù)圖書的特征詞集合估計圖書屬于某一分類的條件概率,并找出條件概率最大的類號的過程。樸素貝葉斯分類器不僅假設(shè)特征詞出現(xiàn)的概率相互獨立,而且假設(shè)特征詞的位置對分類沒有影響,因此可以使用集合(而非向量)表示圖書的特征詞以節(jié)省存儲空間。假設(shè)待預測新書的特征集為D,預測這本書所屬分類的方法如式(12)所示。新書中仍然可能出現(xiàn)訓練集中沒有出現(xiàn)的特征詞,該詞的條件概率仍然可以使用式(11)估算
(12)
實驗數(shù)據(jù)包括兩部分,一部分是已經(jīng)被圖書館著錄的圖書元數(shù)據(jù),包括圖書的標題、作者、出版社和中圖法分類號,另一部分是從Zhishi.me知識圖譜中獲取的關(guān)于圖書、作者和出版社的詳細描述信息。圖書著錄數(shù)據(jù)源于上海某高校在2013年至2017年間的圖書外借數(shù)據(jù)集,由首屆“慧源共享”上海高校開放數(shù)據(jù)創(chuàng)新研究大賽主辦方提供。以ISBN作為圖書唯一標識符,清洗掉格式不規(guī)范、內(nèi)容明顯殘缺的數(shù)據(jù)后,得到約42萬種圖書的著錄數(shù)據(jù),包含圖書名稱、圖書作者、圖書出版社以及圖書的正確分類號4個字段,總計有22余萬名作者和1萬余家出版社。Zhishi.me知識圖譜提供離線下載和在線訪問兩種知識獲取方式,離線數(shù)據(jù)比較陳舊,因此選擇在線訪問方式獲取詳細信息。通過在線獲取方式提取到約35萬種圖書、143萬名讀者和5000余家出版社的詳細信息。
選取3個常用的分類器評估指標,分別是準確率P(Precision)、召回率R(Recall)和綜合考慮P和R的F1值。對于類別c,其分類準確率計算方法如式(13)所示,其中Nc為被分類為c類的圖書總數(shù),TPc為Nc中被正確分類的圖書總數(shù)
(13)
類別c的召回率計算方法如式(14)所示,其中Mc是屬于類別c的所有圖書種數(shù)
(14)
類別c的F1值是對P值和R值同等重視條件下的綜合考量,計算方法如式(15)所示
(15)
圖書分類的類目體系龐大,難以逐個分析每個類目的準確率、召回率和F1值,選用這些指標的平均值作為綜合考量指標[18],即“宏查準率”(macro_P)、“宏召回率”(macro_R)和“宏F1值”(macro_F1),計算方法分別如式(16)、式(17)和式(18),式中CLS是所有分類號的集合,L是集合CLS包含的元素數(shù)量
(16)
(17)
(18)
《中圖法》類目體系龐大,通常采取層級分類法,典型的層級設(shè)計是按照《中圖法》原有體系逐層分類。層級分類法的典型特點是上一層級的錯誤將積累到下一層級,第一層級的分類準確率成為決定層級分類法最終分類準確率的關(guān)鍵因素。因此,本文以《中圖法》第一層級共22個大類作為分類目標。
特征選擇步驟中確定的選擇特征數(shù)k是影響模型性能的關(guān)鍵參數(shù),需要根據(jù)驗證集進行測試。因此將數(shù)據(jù)集均勻地劃分成10份,其中6份用作訓練集,2份用作驗證集,2份用作測試集。為確保劃分出的子集合中包含的類別一致,首先根據(jù)分類號對數(shù)據(jù)集按照字母先后順序排序,確保相同類號的圖書處于相鄰位置。然后從0開始對排序的圖書進行編號,取編號尾號為0的所有圖書作為第1份,編號尾號為1的所有圖書作為第2份,依次類推形成10份均勻的圖書數(shù)據(jù)集。最后隨機選擇相應(yīng)份數(shù)作為訓練集、驗證集和測試集。
樸素貝葉斯分類器的基本原理是計算一本書屬于某一個類別的概率,根據(jù)式(12),這個概率的計算過程分為兩步。第一步假設(shè)對這本書的內(nèi)容一無所知,這時一本書屬于某一類的概率僅由先驗概率決定。由于對圖書本書一無所知,僅靠先驗知識進行分類的效果通常不會很好,因此需要引入關(guān)于圖書的信息。第二步就是通過不斷引入圖書內(nèi)容特征修正概率的過程。理論上講,似乎引入的內(nèi)容特征越多,修正的效果就越好,最終的分類質(zhì)量就越高。實踐中,由于特征關(guān)鍵詞的質(zhì)量差別較大,引入低質(zhì)量的關(guān)鍵詞可能會降低分類器質(zhì)量。因此,本文設(shè)計了特征選擇策略,根據(jù)特征詞的TF-IDF的排序后由高到低選擇特征詞,通常假設(shè)選擇排名前k的特征詞。k的具體數(shù)值與具體的數(shù)據(jù)集密切相關(guān),需要根據(jù)訓練集和驗證集測試得到。
利用訓練集和驗證集在k值為1至20范圍內(nèi)分別測試分類器的性能,以macro_F1作為分類器的度量標準。最終測試結(jié)果如圖2所示。從圖中可以看出,隨著選擇特征數(shù)的增加,分類器的性能隨之增加,但是該新增趨勢并不持續(xù),在達到特定閾值以后性能開始下降;其原因是最初新增的特征詞質(zhì)量較高,對于修正條件概率起到正向作用,后期增加的特征詞質(zhì)量較低,對于提升分類器性能起到負向作用。曲線在最后均趨于平穩(wěn),其原因是k值已經(jīng)超過了圖書擁有的特征詞數(shù)量,k值的增加并不會導致更多特征詞的引入。對比無知識圖譜和有知識圖譜的情況可以發(fā)現(xiàn),無知識圖譜的曲線在k值為3時即達到峰值,其原因是書名的長度有限,原生圖書元數(shù)據(jù)能夠貢獻的特征詞較少,含知識圖譜的圖書特征詞更豐富,曲線在k值為8時達到峰值。通過上述分析發(fā)現(xiàn),無知識圖譜條件下k值為3的分類器性能最高,含知識圖譜條件下k值為8的分類器性能最高,因此在測試過程中分別選擇3和8作為模型參數(shù)。
圖2 選擇特征數(shù)k對分類器性能的影響
使用不包含知識圖譜的數(shù)據(jù)集訓練模型時將選擇特征數(shù)設(shè)定為3,使用包含知識圖譜的數(shù)據(jù)集訓練模型時設(shè)定特征數(shù)為8,在測試集上測試模型性能。最終結(jié)果見表2,“宏查準率”、“宏召回率”和“宏F1值”均有較大幅度的提升,從知識圖譜中提取的關(guān)于圖書、作者和出版社的詳細信息能夠有效提升分類器性能。
表2 測試結(jié)果
針對圖書館中紙質(zhì)圖書描述元數(shù)據(jù)普遍較少,不利于提升圖書自動分類器性能的問題,提出了從Zhishi.me知識圖譜中引入圖書詳細數(shù)據(jù)的解決思路。分析了Zhishi.me知識圖譜的內(nèi)部結(jié)構(gòu)和知識抽取策略,提出了利用基于TF-IDF權(quán)值的特征選擇方法。在上海市某高校圖書館的真實圖書數(shù)據(jù)集進行了實驗驗證,分析了特征詞數(shù)k值對分類器性能的影響,并根據(jù)最優(yōu)k值對比在無知識圖譜和含知識圖譜兩種情況下的圖書分類性能,發(fā)現(xiàn)準確率P、召回率R以及F1值均有較大幅度提升。