劉德元,魏晶晶,吳運兵,廖祥文*
(1.福州大學 數(shù)學與計算機科學學院,福建 福州 350116;2.福建省網(wǎng)絡計算與智能信息處理重點實驗室(福州大學),福建 福州 350116;3.福建江夏學院 電子信息科學學院,福建 福州 350108)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡中涌現(xiàn)了大量的論壇、博客等社交媒體,吸引大量用戶在這些社交媒體上分享他們關于政治、產(chǎn)品、公司、事件的觀點。觀點檢索旨在從社交媒體等文檔集中檢索出與查詢主題相關并且表達用戶觀點(贊同或反對)的文檔,是自然語言處理領域里的一項重要課題[1-2]。
目前,觀點檢索研究大體上可以分為三類。第一類觀點檢索方法是兩階段模型,首先利用傳統(tǒng)的信息檢索模型獲得與查詢相關的候選相關文檔,然后將候選相關文檔根據(jù)觀點得分進行重排序。例如,Zhang等[3]首先利用信息檢索模型(BM25)和查詢擴展技術找出主題相關的文檔,接著用支持向量機(SVMs)分類器對主題相關文檔進行觀點分類并重排序。Santos等[4]首先利用兩種現(xiàn)有方法找出觀點語句,接著將查詢與觀點語句的鄰近關系融入DFR(Divergence From Randomness)鄰近關系模型中,最終得到文檔的觀點檢索評分。Wang等[5]把重點放在觀點分類方面,通過整合推文、Hashtag間的共現(xiàn)關系等特征,采用三種圖模型的分類算法進行觀點分類。兩階段模型結構簡單,容易理解,但是缺乏合理的理論解釋。
第二類方式將主題相關度與觀點結合起來的統(tǒng)一檢索模型。該模型借助當前信息檢索和觀點挖掘領域的最新模型,直接挖掘描述主題的觀點對文檔進行排序。Eguchi等[6]提出一種概率生成模型框架下的觀點檢索模型,通過考慮查詢依賴的觀點得分將主題相關模型與觀點得分聯(lián)合起來,進而計算文檔的排序得分。Zhang等[7]提出一個基于詞典的生成模型,通過二次組合(Quadratic Combination)方式將主題相關得分與觀點評分結合,但該模型假設觀點詞是均勻分布的。Huang等[8]通過查詢相關與查詢無關的混合傾向性擴展將主題檢索與傾向性分類的兩階段方法轉換成一個統(tǒng)一的觀點檢索進程。Liao等[9]考慮了觀點詞針對不同查詢所含觀點信息的差異性,首先基于異質圖計算觀點詞權重,然后將其融入Zhang等[7]提出的生成模型。論文[10]則利用外源知識和機器學習的方法擴展用戶的查詢詞并融入生成模型。
第三類方式是學習排序模型(Learning to Rank)。Luo等[11]利用文檔特征、博主特征和主觀性特征,采用RankSVM排序學習模型對推文進行觀點檢索。Kim等[12]進一步利用了博主特征和標簽特征的主觀性信息來描述文檔的主觀傾向。但該模型需要大量的人工標注數(shù)據(jù)構建訓練集,因此這一方法的應用場景相對于前兩種方法而言較為有限,并且該模型針對不同的査詢,其相關文檔數(shù)量的差異會對學習的效果評價造成偏置。
上述第二類方式中的模型往往無法根據(jù)上下文將詞匯進行知識、概念層面的抽象。如例句所示:
例:Ios5updategetsandroidlikenotificationbar!?Applebowedtogoogle!
譯:IOS5更新得到類似Android的通知欄!蘋果向谷歌低頭了!
上述文本提到“apple蘋果”,現(xiàn)有模型無法識別其是指蘋果公司還是蘋果水果。因此上述基于詞袋的檢索模型缺乏對文本詞匯在概念層面上的的語義理解。
知識圖譜是結構化的語義知識庫,其基本組成單位是“實體-關系-實體”三元組,實體間通過關系相互聯(lián)結,構成網(wǎng)狀的知識結構[13]。概念知識圖譜是一種單一關系知識圖譜,與傳統(tǒng)的知識圖譜不同,它只包含一種isA關系,例如“Microsoft微軟”isA“Company公司”。利用知識圖譜,機器不僅能夠豐富原始查詢信息,同時能夠通過分析文本的概念空間以提高對文本詞匯的語義理解能力,從而可以計算文本間的語義相似度。例如Dalton等[14]利用實體的相關特征和實體與知識庫的連接(包括結構化的屬性和文本)來豐富原始查詢。Xiong等[15]提出利用freebase獲取與查詢相關的實體,然后利用非監(jiān)督或者監(jiān)督的方法得到最終的擴展詞。Wang等[16]在文本分類任務中利用概念圖譜推理文本的概念集合以表示文本的主題。Wang等[17]通過分析查詢文本的概念空間確定查詢中實體的語義,從而制定更加精確的查詢關鍵詞。Wang等[18]提出借助知識圖譜為文本構建統(tǒng)一的候選詞關系圖,并使用隨機漫步(Random Walk)的方法推導出最優(yōu)的分詞、詞性和詞的概念,提高實體概念化的準確率。另有學者利用知識圖譜提高問答系統(tǒng)的性能[19-20]。
為此,本文提出了基于文本概念化的觀點檢索方法,首先引入概念知識圖譜,通過有效分析查詢和文本的概念空間,判斷對應多個概念的實體在具體上下文中的正確概念語義,以此來實現(xiàn)概念級別的推理。同時在概念空間計算查詢與文本的主題相似度,接著基于詞典計算文檔的觀點得分,最后將相關度得分與文本的觀點得分二次組合成相關觀點得分,以此提高觀點檢索的性能。
本文提出了一種基于文本概念化的觀點檢索方法,首先利用知識圖譜分別將用戶查詢和文本概念化到概念空間上,然后在概念空間計算查詢與文本的主題相似度,接著基于詞典計算文檔的觀點得分。最后將相關度得分與文本的觀點得分組合成相關觀點得分,以此返回文檔的排名結果。
為了方便研究,本節(jié)將觀點檢索研究問題形式化描述為:給定一個查詢q,觀點詞典T={ti,i=1,2,…,M},待檢索的文檔集合D={di,i=1,2,…,N},以及知識圖譜G=(V,E)。計算每個待檢索文檔di與查詢q的主題相關度得分Irel(d,q,G)和di的觀點得分Iopn(d,q,T),根據(jù)檢索模型將相關度得分和觀點得分組合得到最終的相關觀點得分Rank(d)=Score(q,d,T,G)。并根據(jù)相關觀點評分從高到低排序。
文本概念化的目的是借助概念知識圖譜推理出文本中每個實體的概念分布,即將實體按照其上下文語境映射到正確的概念集合上[21](Bags-of-Concepts,BOC)。例如:
例:Ios5updategetsandroidlikenotificationbar!?Applebowedtogoogle!
譯:IOS5更新得到類似Android的通知欄!蘋果向谷歌低頭了!
在上述文本中,通過知識圖譜Probase[22],機器可以獲悉“apple蘋果”這個實體有“Fruit水果”和“Company公司”等概念,“google谷歌”這個實體有“Company公司”等概念。當“apple蘋果”與“google谷歌”同時出現(xiàn)在文本中時,通過貝葉斯公式可以分析出該文本中的“apple蘋果”有較高的概率屬于“Company公司”這一概念。
給定文檔集合D={di,i=1,2,…,N},本文利用Probase推理每篇文檔的概念集合。文檔的相關概念最終表示為一個概念集合di=(〈c1,w1〉,…,〈cj,wj〉,…,〈ck,wk〉),i=1,2,…,N,j=1,2,…,k, 其中wj表示概念cj屬于該文檔的權重,反映了概念cj對該文檔的解釋能力。概念化過程分為兩部分:實體識別與概念推理。
1.2.1 基于逆向最大匹配的實體識別
為了獲得文本的概念集合,首先需要識別文本中的實體,以便通過實體推理概念。對于多詞表達的實體,本文僅考慮長度最大的一項,實體之間不相互包含。例如“apple inc蘋果公司”可能有兩種實體識別結果: “apple蘋果”、“inc公司”或者“apple inc蘋果公司”,因為三者都在詞典中,但本文僅考慮“apple inc蘋果公司”這一實體。因此采用基于詞典的逆向最大匹配算法來識別文檔中的實體。并選用知識圖譜Probase中的所有實體(約1200萬個實體)作為匹配詞典。匹配過程中,采用波特提取器*http:∥tartarus.org/~martin/PorterStemmer/對文檔和詞典分別做詞干提取處理。具體算法描述如下:
基于逆向最大匹配的實體識別算法輸入:文檔集合、實體詞典輸出:每篇文檔的實體集合初始化:對實體詞典每個詞項做詞干提取處理。設詞典中實體最大長度(包含詞匯個數(shù))為maxLen,設輸出實體集合entity?Set為空。對每篇文檔進行如下處理:Step1:對文檔詞匯做詞干提取處理,得到文本s=s1s2…sn。Step2:計算s包含詞匯個數(shù),設為n,如果n等于0,轉7。如果n 1.2.2 基于樸素貝葉斯模型的概念推理 給定文檔的實體集合E={ei,i=1,2,…,M},概念生成的目的是利用Probase中的實體-概念對(Instance-Concept Pairs)推理出最能描述該實體集合的概念集合。為了評估概念對文檔的表示能力,采用樸素貝葉斯模型進行評估: (1) 通過貝葉斯公式計算每個概念的后驗概率,獲得高后驗概率值的概念顯然就是最能代表給定實體集合的概念。同時把后驗概率值作為這個概念表達該文檔的解釋能力,即為該概念的權重。 在式(1)中,給定概念,得到實體的概率的公式為: (2) 其中n(ei,ck)表示ei和ck的共現(xiàn)次數(shù),n(ck)表示ck出現(xiàn)的次數(shù),這兩個值都可以從Probase中直接或經(jīng)計算得到。兩個文本例子和它們經(jīng)概念化后的概念集合如表1展示。 表1 文本概念化樣例Table 1 Samples of text conceptualization. 觀點檢索的目標是檢索出與查詢相關且包含作者觀點的文檔。在以往的研究工作中,有以下統(tǒng)一檢索模型: (3) (4) 其中σ(x)=1/(1+exp(-x))是sigmoid函數(shù)。 最后,將Irel(d,q)和觀點得分Iopn(d,q,T)二次組合可得本文最終的觀點檢索評分公式為: (5) 本文在實驗部分使用了兩個數(shù)據(jù)集。首先,根據(jù)2014年文獻[9]的推特觀點數(shù)據(jù)集進行實驗,這一數(shù)據(jù)集共含49個查詢和3 308篇文檔(在下文簡稱為推特2014數(shù)據(jù)集)。由于這一數(shù)據(jù)集的數(shù)據(jù)量較少,本文利用推特提供的搜索結果及爬蟲技術擴展數(shù)據(jù)集,共爬取10個查詢的英文推特29 634篇。標注前采用緩沖池(pooling)技術:針對每個查詢,將本文檢索模型和基準檢索模型的各自檢索結果中前500篇文檔加入緩沖池,最后得到的緩沖池含7 172文檔。5名標注人員對緩沖池的文檔進行二值標注,將與對應查詢相關并且包含觀點信息的文檔標為1,否則為0。根據(jù)少數(shù)服從多數(shù)的原則對每篇文檔進行判斷,對緩沖池外的文檔均標注為0。下文將這一數(shù)據(jù)集記作擴展數(shù)據(jù)集。兩個數(shù)據(jù)集的基本信息如表2所示。觀點詞典來自SentiWordNet[23],本文選用評分大于0.6的正面或負面觀點詞,共3 908個。 表2 數(shù)據(jù)集基本信息Table 2 Basic statistics of datasets. 評價指標采用文本觀點檢索領域常用的Mean Average Precision(MAP),NDCG@10,R-precision(R-prec)和binary Preference(bPref),具體計算公式如下: (6) (7) (8) (9) 公式(6)中,Nq指查詢的數(shù)量,N指總的文檔數(shù)量,若第i個文檔為帶觀點的主題相關文檔,則ri=1,否則ri=0。公式(7)中Zn為標準化因子,用理想返回列表的NDCG@n作為因子進行歸一化。r(j)指返回文檔的評分,若相關設為2,否則設為1。公式(8)中R指與查詢相關并帶有對查詢觀點的文檔數(shù)量,Rj指檢索結果中第j個文檔的評分,若是正確結果集中的文檔,則取1,否則取0。公式(9)中,R指與查詢相關的文檔個數(shù),r指具體的某一個相關文檔,|nrankedhigherthanr|指排名比r靠前的非相關文檔的數(shù)量。 Fig.1 MAP with different number of concepts圖1 不同概念數(shù)量對MAP的影響 為了驗證本文方法的有效性,將本文方法與以下模型對比: (1)BM25+Lexicon[9]:使用傳統(tǒng)信息檢索方法BM25和基于詞典的觀點得分模型分別計算查詢與文檔的相關度和文檔的觀點得分。 (2)BM25-KG+Lexicon[10]:在文獻[9]的基礎上使用知識圖譜freebase的文本描述信息為用戶查詢進行查詢擴展。 (3)BOC+Lexicon:本文方法,基于概念模型計算查詢與文檔的相關度并結合基于詞典的觀點得分方法。 實驗1不同概念數(shù)量對MAP的影響 本文方法在概念化過程中涉及一個參數(shù):每個實體推理出的概念詞數(shù)量k。實驗1研究不同參數(shù)k下的MAP值。本文設置概念詞數(shù)量k的范圍10~50,步長為10。 觀察圖1可以發(fā)現(xiàn),在推特2014數(shù)據(jù)集中,MAP隨概念詞數(shù)量k的變化趨勢比較不明顯,折線比較平緩,而且當k為20的時候,MAP獲得最優(yōu)值。在擴展數(shù)據(jù)集中,當概念詞數(shù)量k小于20,MAP呈上升趨勢且在k為20達到最高值,當k大于20的時候,MAP開始明顯下降。值得注意的是,在兩個數(shù)據(jù)集上,觀點檢索的性能均在k為20的時候達到了最高,說明對于每個實體來說,包含20個概念詞是較為合理的。這種合理性并沒有隨著數(shù)據(jù)集的擴大而改變,這也說明了k取20是一個較為合理的參數(shù)設置。因此,本文在后續(xù)實驗中,兩個數(shù)據(jù)集上的概念詞數(shù)量k均設置為20。 實驗2方法有效性分析 為了驗證本文方法的有效性,對比本文方法和基準方法在兩個數(shù)據(jù)集上的實驗結果。結果在表3和表4顯示。 表4 本文方法與基準方法在擴展數(shù)據(jù)集上的實驗結果對比Table 4 Comparison of our approache and benchmark approaches on extended dataset 從實驗結果可以看出: (1)在推特2014數(shù)據(jù)集中(表3),BM25-KG+Lexicon四個指標均優(yōu)于BM25+Lexicon,而BOC+Lexicon(本文方法)除了R-Prec指標與BM25+Lexicon,其余三個指標均優(yōu)于BM25+Lexicon。在擴展數(shù)據(jù)集中(表4),BM25-KG+Lexicon在MAP指標上與BOC+Lexicon基本持平,但其余三個指標都優(yōu)于BOC+Lexicon。而BOC+Lexicon(本文方法)除了NDCG@10指標外,其余三個指標都比BM25+Lexicon好。說明引入知識圖譜,可以提高模型的對查詢和文本詞匯的語義分析能力,進而提高原有觀點檢索的性能。 (2)在推特2014數(shù)據(jù)集中(表3),對比本文方法BOC+Lexicon與BM25-KG+Lexicon,BOC+Lexicon優(yōu)于BM25-KG+Lexicon,雖然在R-Prec,NDCG@10,bPref指標上基本持平,但MAP指標提升了4.2%。在擴展數(shù)據(jù)集中(表4),BOC+Lexicon除了在NDCG@10指標上低于BM25-KG+Lexicon,在MAP,R-Prec,bPref三個指標分別提升了12.6%,6.1%,16.6%。說明本文方法優(yōu)于基于知識庫擴展方法,不僅可以有效分析用戶查詢的信息需求,同時可以準確理解文本集和查詢詞匯的語義信息,改善了特征空間的稀疏問題,進而能夠提高觀點檢索的性能。 本文提出了一種基于文本概念化觀點檢索模型,與已有的研究工作不同,本文充分利用了知識圖譜的結構化信息對用戶查詢和文本集進行語義分析。通過概念知識圖譜對文本進行概念層面的抽象,同時在概念空間計算查詢與文本的主題相似度,接著基于詞典計算文檔的觀點得分,最后將相關度得分與文本的觀點得分二次組合成相關觀點得分。實驗結果表明,與現(xiàn)有工作對比,本文方法在MAP等指標上有明顯的提升。但是,本文模型目前仍是基于詞匹配的模型,在概念化過程中產(chǎn)生的依然是稀疏的概念空間,因此,詞匯之間的語義相似度計算在匹配失敗的前提下可能產(chǎn)生一定錯誤的概率。因此在未來的工作中,將利用網(wǎng)絡表示的方法,通過表示學習利用知識庫潛在的結構信息,將文本嵌入低維空間以計算文本相關度。通過這種泛化能力較強的建模方式,希望可以彌補概念化過程中的錯誤,進一步提高觀點檢索的性能。 參考文獻: [1] Ounis I,Macdonald C,Rijke M D,etal.Overview of the TREC 2006 Blog Track[C]∥Fifteenth Text Retrieval Conference,Trec 2006,Gaithersburg,Maryland,November,2006:86-95. [2] Pang B,Lee L.Opinion Mining and Sentiment Analysis [M].Foundations and Trends in Information Retrieval,2008:1-135. [3] Zhang W,Yu C,Meng W.Opinion Retrieval from Blogs[C]∥Proceedings of the 6th ACM Conference on Information and Knowledge Management.ACM,2007:831-840.DOI:10.1145/1321440.1321555. [4] Santos R L,He B,Macdonald C,etal.Integrating Proximity to Subjective Sentences for Blog Opinion Retrieval[C]∥European Conference on Information Retrieval.Springer,2009:325-336.DOI:10.1007/978-3-642-00958-7-30. [5] Wang X,Wei F,Liu X,etal.Topic Sentiment Analysis in Twitter:a Graph-based Hashtag Sentiment Classification Approach[C]∥Proceedings of the 20th ACM International Conference on Information and Knowledge Management.ACM,2011:1031-1040.DOI:10.1145/2063576.2063726. [6] Eguchi K,Lavrenko V.Sentiment Retrieval Using Generative Models[C]∥Conference on Empirical Methods in Natural Language Processing.2006:345-354.DOI:10.3115/1610075.1610124. [7] Zhang M,Ye X.A Generation Model to Unify Topic Relevance and Lexicon-based Sentiment for Opinion Retrieval[C]∥Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2008:411-418.DOI:10.1145/1390334.1390405. [8] Huang X,Croft W B.A Unified Relevance Model for Opinion Retrieval[C]∥Proceedings of the 18th ACM Conference on Information and Knowledge Management.ACM,2009:947-956.DOI:10.1145/1645953.1646075. [9] Liao X W,Chen H,Wei J J,etal.A Weighted Lexicon-based Generative Model for Opinion Retrieval[C]∥Machine Learning and Cybernetics (ICMLC),2014 International Conference on.IEEE,2014,2:821-826.DOI:10.1109/ICMLC.2014.7009715. [10] 馬飛翔,廖祥文,於志勇,等.基于知識圖譜的文本觀點檢索方法[J].山東大學學報(理學版),2016,51(11):33-40.DOI:10.6040/j.issn.1671-9352.0.2016.250. [11] Luo Z,Osborne M,Wang T.Opinion Retrieval in Twitter[C]∥In Proceedings of AAAI’12.2012:507-510. [12] Kim Y S,Song Y I,Rim H C.Opinion Retrieval Systems using Tweet-external Factors[C]∥COLING,26th International Conference on Computational Linguistics,Proceedings of the Conference System Demonstrations.Osaka,Japan:ACL,2016:126-130. [13] 劉嶠,李楊,段宏,等.知識圖譜構建技術綜述 [J].計算機研究與發(fā)展,2016,53(3):582-600.DOI:10.7544/issn1000-1239.2016.20148228. [14] Dalton J,Dietz L,Allan J.Entity Query Feature Expansion using Knowledge Base Links[C]∥Proceedings of the 37th international ACM SIGIR Conference on Research & Development in Information Retrieval.ACM,2014:365-374.DOI:10.1145/2600428.2609628. [15] Xiong C,Callan J.Query Expansion with Freebase[C]∥Proceedings of the 2015 International Conference on The Theory of Information Retrieval.ACM,2015:111-120.DOI:10.1145/2808194.2809446. [16] Wang F,Wang Z,Li Z,etal.Concept-based Short Text Classification and Ranking[C]∥Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.ACM,2014:1069-1078.DOI:10.1145/2661829.2662067. [17] Wang Y,Li H,Wang H,etal,Toward Topic Search on the Web[R]:Technical Report,Microsoft Research,2010. [18] Wang Z,Zhao K,Wang H,etal.Query Understanding Through Knowledge-based Conceptualization[C]∥International Conference on Artificial Intelligence.2015:3264-3270. [19] Zheng W G,Cheng H,Zou L,etal.Natural Language Question/Answering:Let Users Talk With The Knowledge Graph[C]∥Proceedings of the 2017 ACM on Conference on Information and Knowledge Management,Singapore,2017:217-226. [20] Hao Y C,Zhang Y Z,Liu K,etal.An End-to-End Model for Question Answering Over Knowledge Base with Cross-Attention Combining Global Knowledge[C]∥Meeting of the Association for Computational Linguistics,2017:221-231. [21] 王仲遠,程健鵬,王海勛,等.短文本理解研究 [J].計算機研究與發(fā)展,2016,53(2):262-269.DOI:10.7544/issn1000-1239.2016.20150742. [22] Wu W,Li H,Wang H,etal.Probase:A Probabilistic Taxonomy for Text Understanding[C]∥Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data.ACM,2012:481-492.DOI:10.1145/2213836.2213891. [23] Esuli A,Sebastlani F.Determining the Semantic Orientation of Terms Through Gloss Classification[C]∥ACM CIKM International Conference on Information and Knowledge Management,Bremen,Germany,October 31-November,2005:617-624.DOI:10.1145/1099554.1099713.1.3 基于文本概念化的觀點檢索模型
2 實驗結果與分析
2.1 數(shù)據(jù)集及評價指標
2.2 實驗對比
3 結論