蔡勁松,鄒汪平
(1.安徽新聞出版職業(yè)技術(shù)學(xué)院,安徽 合肥 230601;2.池州職業(yè)技術(shù)學(xué)院 信息技術(shù)系,安徽 池州 247000)
詞只有在句子有具體情境中才能知道確切的含義。在傳統(tǒng)的搜索中,詞均是單獨地作為索引被存儲起來的,未曾將詞的情境信息考慮到語義之間的區(qū)別,傳統(tǒng)的搜索缺少個性查詢?,F(xiàn)在,搜索引擎也有類似功能,推斷出用戶查詢意圖,這個過程務(wù)必是“先搜索”“再過濾”的步驟,因此,亟需研究出一種方法改善索引結(jié)構(gòu)。如何在索引中加入必要的情境信息,如時間或者地點,本文主要研究的是網(wǎng)頁情境解析相關(guān)方法和理論,情境解析是研究情境搜索的前提和基礎(chǔ)。
傳統(tǒng)搜索引擎將網(wǎng)頁表示成文本向量,其優(yōu)點是向量表示方式簡單、處理速度快,缺點是不含情境信息(時間或者地點),情境表示正是解決這個問題而被提出的,于是情境搜索誕生了。不同的用戶對同一個搜索詞獲取的需求是不一定相同的,傳統(tǒng)的搜索引擎則是返回相同的結(jié)果,這時用戶搜索缺少個性化查詢。例如:對于“蘋果”這個查詢詞而言,大部分人想了解蘋果系列的電子產(chǎn)品的網(wǎng)頁內(nèi)容,個別人想了解水果類蘋果的營養(yǎng)成分的網(wǎng)頁內(nèi)容。
網(wǎng)頁情境解析包括3個方面:網(wǎng)頁正文提取、詞義標注、詞義消歧和情境表示。網(wǎng)頁正文提取使用視覺獲取正文,文獻[1]提出VIPS算法,它基于DOM樹獲取網(wǎng)頁視覺內(nèi)容結(jié)構(gòu)信息;文獻[2]提出一種模板檢測方法,在由模板生成網(wǎng)頁中自動地抽取網(wǎng)頁正文數(shù)據(jù);文獻[3]提議一種基于DOM樹的方法,并將獲取的信息作為DOM樹中節(jié)點表示,根據(jù)歸納學(xué)習(xí)算法自動生成規(guī)則;文獻[4]提出一種基于統(tǒng)計的方法,通過網(wǎng)頁鏈接與預(yù)設(shè)閾值之間的關(guān)系獲取正文部分;文獻[5]提出一種包含語義層次的STU-DOM樹模型,這個算法不會改變網(wǎng)頁結(jié)構(gòu)與內(nèi)容,自動獲取網(wǎng)頁正文。文獻[6]提出一種基于文本相似度計算形式獲取網(wǎng)頁正文,而不使用DOM樹。文獻[7]利用基于網(wǎng)頁中是否為文本行的判斷方法,再判斷每行中的錨文字比與所設(shè)置閾值的大小關(guān)系來判斷其是否為文本行;文獻[8]利用統(tǒng)計的方法正文的部分區(qū)域,再根據(jù)正文特征來識別其他正文區(qū)域,這此過程中消歧是必須的;文獻[9]將機器學(xué)習(xí)方法引入到詞義消歧中,提出一種基于SVM的機器學(xué)習(xí)詞義消歧方法;文獻[10]提出了人工標注詞義的機器學(xué)習(xí)方法;文獻[11]結(jié)合了一種集成方法,將3種集成方法乘法、平均值、最大值評價詞義消歧的性能。
本文將從網(wǎng)頁正文提取、詞義標注、詞義消歧和情境表示等研究入手,并能夠自動解析網(wǎng)頁情境信息,為搜索提供巨大幫助。
網(wǎng)頁情境解析將會涉及到各個方面的技術(shù)有機結(jié)合起來,統(tǒng)一建網(wǎng)頁情境解析模型,該模型中包含了:正文獲取、詞性標注、詞義消歧和獲取網(wǎng)頁更新時間等功能,其中,網(wǎng)頁的正文獲取使用基于規(guī)則的正文獲??;詞義消歧是網(wǎng)頁情境解析最為關(guān)鍵的一步,確定網(wǎng)頁正文中歧義詞的唯一釋義,詞義消歧基于WordNet實現(xiàn)的。前文中舉例為“蘋果”,通過分析用戶查詢詞與其附加的情境詞進行情境索引,這樣返回的查詢結(jié)果和查詢本身在語義上直接相關(guān)。由此可見,網(wǎng)頁情境解析的詞義消歧部分在情境搜素中起著舉足輕重的地位。圖1網(wǎng)頁情境解析的總體框架圖。
圖1 WCA-WordNet的總體框架圖
網(wǎng)頁情境解析包括網(wǎng)頁正文的關(guān)鍵詞與情境詞、網(wǎng)頁內(nèi)的時間和地點信息、網(wǎng)頁更新時間等等網(wǎng)頁的重要信息。在本小節(jié)中,給出網(wǎng)頁情境解析的形式化描述,如下:
其中,CA表示的情境解析,K表示的是網(wǎng)頁正文的關(guān)鍵詞,C表示的是情境詞,T表示網(wǎng)頁的時間集(網(wǎng)頁內(nèi)時間、創(chuàng)建時間和網(wǎng)頁更新時間),Q表示的是地點。
本文中提出一種基于WordNet的網(wǎng)頁情境解析算法WCA-WordNet(Web ContextAnalysis-WordNet)。
下載網(wǎng)頁集,目前,使用多線程爬蟲下載互聯(lián)網(wǎng)上大量的原始網(wǎng)頁,并對獲取的原始網(wǎng)頁建立DOM樹解析網(wǎng)頁,簡單的實現(xiàn)對網(wǎng)頁去噪音和廣告等;圖2獲取網(wǎng)頁集并建立DOM樹。
目前,互聯(lián)網(wǎng)上有百萬億網(wǎng)頁數(shù),并不是所有獲取網(wǎng)頁正文算法都適合網(wǎng)頁結(jié)構(gòu),但是,本文采用基于規(guī)則的算法獲取網(wǎng)頁正文,根據(jù)網(wǎng)頁正文在網(wǎng)頁中的位置和特征獲取正文抽取規(guī)則,再進行文本過濾、篩選、和文本合并,獲取準確的網(wǎng)頁文本內(nèi)容,這要比只基于網(wǎng)頁標簽規(guī)則獲取的網(wǎng)頁文本更加準確。
圖2 獲取網(wǎng)頁集并建立DOM樹
首先,將HTML轉(zhuǎn)化成DOM樹;其次,計算每一個HTML節(jié)點錨文字比值,根據(jù)比值的大小決定該節(jié)點是否刪除,計算的比值包括:內(nèi)容比值和節(jié)點比值;最后,獲取網(wǎng)頁生成時間、更新時間。
概念1:內(nèi)容比值。CV=W/All(W),CV表示內(nèi)容比值,W表示關(guān)鍵詞,All(W)表示網(wǎng)頁關(guān)鍵詞總數(shù)。這個公式表示關(guān)鍵詞W在網(wǎng)頁文本中的重要程度,關(guān)鍵詞內(nèi)容比值越大說明在網(wǎng)頁文本中的重要程度就越大。
概念2:節(jié)點比值。NV=W/All(N),NV表示的是節(jié)點比值,W表示網(wǎng)頁內(nèi)容中單詞W,All(N)表示的是網(wǎng)頁正文中所有節(jié)點值。NV衡量的是節(jié)點在文本內(nèi)容中的重要程度,NV值越大,說明文本內(nèi)容是網(wǎng)頁正文的可能性就越大。獲取網(wǎng)頁正文算法1。
WC(String html)//獲取網(wǎng)頁正文和網(wǎng)頁生成時間、更新時間
2.3.1 基于語法分析獲取上下文特征詞
基于WordNet與語法分析WSA-WSD的詞義消歧算法,首先,將句子轉(zhuǎn)化成語法分析樹;其次,根據(jù)WordNet選擇上下文特征詞,逐層遍歷語法分析樹中歧義詞節(jié)點到上下文特征詞之間的距離,計算歧義詞與特征詞的關(guān)聯(lián)度;最后,選擇關(guān)聯(lián)度最大作為歧義詞上下文的語境詞,根據(jù)文獻[1]中提出的方法計算關(guān)聯(lián)度,本文中僅僅是選取上下文特征詞,其計算公式為:
其中公式中Wi表示的第i個歧義詞,F(xiàn)j表示第j個待選特征詞,L表示樹中歧義詞到上下文選特征詞遍歷樹的層數(shù),d表示目標詞到上下文路徑距離長度,α表示的影響因子,其值設(shè)置為0.5。
2.3.2 計算關(guān)聯(lián)度
分別計算歧義詞與上下文特征詞之間關(guān)聯(lián)度、計算上下文特征詞詞義與歧義詞之間的關(guān)聯(lián)度。歧義詞Wi和Fj之間的關(guān)聯(lián)度R(Wi,Fj),其計算公式為:
計算上下文特征詞的詞義與歧義詞之間的關(guān)聯(lián)度R(Wi,Sk),R(Wi,Sk)可計算Wi與每個特征詞的詞義Sk的關(guān)聯(lián)度之和,并為每一個路徑賦予一個權(quán)值w,獲取詞義與詞之間最大關(guān)聯(lián)度,其計算公式為:其中公式中Wi表示的第i個歧義詞,Sk表示第k個特征詞的詞義,d(Wi,Sk)表示歧義詞到上下文特征詞語義的距離,L表示在語義分析樹中的層數(shù)。
2.3.3 詞義選擇
根據(jù)計算歧義詞關(guān)聯(lián)度可知,進行歧義詞的詞義選擇,首先,分別計算Wi和Fj之間的關(guān)聯(lián)度R(Wi,Fj)、計算上下文特征詞的詞義與歧義詞之間的關(guān)聯(lián)度R(Wi,Sk),詞義選擇計算公式WS為:
其中λ、μ分別表示式(4)的影響因子,根據(jù)其重要程度分別設(shè)置初始值為0.3和0.7,即λ+ μ=1,之所以將λ和μ權(quán)重設(shè)置為上述值,是因為基于詞與詞之間的關(guān)聯(lián)度遠小于詞義與詞之間關(guān)聯(lián)度選擇詞義的準確性,歧義詞的詞義選擇根據(jù)式(4)定義計算最大的值作為歧義詞的詞義。
2.3.4 網(wǎng)頁情境解析算法實現(xiàn)
為了驗證算法的有效性,算法進行多次的實驗,由于不能在真實的搜索引擎中做測試。本文中獲取網(wǎng)頁正文均是來自網(wǎng)頁的原始內(nèi)容,本文的歧義消岐測試數(shù)據(jù)集是SENSEVAL3英文部分,測試數(shù)據(jù)中提供了語法結(jié)構(gòu)分析樹,而詞性標注基于斯坦福大學(xué)研制的詞性標注軟件。
本文提出的基于WordNet與語法分析的詞義消歧算法包含參數(shù)λ、μ,首先。選擇最佳的參數(shù)值,λ、μ的取值是在[0,1)之間的數(shù)值,其中參數(shù)保持0.1的增量,其初始值分別設(shè)置為0.1和0.9。
由表1對比數(shù)據(jù)可知,數(shù)值的準確率P和召回率R,實驗表明λ、μ二者值分別為0.3和0.7,表1參數(shù)訓(xùn)練的部分結(jié)果。
表1 參數(shù)訓(xùn)練的部分結(jié)果
本文使用的網(wǎng)頁正文獲取算法,對于包含網(wǎng)頁正文均能很高的正確率。原始網(wǎng)頁來自于新聞類、微博類、官網(wǎng)類、娛樂類、體育類、網(wǎng)購類、社區(qū)類、電子類、財經(jīng)類和其他類,經(jīng)過實驗測試,本文對上述網(wǎng)頁正文內(nèi)容能達到99%以上的正確率,表2網(wǎng)頁正文獲取結(jié)果。
由表2可知,網(wǎng)頁正文獲取算法能抽取的正文很高的準確率,但是,其他類別中包含了一些不規(guī)則的段落內(nèi)容,會對獲取正文有一定的影響,本文使用的正文獲取算法對情境解析有著非常重要的意義,因此,本文的正文獲取算法需在大量的網(wǎng)頁文本支持下才有意義。從表2分析可知,實驗結(jié)果較好,能繼續(xù)從事情境解析工作做準備。
詞義消歧是網(wǎng)頁情境解析中一個細節(jié)工作,為了驗證本文所使用的詞義消歧算法可行性,本文給出了算法的實驗結(jié)果,由分析可知本文使用的算法在消歧任務(wù)中獲取了較高的準確度,同時,詞義消歧也能為網(wǎng)頁情境解析提供了重要的支撐,表3詞義消歧的實驗結(jié)果。
網(wǎng)頁情境解析是情境搜索中實現(xiàn)情境索引的基礎(chǔ),本文研究了基于WordNet的網(wǎng)頁情境解析算法,并實驗驗證算法的有效性。網(wǎng)頁情境解析研究是對網(wǎng)頁正文文本內(nèi)容解析,確定歧義實詞在其上下文唯一語義,情境解析過程最重要的是對網(wǎng)頁正文內(nèi)容抽取時間和地點信息,建立情境索引。本文實驗的準確率P和召回率R,表4情境索引實驗結(jié)果。
表3 詞義消歧的實驗結(jié)果
表4 網(wǎng)頁正文獲取結(jié)果
由表4可知,網(wǎng)頁情境解析獲取算法在給定列出的URL,獲取網(wǎng)頁正文情境解析的時間和地點的準確率和召回率都很高,說明本文算法在情境搜索中具有很好的應(yīng)用價值。
本文提出一種基于WordNet的情境解析算法,根據(jù)獲取網(wǎng)頁正文內(nèi)容并建立基于DOM樹進行網(wǎng)頁解析,獲取網(wǎng)頁正文、網(wǎng)頁生成時間和更新時間;對網(wǎng)頁集進行基于WordNet的詞性標注和詞義消歧;利用命名實體識別技術(shù)獲取網(wǎng)頁正文內(nèi)的時間和地點信息,作為網(wǎng)頁的情境表示。本文算法通過實驗驗證可得出,獲取了比較高的實驗結(jié)果,分析結(jié)果表明,本文提出的方法和理論完全能夠自動解析網(wǎng)頁情境信息,為搜索提供巨大幫助。后續(xù)研究需要提高解析結(jié)果的準確度,還需要對網(wǎng)頁情境信息表示,并建立高效的情境索引,完善情境搜索系統(tǒng),進而改善了搜索的性能和精確度。
[1]CAI D,YU S P,WEN J R,et al.VIPS:a vision based page segmentation algorithm[R/OL].(2003-11-01)American:Microsoft Research.
[2]楊少華,林海略,韓嚴博.基于通用本體網(wǎng)頁自動信息抽取[J].軟件學(xué)報,2008,19(2):209-223.
[3]李效東,顧毓清.基于DOM的Web信息提取[J].計算機學(xué)報,2002,25(5):526-533.
[4]SUHIT G,GALL K,DAVID N,et al.DOM-based content extraction of html documents[S].In proceedings of the Twelfth International World Wide Web Conference,Budapest,Hungary,2003:207-214.
[5]王利,劉宗田,王燕華,等.基于內(nèi)容相似度的網(wǎng)頁正文提取[J].計算機工程,2010,36(6):102-104.
[6]王琦,唐世渭,楊冬清,等.基于DOM的網(wǎng)頁主題信息自動提取[J].計算機研究與發(fā)展,2004,41(10):1786-1792.
[7]韓忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].計算機應(yīng)用研究,2008,25(12):3568-3574.
[8]周佳穎,朱珍民,高曉芳.基于統(tǒng)計與正文特征的中文網(wǎng)頁正文抽取研究[J].中文信息學(xué)報,2009,23(5):80-85.
[9]魯松,白碩,黃雄,等.基于向量空間模型的有導(dǎo)詞義消歧[J].計算機研究與發(fā)展,2001,38(6):662-667.
[10]魯松,白碩,黃雄.基于向量空間模型中義項詞語的無導(dǎo)詞義消歧[J].軟件學(xué)報,2002,13(6):1082-1089.
[11]吳云芳,王淼,金澎,等.多分類器集成的漢語詞義消歧研究[J].計算機研究與發(fā)展,2008,45(8):1354-1361.