姜孟晉,周雅倩,黃萱菁
(復(fù)旦大學 計算機科學技術(shù)學院,上海 201203)
對于數(shù)量呈爆炸式增長的網(wǎng)頁,以及其中包含的海量信息,用戶在搜索時,不僅想獲得所關(guān)注的網(wǎng)頁,更想直接拿到需求的結(jié)果(例如,用戶搜索書籍名,就是想直接獲得書籍介紹、評價、網(wǎng)上書店鏈接等信息)。因此,針對各種不同應(yīng)用的垂直搜索引擎應(yīng)運而生。
然而,網(wǎng)絡(luò)上的信息冗余問題十分嚴重,而垂直搜索引擎不希望將冗余信息返回給用戶,因而要對抽取的信息進行合并。網(wǎng)頁信息的冗余,不僅存在于不同的網(wǎng)站之間,有時也存在于同一個網(wǎng)站之中。這些冗余不僅包括網(wǎng)絡(luò)中惡意的抄襲拷貝,也包括不同信息源之間對同一事物的不同描述。因而,信息冗余判斷和去重是一個十分棘手的問題。
信息通常會以若干個元素組成,在抽取信息時會把不同的信息元素區(qū)分抽取出,然后將整個信息表示為多個信息元素組成的形式,以事件信息為例,簡單的包括了事件名,事件發(fā)生的時間和地點等,可表示為:事件信息={事件名+發(fā)生時間+發(fā)生地點}。
信息在這種多元表示下,去重任務(wù)就要以每個信息元素的相似性為基礎(chǔ),從以往的研究來看,命名實體信息元素的冗余判斷往往是信息去重中最難處理的一環(huán)。
例如,在處理表1的五個信息時,1,2,3事件雖然地名不同,但是事件名和時間非常相似,而實際上“上海大舞臺”和“上海體育館”是同一地名,如果沒有非常完備的同義外部知識庫支持,很難僅從文本上得到兩個地名實體是同義的。一種簡單的想法是利用事件名和時間這兩個信息元素的相似性,自動擴展識別出地名元素的相似性,從而可以再利用擴展的知識去解決復(fù)雜的去重問題。事件4和5,在事件名上差異很大,但是如果前面能學習得到兩個記錄的地名的一致,就能很好地進行冗余判斷。
表1 冗余信息范例
文獻[1]提出了一種可學習的文本距離函數(shù)來計算信息元素間的相似度。它從信息元素的相似度出發(fā),設(shè)計若干個相似度函數(shù),應(yīng)用到每一個信息元素上,并以此為特征,通過機器學習的辦法進行分類,最后給出了SVM分類的結(jié)果,對信息元素進行去重。但文獻[1]對不同類型的信息元素使用了同樣的相似度計算函數(shù),實際情況是,不同的信息元素在相似度判斷上有簡有難,對于格式化的信息,或者枚舉型的信息,應(yīng)用這些相似度函數(shù),不僅復(fù)雜化,而且沒能利用到信息元素格式上的特點,效果反而不好;而命名實體信息僅靠文本相似度來判斷又不能很好解決。
如果對這種多元素信息的每個元素有個簡單分類,然后分別給以不同的相似性函數(shù),可以把它們的相似性判斷獨立出來,以解決同一個相似度函數(shù)帶來的問題。本文把這種信息元素分為四個大類,枚舉元素,格式化元素,命名實體元素和自由文本元素,涵蓋了所有可能的信息元素,對不同類型元素可以應(yīng)用復(fù)雜程度不同的相似度函數(shù)。
另外,前述也特別提到了,對于命名實體信息元素,在不利用外部知識的情況下,僅從得到的信息集出發(fā),本文從其他簡單的信息元素出發(fā),通過求兩個命名實體所在信息子集的覆蓋程度,自動擴展出一些同義實體詞対,并將這些同義實體詞対知識加入冗余信息去重過程中,從而提高了信息去重的效果。關(guān)于信息去重和同義實體擴展的介紹將放在文章第2節(jié)。
信息抽取是指將文檔中的有用內(nèi)容進行結(jié)構(gòu)化處理,以表格等形式進行組織,方便存儲、檢索等進一步應(yīng)用。信息抽取一般在自由文本上進行,對于網(wǎng)頁信息的抽取,可以利用網(wǎng)頁的半結(jié)構(gòu)化特點輔助抽取。
抽取得到的信息通常都可以用元組的形式來表示,每條信息可以用一個多元組來表示:
元組中的元素對應(yīng)該信息的某個特定屬性。例如,一個書籍信息可以用{書名,作者,出版社,價格},這樣的四元組來表示;而一個學生的信息可以用{姓名,性別,年級}這樣的三元組來表示。
信息元素可以依照多種方式分類。本文為了比較好地對抽取的信息進行冗余判斷,將信息元素按不同的格式分為四類:枚舉元素,格式化元素,命名實體元素和自由文本元素。
枚舉元素
許多信息抽取系統(tǒng)都有枚舉型的元素,例如,性別、生肖、星座、血性等。由于枚舉類信息僅包含有限的取值,因而這類信息在判斷是否相似時十分容易,只需看比較字串是否相同即可。
格式化元素
信息抽取系統(tǒng)在處理某些特定信息時,由于存儲或應(yīng)用的需要,往往通過規(guī)則將其轉(zhuǎn)化為特定格式,例如,時間、郵箱、電話號碼等。因為可以根據(jù)格式的具體定義來精確地知道這個信息元素的含義,這類格式化信息在判斷是否相似時也比較容易。
命名實體元素
一些信息元素的值是命名實體,例如,人名、地名、組織機構(gòu)名等,由于命名實體存在“一名多義,多名同義”的問題,不能單從字面上加以區(qū)分,一般需要借助到外部知識庫。信息抽取系統(tǒng)在這類信息上主要是基于兩個命名實體是否同義來判斷相似。
自由文本元素
除了以上三種類型信息,其他的都可劃分為自由文本信息,多是具體內(nèi)容,這類信息的相似比較就類似于字符串之間的相似性比較,當然具體的信息還是可以有一些特定的性質(zhì)的。
信息去重,就是把抽到的表示相同信息的元組合并到一起。若初始的信息集合表示為:
T={Ti|i=1,…,m}
經(jīng)過合并后的信息集合表示為:
T=U1∪U2∪…∪US
其中,要求集合Ui內(nèi)所有的元組信息實際表示同一信息,且Ui∩Uj=?,?i,j。
這樣信息去重任務(wù)轉(zhuǎn)化為一個聚類任務(wù),而聚類不可避免地要涉及樣本間相似度的計算。這里我們采用層次聚類的方法:首先計算兩兩樣本間的相似度,然后將相似度較高的聚合為一類,自下而上得到整個信息集合的聚類。我們使用一個二類的分類器(判斷兩個信息元組是否重復(fù))來處理相似度計算的任務(wù)。但是,對于數(shù)據(jù)量非常大的信息數(shù)據(jù)集來說,兩兩判斷將要處理所有信息對,這平方級別的復(fù)雜度,通常是不被允許的,也會大大降低效率。這里我們采用分塊(Blocking)的辦法[2-3],來快速選取信息數(shù)據(jù)集中可能的重復(fù)信息對。這主要是通過對信息數(shù)據(jù)集的初步觀察,可以得到類似Hash函數(shù)的簡單判別函數(shù)來快速篩選可能的重復(fù)信息對。
整個信息抽取和去重的工作可以由下面的流程圖(圖1)來表示。
1)從信息源(網(wǎng)頁,文檔等)中抽取信息,得到信息的元組表示。抽取過程中,對于特定信息元素,可能有一些規(guī)范化的工作;
2)對抽取到的信息集進行分塊,通過簡單的判斷條件,Hash函數(shù)等將可能出現(xiàn)重復(fù)的信息對找出;
3)兩兩信息對經(jīng)過一個判斷重復(fù)與否的分類器(二類線性分類器,SVM等),得出重復(fù)的信息對;
4)將重復(fù)信息對聚類(層次聚類),合并重復(fù)的信息對,更新到抽取到的信息數(shù)據(jù)。
圖1 信息抽取和去重的一般流程
這里,特征fk的取值范圍與元素的類型相關(guān),有的特征是布爾值{0,1},也有的特征屬于區(qū)間[0,1]。對于每一維信息元素,可以應(yīng)用多個相似度函數(shù)作為特征。
由先前我們對信息元素的分類,枚舉元素和格式化信息元素都可以用簡單的匹配函數(shù)來區(qū)分,或者依據(jù)格式設(shè)計一些相似度計算函數(shù)。命名實體信息元素需要一個同義的詞庫才能解決,文獻[4]基于知網(wǎng)給出了詞語間相似度的計算函數(shù),可以用于計算命名實體信息元素之間的相似度,本文2.5節(jié)還將介紹一種NE元素的同義詞対自動擴展方法,來提高冗余判斷的效果。自由文本信息的相似度問題,作為字串或者句子的相似度,在國內(nèi)外都已經(jīng)有過很多研究,文獻[5-6]給出了判斷中文句子相似度的方法,可以用于計算中文自由文本信息元素之間的相似度,但本文并不僅限中文信息去重問題。文獻[7]針對信息元素的匹配問題,對多種不同的字符串比較方法進行實驗,本文借鑒之中的方法,根據(jù)實際應(yīng)用環(huán)境,在實驗中選擇合適的字符串相似度計算方法。例如,自由文本信息元素,既可以從向量空間模型上計算相似度,也可以通過計算字符串編輯距離(Levenshtein Distance)作為相似度。
盡管線性分類的方法已能處理該問題,為了更好的分類結(jié)果,我們用核函數(shù)方法,將樣本映射到高維空間來處理。這里,我們參照文獻[1]中的方法,將Ti,Tj之間的所有相似度fk作為特征,冗余的信息對組成正例,非冗余的信息對組成負例,使用SVM方法進行兩兩分類,實驗中,我們使用LibSVM為工具,核函數(shù)選擇徑向基核函數(shù)(RBF Kernel),可以計算得兩兩信息對之間是否冗余,最后再利用兩兩信息冗余關(guān)系,通過傳遞閉包關(guān)系,合并得到聚類結(jié)果。
實驗中,我們首先使用經(jīng)驗的方法,確定各個信息元素上的相似度函數(shù),然后用各個相似度的帶權(quán)重和,來進行線性分類及合并;其次再使用SVM分類來確定兩兩信息樣本的相似度,以上的特征為兩兩信息樣本的各種相似度。具體實驗方法和相似度函數(shù)選擇等會在實驗部分做具體介紹。
對于信息記錄中的命名實體(Named Entity,NE)元素,我們通常需要指代消解,才能區(qū)分出其中互指的元素。在簡單的應(yīng)用中,我們可以維護一個NE詞表,包擴同義的NE詞対,這樣做去重時,查詢這個表格即可判斷兩個NE是否指同一內(nèi)容。
NE詞表往往需要手工構(gòu)建,也會借助一些外部的知識庫,但這樣的詞表不能完全適應(yīng)信息去重任務(wù)需要。當我們觀察一組重復(fù)的信息數(shù)據(jù)時,往往能夠發(fā)現(xiàn),其實對大多數(shù)兩兩重復(fù)的信息對,它們在大部分信息元素上的內(nèi)容是非常相似的,只是有些許信息元素有差別,分歧基本出現(xiàn)在少數(shù)的信息元素上。這里,在信息去重的過程中,我們可以借助兩條信息記錄在其他元素上的相似性,來判斷兩者在某特定NE元素上的相似性,并以此自動擴展一些NE同義詞対。
由此,我們可以通過相似性判斷函數(shù)sim(Ti,Tj)計算Ta和Tb之間的重復(fù)對的數(shù)目(overlap pairs),op(Ta,Tb)。(注1:在此時計算相似度應(yīng)當忽略在第一維,也就是NE元素;注2:重復(fù)對不能重復(fù)計算,也即任意條信息記錄不能出現(xiàn)在兩個重復(fù)對中。)
為保證在op(Ta,Tb)的重復(fù)對中,來自Ta和Tb的信息記錄都只出現(xiàn)一次,尋找重復(fù)對問題,可以轉(zhuǎn)化為二分圖的最大匹配問題來解決。將Ta和Tb中的所有信息記錄都看作二分圖的頂點,選定相似度閾值α,當信息間相似度sim(Ti,Tj)>α時,設(shè)定Ti,Tj之間有邊相連,這里Ti∈Ta,Tj∈Tb。這樣二分圖的最大邊匹配數(shù)就是原問題的重復(fù)對op(Ta,Tb)數(shù)目。該問題可在O(|Ta||Tb|)時間內(nèi),用不斷尋找增廣路的匈牙利算法來解決。
實際中,我們用下面這個函數(shù)來計算兩個NE元素,a和b的相似度:
使用上述函數(shù)對信息集合{Ti}任意NE詞対,都能來計算相似度。實際應(yīng)用時,需要設(shè)定一個閾值t,如果simNE(a,b)≥t,則將b設(shè)為與a同義的NE,并同時在NE詞表中,將b所關(guān)聯(lián)的NE詞b*都加入到a*。
算法1:同義詞対自動擴展算法
輸入:信息集合{Ti},待擴充NE信息元素的對應(yīng)詞表D,閾值t
輸出:NE信息元素擴充后的詞表D
1:預(yù)計算信息間相似度sim(Ti,Tj),i≠j;
2:對詞表中不同義的NE,?a,b∈D,a≠b:
3: 查找詞表中與a,b各自同義的NE集合a*和b*;
4: 分別獲得與a*和b*相關(guān)的信息子集Ta和Tb;
5: 轉(zhuǎn)化為二分圖最大匹配問題計算重復(fù)對數(shù)目:op(Ta,Tb);
7:返回更新后的詞表;
上述同義詞対的自動擴展方法可以繼續(xù)重復(fù)進行,直到?jīng)]有大于閾值t的詞対出現(xiàn)。另外,當信息的元組中不止一個信息元素時,在對某一NE的同義詞対進行擴展時,可以先固定其他維NE元素。
實驗中,參數(shù)選擇對結(jié)果影響不大,這里并沒有過多的參數(shù)的調(diào)整,當sim(Ti,Tj)≥0.6時,Ti和Tj記為重復(fù)的信息。當op(Ta,Tb)≥2且 simNE(a,b)≥0.4時,a和b才記為同義詞対。op(Ta,Tb)≥2,即重復(fù)對數(shù)目至少為2,考慮到重復(fù)對為1時置信度不足。
冗余信息去重實驗在信息抽取后的信息集上進行。去重作為信息抽取工作的重要部分,其任務(wù)就是在已有的信息集中找到冗余的信息對,進行合并。這里我們分別在兩個不同任務(wù)上進行了實驗。首先我們選擇了一個事件信息抽取系統(tǒng),任務(wù)是找到系統(tǒng)抽取的事件中的冗余關(guān)系來去重。實驗中,我們選擇了一部分抽取到的事件,人工標注出其中的冗余關(guān)系,作為實驗數(shù)據(jù)集。同時,我們選擇了論文索引去重的任務(wù),使用Cora數(shù)據(jù)集[8],論文索引由于寫法不一致,詳略的不一致導致在論文引用分析,索引的合并時產(chǎn)生錯誤,這里旨在分析出Cora數(shù)據(jù)集中重復(fù)的論文引用,從而去除重復(fù)。
實驗中一共采用三種方法作為評測的指標:Pairwise,MUC 和 B-cubed(B3)。
Pairwise方法只評測了分類器的結(jié)果,并未對重復(fù)信息聚類結(jié)果做評測,因而實驗引入MUC和B-cubed這兩種共指(co-reference)任務(wù)的評測指標,更能體現(xiàn)我們?nèi)ブ厝蝿?wù)的要求。
交換Pk和Pe在上式中的角色可以計算出RecallMUC。
B-cubed由文獻[10]提出,在MUC評測的基礎(chǔ)上,進一步考慮了聚類后每個信息子集大小影響,調(diào)整權(quán)重,是最為適應(yīng)本文任務(wù)的評測指標。
我們針對事件信息抽取系統(tǒng)來完成一個事件信息的去重工作,對于事件信息,包含事件元素三元組 {時間,地點,事件名},因為該系統(tǒng)主要針對音樂會,演唱會,體育比賽等集會信息,因而時間,地點是該集會發(fā)生的時間和地點,事件名則是其名稱。
系統(tǒng)共抽取到38 195個事件,從中選取發(fā)生時間在2009年9月的事件做實驗數(shù)據(jù)集,剔除錯誤的抽取共得到1 022個事件。之所以選擇相對接近時間的事件,是因為更有可能產(chǎn)生重復(fù)信息對。人工標注出其中的冗余關(guān)系,區(qū)分出其中的冗余事件對,包括有多條事件信息間的重復(fù)。NE信息(這里指事件信息的地名)的擴充,由于是無監(jiān)督的方法實現(xiàn),因而在38 195個事件全集上進行。
事件信息元素的相似度計算如下:
時間:時間屬于格式化信息元素,盡管事件信息抽取和規(guī)范化后,時間都表示為[年:月:日:時:分:秒]的格式,但考慮到從不同網(wǎng)頁上抽取來的事件在時間的具體節(jié)點上(比如時分)上必然有不一致,同時有些網(wǎng)頁未必會標出具體時分,導致我們在存儲時只能以0賦值,因此在計算時間元素的相似度時,我們只考慮年、月、日,若兩個時間的年、月、日相同,則該維元素的相似度為1,否則為0。
地點:地點屬于命名實體信息元素,我們會維護一個統(tǒng)一的地名表,只要是查表后得出兩個地名元素指同一處,則該維元素的相似度為1,否則為0。但是這樣的同義地名表畢竟有限,我們實驗中使用前述的NE信息元素自動擴展的辦法來擴充同義地名表。
事件名:事件名屬于自由文本信息元素,我們采用向量空間模型,用TF-IDF作權(quán)重,來計算兩個事件名之間的相似度,另外也采用字符串編輯距離(Levenshtein Distance,LD)。通過對事件名的觀察,通常抽取得的事件名上都會有具體的小標題,如戲劇名,電影名,由《》或“”號括出,可以用模板匹配的方法找出事件標題中的小標題,小標題往往成為事件信息的重點,我們也用前述向量空間模型和字符編輯距離分別計算相似度作為特征。
使用以上方式計算事件信息各個元素的相似度作為特征,分別用線性分類器,和SVM分類器進行兩兩分類,并將有同類關(guān)系的事件進行聚合,作為最后的結(jié)果。表2 是事件信息抽取系統(tǒng)中做冗余判斷用到的特征。
表2 事件冗余判斷的特征選擇
數(shù)據(jù)集:1 000個人工標注并聚類過的事件,我們將其分為兩組,交叉驗證,取平均結(jié)果。
表3 事件信息抽取系統(tǒng)去重實驗
表3中,Linear指線性分類器的結(jié)果,后兩行則是SVM的結(jié)果。后綴init給出的是初始的事件去重結(jié)果,分別用Pairwise,B3和MUC指標來評測結(jié)果,exp則是指對事件地名做擴展之后的結(jié)果。
比較來看, Pairwise只表征兩兩信息對之間的結(jié)果,這一指標上差別不明顯,SVM的結(jié)果要好于線性分類器的結(jié)果,特別是在指代消解的任務(wù)指標B3和MUC上,F(xiàn)值分別對應(yīng)地提高了3%~4%。同時,對應(yīng)于線性分類器和SVM,exp的結(jié)果都好于init的結(jié)果。可以看出地名擴展在各個方法中,對信息的去重效果都有提升。
表4是一些擴充出來的地名對范例(每行的地名同義):
表4 擴展地名對范例
從表格中可以看出,一些地名能夠從文本相似的方法中判斷出相似度,但是也存在文本不一致的情形,無法從文本的相似出發(fā)來解決是否冗余問題,這些也正是本文命名實體信息元素擴充的意義所在。地名的同義大致概括一下可以分為幾類:多名,別稱,整體部分場所,地址和地名等。
科研論文中包含大量的論文引用,抽取這些論文引用,可以分析出論文間的引用關(guān)系,研究方向的轉(zhuǎn)移等,但論文引用的書寫有許多重復(fù),需要去重。
Cora數(shù)據(jù)集[8],是已分析出重復(fù)論文引用的數(shù)據(jù)集,共包含1 878條引用記錄。每個論文引用被抽取為一條信息,由于所細分的信息元素很多,且存在大量信息元素的混亂缺失,我們只抽取和使用以下信息元素:{author,title,venue,volume,address,pages,year}。該數(shù)據(jù)集上我們選擇作者(author)一維NE元素進行擴充,同樣在實驗中分別給出擴充前后的結(jié)果。Cora數(shù)據(jù)集分為三組,我們分別使用一組訓練,二組測試,這樣取三次實驗的平均結(jié)果如表5所示。
表5 Cora數(shù)據(jù)集的去重實驗
同樣的,表5中分別用線性分類器linear和SVM來對Cora數(shù)據(jù)集進行實驗。init是初始結(jié)果,而exp則是對Cora數(shù)據(jù)集中論文作者這一項進行自動擴展之后的結(jié)果,擴展之后結(jié)果也有一定的提升。在Cora數(shù)據(jù)集上,我們也采用線性分類器和SVM兩種方法,SVM的結(jié)果要好于線性分類器,Linear的結(jié)果中,NE元素自動擴充的結(jié)果提升不明顯,而SVM的方法使NE元素擴充對結(jié)果提升較大。分析可能原因是英文人名并不像事件信息中的中文地名那樣難以處理,可能的變化就是縮寫與全稱,姓和名的交換等,而這些是能夠通過文本相似度的方法來較好解決的。
文獻[11-12]使用馬爾可夫邏輯網(wǎng)(MLN)來對Cora數(shù)據(jù)集進行分段和指代消解(Segmentation and Entity Resolution),由于Cora數(shù)據(jù)集分段(劃分信息元素)時本身有錯誤,所以能夠修正數(shù)據(jù)集本身的問題,最后文獻[11]給出了Pairwise的準確度97.0%和召回率94.3%。
信息的冗余判斷和去重在數(shù)據(jù)庫、數(shù)據(jù)整合、信息抽取等方面已有大量研究,這里列舉一些和本文關(guān)系較大的工作。
信息去重在數(shù)據(jù)庫中最早被定義為Record Linkage問題[13],即將數(shù)據(jù)庫中潛在的鏈接(相同記錄)尋找出來,數(shù)據(jù)庫的這種鍵值存儲方式與本文的多元素信息十分相似,所以很多數(shù)據(jù)庫方面的算法和比較函數(shù)都可以直接應(yīng)用到冗余信息去重中。
文獻[1]也是針對多元信息去重問題,定義了若干相似度判斷函數(shù),應(yīng)用到多元信息的每一維上,從而計算出兩條信息記錄之間在各維的相似度,并作為特征,利用SVM分類器得到信息記錄間冗余與否的判斷。文獻[1]對不同類型的信息元素使用了同樣的相似度計算函數(shù),實際情況是,不同的信息元素在相似度判斷上有簡有難,比如時間表達式的相似判斷比較簡單,如果應(yīng)用文獻[1]中的計算方法,不僅復(fù)雜化,而且沒能利用到時間表達式的格式化信息,效果反而不好;而命名實體信息僅靠文本相似度來判斷又不能很好解決。本文對信息元素大致分為四類,由相似度判斷的難易不同,可應(yīng)用不同的計算函數(shù);特別對命名實體信息元素,在傳統(tǒng)文本相似處理不適用時,應(yīng)用同義實體自動擴展的方法,從語料中學習出一些同義實體,從而提高整個信息去重的效果。
文獻[14]提出了域匹配(Field Matching)的想法,來進行信息的去重,文中的域指字符串,多針對DNA、蛋白質(zhì)檢測等生物信息的應(yīng)用,而每個域又由子域構(gòu)成,可以從子域的相似判斷到信息的相似判斷。將域切分成子域,進而去重的想法與本文先做信息抽取后去重的方法比較類似,只是網(wǎng)頁中信息的各個抽取點不像[14]的應(yīng)用環(huán)境那么連續(xù),中間有廣告,標簽,圖片等無關(guān)內(nèi)容。
文獻[15]通過定義特定信息元素之間的轉(zhuǎn)移來計算兩條信息之間的相似性,盡管最后實驗結(jié)果不錯,但也定義和使用了大量復(fù)雜的轉(zhuǎn)移規(guī)則,并且規(guī)則僅能應(yīng)用于特定域,在實際使用中需要大量領(lǐng)域知識等,不容易推廣。
文獻[16]使用LDA模型,特別針對命名實體類的信息元素做信息去重,而且對去重后的每個信息類都能夠給出一個代表信息,即對類內(nèi)的所有信息提出一個統(tǒng)一的代表信息,這對信息抽取系統(tǒng)最后的展示十分重要。
文獻[2-3,17]都是以提升信息去重的效率為目的,當問題規(guī)模增大以后,需要考慮到效率問題,特別是對類似本文的兩兩比對辦法。采用分塊的辦法,快速提取可能有重復(fù)的信息對,可以避免不必要的比對,文獻[2-3]都是傳統(tǒng)的分塊方法,需要信息抽取中的某些信息元素對重復(fù)與否有很明顯的指導作用。文獻[17]針對某一些信息元素可排序的條件進行分塊,在一些信息抽取任務(wù)中會有比較好的效果。
在冗余信息去重問題中,本文針對各個信息元素上相似度判斷的不一致性,將其分為四類分別處理,這樣既可以利用各信息元素特有的格式信息,又能使各種相似度函數(shù)在不同信息元素上的應(yīng)用變得獨立,改變以往對所有信息元素統(tǒng)一處理造成的混亂。同時,對比較依賴詞典等外部知識的命名實體信息元素,利用信息間其他元的相似性,進行同義實體的自動擴充,無論是擴充結(jié)果還是最后去重結(jié)果,都可以證明這種自動擴充是有效的。
[1]Mikhail Bilenko,Raymond J.Mooney.Adaptive Duplicate Detection Using Learnable String Similarity Measures[C]//Proceedings of KDD,Washington,DC,USA,2003:39-48.
[2]Rohan Baxter,Peter Christen,Tim Churches.A Comparison of Fast Blocking Methods for Record[C]//Proceedings of KDD.Washington,DC,USA,2003:25-27.
[3]Lifang Gu,Rohan Baxter.Adaptive Filtering for Efficient Record Linkage[C]//Proceedings of the Fourth SIAM International Conference on Data Mining,Lake Buena Vista,Florida,USA,2004:477-481.
[4]李峰,李芳.中文詞語語義相似度計算——基于《知網(wǎng)》2000[J].中文信息學報,2007,21(3):99-105.
[5]王榮波,池哲儒.基于詞類串的漢語句子結(jié)構(gòu)相似度計算方法[J].中文信息學報,2005.19(1):21-29.
[6]張奇,黃萱菁,吳立德.一種新的句子相似度度量及其在文本自動摘要中的應(yīng)用[J].中文信息學報,2005,19(2):93-99.
[7]William W.Cohen,Pradeep Ravikumar, Stephen E.Fienberg.A comparison of string distance metrics for name-matching tasks[C]//Proceedings of IJCAI,2003:73-78.
[8]http://www.cs.umass.edu/~mccallum/code-data.html [OL].
[9]M Vilain,J Burger,J Aberdeen,et al.A model-theoretic coreference scoring scheme[C]//Proceedings of the 6th Conference on Message Understanding.Columbia,Maryland,USA,1995:45-52.
[10]Amit Bagga,Breck Baldwin.Algorithms for Scoring Coreference Chains[C]//Proceedings of The First International Conference on Language Resources and Evaluation Workshop on Linguistics Coreference.1998:563-566.
[11]Hoifung Poon,Pedro Domingos.Joint Inference in Information Extraction[C]//Proceedings of the 22nd National AAAI Conference on Artificial Intelligence.Vancouver,British Columbia,Canada,2007:913 -918.
[12]Hoifung Poon,Pedro Domingos.Joint unsupervised coreference resolution with Markov logic[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Honolulu,Hawaii,USA,2008:650-659.
[13]Ivan P.Fellegi,Alan B.Sunter.A Theory for Record Linkage[J].Journal of the American Statistical Association,1969,64(328):1183-1210.
[14]Alvaro Monge,Charles Elkan.The field matching problem:Algorithms and applications[C]//Proceedings of the Second International Conference on Knowledge Discovery and Data Mining.1996:267-270.
[15]Steven N.Minton,Claude Nanjo,Craig A,et al.A heterogeneous field matching method for record linkage[C]//Proceedings of the 5th IEEE International Conference on Data Mining.Houston,Texas,USA,2005:314-321.
[16]Indrajit Bhattacharya,Lise Getoor.A Latent Dirichlet Model for Unsupervised Entity Resolution[C]//Proceedings of the Sixth SIAM International Conference on Data Mining.Bethesda,MD,USA.2006:47-58.
[17]Akiko Aizawa.A fast linkage detection scheme for multi-source information integration[C]//WIRI,Tokyo,Japan,2005:30-39.