丁 宇,車萬(wàn)翔,劉 挺,張梅山
( 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院社會(huì)計(jì)算與信息檢索研究中心,黑龍江 哈爾濱 150001)
詞典是中文自然語(yǔ)言處理的一項(xiàng)基礎(chǔ)資源,它為很多中文自然語(yǔ)言處理的相關(guān)任務(wù)提供了支撐,例如中文分詞[1]、命名實(shí)體識(shí)別[2]、 詞義分析[3]等。
目前在中文自然語(yǔ)言處理領(lǐng)域影響較大的詞典包括《知網(wǎng)》[4]、《同義詞詞林》[5]等?!啊吨W(wǎng)》是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)”[4],其結(jié)構(gòu)復(fù)雜不易擴(kuò)展,需要很深的語(yǔ)言基礎(chǔ)才能理解,因此編撰這一詞典需要很大代價(jià),作者董振東先生就用了逾十年時(shí)間才建立了這個(gè)約9萬(wàn)詞的詞典。《同義詞詞林》由梅家駒等人于1983年編纂而成,一共包含了近7萬(wàn)詞匯,和《知網(wǎng)》相比易于理解,是一部漢語(yǔ)分類詞典,其語(yǔ)義建立在近義和反義基礎(chǔ)上,因此所表示的語(yǔ)義信息沒有《知網(wǎng)》豐富。很顯然,以上詞典都是專家構(gòu)造的手工詞典。
眾包是群體智慧的一種體現(xiàn)形式,它是一種新的資源建設(shè)的手段,并且這種資源建設(shè)的手段代價(jià)更低。例如,ESPGame[6]以游戲的形式讓用戶為圖像打標(biāo)簽,是首個(gè)成功地用眾包的思想免費(fèi)收集到大量標(biāo)注數(shù)據(jù)的案例;亞馬遜土耳其機(jī)器人(Amazon Mechanical Turk)是亞馬遜公司提供眾包服務(wù)的網(wǎng)絡(luò)平臺(tái),已有很多自然語(yǔ)言處理相關(guān)的工作通過這一平臺(tái)來采集有用的語(yǔ)料,例如Irvine and Klementiev,2010;Jha et al., 2010;Lawson et al.,2010[7-9]。
本文將眾包和詞典構(gòu)建相結(jié)合提出了一種代價(jià)更小的方式自動(dòng)構(gòu)建語(yǔ)義相關(guān)性詞典。首先面向互聯(lián)網(wǎng)設(shè)計(jì)一個(gè)網(wǎng)頁(yè)游戲,提供利于用戶進(jìn)行自然聯(lián)想的環(huán)境。詞典的獲取方式是給用戶提供觸發(fā)詞,用戶填寫由該觸發(fā)詞聯(lián)想到的詞,從而得到詞語(yǔ)之間由聯(lián)想關(guān)系組成的網(wǎng)絡(luò),因此將語(yǔ)義相關(guān)性詞典命名為詞匯聯(lián)想網(wǎng)絡(luò)。因?yàn)橛脩舻拿恳淮蜗嚓P(guān)聯(lián)想產(chǎn)生的詞語(yǔ)對(duì),兩個(gè)詞語(yǔ)之間都存在語(yǔ)義相關(guān)性或相似性,因此,詞匯聯(lián)想網(wǎng)絡(luò)中帶有很強(qiáng)的詞匯語(yǔ)義信息。獲取詞匯聯(lián)想網(wǎng)絡(luò)后,任意兩個(gè)詞語(yǔ)的相關(guān)度使用隨機(jī)游走算法進(jìn)行計(jì)算。隨后,本文對(duì)詞匯聯(lián)想網(wǎng)絡(luò)和知網(wǎng)、同義詞詞林以及微博ngram文本進(jìn)行了對(duì)比,表明了詞匯聯(lián)想網(wǎng)絡(luò)與其他詞典是有著比較大的差異的,而且更符合人對(duì)詞語(yǔ)的理解,從而體現(xiàn)了詞匯聯(lián)想網(wǎng)絡(luò)的價(jià)值。
本文內(nèi)容如下組織: 第2節(jié)介紹詞匯聯(lián)想網(wǎng)絡(luò);第3節(jié)介紹眾包設(shè)計(jì)數(shù)據(jù)獲取;第4節(jié)介紹使用隨機(jī)游走的方法利用獲取的數(shù)據(jù)構(gòu)建詞匯聯(lián)想網(wǎng)絡(luò),以及對(duì)詞匯聯(lián)想網(wǎng)絡(luò)的分析;第5節(jié)將詞匯聯(lián)想網(wǎng)絡(luò)與知網(wǎng)、微博ngram文本、同義詞詞林進(jìn)行比較和分析;最后給出總結(jié)和未來的工作。
為了能夠更好地表達(dá)詞匯聯(lián)想網(wǎng)絡(luò)中詞語(yǔ)之間的相關(guān)程度和拓?fù)潢P(guān)系,將詞匯聯(lián)想網(wǎng)絡(luò)建立成圖結(jié)構(gòu);圖結(jié)構(gòu)能夠更加直觀形象地刻畫出詞匯聯(lián)想網(wǎng)絡(luò)的形態(tài)。下面將詞匯聯(lián)想網(wǎng)絡(luò)從圖結(jié)構(gòu)的角度重新定義。
詞匯聯(lián)想網(wǎng)絡(luò)詞匯聯(lián)想網(wǎng)絡(luò)是由一個(gè)帶權(quán)重的圖結(jié)構(gòu)G=(V,E,W)組成,其中V代表圖中的節(jié)點(diǎn),由詞語(yǔ)組成,E是邊,邊上的權(quán)重由W給出,邊和權(quán)重反應(yīng)了詞語(yǔ)之間聯(lián)想的緊密程度,權(quán)重越高,表明這兩個(gè)詞越容易組成聯(lián)想對(duì)。
同一聯(lián)想串中,后一個(gè)詞是在前一個(gè)詞的基礎(chǔ)上聯(lián)想出來的,因?yàn)楹芏嗲闆r下聯(lián)想關(guān)系是不對(duì)稱的,如由“踢”能想到“足球”,而很難從“足球”聯(lián)想到“踢”。所以圖G=(V,E,W)是有向圖。
圖1為詞匯聯(lián)想網(wǎng)絡(luò)的一部分,圖上邊的權(quán)重最高的為“踢”→“足球”,這表明人們很容易從“踢”聯(lián)想到“足球”。權(quán)重賦值將在詞匯聯(lián)想網(wǎng)絡(luò)的構(gòu)建中討論。
圖1 詞匯聯(lián)想網(wǎng)絡(luò)局部截圖
2.1.1 隨機(jī)游走
隨機(jī)游走算法[10]假設(shè)存在一個(gè)粒子沿著圖上的邊隨意漫游,而粒子每次移動(dòng)都移動(dòng)到一個(gè)特定詞語(yǔ)的鄰居節(jié)點(diǎn)上,一段時(shí)間后粒子將周期性地、以相同的順序遍歷圖上的節(jié)點(diǎn),從而得到關(guān)于某個(gè)詞語(yǔ)的概率平穩(wěn)分布。隨機(jī)游走算法的優(yōu)勢(shì)是將詞語(yǔ)的直接關(guān)系和間接關(guān)系結(jié)合起來計(jì)算詞語(yǔ)相關(guān)度;另外,通過遍歷所有詞語(yǔ)間的聯(lián)系,游走的過程將局部相關(guān)性統(tǒng)計(jì)信息聚集起來并擴(kuò)散到整個(gè)圖中。
P是轉(zhuǎn)移矩陣,詞匯聯(lián)想網(wǎng)絡(luò)中任意兩個(gè)詞語(yǔ)i和j,若i和j出現(xiàn)在同一個(gè)聯(lián)想串中且詞語(yǔ)i緊隨
詞語(yǔ)j出現(xiàn),則計(jì)算從j到i的概率p(ni|nj),否則p(ni|nj)=0。而粒子在每一步轉(zhuǎn)移時(shí)都以概率β返回到θ(0),發(fā)現(xiàn)θ(0)收斂到分布θ(∞)的迭代次數(shù)與β-1成正比,通過實(shí)驗(yàn)一系列的β值,發(fā)現(xiàn)結(jié)果對(duì)參數(shù)β不敏感。設(shè)定收斂準(zhǔn)則為‖θ(t)-θ(t-1)‖<10-8,對(duì)于本文得到的圖,設(shè)置β=0.08,平均收斂次數(shù)是50。
下面用三個(gè)頂點(diǎn)構(gòu)成的圖進(jìn)一步說明算法過程。
圖2 三個(gè)點(diǎn)的有向圖,隨機(jī)游走從頂點(diǎn)A開始
2.1.2 相關(guān)度計(jì)算
通過以上方法已經(jīng)得到了詞語(yǔ)的概率平穩(wěn)分布,下面討論詞語(yǔ)的相關(guān)度計(jì)算。直觀來講,如果隨機(jī)游走過程分別從兩個(gè)詞語(yǔ)出發(fā),都傾向于漫游到相同的節(jié)點(diǎn)上,那么這兩個(gè)詞語(yǔ)語(yǔ)義相關(guān)更強(qiáng)。因此,任意兩個(gè)詞語(yǔ)的相關(guān)度可以通過衡量關(guān)于這兩個(gè)詞語(yǔ)的概率平穩(wěn)分布的差異得到。
假設(shè)待計(jì)算相關(guān)度的兩個(gè)詞語(yǔ),它們對(duì)應(yīng)的游走概率平穩(wěn)分布分別是P和Q, 一個(gè)普遍的選擇,
是將分布P和分布Q看作兩個(gè)一維向量,從而用余弦相似度衡量P和Q的差異,如式(2)所示。
本文將詞匯聯(lián)想任務(wù)設(shè)計(jì)成網(wǎng)頁(yè)小游戲,游戲名稱是“心有靈犀對(duì)對(duì)碰”。游戲以完成任務(wù)的形式進(jìn)行,每個(gè)任務(wù)開始,系統(tǒng)都給出一個(gè)觸發(fā)詞,用戶填寫由該觸發(fā)詞最先聯(lián)想到的詞,然后,系統(tǒng)將觸發(fā)詞按照用戶填寫的詞語(yǔ)切換,用戶再進(jìn)行下一步的聯(lián)想,如此往復(fù),最終得到一個(gè)長(zhǎng)度大于某一閾值的詞語(yǔ)串,任務(wù)完成。游戲記錄完成該任務(wù)所用的時(shí)間,通過結(jié)合聯(lián)想串的內(nèi)容和聯(lián)想用時(shí)進(jìn)行相關(guān)計(jì)算,給出用戶通過每次聯(lián)想任務(wù)尋找到的心有靈犀伙伴。
從用戶的角度講,游戲的目標(biāo)是尋找心有靈犀的伙伴,心有靈犀對(duì)象是與已知聯(lián)想串“相悅”指數(shù)最大的 3個(gè)(3是最大值)聯(lián)想串和聯(lián)想用戶?!跋鄲偂敝笖?shù)是當(dāng)某個(gè)詞在聯(lián)想串集合中兩個(gè)以上的聯(lián)想串中出現(xiàn),那么這些聯(lián)想串彼此之間“相悅”指數(shù)就加1,若有多個(gè)“相悅”指數(shù)相同的聯(lián)想串存在,則用時(shí)短的聯(lián)想串被優(yōu)先選擇。用戶只有填入正規(guī)詞才可能尋找到更多的心有靈犀伙伴。心有靈犀結(jié)果在同一時(shí)刻分別推送給“被心有靈犀”的3個(gè)用戶,如圖3彈出窗口所示, 使得心有靈犀成為一種實(shí)時(shí)的、相互的關(guān)系。從心理學(xué)角度講,當(dāng)人們找到心有靈犀對(duì)象即與他人產(chǎn)生共鳴時(shí)會(huì)倍感興奮,因此,這大大增加了游戲的趣味性。
圖3 “心有靈犀對(duì)對(duì)碰”游戲界面
為提高獲取到的數(shù)據(jù)的質(zhì)量,游戲?qū)τ脩舻妮斎脒M(jìn)行了一定的約束。用戶每次輸入的內(nèi)容只能是漢字,若出現(xiàn)英文字母、標(biāo)點(diǎn)符號(hào)等,系統(tǒng)會(huì)給出錯(cuò)誤提示,并給出正確輸入引導(dǎo),如圖4所示。另外,在同一個(gè)任務(wù)中,用戶輸入的詞語(yǔ)前后不能重復(fù)。
圖4 錯(cuò)誤輸入提示
圖5 心有靈犀顯示
只有用戶最自然最直觀的聯(lián)想,才能使得具有聯(lián)想關(guān)系的兩個(gè)詞語(yǔ)間存在語(yǔ)義相關(guān)性的事實(shí)更可信,因此游戲中不能出現(xiàn)任何元素干擾用戶聯(lián)想,而從以下幾方面努力吸引用戶參與,第一,增強(qiáng)界面美觀程度;第二,增強(qiáng)游戲易用性;第三,提高交互設(shè)計(jì),增強(qiáng)用戶體驗(yàn)。
在交互設(shè)計(jì)方面,游戲在用戶做聯(lián)想任務(wù)時(shí),給用戶的每次輸入打出一個(gè)經(jīng)驗(yàn)值,并用動(dòng)畫累加到經(jīng)驗(yàn)值積分區(qū),積分區(qū)在圖3右上角,不同的經(jīng)驗(yàn)值動(dòng)畫呈現(xiàn)的顏色不同,按照分?jǐn)?shù)從低到高的順序顏色逐漸由暗到亮變化。游戲還設(shè)置了積分和經(jīng)驗(yàn)值排行榜激勵(lì)用戶完成更多的任務(wù)。
為了描述詞匯聯(lián)想網(wǎng)絡(luò)的性質(zhì),也為了便于對(duì)其進(jìn)行分析,本節(jié)詳細(xì)說明詞匯聯(lián)想網(wǎng)絡(luò)的構(gòu)建過程。由于詞匯聯(lián)想網(wǎng)絡(luò)也是一個(gè)語(yǔ)義相關(guān)性詞典,所以本文除了構(gòu)建詞匯聯(lián)想網(wǎng)絡(luò),還提供計(jì)算詞語(yǔ)相關(guān)度的接口。
4.1.1 數(shù)據(jù)過濾
詞匯聯(lián)想網(wǎng)絡(luò)來自互聯(lián)網(wǎng)用戶,因此難免出現(xiàn)類似語(yǔ)氣詞、短句和過于個(gè)性化,這幾類詞對(duì)于詞匯聯(lián)想網(wǎng)絡(luò)都是噪聲,構(gòu)建詞匯聯(lián)想網(wǎng)絡(luò)之前需要去噪。
S代表收集到的聯(lián)想串集合,M代表S中的詞語(yǔ)集合?;ヂ?lián)網(wǎng)上收集的數(shù)據(jù)普遍具有冗余性,所以首先統(tǒng)計(jì)詞頻,將頻數(shù)小于閾值γ(本文γ取1)的詞語(yǔ)過濾出來形成集合{M′},然后人工檢查{M′}中的每個(gè)詞是否屬于噪聲詞。為了降低人工檢查的工作量,將{M′}與大規(guī)模詞脈取交集,得到集合{M′},再人工檢查{M″}。因?yàn)榇笠?guī)模詞脈是最新建立的詞典,融入了網(wǎng)絡(luò)新詞,收納的詞匯量更多,因此將{M′}與大規(guī)模詞脈取交集,能極大地縮小{M″}的規(guī)模,從而減少了人的工作量。若找到噪聲詞,則將聯(lián)想串從噪聲處截?cái)?,因?yàn)樵肼曉~后面的詞語(yǔ)是經(jīng)由該噪聲詞聯(lián)想出來的,并不能與噪聲詞前面的詞語(yǔ)構(gòu)成合理的相關(guān)聯(lián)想串。
4.1.2 圖構(gòu)建與權(quán)重賦值
將詞匯聯(lián)想網(wǎng)絡(luò)表達(dá)成圖結(jié)構(gòu),優(yōu)勢(shì)在于詞語(yǔ)之間關(guān)聯(lián)度的強(qiáng)弱可以由頂點(diǎn)之間關(guān)聯(lián)度的強(qiáng)弱表示,即由連通頂點(diǎn)之間的邊的權(quán)重表示。
G=(V,E,W)中的每一條邊都被賦予權(quán)重,權(quán)重定義如下:
其中,若vi和vj在s中緊鄰出現(xiàn),則weight(s;vi,vj)的值為1.0,否則為0。如果兩個(gè)頂點(diǎn)沒有在任何一個(gè)詞語(yǔ)串中緊鄰出現(xiàn),則它們之間的權(quán)重設(shè)為一個(gè)正極小值。
“心有靈犀對(duì)對(duì)碰”于2012年 5月17日上線,截止到今年8月1日,共有216名用戶參與游戲,其中登錄用戶121個(gè),匿名用戶95個(gè)。
游戲初始從大規(guī)模詞脈中選取2 500個(gè)通用詞作為觸發(fā)詞,詞語(yǔ)類型包括人和動(dòng)作兩個(gè)類別。游戲上線兩個(gè)半月共收集長(zhǎng)度大于4的聯(lián)想串3 650個(gè),詞語(yǔ)26 892個(gè),獲得的數(shù)據(jù)中最長(zhǎng)的聯(lián)想串包含詞語(yǔ)15個(gè),平均每個(gè)聯(lián)想串的詞語(yǔ)數(shù)為5.65。按照前文方法進(jìn)行數(shù)據(jù)過濾并建圖,得到 9 150個(gè)頂點(diǎn)。運(yùn)用3.2節(jié)的方法計(jì)算詞語(yǔ)的相關(guān)度。
漢語(yǔ)詞語(yǔ)相關(guān)度度量目前并沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),在條件不具備的情況下,對(duì)隨機(jī)游走計(jì)算相關(guān)度的評(píng)價(jià)方法是,先將詞語(yǔ)對(duì)按照計(jì)算得到的相關(guān)度數(shù)值降序排列,再將排序后的詞語(yǔ)列表和人的直覺比較。
表1 詞語(yǔ)對(duì)按相關(guān)度結(jié)果降序排列
從表1可以發(fā)現(xiàn),絕大多數(shù)相關(guān)度計(jì)算結(jié)果是符合人的直覺的。相關(guān)度比較高的詞對(duì),例如“結(jié)婚”和“小三”,“結(jié)婚”和“男人”,相關(guān)度高說明人們?nèi)菀讖摹敖Y(jié)婚”直接聯(lián)想到“小三”和“男人”,而現(xiàn)今社會(huì),人們對(duì)“小三”的關(guān)注程度確實(shí)比較高。從這個(gè)角度講,本文的相關(guān)度結(jié)果也能反應(yīng)出社會(huì)大眾的普遍觀點(diǎn)。而“結(jié)婚”和“帥氣”,“結(jié)婚”和“貧窮”的相關(guān)度比較低,表明人們很少?gòu)摹敖Y(jié)婚”立刻想到“帥氣”和“貧窮”,而實(shí)際上“帥氣”和“貧窮”是兩個(gè)修飾人的形容詞,而“結(jié)婚”是抽象名詞,因此較低的相關(guān)度結(jié)果也是合理的。
度量詞語(yǔ)關(guān)系有相似度和相關(guān)度兩個(gè)指標(biāo)。與詞語(yǔ)相似度比,相關(guān)度更側(cè)重反應(yīng)詞語(yǔ)的語(yǔ)義關(guān)聯(lián)程度,例如“醫(yī)生”和“疾病”相似性非常低而相關(guān)性卻很高。此外相關(guān)度和相似度又有著密切的聯(lián)系,一般詞語(yǔ)的相似度若比較高,那么相關(guān)度也會(huì)比較大,反之則不然。
為了進(jìn)一步探究詞語(yǔ)相關(guān)度和相似度概念間的聯(lián)系與差別,本文將計(jì)算的相關(guān)度結(jié)果與詞語(yǔ)相似度結(jié)果進(jìn)行比較。因?yàn)槟壳盎谠~典的相似度計(jì)算多是針對(duì)《知網(wǎng)》進(jìn)行的,故選擇劉群,李素建(2002)[12]的結(jié)果進(jìn)行對(duì)比。
表2 相關(guān)度結(jié)果與基于《知網(wǎng)》的相似度結(jié)果比較
從表2可以看出,多數(shù)詞語(yǔ)的相關(guān)度與基于《知網(wǎng)》的相似度結(jié)果相接近,例如“男人”和“女人”,“男人”和“蘋果”等,但也存在差異如“男人”和“高興”,即不同詞性的詞語(yǔ)相似度一般比較低而相關(guān)度比較高,因?yàn)椤案吲d”和“男人”之間存在修飾關(guān)系,并且“高興”多是修飾人的情緒的,因此較高的相關(guān)度是符合實(shí)際的,從這一點(diǎn)可以發(fā)現(xiàn),相關(guān)度能夠更準(zhǔn)確地描述出詞語(yǔ)之間的關(guān)系,如修飾關(guān)系、補(bǔ)充關(guān)系等。
另外,表格中“男人”和“工作”,“男人”和“責(zé)任”的相似度很低,而相關(guān)度數(shù)值較高,這和“醫(yī)生”、“疾病”類似,因?yàn)樵~語(yǔ)之間的某一些屬性不同因此相似度很低,而詞語(yǔ)的語(yǔ)義關(guān)聯(lián)程度實(shí)際上很高。本文的數(shù)據(jù)來自人腦,因此可以獲取到更多這種符合人們的認(rèn)知的詞語(yǔ)對(duì)。
直覺上可以發(fā)現(xiàn),對(duì)于一些人們很容易產(chǎn)生聯(lián)想的詞語(yǔ)對(duì),其在微博ngram中共現(xiàn)時(shí)的距離應(yīng)該越近,因?yàn)槲⒉┮彩侨藗兯枷氲囊环N表達(dá),也就是說詞匯聯(lián)想網(wǎng)絡(luò)獲中的詞語(yǔ)對(duì)在微博ngram文本中的共現(xiàn)情況比較高。為了探究這一問題,我們篩選出詞匯聯(lián)想網(wǎng)絡(luò)中共現(xiàn)次數(shù)最大的120個(gè)詞語(yǔ)對(duì),查找其在微博文本中的共現(xiàn)情況。
微博文本包含新浪微博987 743條,平均字?jǐn)?shù)為25。分別查找每個(gè)詞語(yǔ)對(duì)在每條微博中是否共現(xiàn),若共現(xiàn)則記錄兩個(gè)詞語(yǔ)的最近間隔字?jǐn)?shù),共現(xiàn)距離用所有間隔字?jǐn)?shù)距離的平均值表示。
圖6 詞語(yǔ)對(duì)在微博文本中的共現(xiàn)距離
詞語(yǔ)1詞語(yǔ)2微博ngram中共現(xiàn)距離微博ngram中共現(xiàn)次數(shù)改革開放0102無(wú)窮無(wú)盡018愛因斯坦相對(duì)論03帥哥美女495團(tuán)結(jié)力量524美好未來5138事件發(fā)生8137科學(xué)研究16119研究成果2624
200個(gè)詞語(yǔ)對(duì)中105個(gè)在文本中共現(xiàn),共現(xiàn)的105個(gè)詞語(yǔ)對(duì)中共現(xiàn)距離大于6的占69.5%,共現(xiàn)距離大于 10 的占38.1%。
圖6表示在微博ngram中共現(xiàn)距離在0~3個(gè)字之間的詞語(yǔ)對(duì)數(shù)目是15,共現(xiàn)距離在4~7個(gè)字之間的詞語(yǔ)對(duì)數(shù)目是25等等。
從圖6可以看出大多數(shù)詞對(duì)在微博ngram中的共現(xiàn)距離比較小,尤其像改革開放、無(wú)窮無(wú)盡這種,但凡出現(xiàn)必然兩詞共現(xiàn)。而另外存在小部分詞對(duì),雖然語(yǔ)義關(guān)聯(lián)也很強(qiáng),在微博中共現(xiàn)距離很遠(yuǎn)。這充分說明詞匯聯(lián)想網(wǎng)絡(luò)中的詞語(yǔ)對(duì)在微博ngram文本中的共現(xiàn)情況較高。從另一個(gè)角度講,這部分共現(xiàn)距離遠(yuǎn)的詞對(duì)能夠說明,詞匯聯(lián)想網(wǎng)絡(luò)的獲取手段是不能被替代的,即詞匯聯(lián)想網(wǎng)絡(luò)中的詞語(yǔ)對(duì)不能完全從微博中抽取出來。
詞匯聯(lián)想網(wǎng)絡(luò)包括同義詞、同類詞、語(yǔ)義相關(guān)聯(lián)的詞等,這點(diǎn)與《同義詞詞林》很相似。由于《同義詞詞林》將同類詞組織到同一個(gè)小類中,所以考慮將詞匯聯(lián)想網(wǎng)絡(luò)進(jìn)行聚類,將聚類后得到的詞語(yǔ)集合與詞林中對(duì)應(yīng)的小類比較,從而對(duì)比兩者在詞語(yǔ)的組成和組織結(jié)構(gòu)上的差別。
考慮到聚類開始前并不知道可能的聚類中心點(diǎn)和類的個(gè)數(shù),本文在詞匯聯(lián)想網(wǎng)絡(luò)構(gòu)建的圖結(jié)構(gòu)上選擇Affinity Propagation(Frey and Dueck, 2007[13])聚類,AP算法繼承隨機(jī)游走的思想,因此聚成一類的詞語(yǔ)將是語(yǔ)義相近或相關(guān)的。
隨機(jī)選擇聚類后的一個(gè)詞語(yǔ)集合,找到詞林中對(duì)應(yīng)的小類,表4分別列出兩個(gè)詞語(yǔ)集合中關(guān)于“病人”的相關(guān)詞語(yǔ)。
表4 詞語(yǔ)相關(guān)度結(jié)果與基于《知網(wǎng)》的相似度結(jié)果比較
從表4可以看出,小類中的詞群是由同義詞和反義詞以及同類詞組成的,每個(gè)詞群又是由同義詞組成。另外,同義詞詞林是從語(yǔ)言學(xué)的角度整理詞語(yǔ)的,詞語(yǔ)中包含有常用詞和規(guī)范書面詞。詞匯聯(lián)想網(wǎng)絡(luò)中的類是由一系列跟中心詞有關(guān)的事物組成,不僅僅局限于同詞性的詞,另外,詞語(yǔ)多是常用詞,也包括網(wǎng)絡(luò)新詞,如腦殘、高護(hù)。因此,兩個(gè)詞匯集合不僅結(jié)構(gòu)不同,組成詞匯集合的詞語(yǔ)本身也存在差異。詞匯聯(lián)想網(wǎng)絡(luò)的特點(diǎn)不僅能獲取流行的網(wǎng)絡(luò)新詞,而且在不同時(shí)期,詞匯聯(lián)想網(wǎng)絡(luò)的詞語(yǔ)將會(huì)不斷更新,某些詞語(yǔ)之間的聯(lián)想關(guān)系也會(huì)發(fā)生變化,體現(xiàn)出很強(qiáng)的擴(kuò)展性。
從表4還能發(fā)現(xiàn),雖然目前獲取的數(shù)據(jù)量不是很大,但是對(duì)一個(gè)中心詞的關(guān)聯(lián)事物展現(xiàn)的還是比較全面的,與“病人”相關(guān)的“家屬”、“醫(yī)院”、“醫(yī)生”、“疾病”、“病情”等幾大類事物均有出現(xiàn),構(gòu)成了一個(gè)關(guān)于“病人”更大更全面的網(wǎng)絡(luò),這些詞與同義詞詞林中的對(duì)應(yīng)小類中的詞語(yǔ)有交叉,若將同義詞詞林中的詞語(yǔ)融合到詞匯聯(lián)想網(wǎng)絡(luò)中,加入更多同義詞,那么會(huì)使關(guān)于“病人”的周邊詞匯更加全面。另外,因?yàn)橥x詞詞林中的詞有部分并不是常用詞,所以即使有更多的用戶參與聯(lián)想,也很難收集到這部分詞語(yǔ)。
本文將眾包與詞典構(gòu)建相結(jié)合,提出了一種代價(jià)更小的方式自動(dòng)構(gòu)建語(yǔ)義相關(guān)性詞典,這個(gè)語(yǔ)義相關(guān)性詞典也是一個(gè)詞匯聯(lián)想網(wǎng)絡(luò)。對(duì)收集到的數(shù)據(jù)進(jìn)行一定步驟的處理以后建立圖結(jié)構(gòu),使用隨機(jī)游走算法計(jì)算詞語(yǔ)相關(guān)度。實(shí)驗(yàn)表明,詞匯聯(lián)想網(wǎng)絡(luò)是解讀人腦而來,本文計(jì)算的相關(guān)度結(jié)果非常符合人的直覺。另外,通過實(shí)驗(yàn)將詞匯聯(lián)想網(wǎng)絡(luò)分別與《知網(wǎng)》、微博文本ngram和《同義詞詞林》比較,結(jié)果更是表明詞匯聯(lián)想網(wǎng)絡(luò)不同于已有的其他詞典,能表達(dá)出詞語(yǔ)之間更密切的語(yǔ)義聯(lián)系,并且詞匯聯(lián)想網(wǎng)絡(luò)中的詞匯是動(dòng)態(tài)更新的,擴(kuò)展性強(qiáng)。
綜合全文,詞匯聯(lián)想網(wǎng)絡(luò)的眾包獲取手段為構(gòu)建大規(guī)模語(yǔ)義詞典資源提供了一個(gè)非常廉價(jià)且有效的方式。
下一步的工作,首先,希望將詞匯聯(lián)想網(wǎng)絡(luò)與其他現(xiàn)有詞典相融合,如《同義詞詞林》、《知網(wǎng)》,詞匯聯(lián)想網(wǎng)絡(luò)中更加充分的詞語(yǔ)關(guān)系將提升現(xiàn)有詞典的性能。另外,探究融合后的詞典在語(yǔ)義分析實(shí)際應(yīng)用中的效能。
[1] 張梅山, 鄧知龍, 車萬(wàn)翔,等. 統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[C]//第十一屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議(CCL2011), 中國(guó)洛陽(yáng),2011:28-33.
[2] Amit Chandel, P C Nagesh, S Sarawagi. Efficient batch top-k search for dictionary-basedentity recognition[C]//Proceedings of the 22nd International Conference on Data Engineering, 2006:28.
[3] Simonetta Montemagni, Lucy Vanderwende. Structural patterns vs. string patterns for extracting semantic information from dictionaries[C]//Proceedings of the 14th conference on Computational linguistics, August,1992: 23-28.
[4] 董振東,董強(qiáng). 知網(wǎng). http://www.keenage.com[M]. 2000.
[5] 梅家駒,竺一鳴, 高蘊(yùn)琦,等. 同義詞詞林(第二版)[M]. 上海辭書出版社.1996.
[6] Luis von Ahn, Labeling Images with a Computer Game[C]//ACM Conf. on Human Factors in Computing Systems, CHI 2004: 319-326.
[7] Ann Irvine, Alexandre Klementiev. Using Mechanical Turk to Annotate Lexicons for Less Commonly Used Languages[C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, pages 108-113, Los Angeles, California, June 2010.
[8] Mukund Jha, Jacob Andreas, Kapil Thadani, et al. Corpus creation for new genres: a crowdsourced approach to PP attachment[C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, Los Angeles, California. Bremaud. Markov chains: Gibbs fields, montecarlo simulation, and queues.Springer-Verlag. 1999: 13-20.
[9] Nolan Lawson, Kevin Eustice, Mike Perkowitz, et al. Annotating large email datasets for named entity recognition with mechanical turk[C]//Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, Los Angeles, California, 2010:13-20.
[10] Thad Hughes, Daniel Ramage. Lexical Semantic Relatedness with Random Graph Walk[C]//Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague, June 2007: 581-589.
[11] Bremaud. Markov chains: Gibbs fields, mon-tecarlo simulation, and queues[M]. Springer-Verlag,1999.
[12] 劉群,李素建. 基于“知網(wǎng)”的詞匯語(yǔ)義相似度計(jì)算[C]//計(jì)算語(yǔ)言學(xué)與中文語(yǔ)言處理——第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集. 2002:59-76.
[13] Brendan J Frey, Delbert Dueck. 2007. Clustering by passing messages between data points[J].SCIENCE, 2007, 315: 972-976.