李學(xué)文 周子璇 熊能 陳瑜
摘要 分析文本中詞語(yǔ)關(guān)聯(lián)規(guī)律對(duì)于解決信息檢索與文本語(yǔ)義研究中許多問(wèn)題具有重要的價(jià)值和意義。首先建立測(cè)試平臺(tái),對(duì)詞對(duì)語(yǔ)義與構(gòu)成詞對(duì)的兩詞在文本中語(yǔ)義的相符性進(jìn)行人工判斷,然后依據(jù)兩詞語(yǔ)在文本中所處位置差異、文本類(lèi)型、分句長(zhǎng)度、詞頻等標(biāo)準(zhǔn),對(duì)數(shù)據(jù)進(jìn)行分組統(tǒng)計(jì)和聚類(lèi)分析得出兩詞在文本中的關(guān)聯(lián)規(guī)律,最后指出不足及下一步研究的方向。
關(guān)鍵詞 中文文本 詞語(yǔ)關(guān)聯(lián) 規(guī)律
分類(lèi)號(hào) G354
DOI 10.16603/j. issn1002 -1027. 2018. 01. 007
l 引言
研究詞語(yǔ)之間的語(yǔ)義關(guān)系對(duì)解決自然語(yǔ)言理解、人工智能以及機(jī)器翻譯等方面的問(wèn)題,都具有重要的價(jià)值和意義。信息檢索與文本語(yǔ)義研究時(shí),為了提高信息過(guò)濾、關(guān)聯(lián)度計(jì)算和語(yǔ)義索引建立等各項(xiàng)技術(shù)處理結(jié)果的完整性、準(zhǔn)確性和可靠性都有必要對(duì)文本中詞語(yǔ)之間的語(yǔ)義關(guān)聯(lián)規(guī)律進(jìn)行分析。信息過(guò)濾中,當(dāng)輸入線索是多個(gè)檢索詞(或可轉(zhuǎn)化為多個(gè)檢索詞)時(shí),字段檢索、關(guān)鍵詞索引檢索和全文檢索技術(shù)會(huì)通過(guò)布爾檢索連接這些詞語(yǔ)并判斷出所需信息,布爾檢索將文本中是否含有檢索詞作為信息命中與否的依據(jù),用戶檢索時(shí)不管這些檢索詞有多么生疏,只要在文本中出現(xiàn)了一次就可以檢索到。例如,對(duì)包含文字“寧夏枸杞、蘭州百合”的信息進(jìn)行“蘭州and枸杞”的檢索時(shí),這段信息將符合檢索條件,導(dǎo)致獲取錯(cuò)誤檢索結(jié)果。排序技術(shù)將信息檢索結(jié)果按照與輸入線索的關(guān)聯(lián)度排列,關(guān)聯(lián)度主要是通過(guò)關(guān)鍵詞在文本中出現(xiàn)的位置和頻率進(jìn)行計(jì)算。許多研究利用詞的關(guān)聯(lián)關(guān)系按照主題凝聚的原則提取出反映主題信息的關(guān)鍵詞詞典,從而發(fā)掘文章主題并進(jìn)行文本內(nèi)容分析。語(yǔ)義檢索提出增加對(duì)文本內(nèi)容語(yǔ)意的理解,借助語(yǔ)義索引定位符合輸入線索的信息,語(yǔ)義索引就是在概念空間的基礎(chǔ)上構(gòu)造具有網(wǎng)狀結(jié)構(gòu)的索引,從文檔中抽取出概念,同一文檔可由具有相關(guān)語(yǔ)義的多個(gè)概念進(jìn)行索引。
信息檢索與文本語(yǔ)義研究領(lǐng)域有許多關(guān)于詞語(yǔ)關(guān)系的研究,楊梁彬探討了潛在語(yǔ)義索引解決文本檢索中存在的同義和多義問(wèn)題;國(guó)內(nèi)外有關(guān)詞語(yǔ)在文本中的語(yǔ)義角色標(biāo)注的研究比較豐富,目前已有成熟的語(yǔ)義角色標(biāo)注軟件;張建娥利用復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的度與聚集特征表示詞語(yǔ)之間的關(guān)聯(lián)度;孫日昕等分析了文本中詞語(yǔ)的內(nèi)聯(lián)關(guān)系和外聯(lián)關(guān)系并指出詞語(yǔ)間互信息表征兩個(gè)詞在同一篇文檔中的相關(guān)性大小;趙冬曉等從詞、句子和篇章粒度概括了現(xiàn)有文本語(yǔ)義挖掘方法、算法。這些研究可分為兩類(lèi):一是基于規(guī)則,主要利用語(yǔ)言的詞法、句法、詞性等知識(shí)以及上下文信息來(lái)識(shí)別詞語(yǔ)關(guān)系;一是基于統(tǒng)計(jì),主要根據(jù)詞語(yǔ)在文本中出現(xiàn)的頻率、位置等信息,應(yīng)用不同的統(tǒng)計(jì)參數(shù)分析詞語(yǔ)關(guān)系,本文采用第二類(lèi)方法。
2 測(cè)試數(shù)據(jù)獲取
兩個(gè)詞語(yǔ)組合時(shí)將兩詞稱(chēng)為詞對(duì),這兩個(gè)詞會(huì)限制出比它們各自更具體的語(yǔ)義,稱(chēng)之為詞對(duì)語(yǔ)義,本文中兩詞語(yǔ)關(guān)聯(lián)性是通過(guò)它們所組成的詞對(duì)語(yǔ)義與它們所在文本中的語(yǔ)義的相符性來(lái)體現(xiàn),語(yǔ)義相符表示這兩個(gè)詞在文本中關(guān)聯(lián),不相符則表示不關(guān)聯(lián)。
2.1 約定條件
為了便于分析,特做以下約定:
(1)文本中兩詞關(guān)系設(shè)定為:同義詞、可搭配、不可搭配。此處不可搭配指兩詞在語(yǔ)義或語(yǔ)法上矛盾,不可能組合在一起或組合在一起不包含任何語(yǔ)義信息。當(dāng)可搭配時(shí),兩個(gè)詞所在文本中的語(yǔ)義與詞對(duì)語(yǔ)義關(guān)系分為相符和不相符兩種。本文約定:兩個(gè)詞所在文本中的語(yǔ)義與詞對(duì)語(yǔ)義都匹配時(shí),表示兩詞在此文本中的語(yǔ)義與詞對(duì)語(yǔ)義相符;當(dāng)其中有一個(gè)(或兩個(gè))所在文本中的語(yǔ)義與詞對(duì)語(yǔ)義不匹配時(shí),表示兩詞在此文本中的語(yǔ)義與詞對(duì)語(yǔ)義不相符,例如:文本“枸杞病蟲(chóng)害可持續(xù)調(diào)控技術(shù)”中包含病蟲(chóng)害調(diào)控的含義,但與枸杞調(diào)控?zé)o關(guān),因此該文本中“病蟲(chóng)害”“調(diào)控”兩詞組成的詞對(duì)與兩詞在文本中的語(yǔ)義相符,而“枸杞”“調(diào)控”兩詞組成的詞對(duì)與兩詞在文本中的語(yǔ)義不相符。本文主要通過(guò)分析語(yǔ)義相符詞對(duì)數(shù)與可搭配詞對(duì)數(shù)的比率特征來(lái)發(fā)現(xiàn)文本中兩詞語(yǔ)關(guān)聯(lián)性規(guī)律。
(2)提取文本中的詞語(yǔ),并以標(biāo)點(diǎn)符號(hào)為分隔號(hào)標(biāo)記它們所在段、句、分句,同時(shí)對(duì)段、句、分句按順序進(jìn)行編號(hào)。其中段分隔號(hào)有:“回車(chē)符”“換行符”,測(cè)試中多段落文本取的是同一標(biāo)題下相連的段落,且限制在三個(gè)自然段以?xún)?nèi);句分隔號(hào)有:?jiǎn)柼?hào)、驚嘆號(hào)、分號(hào)、句號(hào);分句不包含任何標(biāo)點(diǎn)符號(hào),其分隔號(hào)有:逗號(hào)、頓號(hào)、冒號(hào)、破折號(hào)、引號(hào)、書(shū)名號(hào)、括號(hào)等。
2.2 測(cè)試過(guò)程
2.2.1 建立測(cè)試平臺(tái)并錄入信息
首先根據(jù)需求建立測(cè)試平臺(tái),然后選取與“枸杞”相關(guān)的網(wǎng)頁(yè)、期刊、圖書(shū)等目前常見(jiàn)類(lèi)型的信息,錄入標(biāo)題、摘要及正文文摘等文本,最后將文本按照段、句、分句等層次進(jìn)行分割,自動(dòng)加手動(dòng)提取文本中的詞語(yǔ),并標(biāo)記它們所在段、句、分句及分句中的位置。
測(cè)試選取的文本樣本共30個(gè),其中網(wǎng)頁(yè)6個(gè)、論文10個(gè)、圖書(shū)13個(gè)、實(shí)體介紹1個(gè),涉及摘要5個(gè)、標(biāo)題11個(gè)、正文文摘14個(gè),多段落文本2個(gè)。提取詞語(yǔ)共936種,稱(chēng)每個(gè)文本中提取的詞語(yǔ)字?jǐn)?shù)與該文本字?jǐn)?shù)(不含標(biāo)點(diǎn))比率為詞語(yǔ)覆蓋率,本測(cè)試平均詞語(yǔ)覆蓋率為0.80,所有文本樣本中最大詞語(yǔ)覆蓋率為1.02,最小詞語(yǔ)覆蓋率為0.57。
2.2.2 人工判斷詞對(duì)關(guān)系并獲取測(cè)試數(shù)據(jù)
將每個(gè)文本中提取的詞語(yǔ)兩兩組合成詞對(duì),并由人工確認(rèn)詞對(duì)關(guān)系,可選擇關(guān)系有:默認(rèn)、相符、不相符、不可搭配、同義詞,其中相符與不相符均為可搭配關(guān)系。為排除人為因素,本測(cè)試選擇不同專(zhuān)業(yè)不同職稱(chēng)多個(gè)人員對(duì)詞對(duì)關(guān)系進(jìn)行判斷,以此獲取測(cè)試數(shù)據(jù),共組合詞對(duì)26133組,其中可搭配詞對(duì)25872組。
3 測(cè)試數(shù)據(jù)分析
根據(jù)測(cè)試需求對(duì)人工確認(rèn)的詞對(duì)關(guān)系以多種因素作為標(biāo)準(zhǔn)分組統(tǒng)計(jì)出相符數(shù)、不相符數(shù)并進(jìn)行聚類(lèi)分析,定義相符率為:相符數(shù)/(相符數(shù)十不相符數(shù))或相符數(shù)/可搭配數(shù),相符率可反映兩詞語(yǔ)在文本中的關(guān)聯(lián)概率。下面從以下幾個(gè)方面對(duì)兩詞語(yǔ)關(guān)聯(lián)規(guī)律進(jìn)行分析。
3.1 兩詞語(yǔ)在文本中所處位置差異
根據(jù)詞語(yǔ)所在段、句、分句及分句中的位置可確定詞語(yǔ)在文本中的位置,稱(chēng)文本中兩詞語(yǔ)中間所夾文本長(zhǎng)度(分句數(shù))為詞間距(分句間距)。
測(cè)試位于同一分句的兩詞組成的可搭配詞對(duì)樣本數(shù)5283組,相符率43.6%,表示同分句中的兩個(gè)詞語(yǔ)在文本中的語(yǔ)義有43.6%的可能與這兩個(gè)詞語(yǔ)組合成的詞對(duì)語(yǔ)義是相符的,即兩個(gè)詞出現(xiàn)在同分句中有43.6%的可能是關(guān)聯(lián)的,信息檢索或語(yǔ)義分析時(shí)如果同分句中出現(xiàn)需要檢索或分析的兩個(gè)詞,那么這條信息有43.6%的可能滿足或符合要求,43.6%這個(gè)值可用作相關(guān)度排序依據(jù)。所有文本樣本中最大相符率76.3%,最小相符率24%。圖1中實(shí)線是位于同一分句的兩詞組成的詞對(duì)相符率隨兩詞間距變化的折線圖,圖中僅取了詞間距對(duì)應(yīng)可搭配詞對(duì)數(shù)不小于50的數(shù)據(jù)。
當(dāng)兩詞間互相包含(如:abcd、bc)或首末位有交集(如:abc、bcd)時(shí)兩詞間距會(huì)小于0,此種情況的樣本數(shù)252組,相符率26.2%,本文不做過(guò)多分析。由圖1可見(jiàn),當(dāng)兩詞間距大于等于0時(shí),隨著兩詞間距增大相符率減小。通過(guò)SPSS軟件對(duì)該數(shù)據(jù)集進(jìn)行非線行回歸分析,依據(jù)曲線圖型選擇適當(dāng)函數(shù)進(jìn)行擬合,表1是R方值最大的兩個(gè)函數(shù)回歸分析結(jié)果。
圖1中虛線為函數(shù)y=0.554-0.319*LG (x+0.178)的分布曲線。更多函數(shù)回歸分析結(jié)果如下:
冪函數(shù):d+a*(x+c)b,(a>=O;b<=0;c>=0)。參數(shù)值:a=3.724,b=-0. 040,c=0.225,d=-3.160,R方=0.933。
雙曲線函數(shù):1/(a+b/(x+c))+d,(b<=0)。參數(shù)值:a=16.174,b=-373.031,c=25.226,d=0.052,R方=0.915。
指數(shù)函數(shù):a*e(b*(x+c))+d,(a>=O.b<=0)。參數(shù)值:a=0.568,b=-0.333,c=0.206,d=0.208,R方=0.890。
a*e(b/(x+c)+d,(a>=0;b>=0)。參數(shù)值:a=0.566,b=2.478,c=3.221,d=-0.452,R方=0.915。
以上函數(shù)回歸分析R方均接近或大于0.9,說(shuō)明這些擬合模型能解釋因變量90%左右的變異,擬合效果較好。
位于同句不同分句的兩詞組成的可搭配詞對(duì)樣本數(shù)5441組,相符率20.3%。圖2是該情況下詞對(duì)相符率隨兩詞所在分句間距變化的折線圖,該圖只取了分句間距對(duì)應(yīng)可搭配詞對(duì)數(shù)不小于100的數(shù)據(jù)。當(dāng)兩詞位于同句不同分句時(shí)相符率在20%附近徘徊,最大24.9%,最小16.7%。
位于同段不同句的可搭配詞對(duì)樣本13541組,相符率9.5%。
位于同一文本不同段的可搭配詞對(duì)樣本1607組,相符率為1.9%。
3.2 分句長(zhǎng)度
將位于同分句的詞對(duì)相符數(shù)據(jù)以所在分句長(zhǎng)度(不含標(biāo)點(diǎn)符號(hào))進(jìn)行分組,相符率隨分句長(zhǎng)度變化如圖3所示,其中僅取了分句長(zhǎng)度對(duì)應(yīng)可搭配詞對(duì)數(shù)不小于48的數(shù)據(jù)。由圖可知,當(dāng)分句長(zhǎng)度小于等于25時(shí)曲線兩頭低中間高:小于8時(shí)相符率在33%附近;在8-20區(qū)間內(nèi)相符率基本在40%到50%之間;大于20時(shí)平均相符率為35%。當(dāng)分句長(zhǎng)度大于25時(shí)相符率隨分句長(zhǎng)度變化波動(dòng)較大。
3.3 文本類(lèi)型
表2、表3分別從文本出處(標(biāo)題、摘要、正文文摘)和信息類(lèi)型(圖書(shū)、網(wǎng)頁(yè)、論文)兩個(gè)方面對(duì)文本中位于同分句的兩詞語(yǔ)相符率進(jìn)行分類(lèi)統(tǒng)計(jì)。表2顯示來(lái)自標(biāo)題、摘要、正文文摘等不同出處的詞對(duì)相符率差別較大,摘要比正文文摘文本中詞對(duì)相符率高出18.7%;表3顯示三種信息類(lèi)型文本中詞對(duì)相符率相差不大。
3.4 詞頻
詞頻和位置對(duì)于分析詞語(yǔ)和文獻(xiàn)主題的關(guān)系有重要作用,那么詞語(yǔ)在文本中的詞頻對(duì)于它在該文本中與其他詞的關(guān)聯(lián)性是否有影響?對(duì)詞語(yǔ)在每個(gè)文本中的頻次分別統(tǒng)計(jì),以詞頻進(jìn)行分組分析,結(jié)果如圖4所示,其中相符率1是先對(duì)每個(gè)文本以詞頻分組計(jì)算相符率,再計(jì)算全部樣本中各詞頻相符率的平均值;相符率2是統(tǒng)計(jì)每個(gè)文本以詞頻分組后的相符數(shù)與不相符數(shù),再合計(jì)全部樣本中各詞頻的總相符數(shù)與總不相符數(shù),最后計(jì)算得出相符率,這兩組值有所不同,曲線變化卻基本吻合,相符率隨著詞頻的增加在33%與62%之間波動(dòng)。
詞頻隨文本長(zhǎng)度增加而增加,對(duì)于某文本中的詞語(yǔ),稱(chēng)詞頻與文本字?jǐn)?shù)之商為詞現(xiàn)率,即詞現(xiàn)率一詞頻/文本字?jǐn)?shù),對(duì)相符率與詞現(xiàn)率關(guān)系統(tǒng)計(jì)分析,結(jié)果如圖5所示。其中相符率是先對(duì)每個(gè)文本以詞現(xiàn)率分組計(jì)算相符率,再計(jì)算全部樣本中各詞現(xiàn)率對(duì)應(yīng)相符率的平均值,可見(jiàn),相符率與詞現(xiàn)率沒(méi)有明顯函數(shù)關(guān)系。
4 結(jié)論及下一步研究方向
4.1 結(jié)論
詞對(duì)所限制語(yǔ)義與構(gòu)成詞對(duì)的兩詞在文本中語(yǔ)義的相符率反映了兩詞語(yǔ)在文本中的關(guān)聯(lián)概率。由以上測(cè)試數(shù)據(jù)可以得出如下結(jié)論:
(1)同分句中兩個(gè)詞關(guān)聯(lián)概率為43.6%,當(dāng)兩詞語(yǔ)相連(詞間距為0)時(shí)關(guān)聯(lián)概率為79.7%,關(guān)聯(lián)概率隨著詞間距的增加而減小,與對(duì)數(shù)函數(shù)y-0.554 -0.319*LG(x+0.178)及y=0.554 -0.139*LN(x+0.178)的擬合度較高。位于同句不同分句時(shí)兩詞語(yǔ)關(guān)聯(lián)概率降低為20.3%,不到同分句時(shí)的一半,沒(méi)有發(fā)現(xiàn)兩詞語(yǔ)關(guān)聯(lián)概率隨著它們所在分句間距的增加而減小或增大的趨勢(shì),只是在20%附近上下波動(dòng)。位于文本不同段或者不同句時(shí)兩詞語(yǔ)關(guān)聯(lián)概率低于10%,相對(duì)于前面的情況此時(shí)兩詞語(yǔ)關(guān)聯(lián)規(guī)律的研究意義相對(duì)較小。
(2)位于同分句的兩詞語(yǔ)關(guān)聯(lián)概率隨分句長(zhǎng)度變化而波動(dòng)。分句長(zhǎng)度在8-20時(shí),兩詞關(guān)聯(lián)概率穩(wěn)定在45%附近,相對(duì)較高;分句長(zhǎng)度小于8時(shí)關(guān)聯(lián)概率在33%附近,相對(duì)較低且穩(wěn)定;分句長(zhǎng)度大于20時(shí)關(guān)聯(lián)概率有減小趨勢(shì),平均關(guān)聯(lián)概率為35%;分句長(zhǎng)度大于24時(shí)關(guān)聯(lián)概率波動(dòng)較大。
(3)標(biāo)題、摘要和正文等詞語(yǔ)出處影響到詞語(yǔ)關(guān)聯(lián)概率,概括和總結(jié)性文本中詞語(yǔ)關(guān)聯(lián)概率較高。圖書(shū)、論文和網(wǎng)頁(yè)等不同信息類(lèi)型文本中詞語(yǔ)關(guān)聯(lián)概率差別不大,都在平均值43.6%附近,即沒(méi)有發(fā)現(xiàn)信息類(lèi)型對(duì)詞語(yǔ)關(guān)聯(lián)概率的明顯影響。
(4)位于同分句的兩詞關(guān)聯(lián)概率隨詞語(yǔ)在文本中詞頻的增加而波動(dòng),但維持在40%附近,沒(méi)有發(fā)現(xiàn)關(guān)聯(lián)概率隨詞頻的增加而有減小或增大的趨勢(shì)。
4.2 不足及下一步研究方向
(1)測(cè)試樣本不足。因每一條樣本數(shù)據(jù)都來(lái)自人工標(biāo)注,局限于樣本數(shù),本測(cè)試將文本樣本限制到單一領(lǐng)域,選擇了枸杞相關(guān)文本,分析結(jié)果可在該領(lǐng)域內(nèi)應(yīng)用,對(duì)于其他領(lǐng)域或更大領(lǐng)域內(nèi)是否具有同樣的結(jié)論需要進(jìn)一步研究。
(2)只對(duì)中文詞語(yǔ)關(guān)聯(lián)規(guī)律進(jìn)行分析,沒(méi)有對(duì)外文進(jìn)行分析。從語(yǔ)義角度來(lái)看,無(wú)論什么語(yǔ)種詞語(yǔ)關(guān)聯(lián)規(guī)律都會(huì)存在,但在分詞技術(shù)及語(yǔ)法上中外文有所不同,因此外文詞語(yǔ)關(guān)聯(lián)規(guī)律也會(huì)表現(xiàn)出不同結(jié)果,尤其是英文用空格分割詞語(yǔ),分詞更加準(zhǔn)確,詞語(yǔ)關(guān)聯(lián)規(guī)律也將表現(xiàn)得更加明顯。
(3)僅對(duì)標(biāo)點(diǎn)符號(hào)進(jìn)行了分類(lèi),沒(méi)有分析不同標(biāo)點(diǎn)符號(hào)對(duì)詞語(yǔ)關(guān)聯(lián)的影響。本文結(jié)論中位于同句不同分句的兩詞關(guān)聯(lián)概率為20.3%,不到同分句時(shí)的一半,由于位于不同分句的兩詞語(yǔ)詞間距比同分句的大,且兩詞語(yǔ)關(guān)聯(lián)概率隨詞間距增加而減少,同時(shí)不同分句的兩詞由標(biāo)點(diǎn)符號(hào)分割,各標(biāo)點(diǎn)符號(hào)的作用和意義不同,因此針對(duì)標(biāo)點(diǎn)符號(hào)對(duì)所分割的詞語(yǔ)關(guān)聯(lián)性是否有影響、影響大小等問(wèn)題的分析具有實(shí)際意義,需進(jìn)一步研究。
(4)未考慮詞法、句法、詞性、專(zhuān)指度、與文本主題相關(guān)性等特性對(duì)詞語(yǔ)關(guān)聯(lián)概率的影響。表4是統(tǒng)計(jì)位于同分句的詞對(duì)中以詞進(jìn)行分組且詞對(duì)樣本數(shù)不低于30的數(shù)據(jù)。其中“信息數(shù)”指包含該詞語(yǔ)的文本數(shù),為了避免單一文本對(duì)統(tǒng)計(jì)結(jié)果的影響,表4只取了信息數(shù)大于1的樣本,從中可以看出不同詞語(yǔ)相符率相差很大.這其中是否有規(guī)律可循尚需研究。
(5)沒(méi)有對(duì)兩個(gè)詞以上的詞對(duì)關(guān)聯(lián)規(guī)律進(jìn)行分析。檢索線索往往不只包含兩個(gè)詞語(yǔ),多個(gè)詞語(yǔ)對(duì)語(yǔ)義范圍的限制更加具體,分析多詞語(yǔ)在文本中的關(guān)聯(lián)規(guī)律不但可以滿足用戶檢索需求而且可以提高信息檢索、語(yǔ)義分析等操作結(jié)果的準(zhǔn)確性。
5 結(jié)語(yǔ)
本文結(jié)論不足以支撐文本中兩詞語(yǔ)是否關(guān)聯(lián)的確定,測(cè)試首先是通過(guò)人工確認(rèn)兩詞語(yǔ)是否關(guān)聯(lián),然后以不同標(biāo)準(zhǔn)通過(guò)分組的形式對(duì)關(guān)聯(lián)與不關(guān)聯(lián)的數(shù)據(jù)進(jìn)行聚類(lèi)分析以發(fā)現(xiàn)其中存在的規(guī)律性,當(dāng)將這些規(guī)律應(yīng)用于詞語(yǔ)間關(guān)聯(lián)關(guān)系的計(jì)算時(shí),計(jì)算結(jié)果與人工確認(rèn)的關(guān)系能達(dá)到一定程度匹配(按照二八定律,須達(dá)到80%的匹配率)時(shí),文本中詞語(yǔ)關(guān)聯(lián)規(guī)律才能支撐詞語(yǔ)關(guān)聯(lián)關(guān)系的確定。
雖然已發(fā)現(xiàn)的詞語(yǔ)關(guān)聯(lián)規(guī)律不足以支撐文本中兩詞語(yǔ)關(guān)聯(lián)關(guān)系的確定,但其中計(jì)算文本中兩詞語(yǔ)關(guān)聯(lián)概率的結(jié)論可以用于許多領(lǐng)域。搜索系統(tǒng)利用倒排索引進(jìn)行預(yù)搜索實(shí)現(xiàn)數(shù)據(jù)過(guò)濾,獲取盡量小的滿足用戶需求的結(jié)果集,其中索引技術(shù)是當(dāng)前主流檢索系統(tǒng)的主要技術(shù)之一,記錄有關(guān)鍵詞在文本中出現(xiàn)的次數(shù)和位置,在現(xiàn)有索引技術(shù)的基礎(chǔ)上利用文本中兩詞語(yǔ)關(guān)聯(lián)規(guī)律可提升搜索系統(tǒng)的質(zhì)量。結(jié)論應(yīng)用于信息過(guò)濾可排除更多不符合需求的信息,提高數(shù)據(jù)過(guò)濾的準(zhǔn)確性,為關(guān)鍵詞檢索、排序技術(shù)提供一種科學(xué)的信息相關(guān)度排序依據(jù),為文本內(nèi)容、語(yǔ)義分析以及建立語(yǔ)義索引梳理出新的可行方法。