焦 妍,王厚峰,張龍凱
(1. 北京大學 計算語言學教育部重點實驗室,北京 100871;2. 北京大學 計算機科學技術(shù)系,北京 100871)
縮略語是由較長的語詞縮短省略而成的語詞。在語言學里嚴格的說是一種詞語的簡易格式,又稱“縮寫”和“簡稱”。例如,“北京大學”的縮略語即“北大”。
由于縮略語在表達上簡潔精煉,在自然語言中被大量使用;但另一方面,縮略語是未登錄新詞的一大“貢獻者”,給自然語言處理帶來了諸多困難。漢語的分詞、詞性標注、命名實體識別、機器翻譯和信息檢索等領(lǐng)域都受到了縮略語問題的困擾。大規(guī)模的完整形式與縮略語對照庫是解決上述問題的重要資源。從完整形式出發(fā)預測縮略形式是構(gòu)建對照庫的途徑之一。本文稱這一過程為縮略語預測。
從語言學的角度來看,縮略語具有一定的生成規(guī)則。但語言上的規(guī)則大都有例外。不同的語言中縮略語的形成方式也不太一樣。在英文中,通常取出一個單詞的一部分作為縮略語,如“abbreviation”的縮略語為“abbrv.”或“abbrev.”或者取出一個詞組中每個單詞的首字母,如“National Basketball Association”的縮略語即為“NBA”。余富林將英文縮略語大體劃分為四類,包括首字母縮略語(Acronym),縮寫(Initialism),截短語(Clipping)和拼綴詞(Blend)[1]。而漢語則與英文有著較大的差異,英文的縮略語以字母為單位進行刪減,字母本身并無意義,中文縮略語則以字為單位,注重保留的字是否具有代表性的意義。
中文縮略語的生成方式是語言學中的一個重要問題。文獻[2-3]將中文縮略語的生成過程主要分為三種形式,包括壓縮、節(jié)略和統(tǒng)括。其中,壓縮指將原詞語按意義分成幾個部分,然后從各部分中抽取最能代表原義的語素(或詞)保留,省掉其他部分。例如,“電影明星”按語義分為“電影”和“明星”兩個部分,分別取出具有代表性的“影”和“星”,組合為“影星”即為縮略語。另外,有時候也會合并相同的語素,比如將“中醫(yī)、西醫(yī)”縮略為“中西醫(yī)”。節(jié)略指直接截取原詞語的某一部分,將其余部分省略掉。例如,“復旦大學”簡稱“復旦”,“清華大學”簡稱“清華”,“阿拉伯也門共和國”簡稱“也門”等。統(tǒng)括指把并列短語中原詞語所共有的一個詞或語素抽取出來,然后在它之前加上表示原詞語數(shù)目的數(shù)詞或數(shù)量短語,省略其余,例如,“廣西、廣東”由并列的兩個詞構(gòu)成,共同的成分為“廣”,加上數(shù)字詞“兩”,即得到縮略語“兩廣”,再如“西漢、東漢”縮略為“兩漢”。
上述的三種形式體現(xiàn)了漢語大多數(shù)縮略語的生成模式。但是針對每一個具體的完整形式,究竟應用哪種規(guī)則進行縮略,以及省略哪一部分,都是由很多因素共同起作用的,具有不確定性。因此,單從語言學的規(guī)則入手很難直接做出預測。跳出語言規(guī)則的限制,利用已經(jīng)有的標注過的資源和網(wǎng)絡信息讓計算機建立模型是值得嘗試的一種思路。本文基于自然語言處理技術(shù),提出了將機器學習方法與網(wǎng)絡信息相結(jié)合的縮略語預測。首先通過序列標注模型CRF對完整形式進行標注,產(chǎn)生可能的縮略語候選。再進一步利用搜索引擎返回的結(jié)果,對候選進行重排序和驗證,從而得到最終的縮略形式。
目前已有不少針對英文的縮略語研究[4]。主要集中在研究科技文獻中的縮略語,尤其是生物醫(yī)藥方面,如文獻[5-7]等。其中文獻[5] 在縮略語預測方面應用了序列標注的方法,使用最大熵馬爾可夫模型 (MEMM),取得了較好的結(jié)果。文獻[6] 在縮略語識別中,并沒有使用機器學習的方法,而是一種簡單的、直接匹配的方法,也取得了不錯的結(jié)果。文獻[7] 則進行了縮略語挖掘方面的研究。英文縮略語的研究重點在于根據(jù)上下文挖掘縮略語和完整形式的關(guān)系。另外歧義消解也是英文縮略語中的重要問題,因為一個縮略語通常對應多個完整形式。而漢語中這種現(xiàn)象并不常見,因此研究的重點也不盡相同。
漢語縮略語處理近年來也開始受到重視,并取得了一定的成果。代表性的研究包括Chang的工作[8-9],都使用了基于HMM模型的機器學習的方法。在漢語縮略語預測方面,也已有研究報道。孫栩等人使用支持向量回歸(SVR)的方法預測縮略語,即通過回歸的方法,對不同的縮略語候選進行打分和重排,取得分最高的候選為最終候選[10]。孫栩還研究了在序列標注基礎(chǔ)上引入隱變量的方法(Discriminative Probabilistic Latent Variable Model,DPLVM),它是比CRF更具一般性的序列標注方法,取得了較好的效果,使top-1的準確率達到了72.3%[11]。而Yang使用CRF條件隨機場模型生成候選,并利用完整形式和縮略語的字符串長度關(guān)系建立長度模型,再根據(jù)完整形式和候選的長度對其進行重排序[12]。計峰專門針對漢語機構(gòu)名的縮略預測也使用了序列標注方式[13]。
此外,網(wǎng)上隱藏了大量的有用信息,可以充分利用網(wǎng)絡資源輔助預測縮略語。Jiang利用搜索引擎以及添加線索詞的搜索技巧進行了縮略語和完整形式匹配對挖掘方面的研究[14]。Liu 研究了使用Web 資源獲取漢語縮略語完整形式的方法[15]。謝麗星則利用查詢?nèi)罩尽㈠^文字以及相關(guān)的URL作為橋梁,挖掘漢語縮略語和完整形式匹配對[16]。
縮略語的形成受多種因素的影響,很難找到完全統(tǒng)一的規(guī)律,單純使用機器學習方法或者規(guī)則方法都難以覆蓋縮略語生成的各種現(xiàn)象。Jiang, Liu和謝麗星的研究表明,利用已有的資源,特別是網(wǎng)絡資源,對縮略語分析也具有輔助作用。更多的討論見王厚峰的綜述[17]。
本文將完整形式生成縮略語的過程看作一個序列標注問題。
定義3.1(序列標注) 序列標注問題即: 給定長度為n的輸入序列X1X2…Xn∈Xn,形成輸出序列Y1Y2…Yn∈Yn,其中Xi來自一個可數(shù)集合X,Yi來自有窮集合Y,且Yi是對應Xi的標記。
基于標注模型,可以得到縮略語的生成過程。
定義3.2(縮略生成模型) 定義集合X為所有漢字,標注集為Y={S;K},其中S表示“略過”(skip),K表示“保留”(keep)。從一個完整形式字序列X1X2…Xn∈Xn生成相應縮略語的過程如下:
(1) 生成標記序列Y1Y2…Yn∈Yn;
(2) 設(shè)其中所有標記為K 的指標從小到大排列為1≤i1 (3)Xi1,Xi2…Xim∈Xm即為相應縮略語字序列。 通過序列標注的方法對完整形式進行序列標注,再抽取標記為K的字順次連接,便得到縮略形式。例如,“北京理工大學”,若對應的標注序列為“北/K京/S理/K工/K大/S學/S”,則縮略形式即為“北理工”。 條件隨機場(CRF)由Lafferty在2001年提出[18],它是一種判別式概率模型(discriminative probabilistic model)。CRF利用無向圖模型定義了一個給定輸入序列{Xi}時標記序列{Yi}的條件分布。它在給定觀察序列的前提下,計算整個標記序列的概率。CRF模型可以較好地解決序列標注問題,在詞性標注、命名實體識別、語塊分析中都得到了很好的應用。 定義3.3設(shè)有集合G= (V,E)為一個圖,Y=(Yv)v∈V,是以G中節(jié)點v為索引的隨機變量Yv構(gòu)成的集合。在給定標記序列X的條件下,如果每個隨機變量Yv服從馬爾可夫性質(zhì),即p(Yv|X,Yw,w≠v)=p(Yv|X,Yw,w~v)。則(X,Y)就構(gòu)成一個條件隨機場。 最簡單且最常用的是一階鏈式結(jié)構(gòu),即線性鏈結(jié)構(gòu)(Linear-chain CRFs),如圖1所示。 圖1 鏈式CRF結(jié)構(gòu) 令x={x1,x2,…,xm}表示待標記的觀察序列,y={y1,y2,…,ym}表示對應的標注序列,根據(jù)Hammersley和Clifford提出的隨機場定理[19],條件概率分布符合如下特征: (1) 其中θ=(λ1,λ2…;μ1,μ2…)是要從訓練集中估計的參數(shù)。 tj(yi-1,yi,x,i)表示對于觀察序列的標記位置i-1與i之間的轉(zhuǎn)移特征函數(shù)。sk(yi,x,i)表示觀察序列的i位置的狀態(tài)特征函數(shù)。 將兩個特征函數(shù)統(tǒng)一為fj(yi-1,yi,x,i),則 (2) 其中Z(x)為歸一化參數(shù): (3) 在CRF模型中,本文使用的特征模板(簡稱為特征1~6)如下: 特征模板 1.Xi的漢字,拼音及音調(diào); 2.Xi-1的漢字,拼音及音調(diào); 3. (Xi-j;Xi-j+1) 的漢字二元組和拼音二元組,其中j∈{0;1;2}; 4.Xi-j是否為數(shù)字,其中j ∈ {0;1;2;3}; 5. [[Xi-j=Xi-j+1]],其中j ∈ {0;1;2}; 6. [[Xi-j=Xi-j+2]],其中j ∈ {0;1;2;3}。 各個特征的說明如下。 特征1 在完整形式變化成縮略語時,字的省略或保留具有一定的統(tǒng)計規(guī)律。需要選擇字作為特征。另外,一些漢字的拼音和音調(diào)也與其是否縮略有相關(guān)性,某些發(fā)音拗口的字一般不被保留到縮略語中; 特征2 某些字的取舍與相鄰字有一定的相關(guān),需要選擇Xi-1的漢字,拼音和音調(diào); 特征3 由于完整形式常由短詞拼接而成,需要使用二元組的信息; 特征4 包含數(shù)字的縮略語具有區(qū)別性的特征,如連續(xù)的數(shù)字全部保留等,例如,“北京市一零一中學”中“一零一”是必須保留的部分; 特征5~6 在縮略過程中,對相同的部分經(jīng)常合并,如“中醫(yī)、西醫(yī)”縮略為“中西醫(yī)”。這里將其作為一個特征。 本文利用搜索引擎返回的結(jié)果,對序列標注得到的候選進行重排序。 我們的實驗發(fā)現(xiàn),使用上述特征模板經(jīng)過CRF模型標注后,按條件概率從高到低為前20個縮略候選的結(jié)果。分別計算Top-k覆蓋率(即前k個結(jié)果中包含正確答案的測試條目所占總條目百分比)。 表1顯示,前10 個候選的覆蓋率為89.7%。為了檢驗重排對Top-1的影響,同時又盡可能控制計算復雜性,本文只選擇CRF 的前10 個候選進行打分和重排。 表1 由CRF模型得到的top-k覆蓋率 我們使用百度搜索引擎進行搜索,根據(jù)返回的前20個搜索結(jié)果的信息對前10個縮略語候選評估和打分。用到的搜索結(jié)果信息包括標題(title)、摘要(snippet),URL地址以及搜索引擎檢索到的結(jié)果數(shù)量(resultNum)。我們分別采用了以下幾種信息對候選進行打分。 將前10個縮略語候選中的每一個作為搜索詞,在百度搜索引擎中搜索,取前20個返回結(jié)果進行分析和打分。包括如下兩種打分。 1) 基于標題的打分 含有縮略語的文章,其完整形式很可能在標題中出現(xiàn)。針對每個縮略語候選abbr,從20個返回結(jié)果中統(tǒng)計完整形式full在多少個標題中出現(xiàn),以titleFullCount(abbr)表示,同時統(tǒng)計被單獨標紅(強調(diào)顯示)的縮略形式在多少個標題中出現(xiàn),以titleAbbrCount(abbr)表示。利用這兩種信息,可以排除掉屬于完整形式的一部分,但不能構(gòu)成正常詞匯的那些候選。例如,“糧食交易會”的候選“糧食交會”并非正確縮略語,但搜索結(jié)果表明前20條中有14條標題包含“糧食交易會”,而每條標題都不包含“糧食交會”這個詞。計算方法見式(4)和式(5) 2) 基于摘要的打分 與標題的統(tǒng)計方法類似,統(tǒng)計完整形式在多少個摘要中出現(xiàn),以snippetFullCoun(abbr)表示,同時統(tǒng)計被單獨標紅(強調(diào)顯示)的縮略形式在多少個摘要中出現(xiàn),以snippetAbbrCount(abbr)表示。計算方式與式(1)和式(2)相同,將title替換為snippet即可。 由于縮略語和完整形式表達同樣的語義,那么如果一篇文章中包含了縮略語和完整形式的大量信息,則這個網(wǎng)頁很有可能以較高的排名同時出現(xiàn)在二者的搜索結(jié)果中。再對完整形式單獨進行搜索,再與上一步得到的每個候選的搜索結(jié)果進行對比。本文選擇網(wǎng)頁地址URL和網(wǎng)頁標題title分別進行對比。 1) 網(wǎng)頁標題對比 考慮到兩個網(wǎng)頁可能具有相同的內(nèi)容但不同源,因此對完整形式和縮略形式的搜索結(jié)果的標題進行比較。為解決同一標題重復出現(xiàn)的問題,取完整形式的前10個網(wǎng)頁標題作為詞典索引,指向title第一次出現(xiàn)的排名,以及title在前10個中的計數(shù)dicCount。考慮到搜索結(jié)果排名的重要性和檢索計算量,這里只采取完整形式的前10個(而非20個)搜索結(jié)果。將上一步得到的縮略語搜索的前20個標題,一一在標題詞典中查詢并根據(jù)完整形式搜索結(jié)果的排序rank賦予比對結(jié)果一定的權(quán)值1/rank。得到式(6)。 (6) 2) 網(wǎng)頁地址URL對比 考慮到一些相似網(wǎng)頁隸屬于同一網(wǎng)站的不同子集,因此對URL先進行過濾,只考慮網(wǎng)站地址。計算方式與網(wǎng)頁標題類似,將式(6)中的title替換為URL即可。 經(jīng)過上一步的實驗發(fā)現(xiàn),很多縮略語形式得到的結(jié)果是帖子、博文等較為不規(guī)整的資源,不包含全稱,也與搜索全稱的結(jié)果相去甚遠。例如,分別搜索“俄羅斯國際航空公司”和搜候選“俄航”的前20條結(jié)果,二者相似度為0,且“俄航”的摘要結(jié)果中也沒有出現(xiàn)完整形式。 于是,我們使用了帶特殊線索詞的搜索形式。例如,在百度中搜索<完整形式> 簡稱 <縮略候選>,獲取前20條搜索結(jié)果。針對“俄羅斯國際航空公司”和“俄航”,可以搜索“俄羅斯國際航空公司 簡稱“俄航”。在返回結(jié)果的摘要中即可以看到“俄羅斯國際航空公司(Aerolot,簡稱俄航)”這樣的句式??紤]到不同的表達形式,包括中間添加標點符號或英文等,歸納為正則表達式后進行匹配,即可得到帶線索詞的得分策略。 (7) 為了進一步分析網(wǎng)絡資源中縮略語和完整形式間的關(guān)系,我們也考慮了二者的共現(xiàn)現(xiàn)象,并根據(jù)共現(xiàn)進行搜索,其形式為“<完整形式> <縮略形式>”,利用搜索得到的結(jié)果數(shù)量和摘要信息分別進行打分。 1) 結(jié)果數(shù)量 一般情況下,一對完整形式和縮略候選的搜索結(jié)果較多,說明二者的共現(xiàn)現(xiàn)象更為明顯,也意味著二者之間的關(guān)系更為密切。但是也有例外的現(xiàn)象。比如一個錯誤的縮略形式可能是一個單字,或是作為完整形式一部分的一個常用詞,那么搜索<完整形式> <縮略形式>就可能出現(xiàn)非常多的結(jié)果而誤導打分。例如,搜索“影片來源”候選的結(jié)果數(shù)量見表2。 在表2中,完整形式“影片來源”的候選“片”,“影片”,“影”,“源” 都是錯誤的候選,但與完整形式“影片來源”組合后,能進一步驗證結(jié)果。根據(jù)經(jīng)驗,如果對縮略語單獨搜索獲得的結(jié)果數(shù)量abbrResultNum等于108(百度把超過1億條的都算做1億條),且大于單獨搜索完整形式的結(jié)果數(shù)目fullResultNum,則得分為0。通過這種打分,可以排除掉常用詞和單字(如,“影片”,“源”),而有利于得到正確的候選(如,“片源”)。計算公式見(8)。 表2 “影片來源”和候選的單獨搜索結(jié)果數(shù)量和共現(xiàn)搜索的結(jié)果數(shù)量 (8) 2) 摘要信息 我們也按公式(9)統(tǒng)計了在返回結(jié)果的摘要中是否同時出現(xiàn)完整形式和縮略形式。 CoOccurCount(abbr) (9) 由上面的四種方法可以得到9個估值。分別對每個統(tǒng)計值count進行歸一化: (10) 因此每個值的范圍都是[0,1],經(jīng)過參數(shù)為1的平滑處理,與CRF得到的概率值相乘得到最終的分值: Score=CRF×(1+titleAbbr)×(1+titleFull)× (1+urlCompare)×… ×(1+CoOccurCount) (11) 在綜合計算后,便可以根據(jù)值的大小按降序排列,排在最前面的結(jié)果即為最優(yōu)結(jié)果。 本文使用了北京大學計算語言學研究所收集的 8 350對完整形式與縮略語對照表進行測試。其中每個完整形式嚴格對應一個縮略語(雖然存在一個完整形式可能對應多個縮略語的情況,此處只考慮最常用的縮略形式,選擇作為標準答案)。將對照表隨機分為10份,進行10交叉訓練和測試。 對于結(jié)果,依照文獻[4]采用了兩種評測方法——完全匹配正確率以及Top-k覆蓋率。 完全匹配正確率即為系統(tǒng)得出的排名第一的結(jié)果等于標準答案的測試用例占所有測試用例的比例。Top-k覆蓋率為當系統(tǒng)返回的排名前K個結(jié)果包含了正確答案的的測試用例數(shù)占所有測試用例的比例。例如,Top-5覆蓋率即系統(tǒng)返回的前5個縮略結(jié)果中包含了正確結(jié)果的測試用例的比例。因此完全匹配正確率即為Top-1覆蓋率。 本文利用CRF++工具*CRF++工具見: http://crfpp.sourceforge.net/建立序列標注模型,對測試數(shù)據(jù)進行序列標注,得到Top-k覆蓋率的結(jié)果如表1所示,并選擇前10個結(jié)果作為重排的候選。 在CRF條件概率排列前10的候選中,利用網(wǎng)絡搜索的結(jié)果分別再進行統(tǒng)計打分,并結(jié)合CRF的概率值重排結(jié)果。表3給出了評測結(jié)果。結(jié)果顯示單獨使用各方法都不同程度的改進了CRF效果,其中使用方法1(縮略語搜索)以及方法4(共現(xiàn)法)中的摘要,結(jié)果較好;方法3(線索詞)也有一定的提高;而方法1中的標題,方法2(對比法)中的URL以及方法4的搜索數(shù)量對結(jié)果的提升效果不明顯。最終合并所有的影響因子的效果,以及去掉對比法中的標題分數(shù)后效果最好,Top-1的正確匹配率比單純用CRF提高了約5%(p<0.001)*根據(jù)t檢驗對10組結(jié)果的Top-1正確率進行統(tǒng)計顯著性測試的結(jié)果。 表3 使用不同統(tǒng)計方法打分得到的完全匹配正確率和Top-k覆蓋率 究其原因,可能是摘要提供的內(nèi)容更加豐富,并且相對可靠,能帶來更多有用的信息。而標題和URL具有一定的局限性: 標題本身信息量較少,而URL一般對注冊過官方網(wǎng)站的組織機構(gòu)名有效,對其他的內(nèi)容有可能帶來一些噪音。對比不同的搜索策略,線索詞法雖然作用范圍較窄,主要對命名實體具有糾正作用,但它的提升程度不容小覷。另外共現(xiàn)法中的搜索數(shù)量并未獲得預期的提升,可能由于縮略候選與完整形式的重合度帶來了干擾。綜合所有的統(tǒng)計量與原始CRF的概率值會帶來一定的平衡,彌補各個因子的缺陷,比單獨使用任何一個效果都好。另外組合實驗也表明,去掉提升效果最不明顯的title對比法,能夠得到最好的結(jié)果。 本文所提出的方法結(jié)合了序列標注和網(wǎng)絡信息驗證兩個過程。利用CRF模型得到第一步結(jié)果。然后利用搜索引擎返回的結(jié)果信息對第一步的結(jié)果進行“糾正”。本文利用了大規(guī)模的網(wǎng)頁信息,加入了縮略語搜索、對比法、線索詞法、共現(xiàn)法四種方法的統(tǒng)計打分,并進行了融合,從而使重排序得到了較好的結(jié)果,Top1的正確匹配率提高了近5%。與其他人的工作相比,比文獻[10]中用HMM模型的完全匹配準確率46.7%要高,和使用SVR模型的結(jié)果 62.7%相似。在使用網(wǎng)絡信息方面,文獻[12]并未給出完全匹配準確率,其Top-10覆蓋率與本文的Top-5覆蓋率近似。 由于網(wǎng)絡資源較復雜,因此統(tǒng)計模型的提升效果不是特別明顯,進一步的工作可以涉及優(yōu)化搜索結(jié)果的驗證模型,探索新的統(tǒng)計方法,以及設(shè)計更加合理的重排序算法。另一方面,從完整形式向縮略語轉(zhuǎn)換中,有很多因素共同起作用,選擇更加合理的特征也是要深入分析和探討的。 [1] 余富林.英漢縮略語的比較與應用[M].清華大學出版社,北京,2002. [2] 殷志平. 構(gòu)造縮略語的方法和原則[J]. 語言教學與研究. 1999, 2(11). [3] 陳文. 試論縮略語及其與原詞語的關(guān)系[J]. 廣西師院學報: 哲學社會科學版.2001, 22(1):74-77. [4] Manuel Zahariev. ACRONYMS[D]. PHD thesis, Simon Fraser University, 2004. [5] Y. Tsuruoka, S. Ananiadou. A machine learning approach to acronym generation[J]. Linking Biological Literature, Ontologies and Databases: Mining Biological Semantics. 2005:25. [6] A.S. Schwartz, M.A. Hearst. A simple algorithm for identifying abbreviation definitions in biomedical text[C]//Proceedings of Pacific Symposium on Biocomputing. Citeseer, 2003, 8, 451-462. [7] Naoaki Okazaki, Sophia Ananiadou, Jun’ichi Tsujii. A Discriminative Alignment Model for Abbreviation Recognition[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, UK: Coling 2008 Organizing Committee, 2008: 657-664. URL http://www.aclweb.org/ anthology/C08-1083. [8] J.Chang, Y.Lai. A Preliminary Study on Probabilistic Models for Chinese Abbreviations[C]//Proceedings of the Third SIGHAN Workshop on Chinese Language Learning, 2004, Barcelona, Spain. [9] Jing-Shin Chang, Wei-Lun Teng. Mining Atomic Chinese Abbreviation Pairs with a Probabilistic Single Character Word Recovery Model[C]//Proceedings of SIGHAN Workshop on Chinese Language Processing, 2006. [10] Xu Sun, Hou-Feng Wang, Bo Wang. Predicting Chinese Abbreviations from Definitions: An Empirical Learning Approach Using Support Vector Regression[J]. Journalof Computer Science and Technology. Jul. 2008, 23(4):602-611. [11] Xu Sun, Naoaki Okazaki, Jun’ichi Tsujii. Robust Approach to Abbreviating Terms:A Discriminative Latent Variable Model with Global Information[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Singapore:Association for Computational Linguistics, 2009: 905-913. [12] Dong Yang,Yi-Cheng Pan, Sadaoki Furui. Automatic Chinese Abbreviation Generation Using Conditional Random Field[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Boulder, Colorado: Association for Computational Linguistics, 2009: 273-276. [13] 計峰,高沫,邱錫鵬,等. 中文機構(gòu)名簡稱的自動生成研究[M].孫茂松,陳群秀,中國計算語言學研究前沿進展,清華大學出版社,2009. [14] Guang Jiang, Cao Gungen, Sui Yuefei, et al. A General Approach to Extracting Full Names and Abbreviations for Chinese Entities from the Web[C]//Proceedings of Intelligent Information Processing 2010: 271-280. [15] Hui Liu, Yuquan Chen, Lei Liu. Automatic Expansion of Chinese Abbreviations by Web Mining[C]//Proceedings of the International Conference on Artificial Intelligence and Computational Intelligence. LNAI 5855, 2009, Springer. [16] 謝麗星,孫茂松,佟子健,等. 基于用戶查詢?nèi)罩竞湾^文字的漢語縮略語識別[M].孫茂松,陳群秀,中國計算語言學研究前沿進展,清華大學出版社,2009. [17] 王厚峰,漢語縮略語自動處理研究現(xiàn)狀[J]. 中文信息學報,2011,25(5):60-67. [18] J. Lafferty, A. McCallum, F. Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of Machine Learninginternational Workshop Then Conference-. Citeseer, 2001, 282-289.3.2 CRF模型
3.3 特征模板設(shè)計
4 基于網(wǎng)頁搜索返回結(jié)果的重排序
4.1 基于縮略語的搜索
4.2 縮略語與完整形式的對比
4.3 基于線索詞的搜索
4.4 共現(xiàn)現(xiàn)象
4.5 綜合
5 實驗與分析
5.1 第一步: CRF序列標注
5.2 第二步: 利用網(wǎng)頁搜索結(jié)果重排
6 結(jié)論