吳建榮 陳洪梅 姚建民 熊思勇
(蘇州市科學(xué)技術(shù)情報(bào)研究所,江蘇蘇州 215021)
自然語言檢索擴(kuò)展詞庫(kù)的構(gòu)建方法
吳建榮 陳洪梅 姚建民 熊思勇
(蘇州市科學(xué)技術(shù)情報(bào)研究所,江蘇蘇州 215021)
檢索詞自動(dòng)擴(kuò)展詞庫(kù)構(gòu)建方法的基本思路是:根據(jù)語料是否規(guī)范化處理進(jìn)行詞庫(kù)分類建設(shè),優(yōu)化了系統(tǒng)的檢索性能;結(jié)合學(xué)科類別,對(duì)詞庫(kù)語料進(jìn)行領(lǐng)域劃分,引導(dǎo)科技人員對(duì)技術(shù)領(lǐng)域的準(zhǔn)確把握;建設(shè)以本體庫(kù)為基礎(chǔ),將與規(guī)范詞具有關(guān)聯(lián)性、相似性的語料通過關(guān)系表與關(guān)聯(lián)庫(kù)關(guān)聯(lián),把科技文獻(xiàn)中的關(guān)鍵詞組成一個(gè)有序的關(guān)系網(wǎng),解決了傳統(tǒng)檢索系統(tǒng)中檢索詞無關(guān)聯(lián)的不足;通過對(duì)檢索詞出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)分析,進(jìn)而更新詞庫(kù),保證本體庫(kù)、關(guān)聯(lián)庫(kù)語料的時(shí)效性,突破了人工對(duì)詞庫(kù)更新管理的受限性。
自然語言;檢索詞;檢索擴(kuò)展;本體庫(kù);關(guān)聯(lián)庫(kù)
自然語言是一種自然地隨文化演化的語言,是人類交流和思維的主要工具。在信息檢索過程中,一般科技人員提交的檢索詞都具有自然語言特征。相比于自然語言,人工語言是經(jīng)規(guī)范化處理的受控語言,它把表達(dá)主題概念的自然語言轉(zhuǎn)換為受控語詞進(jìn)行檢索。為了提高檢索質(zhì)量,一般將自然語言轉(zhuǎn)換成人工語言實(shí)現(xiàn)準(zhǔn)確匹配。本文以蘇州市科技服務(wù)中心整合同方知網(wǎng)、萬方數(shù)據(jù)、維普資訊等科技文獻(xiàn)資源為切入點(diǎn),研究基于自然語言檢索擴(kuò)展的詞庫(kù)構(gòu)建方法。
建設(shè)具有邏輯關(guān)系擴(kuò)展的檢索詞庫(kù),是提高檢索效率的有效措施。隨著資訊、論文、專利等網(wǎng)絡(luò)資源數(shù)量級(jí)增長(zhǎng),科研人員為了能準(zhǔn)確獲取所需的資料,希望被檢索的網(wǎng)絡(luò)資源與自身的研究方向相一致。因此,這里根據(jù)科研人員對(duì)檢索資源的專業(yè)領(lǐng)域揭示的要求,并結(jié)合同方知網(wǎng)、萬方數(shù)據(jù)、維普資訊等文獻(xiàn)資源的主題揭示情況,按學(xué)科領(lǐng)域進(jìn)行關(guān)聯(lián)擴(kuò)展構(gòu)建檢索詞的關(guān)聯(lián)庫(kù)。涉及的學(xué)科類別共34個(gè)[1],如表1所示。同時(shí),以學(xué)科類別為基礎(chǔ),利用全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)公布的名詞和全國(guó)科學(xué)技術(shù)名詞審定委會(huì)員的漢英審定詞典規(guī)范化的詞語作為主題詞建立本體庫(kù)[2]。
在檢索過程中,根據(jù)用戶提交的檢索詞,以本體庫(kù)為基礎(chǔ),通過關(guān)聯(lián)詞表進(jìn)行映射,自動(dòng)抽取出與該詞相關(guān)或相似的詞語,實(shí)現(xiàn)檢索詞擴(kuò)展。同時(shí),系統(tǒng)對(duì)檢索詞出現(xiàn)頻率進(jìn)行計(jì)算,首次出現(xiàn)或在一定閾值以內(nèi)時(shí)存儲(chǔ)至關(guān)聯(lián)庫(kù),超過一定閾值時(shí)以維基詞典的關(guān)系信息為基礎(chǔ)存儲(chǔ)至本體庫(kù);對(duì)于本體庫(kù)中使用頻率低于一定閾值的主題詞移至關(guān)聯(lián)庫(kù),實(shí)現(xiàn)詞庫(kù)的自動(dòng)更新[3]。如圖1所示。
本文選擇由全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)和全國(guó)科學(xué)技術(shù)名詞審定委會(huì)員漢英審定詞典系列公布的詞語,以學(xué)科類別劃分為基礎(chǔ),通過對(duì)同義詞、近義詞、上下位類等關(guān)系分析處理形成本體庫(kù)。同時(shí),以檢索詞的使用頻率為依據(jù),以維基詞典的關(guān)系信息為基礎(chǔ),自動(dòng)對(duì)本體庫(kù)進(jìn)行更新。
3.1 名詞
全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)公布的名詞具有權(quán)威性和約束力,包括專業(yè)術(shù)語、術(shù)語類別以及術(shù)語之間的關(guān)系(包括上位詞、下位詞、同義詞等),其中詞條數(shù)55959條,關(guān)系類別數(shù)15個(gè),關(guān)系實(shí)例16365個(gè)(即包含相關(guān)詞的術(shù)語個(gè)數(shù)),實(shí)例關(guān)系對(duì):57172個(gè),均存儲(chǔ)至本體庫(kù)。例如:“感應(yīng)分流器”包含如下關(guān)系:
<類屬>分流器
<子類>多線圈感應(yīng)分流器
<子類>雙線圈感應(yīng)分流器
<子類>單線圈感應(yīng)分流器
上述例子中,“關(guān)系實(shí)例數(shù)”為1,“實(shí)例關(guān)系對(duì)”個(gè)數(shù)為4,每個(gè)“關(guān)系實(shí)例數(shù)”包含多個(gè)“實(shí)例關(guān)系對(duì)”數(shù)。
表1 學(xué)科類別信息
圖1 詞庫(kù)結(jié)構(gòu)示意圖
3.2 漢英審定詞典
全國(guó)科學(xué)技術(shù)名詞審定委會(huì)員漢英審定詞典包括專業(yè)術(shù)語以及該術(shù)語的英文翻譯、上位詞、領(lǐng)域和術(shù)語定義。圖2為術(shù)語“作用力”在詞典中的組織形式,其中“applied force”是該術(shù)語的英文翻譯,“機(jī)構(gòu)動(dòng)力學(xué)”為該術(shù)語的領(lǐng)域,“機(jī)械工程”為該術(shù)語的上位詞,“能夠產(chǎn)生運(yùn)動(dòng)或運(yùn)動(dòng)趨勢(shì)的力”是該術(shù)語定義。
圖2 漢英審定詞典實(shí)例
在對(duì)全國(guó)科學(xué)技術(shù)名詞審定委會(huì)員專業(yè)術(shù)語漢英詞典進(jìn)行抽取時(shí),將其包含的專業(yè)術(shù)語以及該術(shù)語的英文翻譯、上位詞、領(lǐng)域和術(shù)語定義均存儲(chǔ)至本體庫(kù)。
3.3 維基詞典
當(dāng)檢索詞的檢索頻率超過一定閾值,本體庫(kù)未含該檢索詞信息,且《全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)》公布名詞和《全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)》的漢英審定詞典都沒有該檢索詞的關(guān)系信息時(shí),維基詞典是一個(gè)很好的信息來源。維基詞典是一個(gè)由志愿者編纂的多語的詞典,對(duì)一個(gè)詞匯的發(fā)音、語源、釋義、詞匯翻譯給出解釋。圖3為詞條“information entropy(信息熵)”在維基詞典中的解釋頁(yè)面??梢钥闯觯癝hannon entropy”為“information entropy”的同義詞。維基百科是包含多種語言的詞典,其中,英語類詞條數(shù)最多。目前,通過維基詞典共挖掘到包含同義詞等相關(guān)詞語的詞條數(shù)約32000條。對(duì)于新加入本體庫(kù)的檢索詞,系統(tǒng)將自動(dòng)從維基詞典中提取關(guān)系信息,并經(jīng)人工篩選確認(rèn)處理后存儲(chǔ)至本體庫(kù)。
關(guān)聯(lián)庫(kù)是圍繞本體庫(kù)建立的基于自然語言的詞庫(kù)。關(guān)聯(lián)庫(kù)中的語料與本體庫(kù)的語料具有關(guān)聯(lián)關(guān)系,是對(duì)主題詞的擴(kuò)展,以便科研人員快速地定位到相關(guān)的研究領(lǐng)域[4]??蒲腥藛T針對(duì)某個(gè)研究領(lǐng)域輸入的兩個(gè)檢索詞,一般具有異詞有關(guān)、異詞近義、異詞同義3種關(guān)系[5-7]。
圖3 《維基詞典》實(shí)例
4.1 異詞相關(guān)
異詞相關(guān)是指兩個(gè)不同主題檢索詞之間具有領(lǐng)域相關(guān)性,如,“主題詞”與“關(guān)鍵詞”?;バ畔⒆鳛橐环N關(guān)聯(lián)性的度量標(biāo)準(zhǔn),旨在度量x和y之間的相關(guān)程度,其度量公式如下所示[8]:
首先根據(jù)同方知網(wǎng)、萬方數(shù)據(jù)、維普資訊等文獻(xiàn)資源的層次結(jié)構(gòu),獲取這些資源在各領(lǐng)域內(nèi)論文的題錄信息。將各個(gè)領(lǐng)域集合中的關(guān)鍵詞作為該領(lǐng)域內(nèi)的關(guān)聯(lián)詞集合,再對(duì)各領(lǐng)域內(nèi)的關(guān)聯(lián)詞集合分別在標(biāo)題、關(guān)鍵詞和摘要中計(jì)算兩個(gè)詞的互信息,其計(jì)算公式如下:
其中,f( x, y)為關(guān)聯(lián)詞x和關(guān)聯(lián)詞y均在標(biāo)題、摘要或關(guān)鍵詞中共現(xiàn)的頻度(文章數(shù)),f( x)為關(guān)聯(lián)詞x在標(biāo)題、摘要或關(guān)鍵詞中出現(xiàn)的頻度(文章數(shù)),f( y)為關(guān)聯(lián)詞y在標(biāo)題、摘要或關(guān)鍵詞中出現(xiàn)的頻度(文章數(shù)),該公式在式(1)的基礎(chǔ)上再乘以f( x, y)是為了防止出現(xiàn)高頻詞的互信息較低的現(xiàn)象。
將關(guān)聯(lián)詞x、y的互信息值,通過標(biāo)題、關(guān)鍵詞、摘要得到的值分別記為:I標(biāo)題( x, y)、I摘要( x, y)和I關(guān)鍵詞( x, y),這3個(gè)值為關(guān)鍵詞相關(guān)度度量值。對(duì)得到的互信息值采用線性加和的方式將其融合,關(guān)聯(lián)詞x以及關(guān)聯(lián)詞y的相關(guān)度為γ(x, y),計(jì)算公式如下:
其中,a、b、c為加權(quán)系數(shù),由人工調(diào)整。
根據(jù)γ(x, y)相關(guān)度排序,將靠前排列的詞語作為異詞相關(guān)進(jìn)行處理保存。
4.2 異詞同義
異詞同義是指具有不同描述字符的兩個(gè)主題檢索詞表示同一含義,主要體現(xiàn)在同義詞、縮寫等形式。如“機(jī)器翻譯”“自動(dòng)翻譯”與“MT”。針對(duì)同義相關(guān)的檢索詞,有以下兩種方法進(jìn)行挖掘。
(1)模板匹配法。維基百科對(duì)字詞具有完整的解釋,包括字詞的文化背景、文化意義等,這也是維基百科與維基詞典的重要區(qū)別。該階段利用維基百科中的詞語解釋,挖掘具有同一含義的不同詞語。例如,對(duì)于主題檢索詞“梯度下降法”,維基百科解釋為:“梯度下降法是一個(gè)最優(yōu)化算法,通常也稱為最速下降法?!备鶕?jù)該解釋,主題檢索詞“梯度下降法”與“最速下降法”具有同義關(guān)系。
(2)詞典翻譯法。一般來說,一個(gè)英文檢索詞可以被翻譯成多個(gè)中文詞語,如通過有道詞典將“information”翻譯為中文,可以表示為信息、資料、知識(shí)、情報(bào)、通知。這里利用有道詞典的翻譯結(jié)果,將具有相同英文翻譯的中文檢索詞判斷為同義。
4.3 異詞近義
異詞近義是指兩個(gè)不同主題檢索詞的含義相近,具有上下位關(guān)系、包含關(guān)系等。如,“概率論”與“概率統(tǒng)計(jì)”。針對(duì)具有上下位關(guān)系的檢索詞,可通過兩種方法實(shí)現(xiàn)。
(1)模板匹配法。由于利用自由文本上下位詞抽取的準(zhǔn)確率低,這里采用模板匹配的方式挖掘上下位關(guān)系詞。該部分使用的模板通過人工總結(jié),抽取出具有上下位關(guān)系的模板定義。根據(jù)建立的模板,抽取出現(xiàn)在同一個(gè)子句中上下位關(guān)系主題詞。例如:
<名詞“屬于”名詞“的范疇”>
模板可在論文摘要或其他大規(guī)模語料上進(jìn)行抽取,也可利用關(guān)鍵詞兩兩組合。例如,直接搜索句子“事件抽取屬于信息抽取的范疇”,若搜索引擎的返回結(jié)果中,能夠有完全匹配該句話的結(jié)果,或者包含該句話的數(shù)量超過某一閾值,則認(rèn)為“信息抽取”和“事件抽取”具有上下位關(guān)系,并且“信息抽取”是“事件抽取”的上位詞,“事件抽取”是“信息抽取”的下位詞。該部分的抽取旨在補(bǔ)充上一步得到的關(guān)鍵詞庫(kù)中上下位關(guān)系信息。
(2)維基百科層次法。維基百科層次法,是指利用維基百科中現(xiàn)有的上下位層次結(jié)構(gòu),通過同義詞擴(kuò)充,從而得到更多的包含上下位關(guān)系的主題檢索詞。根據(jù)圖4所示,已知主題檢索詞A、B為維基百科中的詞條,并且兩者具有上下位關(guān)系,利用同義詞構(gòu)建方法,得到詞條A’為詞條A的同義詞,詞條B’為詞條B的同義詞,那么可以將詞條A’以及詞條B’加入該上下位關(guān)系結(jié)構(gòu)中,從而擴(kuò)充了上下位關(guān)系的主題檢索詞。
圖4 基于維基百科的上下位關(guān)系獲取
本文提出的基于檢索詞自動(dòng)擴(kuò)展的詞庫(kù)構(gòu)建方法,其基本思路是:根據(jù)語料是否規(guī)范化處理進(jìn)行詞庫(kù)分類建設(shè),優(yōu)化了系統(tǒng)的檢索性能;結(jié)合學(xué)科類別,對(duì)詞庫(kù)語料進(jìn)行主題劃分,引導(dǎo)科技人員對(duì)技術(shù)領(lǐng)域的準(zhǔn)備把握;建設(shè)以本體庫(kù)為基礎(chǔ),將與規(guī)范詞具有關(guān)聯(lián)性、相似性的語料通過關(guān)系表與關(guān)聯(lián)庫(kù)關(guān)聯(lián),把科技文獻(xiàn)中的關(guān)鍵詞組成一個(gè)有序的關(guān)系網(wǎng),解決了傳統(tǒng)檢索系統(tǒng)中檢索詞無關(guān)聯(lián)的不足;通過對(duì)檢索詞出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)分析,進(jìn)而更新詞庫(kù),保證本體庫(kù)、關(guān)聯(lián)庫(kù)語料的時(shí)效性,突破了人工對(duì)詞庫(kù)更新管理的受限性。
[1] 中國(guó)圖書館分類法.中圖分類號(hào)查詢[EB/OL].[2013-08-19].http://www.zt f h.com.
[2] 黃媛.基于論文主題詞和關(guān)鍵詞關(guān)系網(wǎng)的檢索詞擴(kuò)展研究[J].科技廣場(chǎng),2011(1):24-27.
[3] 王小華,徐寧,諶志群.基于共詞分析的文本主題詞聚類與主題發(fā)現(xiàn)[J].情報(bào)科學(xué),2011,29(11):1621-1624.
[4] 田萱,杜小勇,李海華.信息檢索中一種基于詞語——主題詞相關(guān)度的語言模型[J].中文信息學(xué)報(bào),2007, 21(6):43-50.
[5] 劉華梅.基于情報(bào)檢索語言互操作技術(shù)的集成詞庫(kù)構(gòu)建研究—以教育詞庫(kù)為例[D].南京:南京農(nóng)業(yè)大學(xué), 2006,6.
[6] 王石,曹存根,裴亞軍等.一種基于搭配的中文詞匯語義相似度計(jì)算方法[J].中文信息學(xué)報(bào),2013,27(1):7-14.
[7] 梁娜,耿國(guó)華,周明全,等.自然語言處理中的語義關(guān)系與句法模式互發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2008, 25(8):2295-2298,2308.
[8] 王夙娟.特定主題詞庫(kù)建立的相關(guān)技術(shù)的研究[J].科技信息,2012(14):115-116.
國(guó)家科技報(bào)告服務(wù)系統(tǒng)征求意見版正式上線運(yùn)行
本刊訊 2013年11月1日,國(guó)家科技報(bào)告服務(wù)系統(tǒng)征求意見版正式面向社會(huì)上線運(yùn)行。 “國(guó)家科技報(bào)告服務(wù)系統(tǒng)”以推進(jìn)科技報(bào)告資源的開放共享為目的,目前提供在線瀏覽的1000份科技報(bào)告,是依據(jù)“十一五”期間已驗(yàn)收的部分國(guó)家科技計(jì)劃項(xiàng)目(課題)驗(yàn)收?qǐng)?bào)告加工而成??萍加?jì)劃投入所產(chǎn)生的科技報(bào)告將通過“國(guó)家科技報(bào)告服務(wù)系統(tǒng)”面向社會(huì)開放。公眾只要登錄網(wǎng)址www.nstrs.cn,就可以了解國(guó)家科技計(jì)劃項(xiàng)目的相關(guān)信息。“國(guó)家科技報(bào)告服務(wù)系統(tǒng)”征求意見版的開通,標(biāo)志著我國(guó)科技報(bào)告工作全面展開。
科技報(bào)告是指科技人員為了描述其從事的科研、設(shè)計(jì)、工程、試驗(yàn)和鑒定等活動(dòng)的過程、進(jìn)展和結(jié)果,按照規(guī)定的標(biāo)準(zhǔn)格式編寫而成的特種文獻(xiàn)。科技報(bào)告詳實(shí)記載了項(xiàng)目研究工作的全過程,包括成功的經(jīng)驗(yàn)和失敗的教訓(xùn),其實(shí)質(zhì)是以積累、傳播和交流為目的。科研工作者依據(jù)科技報(bào)告中的描述能重復(fù)實(shí)驗(yàn)過程、了解科研結(jié)果??萍紙?bào)告的數(shù)量、質(zhì)量不僅反映了科研項(xiàng)目完成的質(zhì)量和創(chuàng)新程度,也能驗(yàn)證項(xiàng)目承擔(dān)人的科研能力和水平,是科研工作承上啟下的重要保障??萍紙?bào)告持續(xù)積累所形成的國(guó)家基礎(chǔ)性戰(zhàn)略資源,既為科技管理部門提供真實(shí)的信息支撐,又為科研人員提供有效的信息保障,還能保證社會(huì)公眾對(duì)政府科研投入產(chǎn)出的知情權(quán)。從而,避免重復(fù)投入,實(shí)現(xiàn)資源共享。
科技報(bào)告試點(diǎn)工作包括4部分內(nèi)容。一是,要對(duì)新老項(xiàng)目實(shí)行分類管理。對(duì)于已驗(yàn)收的項(xiàng)目,進(jìn)行科技報(bào)告的回溯工作,在提交原有報(bào)告基礎(chǔ)上,進(jìn)行科技報(bào)告規(guī)范改寫。對(duì)于在研的項(xiàng)目,各計(jì)劃歸口管理部門修改了年度報(bào)告、中期報(bào)告、驗(yàn)收?qǐng)?bào)告的模板,增加科技報(bào)告內(nèi)容部分。對(duì)于新立項(xiàng)目,納入國(guó)家科技計(jì)劃項(xiàng)目合同管理,計(jì)劃任務(wù)書中將明確規(guī)定承擔(dān)單位呈交科技報(bào)告的數(shù)量、類型及時(shí)限,包括過程中產(chǎn)生的專題技術(shù)報(bào)告;將科技報(bào)告任務(wù)完成情況作為中期檢查和結(jié)題驗(yàn)收的必備條件,作為后續(xù)支持的重要依據(jù)。二是,在科技部國(guó)家科技計(jì)劃項(xiàng)目申報(bào)中心設(shè)立科技報(bào)告呈交專欄,各科技計(jì)劃通過相應(yīng)渠道統(tǒng)一呈交科技報(bào)告。同時(shí)建設(shè)“國(guó)家科技報(bào)告服務(wù)系統(tǒng)”實(shí)現(xiàn)公開科技報(bào)告的開放共享。三是,積極推進(jìn)法人單位科技報(bào)告體系建設(shè)。督促項(xiàng)目(課題)承擔(dān)單位充分履行法人責(zé)任;將科技報(bào)告工作納入本單位科研管理程序,設(shè)專門崗位負(fù)責(zé)科技報(bào)告工作,將科技報(bào)告納入機(jī)構(gòu)知識(shí)庫(kù)統(tǒng)一管理;督促項(xiàng)目(課題)負(fù)責(zé)人組織科研人員撰寫科技報(bào)告,負(fù)責(zé)本單位所承擔(dān)項(xiàng)目(課題)的科技報(bào)告審查和呈交工作。四是,由于科研人員不熟悉科技報(bào)告格式規(guī)范,因此需要對(duì)承擔(dān)國(guó)家科技計(jì)劃課題的科研人員及單位管理人員進(jìn)行全面培訓(xùn)和宣傳工作。以上試點(diǎn)工作正在穩(wěn)步推進(jìn)?!皣?guó)家科技報(bào)告服務(wù)系統(tǒng)”預(yù)計(jì)2013年12月底形成總計(jì)3000份科技報(bào)告的服務(wù)規(guī)模,2014年3月初完成1萬份科技報(bào)告上線,面向全社會(huì)開放共享。
Lexicon Construction M ethod for Query Expansion by Natural Language
Wu Jianrong, Chen Hongmei, Yao Jianmin, Xiong Siyong
(Suzhou Institute of Scientif c, Technical Information, Suzhou 215002)
For high retrieval precision and recall rate, a lexicon construction solution is introduced for query expansion in docum ent retrieval. According to specific technology domain, an ontology based is built on basis of authoritative lexicons by the China national comm ittee for terms and W iktionary. Synonym s, hypernyms and hyponyms are acquired on basis of template matching and hierarchy structure reasoning from natural language contexts and W ikipedia. For better query expansion performance, a relationship network with statistical link strength is founded on basis of mutual information of related query terms. The above query term network enables a powerful know ledge management tool for document retrieval together w ith user logs and intermediate retrieval results.
natural language, query terms, query expansion, ontology, relation base
G354
:ADOI:10.3772/j.issn.1674-1544.2013.06.013
吳建榮(1967- ),男,蘇州市科學(xué)技術(shù)情報(bào)研究所副所長(zhǎng),副研究員,研究方向:科技管理、科技資源建設(shè)與共享、成果轉(zhuǎn)移轉(zhuǎn)化。
蘇州市2011年基礎(chǔ)設(shè)施計(jì)劃項(xiàng)目“蘇州市科技文獻(xiàn)智能分析公共服務(wù)平臺(tái)”(SZP201107)。
2013年9月28日。