国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“碎片化”在網(wǎng)站圖書檢索中的應(yīng)用

2014-10-30 11:55金安
出版參考 2014年18期
關(guān)鍵詞:詞庫(kù)碎片化搜索引擎

金安

伴隨著讀者在互聯(lián)網(wǎng)上以自定義主題(詞組或短語(yǔ))為條件,進(jìn)行相關(guān)圖書信息搜索的需求越來(lái)越多,傳統(tǒng)的檢索方式由于不適應(yīng)自然語(yǔ)言的結(jié)構(gòu)而明顯落伍,用戶希望網(wǎng)站的搜索引擎,能夠提供基于內(nèi)容的、更新更快且更加完備的相關(guān)書目信息資源,這就對(duì)我們出版社網(wǎng)站的信息架構(gòu)——信息的組織方式和處理模式——提出了新的挑戰(zhàn)。

我們知道,讀者自定義的搜索主題是用自然語(yǔ)言表述的,因而必然是由字和詞按一定規(guī)則構(gòu)成,當(dāng)然還可能包含一些符號(hào)或標(biāo)點(diǎn)。再觀察我們的圖書內(nèi)容,也同樣是由這些基本元素構(gòu)成的。要想在兩者之間建立起聯(lián)系,并尋找對(duì)應(yīng)關(guān)系,就應(yīng)當(dāng)從這些基本單元入手。由于漢語(yǔ)中的詞比單個(gè)字具有更加完整的含義,所以我們把詞作為基本的構(gòu)成單元對(duì)待。將描述或構(gòu)成圖書內(nèi)容的文本,拆分成具有獨(dú)立含義的詞,是尋找內(nèi)容相關(guān)性的基本前提。而這一過程,就是我們所說(shuō)的“碎片化”。那么,需要對(duì)哪些內(nèi)容對(duì)象進(jìn)行碎片化?碎片化過程依據(jù)什么進(jìn)行?使用什么工具進(jìn)行碎片化?到底碎片化到什么程度?碎片化是如何影響搜索引擎性能的?碎片化加工可以一勞永逸嗎?本文分別來(lái)探討這些問題。

一、碎片化對(duì)象選擇問題

碎片化就是對(duì)文本進(jìn)行切分,作為一種技術(shù)手段,其應(yīng)用對(duì)象的選擇一定要與功能目標(biāo)相一致。所以,我們首先要選擇能夠最全面描述圖書內(nèi)容的文本,這就是章節(jié)目錄,其次是內(nèi)容簡(jiǎn)介。因?yàn)槟夸浿杏械脑~,正文中一定有,而且多是比較重要的詞。這對(duì)于以內(nèi)容檢索為目的的相關(guān)性判斷,就可以達(dá)到基本要求了。當(dāng)然,如果有全文,可以使檢索的范圍更全面,以致不漏掉任何一個(gè)詞,但同時(shí)也會(huì)使運(yùn)算量成幾何級(jí)數(shù)的遞增,這一點(diǎn)與數(shù)字出版的要求不同,在線搜索功能對(duì)性能近乎苛求,所以我們未將正文列入切分范疇。還有,如果有樣章,我們可不可以將其作為碎片化對(duì)象呢?這要具體分析一下是什么樣的樣章。一般科技類圖書的第一章大多為概述,其后的各章將分別論述很具體的內(nèi)容。那么,這類概述類的章節(jié)最適合作為碎片化對(duì)象,而其他表述具體內(nèi)容的章節(jié),會(huì)因其只突出部分特定內(nèi)容,而造成與該內(nèi)容相關(guān)性高的誤判,所以不應(yīng)做這種選擇。還有一個(gè)要點(diǎn)值得注意,就是對(duì)于整個(gè)系統(tǒng)而言,選擇對(duì)象的原則只能有一個(gè)。

二、碎片化過程依據(jù)什么進(jìn)行

即對(duì)內(nèi)容切分時(shí)應(yīng)依據(jù)什么標(biāo)準(zhǔn)。要想讓計(jì)算機(jī)像人一樣,在充分理解自然語(yǔ)言的基礎(chǔ)上,對(duì)文本進(jìn)行合理切分,目前還有很長(zhǎng)的路要走,這是計(jì)算語(yǔ)言學(xué)或人工智能研究的課題。但是,不完全理解并不代表不能切分,我們可以根據(jù)規(guī)則和經(jīng)驗(yàn),依據(jù)已有的資源,在掌握一定的自然語(yǔ)言規(guī)律的基礎(chǔ)上,完成基本正確的切分。雖然這種切分不是基于對(duì)自然語(yǔ)言的充分理解,會(huì)有一些歧義產(chǎn)生,但應(yīng)用實(shí)踐的結(jié)果表明,對(duì)于本文探討的以內(nèi)容檢索為目標(biāo)的應(yīng)用,這種切分方式是可以滿足功能需求的,準(zhǔn)確性是我們可接受的。我們?cè)谖∏叭私?jīng)驗(yàn)的基礎(chǔ)上,實(shí)踐過兩種切分方式,并分別應(yīng)用于不同場(chǎng)合。

基于字符匹配的切分方法。即按照一定的策略,將對(duì)象文本中的漢字組合(字符串)與一個(gè)充分大的詞典中的詞條進(jìn)行對(duì)照匹配,如果能在詞典中找到完全相同的字符串,就能識(shí)別出這個(gè)詞。當(dāng)然,上述的取詞策略非常重要(以后還會(huì)談到)。

基于頻率統(tǒng)計(jì)的切分方法。直觀的看,字的穩(wěn)定組合就形成了詞,因此在上下文中,相鄰兩字同時(shí)出現(xiàn)(共現(xiàn))的次數(shù)越多,就越有可能是詞。所以字與字相鄰共現(xiàn)的頻率能夠很好的反映它們成詞的可信度。實(shí)踐中,我們可以通過概率方法將這種相對(duì)頻度計(jì)算出來(lái),當(dāng)共現(xiàn)概率超過一定數(shù)值時(shí),我們就認(rèn)為這些字構(gòu)成了一個(gè)詞。這里有一個(gè)前提需要大家注意,就是用于計(jì)算共現(xiàn)概率的樣本文檔(我們稱之為語(yǔ)料庫(kù)),必須與我們產(chǎn)品的實(shí)際內(nèi)容相吻合,這一點(diǎn)很重要。

上述兩種方法為我們進(jìn)行內(nèi)容信息的碎片化處理,提供了可行的依據(jù)和標(biāo)準(zhǔn)。

三、使用什么工具進(jìn)行碎片化

在碎片化的方法和參數(shù)確定下來(lái)以后,我們就可以進(jìn)行切分操作了,這里離不開兩個(gè)重要工具。

詞庫(kù)。這是切分時(shí)依據(jù)的標(biāo)準(zhǔn)。漢語(yǔ)詞匯是海量的,我們可以把它分為通用詞和專用詞兩大類,因而就需要有通用詞庫(kù)和專用(業(yè))詞庫(kù)。一般通用詞庫(kù)可以選擇標(biāo)準(zhǔn)的或權(quán)威機(jī)構(gòu)提供的,詞匯量6萬(wàn)-10萬(wàn)個(gè)的基本可以夠用。

中文自動(dòng)分詞系統(tǒng)。這是一個(gè)計(jì)算機(jī)文本處理的軟件工具。我們利用它在內(nèi)容切分過程中實(shí)現(xiàn)如下功能:將文本中兩個(gè)標(biāo)點(diǎn)符號(hào)之間的漢字,按照我們定義的標(biāo)準(zhǔn)或規(guī)則,切分成若干個(gè)獨(dú)立的詞匯,并過濾掉其余無(wú)意義的單字,再將多次出現(xiàn)的詞匯合并,同時(shí)記錄下該詞出現(xiàn)的頻率。這樣,原本連續(xù)的文檔,就分解為若干獨(dú)立的詞匯及詞頻記錄,形象地表述就是被“碎片化”了。當(dāng)然,上述切分是有不同方式的,從左向右的逐字取詞稱為正向匹配,而從右向左的稱為反向匹配,實(shí)踐表明,反向匹配的正確率高于正向匹配,歧義出現(xiàn)的也比較少。還有,根據(jù)取詞長(zhǎng)度的不同,存在由最大匹配至最小匹配的多種組合方式。在最終決定采取何種切分策略時(shí),應(yīng)本著在運(yùn)算速度可接受的前提下,盡可能提高分詞質(zhì)量的原則,不過這可能需要反復(fù)進(jìn)行摸索與評(píng)測(cè)。

四、碎片化的程度應(yīng)如何把握

搜索引擎的工作機(jī)制是將我們碎片化了的內(nèi)容,與用戶輸入的描述搜索條件的語(yǔ)句進(jìn)行對(duì)比匹配,因而,也必須對(duì)該搜索條件語(yǔ)句進(jìn)行碎片化。由于這些條件都是以自然語(yǔ)言形式表述的,所以,要做到完全正確的切分難度很大。一旦切分錯(cuò)誤,將帶來(lái)后續(xù)檢索和判斷的一系列問題,無(wú)法保證搜素引擎的質(zhì)量。鑒于目前的計(jì)算機(jī)技術(shù)尚不能做到對(duì)自然語(yǔ)言的完全正確理解,所以,我們只能采取充分匹配的方法,窮盡從最小匹配至最大匹配的所有可能,而不漏掉任何一個(gè)詞。我們稱之為“多粒度”方法。當(dāng)然,這個(gè)原則也必須同樣應(yīng)用到我們對(duì)內(nèi)容的碎片化上。之后的問題,就是如何確定最大匹配值,即最大詞長(zhǎng),這與我們的內(nèi)容有關(guān)。大多數(shù)情況下,到訪出版社網(wǎng)站的客戶,其對(duì)內(nèi)容的需求多是與該社出版領(lǐng)域相吻合的,就是說(shuō),用戶的搜索習(xí)慣與出版物的內(nèi)容特點(diǎn)是有相關(guān)性的。所以結(jié)論是,碎片化的程度,還要兼顧本社產(chǎn)品的內(nèi)容特點(diǎn)。

五、碎片化對(duì)搜索引擎性能的影響

碎片化是搜索引擎進(jìn)行檢索和判斷的基礎(chǔ)和前提。經(jīng)過基本的碎片化加工以后,我們可以從出現(xiàn)頻率的角度,定量地考察各相關(guān)詞匯(稱為索引詞)與內(nèi)容的相關(guān)度,但實(shí)踐表明,這還不夠。由于我們并沒有對(duì)正文的全部進(jìn)行碎片化處理,就忽略了章節(jié)內(nèi)容(長(zhǎng)短不同)對(duì)圖書整體相關(guān)性產(chǎn)生的影響。因此,我們需要挖掘一些能夠定性描述圖書核心內(nèi)容的關(guān)鍵詞,來(lái)補(bǔ)償或校正這一影響。既然這些詞起的是定性作用,那么我們就要賦予其較大的權(quán)重,相當(dāng)于它們所代表的內(nèi)容以高于平均值的頻率出現(xiàn)在總體內(nèi)容中。實(shí)踐證明,這一措施對(duì)提高搜索引擎的質(zhì)量做出了重要貢獻(xiàn)。那么,到哪里去提取這些描述圖書核心內(nèi)容的關(guān)鍵詞(也稱為特征項(xiàng))呢?我們把焦點(diǎn)瞄準(zhǔn)了網(wǎng)站的產(chǎn)品數(shù)據(jù)庫(kù)。經(jīng)篩選,我們把CIP關(guān)鍵詞、中圖法分類、自定義分類、作譯者名、書名、ISBN列為特征項(xiàng),進(jìn)行同樣的切分,并賦予高權(quán)重。因而,我們所講的碎片化是對(duì)所有內(nèi)容(包括定量的和定性的兩部分)而言的廣義碎片化。總而言之,碎片化的方式、對(duì)象和標(biāo)準(zhǔn)對(duì)搜索引擎的性能有重大影響。

六、碎片化是與內(nèi)容生產(chǎn)永久相伴的

碎片化加工不能一勞永逸,只要新書的生產(chǎn)不停頓,就不斷會(huì)有新的內(nèi)容,在經(jīng)過碎片化處理后,被加入到索引數(shù)據(jù)庫(kù)中,否則,搜索引擎就無(wú)法檢索到它們。正是由于這些新書不斷地出現(xiàn)在搜索引擎的結(jié)果列表中,網(wǎng)站的新書推薦有了新的途徑。因?yàn)樵谛聲鲜械某跗?,讀者在尚不了解新書信息的情況下,是不可能用書名去進(jìn)行查詢的。而當(dāng)他們進(jìn)行主題搜索時(shí),無(wú)意中發(fā)現(xiàn)了許多新書信息,這勢(shì)必引起讀者的關(guān)注,使他們產(chǎn)生閱讀的沖動(dòng)。所以,碎片化處理已成為與新書發(fā)布同步的網(wǎng)站日常作業(yè)。同時(shí),新書內(nèi)容中不斷涌現(xiàn)的新詞,也是我們豐富和完善專業(yè)詞庫(kù)的主要來(lái)源。

碎片化作為內(nèi)容結(jié)構(gòu)化處理的一種方式,是我們?cè)诔霭嫔缇W(wǎng)站上的首次嘗試,還僅僅是一些探索和實(shí)踐。在其構(gòu)思、設(shè)計(jì)、測(cè)試、實(shí)施和運(yùn)維的過程中,我們總結(jié)出如下三點(diǎn)基本經(jīng)驗(yàn)。

專業(yè)詞庫(kù)建設(shè),是最重要的基礎(chǔ)工作,必須持之以恒的做好。

詞庫(kù)是碎片化加工的必備工具,如果沒有專業(yè)詞庫(kù),就無(wú)法保證具有自身特點(diǎn)的內(nèi)容被正確的切分,搜索引擎將顯得很不專業(yè),無(wú)法發(fā)揮出版社網(wǎng)站的資源優(yōu)勢(shì)。而專業(yè)詞庫(kù)的建設(shè)可以有依據(jù)詞典生成、購(gòu)買定型產(chǎn)品和基于語(yǔ)料庫(kù)的統(tǒng)計(jì)識(shí)別三種途徑。我們選擇的是第三種,即構(gòu)建自己的語(yǔ)料庫(kù)用于詞頻統(tǒng)計(jì)及篩選,該方法不僅花費(fèi)少、影響因素少,而且能夠最大限度地利用本出版社的內(nèi)容資源,也最切合自身內(nèi)容特點(diǎn),并且為以后的擴(kuò)充和升級(jí)詞庫(kù)創(chuàng)造了條件。

必須結(jié)合出版社自身特點(diǎn),并不斷總結(jié)經(jīng)驗(yàn),優(yōu)化完善。

任何新理論新技術(shù),都不能拿來(lái)機(jī)械地直接使用,而必須考慮應(yīng)用對(duì)象的特點(diǎn)。出版社有自己的出版領(lǐng)域、產(chǎn)品特色、內(nèi)容特點(diǎn)、資源形式、數(shù)據(jù)結(jié)構(gòu)、人才優(yōu)勢(shì),這些都是確定方案及參數(shù)的依據(jù)和基礎(chǔ)。關(guān)鍵在于如何與技術(shù)設(shè)計(jì)相結(jié)合,經(jīng)不斷總結(jié)經(jīng)驗(yàn)、測(cè)試修改、優(yōu)化完善,一定可以達(dá)到實(shí)用化水平。但這是一個(gè)逐步實(shí)現(xiàn)的過程。

理論與實(shí)踐、信息技術(shù)與出版業(yè)務(wù)必須緊密結(jié)合。

信息技術(shù)飛速發(fā)展,我們應(yīng)不斷學(xué)習(xí)和掌握新的理論知識(shí),同時(shí)又要敢于實(shí)踐,才能將創(chuàng)新思想轉(zhuǎn)化為創(chuàng)新實(shí)踐,從而推動(dòng)行業(yè)的信息化水平不斷提高。同時(shí),新技術(shù)的應(yīng)用還要找準(zhǔn)突破點(diǎn),在出版業(yè)務(wù)有需求、信息技術(shù)有可能的結(jié)合點(diǎn)上下功夫,就能夠取得成功。在開發(fā)過程中,既要有突破性的創(chuàng)新邏輯構(gòu)思,又要兼顧業(yè)務(wù)需求在模型算法中的合理實(shí)現(xiàn)。

網(wǎng)站信息的碎片化加工,是我們?cè)趦?nèi)容結(jié)構(gòu)化處理領(lǐng)域的一次嘗試,其目標(biāo)是為搜索引擎提供結(jié)構(gòu)化的數(shù)據(jù)基礎(chǔ),是在探索和實(shí)現(xiàn)計(jì)算機(jī)理解自然語(yǔ)言——這一宏偉愿景過程中的一次實(shí)踐探索。 (作者單位系科學(xué)出版社)

猜你喜歡
詞庫(kù)碎片化搜索引擎
一“吃”多用
想象力都去哪了
詞庫(kù)音系學(xué)的幾個(gè)理論問題芻議
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析