王秀瑋,劉旭東
(煙臺職業(yè)學(xué)院,山東 煙臺 264670)
隨著計算機網(wǎng)絡(luò)技術(shù)以及數(shù)據(jù)庫技術(shù)的不斷進(jìn)步,網(wǎng)絡(luò)上資源的豐富性以及復(fù)雜性明顯提高,數(shù)據(jù)類型顯得更加復(fù)雜多樣,當(dāng)前已經(jīng)產(chǎn)生了海量的數(shù)據(jù)資源,以往的數(shù)據(jù)庫系統(tǒng)技術(shù)在對網(wǎng)絡(luò)信息資源進(jìn)行處理的過程中顯得力不從心,迫切需要全新的系統(tǒng)技術(shù)處理、維護資源,在這樣的背景下,個性化服務(wù)在當(dāng)前數(shù)字圖書館的應(yīng)用過程中越來越受到重視,作為個性化服務(wù)的核心價值所在,個性推薦系統(tǒng)在常見情況下會先建立用戶模型,對使用者可能感興趣的信息進(jìn)行預(yù)測,從數(shù)字圖書館中自動尋找網(wǎng)絡(luò)、數(shù)據(jù)資源推薦給使用者。
為配合用戶的搜索請求,系統(tǒng)返回對應(yīng)的信息查詢結(jié)果的關(guān)鍵信息技術(shù)被稱之為信息檢索,檢索的結(jié)果多是從資源的相似度出發(fā)進(jìn)行排序,當(dāng)前常見的流行搜索引擎主要包括Google、百度、yahoo等,這一技術(shù)利用的是關(guān)鍵詞檢索法,但是其搜索的整體正確率水平不高,必須進(jìn)行人工判斷,而信息檢索應(yīng)用系統(tǒng)回答的知識使用者咨詢的問題,其為非個性化、較常見的信息服務(wù)。
從使用者抽取信息相關(guān)要求出發(fā),利用特定信息模板對信息進(jìn)行自動識別、抽取的技術(shù)被稱之為信息抽取。主要內(nèi)容是對實體信息、實踐信息、實體信息間的聯(lián)系等的抽取,能對使用者需要獲得的信息進(jìn)行準(zhǔn)確抽取,但是由于以往模板只是反映了部分領(lǐng)域的信息,因此信息抽取在特定的領(lǐng)域才能發(fā)揮作用。因此將信息檢索與信息抽取兩項技術(shù)進(jìn)行結(jié)合,克服各自領(lǐng)域的局限性,是提升個性化推薦系統(tǒng)的關(guān)鍵技術(shù)之一。
知識發(fā)掘主要是從數(shù)據(jù)信息中發(fā)現(xiàn)有用知識的過程,數(shù)據(jù)發(fā)現(xiàn)指知識發(fā)現(xiàn)的特定步驟,數(shù)據(jù)是知識發(fā)掘的核心技術(shù),數(shù)據(jù)與知識的發(fā)現(xiàn)在推薦系統(tǒng)中主要是作為同義詞進(jìn)行操作,常見的是利用分析、OLAP分析、關(guān)聯(lián)性分析等算法智能抽取信息源信息,對數(shù)據(jù)信息的關(guān)聯(lián)性做出智能處理,對數(shù)據(jù)的隱藏關(guān)系,運用方程、科學(xué)定律、法則等方式方法對知識進(jìn)行抽取。數(shù)字挖掘主要利用的是特征型、廣義型或者預(yù)測型知識,其主要是對有用的知識點進(jìn)行提取,用固定的手段方式對知識特性聚集做出表示。這些知識點主要用于信息管理、科研、智能支持等多個方面。在商業(yè)領(lǐng)域已經(jīng)成功應(yīng)用了知識和數(shù)據(jù)的發(fā)掘技術(shù),當(dāng)前實現(xiàn)數(shù)字資源的知識挖掘,并對其提供有效的信息數(shù)據(jù)服務(wù),這也成為了當(dāng)前數(shù)字圖書館個性服務(wù)的重要發(fā)展趨勢。
個性化推薦系統(tǒng)主要包含了4個方面的內(nèi)容,推薦策略部分、用戶感興趣信息部分、用戶的反饋和評價部分、數(shù)據(jù)信息偏好部分。主要的設(shè)計框架如圖1所示。
圖1 個性化推薦系統(tǒng)框架
在構(gòu)建數(shù)字個性推薦系統(tǒng)過程中,必須掌握使用者的對象特點以及信息源特點。當(dāng)前數(shù)字圖書館、電子商務(wù)或者網(wǎng)絡(luò)供應(yīng)商主要利用推薦系統(tǒng)進(jìn)行工作,在數(shù)字化圖書館中,信息服務(wù)相對應(yīng)的對象未對聲像等較為復(fù)雜的進(jìn)行推薦,僅推薦文本信息,另外數(shù)字圖書館自身含有知識分類框架,這主要的原因在于數(shù)字圖書館推薦的是一般的文獻(xiàn)數(shù)據(jù)。數(shù)字圖書館推薦系統(tǒng)中的使用者從信息查詢偏好、實際年齡、文化程度或者教育層次都存在較大差別,而論文設(shè)計系統(tǒng)框是對較為穩(wěn)定的學(xué)歷層次以及文化背景用戶群體而言,須根據(jù)使用者涉及范圍較廣這一特殊現(xiàn)象進(jìn)行分析研究。
用戶偏好建模在個性化系統(tǒng)中主要是對使用者提取的信息要求持續(xù)到信息注銷時間段內(nèi),對使用者信息需求的整體描述,內(nèi)容包括了動態(tài)更新、用戶偏好精確性確定等。主要做法在于用三元組Q對用戶喜好模型進(jìn)行描述,Q=(A,R,Y),在這一三元組中:
R的內(nèi)涵是個性化推薦系統(tǒng)中為用戶喜好模型集合而成的信息反饋集,主要是進(jìn)行驅(qū)動更新,A的內(nèi)涵是個性化推薦系統(tǒng)中為用戶喜好模型集合而成的全部狀態(tài)數(shù)據(jù)集,Y的內(nèi)涵是用戶喜好模型的函數(shù)。用戶模型的原始狀態(tài)用A(0)表示,經(jīng)過t次更新的模型用A(t)表示,推薦系統(tǒng)的t次反饋信息更新用R(t)表示,從以上公式可以看出,用戶的喜好模式始終是在不斷變化的,能及時更新和反應(yīng)使用者的喜好性或者可能感興趣的信息內(nèi)容。
從數(shù)字圖書館特有的使用者群體具備的特點出發(fā),論文也對使用者的短期偏好或者長期偏好進(jìn)行了綜合分析和研究,大致將使用者提供的示范性文本文檔信息以及使用者查詢記錄歸類為短期喜好,將對象的受教育程度、年齡層次等作為參考對長期喜好進(jìn)行歸類。
在對使用對象的喜好性進(jìn)行分析時,制定出了對象偏好模型As(1-ɑ)+ɑAl:在這一模型中,短期喜好用向量用As表示,長期喜好的向量用Al表示,ɑ是為(0至1)之間參數(shù)值,對短期、長期的喜好程度進(jìn)行調(diào)整。特別針對于使用對象在長期喜好方面的設(shè)計,可以運用規(guī)則法對對象的喜好特性進(jìn)行分析,這一規(guī)則可以用特定的語言進(jìn)行表述,例如,針對于教育程度不同、年齡階段不同性格有所差異的群體而言具有各自不同的數(shù)據(jù)信息需求,專業(yè)人士比非專業(yè)人士需要的數(shù)據(jù)信息的專業(yè)程度更高。
2.3.1 主動構(gòu)建方式
使用對象先對數(shù)據(jù)庫的本地資源進(jìn)行查詢,反饋查詢結(jié)果文獻(xiàn),利用用戶的喜好模型對算法進(jìn)行更新,推薦系統(tǒng)自動創(chuàng)建出興趣模型,使用者利用獲得反饋的文獻(xiàn)確定圖法分類號,事實上,信息挖掘中挖掘頻繁項的行為,可將一個分類號與一個事務(wù)進(jìn)行對應(yīng),保證分類號的有序性,頻繁項同樣保持已有的順序性,作為實際的分類號存在。
2.3.2 手動構(gòu)建方式
使用對象將最為初始的喜好類別進(jìn)行分類,相同的使用對象可以進(jìn)行多個喜好的注冊,一旦使用對象喜好存在互相折疊現(xiàn)象,則選擇相同興趣項作為喜好列別。在確定了使用對象的分類號之后,則可列出分類號對應(yīng)的不同的主題詞,從確定的主題詞中獲取使用對象的喜好特征。在使用對象的本地的信息庫中如果含有對象曾經(jīng)的論文文獻(xiàn),則推薦系統(tǒng)快速將相關(guān)的關(guān)鍵詞提供給使用者以便使用對象進(jìn)行選擇。
在網(wǎng)絡(luò)技術(shù)不斷發(fā)展的前提下,人們能夠利用豐富的搜索手段、網(wǎng)絡(luò)資源快速獲取信息和文獻(xiàn)資料,因此,從用戶需求出發(fā),建立個性化信息檢索推薦系統(tǒng)成為當(dāng)前發(fā)展的新方向。在設(shè)計和實現(xiàn)數(shù)字圖書館個性化服務(wù)系統(tǒng)中,需要解決的重要問題在于建立起個性化的用戶喜好模型。怎樣準(zhǔn)確表達(dá)使用對象的喜好成為個性服務(wù)系統(tǒng)的重點、難點問題之一,當(dāng)前需要從不同的應(yīng)用需求入手,仔細(xì)分析設(shè)計推薦系統(tǒng)中各個細(xì)節(jié)環(huán)節(jié),加強適用對象喜好模型的設(shè)計,研究優(yōu)化推薦算法,加強數(shù)據(jù)信息的處理和個性化表述。
[1]姚星星,屈鵬,謝靜.國內(nèi)外數(shù)字圖書館研究與發(fā)展現(xiàn)狀[J].圖書情報工作,2009,53(13)24-29.
[2]劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15.
[3]馬麗華.高校圖書館個性化信息服務(wù)的定制模式[J].科技情報開發(fā)與經(jīng)濟,2006,16(20):25-27.
[4]田曉珍,尚冬娟.Web的個性化服務(wù)[J].重慶工學(xué)院學(xué)報:自然科學(xué)版,2008,22(7):76-95.
[5]龐秀麗,馮玉強,姜維.電子商務(wù)個性化文檔推薦技術(shù)研究[J].中國管理科學(xué),2008,(16):581-586.