王彩虹
[摘要]Web數(shù)據(jù)挖掘技術(shù)是實現(xiàn)個性化科研協(xié)同服務(wù)的關(guān)鍵技術(shù)。本文以學(xué)科館員協(xié)同高??蒲薪處熗瓿芍卮罂蒲许椖繛槟繕?biāo),以Web數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),綜述了Web數(shù)據(jù)挖掘的概念、研究方法、國內(nèi)外研究現(xiàn)狀以及學(xué)科化科研協(xié)同服務(wù)的內(nèi)涵。設(shè)計了科研協(xié)同服務(wù)平臺及其運行機制,力求為學(xué)科館員融入高??蒲幸痪€提供新的思路和決策。
[關(guān)鍵詞]Web數(shù)據(jù)挖掘;學(xué)科館員;科研協(xié)同服務(wù)
DOI:10.3969/J.issn.1008—0821.2012.05.013
[中圖分類號]G250.7
[文獻標(biāo)識碼]A
[文章編號]1008—0821(2012)05—0051—04
隨著我國科技水平的不斷發(fā)展,高等學(xué)校生源和就業(yè)問題的加劇,高校生存和發(fā)展的競爭變得日益激烈。在全方位的競爭當(dāng)中,教師的科研實力是衡量學(xué)校辦學(xué)水平的最重要砝碼,已經(jīng)成為高校爭取排名的堅強武器。教師科研項目或課題的申報越來越需要強有力的論據(jù)材料和論證方法來支撐,其項目研究也不斷尖端化細致化。一些骨干教師在繁忙的教學(xué)工作中,擔(dān)負(fù)著國家級自然科學(xué)基金或社會科學(xué)基金等重大項目的研究任務(wù)。在其項目申報、項目研究、項目結(jié)題發(fā)布過程中,迫切希望高校圖書館的學(xué)科館員能為其項目研究提供合理的信息導(dǎo)航和信息過濾等服務(wù)工作。因此,研究如何在網(wǎng)絡(luò)環(huán)境下,以“用戶為中心”,采用恰當(dāng)?shù)腤eb數(shù)據(jù)挖掘技術(shù),挖掘出科研教師用戶急需的信息資源,協(xié)助其解決科研過程中遇到的實際問題,是學(xué)科服務(wù)深層次化、個性化的一個新領(lǐng)域,具有獨特的研究優(yōu)勢。
1 Web數(shù)據(jù)挖掘鮮活科研協(xié)同服務(wù)
1.1Web數(shù)據(jù)挖掘
1.1.1Web數(shù)據(jù)挖掘的概念及研究方法
Web數(shù)據(jù)挖掘(Web Data Mining),簡稱Web挖掘。是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的人們事先不知道但又是潛在有用的信息和知識過程。它是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,是從數(shù)據(jù)挖掘發(fā)展過來的集Web技術(shù)、數(shù)據(jù)挖掘、計算機技術(shù)、信息科學(xué)等多個領(lǐng)域的一項技術(shù)。Web數(shù)據(jù)挖掘可分為3類:Web內(nèi)容挖掘(Web Content Mining)、Web結(jié)構(gòu)挖掘(Web Structure Mining)和Web使用模式挖掘(Web Us-age Mining)。其主要研究方法包括訪問路徑分析、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式分析、分類規(guī)則發(fā)現(xiàn)、聚類分析等。其所處理的對象包括靜態(tài)網(wǎng)頁、Web數(shù)據(jù)庫、Web結(jié)構(gòu)、用戶使用記錄信息等。
1.1.2國內(nèi)外Web數(shù)據(jù)挖掘的研究現(xiàn)狀
20世紀(jì)90年代以來,數(shù)據(jù)挖掘技術(shù)已在國內(nèi)外掀起了研究熱潮。國外的IBM、NEC等機構(gòu)對Web數(shù)據(jù)挖掘進行了大量的研究,并取得了一定的成果。S.Charkrabarti對超文本數(shù)據(jù)挖掘進行了研究,并指出基于知識的算法將會在Web數(shù)據(jù)挖掘中扮演重要角色;加州理工學(xué)院噴氣推進實驗室與天文科學(xué)家開發(fā)的SKICAT系統(tǒng),能夠幫助天文學(xué)家發(fā)現(xiàn)遙遠的類星體。而國內(nèi)對數(shù)據(jù)挖掘技術(shù)研究雖然較遲,但依然持續(xù)升溫。有研究者將數(shù)據(jù)挖掘的因子分析法和聚類分析法相結(jié)合,分析我國各地區(qū)船舶工業(yè)發(fā)展的現(xiàn)狀,為決策者決策提供科學(xué)合理的依據(jù),指導(dǎo)我國船舶工業(yè)經(jīng)濟發(fā)展的規(guī)劃和戰(zhàn)略,縮小各地區(qū)我國船舶工業(yè)發(fā)展的差異。清華大學(xué)對科技文獻檢測算法進行大量研究,并開發(fā)了一套面向計算機領(lǐng)域的英文科技文獻監(jiān)測系統(tǒng)——AmetMiner。該系統(tǒng)從公開的文獻數(shù)據(jù)庫(如:DBLP、Citeseer等)抓取相關(guān)的文獻數(shù)據(jù),從Web上抽取研究者的Profile信息,然后將其集成在一起,并在此基礎(chǔ)上根據(jù)合作關(guān)系構(gòu)建學(xué)術(shù)網(wǎng)絡(luò),并進行深入挖掘,提供如權(quán)威專家/期刊/會議發(fā)現(xiàn)、關(guān)聯(lián)路徑發(fā)現(xiàn)等服務(wù);中國人民大學(xué)開發(fā)的KBDL系統(tǒng)也是通過數(shù)據(jù)挖掘技術(shù)研制成功的僅供本館使用的個性化服務(wù)系統(tǒng)。
1.2協(xié)同理論與協(xié)同科研服務(wù)
協(xié)同理論一詞來自希臘語,意指關(guān)于“合作的科學(xué)”。創(chuàng)始人是前西德理論物理學(xué)家赫爾曼·哈肯。協(xié)同理論研究各種完全不同的系統(tǒng)在遠離平衡時通過子系統(tǒng)之間的協(xié)同合作,從無序態(tài)轉(zhuǎn)變?yōu)橛行驊B(tài)的共同規(guī)律。其在自然科學(xué)和社會科學(xué)的各個領(lǐng)域都有廣泛的作用,強調(diào)人的合作能力和合作精神。而Web個性化服務(wù)實際上是指以用戶需求為中心的Web服務(wù),圖書館利用現(xiàn)代技術(shù)、人工智能技術(shù)和專家系統(tǒng)等,主動獲取圖書館用戶個性化的特定信息需求,以及特定用戶群體的共同信息需求,針對用戶需求檢索網(wǎng)絡(luò)信息和館藏數(shù)字信息,并根據(jù)用戶要求把用戶所需信息推送給用戶的一種綜合服務(wù)機制。在網(wǎng)絡(luò)環(huán)境下,Web數(shù)據(jù)挖掘技術(shù)是實現(xiàn)個性化信息服務(wù)的關(guān)鍵技術(shù),它將開創(chuàng)個性化協(xié)同服務(wù)的新局面。因此,我們認(rèn)為,基于Web數(shù)據(jù)挖掘的科研協(xié)同服務(wù)是指為了提高學(xué)科化服務(wù)的質(zhì)量和效率,學(xué)科館員與科研教師協(xié)同工作,以Web挖掘為基礎(chǔ),以協(xié)助科研用戶圓滿完成研究項目為目標(biāo),根據(jù)科研教師在前期準(zhǔn)備、研究過程和成果發(fā)布3個階段中所必須的關(guān)于Web數(shù)據(jù)挖掘方面的幫助,直接融入用戶并實際解決問題,挖掘具有前沿性和權(quán)威性的信息資源,提供有針對性的、符合其科研要求的個性化知識挖掘服務(wù)。
2 基于Web數(shù)據(jù)挖掘的科研協(xié)同服務(wù)平臺的構(gòu)建
2.1科研協(xié)同服務(wù)平臺的設(shè)計
在協(xié)同服務(wù)平臺設(shè)計方面,我們以湖北師范學(xué)院教師申報的自然科學(xué)基金項目中個性化Web數(shù)據(jù)挖掘信息服務(wù)需求為中心;以提供專業(yè)化、智能化、深層次化的知識服務(wù)為原則;以實現(xiàn)用戶在科研過程中不同階段的隱性知識轉(zhuǎn)化為顯性知識為目標(biāo);分析用戶所提供的數(shù)據(jù),創(chuàng)建符合用戶特性的訪問模式;結(jié)合用戶的特性,向用戶提供符合其特殊需求的信息服務(wù)為宗旨。在網(wǎng)絡(luò)環(huán)境下,構(gòu)建科研協(xié)同服務(wù)平臺如圖1:
2.2平臺研發(fā)的原理
基于Web數(shù)據(jù)挖掘平臺研發(fā)的原理為:科研用戶通過身份驗證進入個性化信息服務(wù)系統(tǒng),通過用戶接口模塊提出科研項目中自己需要定制的信息請求。學(xué)科館員收集信息請求,明確科研項目的主題和要求挖掘的目標(biāo),建立信息挖掘系統(tǒng),確定Web數(shù)據(jù)挖掘的方法,并采用先進、合理的數(shù)據(jù)挖掘技術(shù)、計算機技術(shù)、數(shù)據(jù)分析技術(shù)等對收集的信息進行過濾、處理、集成。再把這些新獲取的信息集合到用戶信息庫中,最后推送給科研用戶,并得到用戶的反饋,以便改進和完善個性化、學(xué)科化信息服務(wù)工作,協(xié)助用戶進行科學(xué)研究。
3 基于Web數(shù)據(jù)挖掘的科研協(xié)同服務(wù)平臺的運行
3.1運用URL挖掘,集成科研用戶定制的特色信息源
統(tǒng)一資源定位符(URL,英語Uniform Resource Locator的縮寫),也被稱為網(wǎng)頁地址,是因特網(wǎng)上標(biāo)準(zhǔn)的資源地址。它最初是由蒂姆·伯納斯一李發(fā)明用來作為萬維網(wǎng)的地址。法國圖書館的“網(wǎng)絡(luò)文獻采集項目”BnF就利用了Web結(jié)構(gòu)挖掘的發(fā)現(xiàn)功能。它首先利用Web挖掘技術(shù),獲得包含相關(guān)主題的網(wǎng)絡(luò)資源的一系列網(wǎng)址,經(jīng)過分析處理,BnF把這些網(wǎng)址發(fā)送給有關(guān)專家,以評估是否進行采集;國內(nèi)清華大學(xué)計算機系智能技術(shù)與系統(tǒng)國家重點實驗室的馬亮等設(shè)計了智能Web中文主題信息收集系統(tǒng)IRobot,該系統(tǒng)在對已搜集頁面的主題相關(guān)度評價時綜合考慮了頁面的標(biāo)題、段落標(biāo)題、Anchor文本(所引用URL的說明文本)等對于頁面評價具有較高價值的特征區(qū)域,并賦予了相對較高的權(quán)重系數(shù),以此期望提高評價的準(zhǔn)確性。Web上信息量龐大,要想挖掘科研用戶定制的重要性較高的信息資源,學(xué)科館員在收集科研教師定制的信息請求后,必須利用Web結(jié)構(gòu)挖掘(Web—Structure Mining)中的URL挖掘方法,通過加權(quán)的啟發(fā)式搜索算法來搜集對用戶有利用價值的URL,自己加工處理,盡量使用目錄短的、參數(shù)少的、關(guān)鍵詞靠前的、已經(jīng)過濾的URL,這些UP&都和科研項目主題息息相關(guān),以便用戶能快速地、有選擇性地搜集網(wǎng)絡(luò)空間,發(fā)現(xiàn)或下載與研究主題相關(guān)的信息,提高科研信息資源采集的速度。因此,根據(jù)實際,筆者所在的湖北師范學(xué)院教師在申報國家自然科學(xué)基金項目過程中,相應(yīng)院系的學(xué)科館員除了在圖書館現(xiàn)有的外文資源EBSCOhost(全文/文摘)、WordSciNet電子期刊(全文)、SprringerLINK電子期刊(全文)等數(shù)據(jù)庫中找到與申報主題相關(guān)的文章或文摘的鏈接地址推薦給用戶外,還在運用URL挖掘過程中,主動預(yù)測可能有價值的URL來增加信息發(fā)現(xiàn)的主動性;在URL被加入自建數(shù)據(jù)庫時,結(jié)果插入進程調(diào)用過濾函數(shù)對URL進行過濾,同時也對IP地址進行過濾,避免重復(fù)的訪問和冗余的信息。
3.2使用超鏈接挖掘,獲取研究項目的發(fā)展新動態(tài)
Web上成千上萬的WWW服務(wù)器通過網(wǎng)頁之間的鏈接構(gòu)成海量的信息。通常情況下,網(wǎng)頁抓取的步驟是:從任務(wù)池中取一個任務(wù)地址URL,通過DNS得到其IP地址,用該IP地址與Web服務(wù)器建立TCP/IP連接,發(fā)出HTTP請求,等待接收HTTP應(yīng)答,關(guān)閉TCP/IP連接,分析收到的網(wǎng)頁,將其中包含的新鏈接加入到任務(wù)池中,將網(wǎng)頁存放到磁盤數(shù)據(jù)庫中。學(xué)科館員使用超鏈接挖掘的目的是找出與科研項目主題相關(guān)的中心頁面和權(quán)威頁面,減少用戶搜索網(wǎng)頁的時間,降低重要信息遺漏的幾率。因為從頁面的作用來看,中心頁面是相關(guān)信息的鏈接契合點,通過它很容易找到大批與科研項目相關(guān)的鏈接;權(quán)威頁面是科研過程中用戶必須了解的核心,通過權(quán)威頁面的瀏覽,用戶能夠了解自己所研究項目領(lǐng)域的最新動態(tài)、科研進展、成果和思想、發(fā)展趨勢等。為了協(xié)同科研教師了解其所申報主題的新穎性和發(fā)展的新動態(tài),湖北師范學(xué)院的學(xué)科館員為每個科研用戶建立了個性化MyLibrary系統(tǒng)后,該系統(tǒng)采用的是目前主流的Web服務(wù)模式。用戶通過Cookie的瀏覽器登錄MyLibrary系統(tǒng),設(shè)置賬號和密碼,并根據(jù)自己的知識結(jié)構(gòu)、信息需求對館藏數(shù)字資源和其他網(wǎng)絡(luò)資源進行篩選、整理。用戶完成設(shè)置后,動態(tài)建立MyLibrary,進入中心頁面或權(quán)威頁面定制自己所需求的內(nèi)容。定制的內(nèi)容包括我的教育與研究資源、我的數(shù)據(jù)庫、我的圖書館鏈接、最新資源通報等。
3.3巧用Web日志挖掘,鼓勵科研用戶參與互動
Web日志挖掘過程可分為4個階段:①數(shù)據(jù)采集階段;②數(shù)據(jù)預(yù)處理階段;③模式發(fā)現(xiàn)階段;④知識獲取階段。Web日志挖掘的主要數(shù)據(jù)來源于服務(wù)器端日志,其中服務(wù)器日志尤為重要,是目前Web日志挖掘的主要研究對象。由于Web多級緩存機制導(dǎo)致服務(wù)器端無法記錄用戶的訪問行為,因此,學(xué)科館員對Web訪問日志進行分析和挖掘時,必須經(jīng)過一系列的數(shù)據(jù)準(zhǔn)備和建模工作。首先,學(xué)科館員應(yīng)對代理端和客戶端的日志數(shù)據(jù)進行采集,獲取完整的科研用戶訪問信息,提高數(shù)據(jù)信息采集的完整性和全面性;然后把采集到的日志數(shù)據(jù)、內(nèi)容和結(jié)構(gòu)信息轉(zhuǎn)換成數(shù)據(jù)挖掘階段所需要的抽象數(shù)據(jù);再對經(jīng)過預(yù)處理的日志數(shù)據(jù)進行挖掘,獲取隱藏在這些數(shù)據(jù)之中的規(guī)律或模式;最后通過選擇和觀察把發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計值列舉出來,利用模式分析或模式轉(zhuǎn)換成對用戶有利用價值的知識,推薦給科研用戶并得到反饋。學(xué)科館員巧用Web日志挖掘技術(shù),對擔(dān)任重大科研項目研究的用戶有兩個好處:第一,能根據(jù)用戶的需求對網(wǎng)頁的內(nèi)容、結(jié)構(gòu)、布局進行個性化的定制;對數(shù)據(jù)負(fù)荷進行有效管理,鼓勵用戶參與信息資源的選擇、評價,并允許用戶根據(jù)個人的需要對學(xué)科館員挖掘并推薦的信息資源進行注釋,使館員和用戶的互動性變強,方便館員對推薦的信息資源進行優(yōu)化處理,協(xié)助教師獲取重要的研究資源,提高學(xué)科化主動服務(wù)的效率;第二,學(xué)科館員通過分析Web頁面的緩存模式和訪問流量特征,協(xié)同高校數(shù)字圖書館技術(shù)部,采用相應(yīng)的策略,改善Web服務(wù)器的預(yù)讀機制和負(fù)載均衡機制及數(shù)據(jù)分析機制,從而優(yōu)化網(wǎng)站服務(wù)器的性能,方便教師遠程校外訪問圖書館數(shù)字資源庫,提高用戶隨時訪問湖北師范學(xué)院數(shù)字圖書館的滿意度。
3.4選用多媒體挖掘,協(xié)助科研用戶發(fā)布成果
多媒體信息挖掘(Multimedia Mining)就是從大量多媒體數(shù)據(jù)集中,通過綜合分析視聽特性和語義,發(fā)現(xiàn)隱含的、有效的、有價值的、可理解的模式,得出事件的趨向和關(guān)聯(lián),為用戶提供問題求解層次的決策支持能力。多媒體信息挖掘主要涉及數(shù)據(jù)挖掘和多媒體信息處理兩個研究領(lǐng)域。如何把數(shù)據(jù)挖掘的基本理論和方法與對多媒體特性的分析結(jié)合起來,從多媒體的內(nèi)容著手,利用多媒體的時間、空間、視覺特性、視聽對象及運動特性,挖掘出有價值的隱含的信息線索和知識,已經(jīng)在國內(nèi)外多個領(lǐng)域得到應(yīng)用和發(fā)展。如利用多媒體中數(shù)據(jù)描述與內(nèi)容通過對相似數(shù)據(jù)的搜索在醫(yī)療診斷、氣象預(yù)報、TV制作及電子商務(wù)等領(lǐng)域得到廣泛的應(yīng)用;多媒體數(shù)據(jù)的分類和預(yù)測分析常被應(yīng)用于天文學(xué)、地震學(xué)、地理科學(xué)領(lǐng)域;多媒體關(guān)聯(lián)規(guī)則挖掘能從大量數(shù)據(jù)項集中發(fā)現(xiàn)有趣的關(guān)聯(lián)或相關(guān)聯(lián)系,從而在商務(wù)決策、行為分析、模式匹配等領(lǐng)域被廣泛應(yīng)用。學(xué)科館員利用多媒體數(shù)據(jù)挖掘技術(shù),結(jié)合信息過濾技術(shù),從多媒體數(shù)據(jù)庫選擇恰當(dāng)?shù)奈谋?、圖像、視頻、音頻等數(shù)據(jù)的目的是為了協(xié)同科研用戶完成重大項目成果的公開發(fā)布,使項目成果能生動形象地得以宣傳、演示和實施等,并希望得到合理的評估和獎勵。
4 結(jié)語
為了應(yīng)對日益復(fù)雜的科學(xué)研究問題,科研用戶對學(xué)科化服務(wù)工作的要求越來越高。基于Web數(shù)據(jù)挖掘的科研協(xié)同服務(wù)不但使用戶在信息檢索、信息過濾、數(shù)據(jù)分析、成果發(fā)布等多方面的研究工作效率得以提高,而且使學(xué)科館員真正融入高??蒲幸痪€,成為學(xué)科服務(wù)工作的一個新亮點。但是,由于項目研究具有開創(chuàng)性和尖端性;Web數(shù)據(jù)挖掘工作具有復(fù)雜性和技術(shù)性。因此,學(xué)科館員在協(xié)同服務(wù)工作時應(yīng)注意兩點:
(1)在整個科研項目研究中,由于協(xié)同服務(wù)工作中存在學(xué)科館員和科研用戶的互動比較密切和頻繁,因此,學(xué)科館員必須充分保護好用戶的隱私,避免用戶的研究信息外漏,保護好用戶的合法權(quán)益。
(2)學(xué)科館員在進行Web數(shù)據(jù)挖掘時,在進行數(shù)據(jù)處理、數(shù)據(jù)挖掘、模式分析等過程中會耗費很多時間和精力,同時也需要很好的耐心和溝通能力,協(xié)助科研用戶重大項目的研究。因此,學(xué)科館員必須擁有與時俱進、勤鉆苦研、吃苦耐勞的精神;更要有強烈的事業(yè)心和責(zé)任感。