(安徽大學(xué)管理學(xué)院 安徽合肥 230601)
科學(xué)研究的起始建立在獲取大量真實(shí)并且有價(jià)值的信息數(shù)據(jù)之上。優(yōu)質(zhì)的學(xué)術(shù)搜索引擎可以滿(mǎn)足研究人員在不同研究階段所需的諸如起源性、全面性、新穎性的文獻(xiàn)要求。從使用者角度判別用戶(hù)信息需求是否完全實(shí)現(xiàn),可以通過(guò)兩個(gè)指標(biāo)鑒定,即信息檢索結(jié)果的準(zhǔn)確性和信息原文獲取的便捷性。同時(shí),任何學(xué)術(shù)搜索引擎從基礎(chǔ)檢索服務(wù)到高級(jí)知識(shí)服務(wù)都需為用戶(hù)提供易于上手的檢索方法并實(shí)現(xiàn)檢索結(jié)果的便捷獲取。實(shí)現(xiàn)這一復(fù)雜過(guò)程,專(zhuān)業(yè)的學(xué)術(shù)搜索引擎系統(tǒng)需從信息資源來(lái)源、信息組織方式、信息檢索方式、信息篩選方式到原文顯示與提供做精心的布置。
讀秀學(xué)術(shù)搜索擁有豐富的文獻(xiàn)類(lèi)型、龐大的全文數(shù)據(jù)資源、簡(jiǎn)明的檢索方式和330萬(wàn)篇數(shù)字化圖書(shū)聯(lián)合成員館本地館藏書(shū)目,提供深入全文和章節(jié)目錄的知識(shí)檢索,實(shí)現(xiàn)館藏紙質(zhì)圖書(shū)、電子圖書(shū)、學(xué)術(shù)文章等各種異構(gòu)資源在同一平臺(tái)的一站式檢索,海量全文數(shù)據(jù)通過(guò)系統(tǒng)自動(dòng)化文獻(xiàn)傳遞服務(wù),為研究人員學(xué)習(xí)、寫(xiě)論文、做課題提供全面的學(xué)術(shù)資料和獲取知識(shí)資源的捷徑。
萬(wàn)方知識(shí)服務(wù)平臺(tái)融合了12種類(lèi)型數(shù)據(jù)庫(kù),以其強(qiáng)大的外文文獻(xiàn)庫(kù)、專(zhuān)利信息庫(kù)、科技成果庫(kù)成為研究人員查找科技信息必備的搜索引擎,數(shù)據(jù)庫(kù)對(duì)資源的有序組織配備完備的檢索系統(tǒng),達(dá)到高檢準(zhǔn)率的要求。
從資源類(lèi)型來(lái)看,萬(wàn)方數(shù)據(jù)庫(kù)覆蓋13種資源類(lèi)型,分別是學(xué)術(shù)論文、期刊、學(xué)位論文、會(huì)議論文、學(xué)者、專(zhuān)利、標(biāo)準(zhǔn)、成果、圖書(shū)、法規(guī)、機(jī)構(gòu)和專(zhuān)家;讀秀數(shù)據(jù)庫(kù)覆蓋25種資源類(lèi)型,除去萬(wàn)方庫(kù)已有類(lèi)型,還有電子書(shū)、視頻、詞條、詞典、課程、文檔、考試輔導(dǎo)、圖片、電影、音樂(lè)和虛擬咨詢(xún)。除了公開(kāi)正式出版的學(xué)術(shù)文獻(xiàn),讀秀庫(kù)還涉及了隱藏在博客、論壇、網(wǎng)頁(yè)、新聞、講座內(nèi)的學(xué)術(shù)信息,同時(shí)通過(guò)提供例如考試資料、電影、音樂(lè)資源滿(mǎn)足研究人員生活化和娛樂(lè)化信息需求。從資源數(shù)量來(lái)看,讀秀庫(kù)以7610萬(wàn)的學(xué)術(shù)論文、330萬(wàn)圖書(shū)和8300萬(wàn)報(bào)紙數(shù)量?jī)?yōu)勝于萬(wàn)方庫(kù)的2680萬(wàn)學(xué)術(shù)論文和4500萬(wàn)圖書(shū)數(shù)量(見(jiàn)表1)。
表1 文獻(xiàn)數(shù)量與類(lèi)型對(duì)比
綜上,讀秀庫(kù)文獻(xiàn)來(lái)源種類(lèi)新穎繁多,資源數(shù)量龐大,涉及面廣,覆蓋面全,各種類(lèi)型的資源收錄均勻。萬(wàn)方庫(kù)的資源覆蓋面有限,分布的重點(diǎn)在全文收錄、按月更新的外文期刊庫(kù)、外文會(huì)議論文庫(kù)、學(xué)者庫(kù)、科技成果庫(kù)和專(zhuān)利庫(kù),資源量總體少于讀秀庫(kù)(見(jiàn)圖1)。
圖1 資源覆蓋對(duì)比
標(biāo)引深度。檢索功能的強(qiáng)大與否體現(xiàn)了數(shù)據(jù)庫(kù)的標(biāo)引程度。讀秀知識(shí)搜索只提供輸入關(guān)鍵詞的初級(jí)檢索,對(duì)于查找資料的廣泛性和全面性達(dá)到保障,但是無(wú)法有效的保障查找資料的準(zhǔn)確性。尤其是面對(duì)資源量龐大的讀秀庫(kù),只通過(guò)關(guān)鍵詞的初級(jí)檢索得到的檢索結(jié)果亦是龐大的數(shù)量,用戶(hù)難以在短時(shí)間內(nèi)找出最精準(zhǔn)的一篇文獻(xiàn)。萬(wàn)方提供初級(jí)檢索、高級(jí)檢索和專(zhuān)業(yè)檢索。高級(jí)檢索的檢索模式為“某字段”匹配“精準(zhǔn)度”匹配“年限”匹配“文獻(xiàn)類(lèi)型”,字段與字段之間的運(yùn)算關(guān)系運(yùn)用“與”、“或”、“非”邏輯算符表達(dá)。專(zhuān)業(yè)檢索可以提供一段文本(比如科學(xué)技術(shù)要點(diǎn)),由系統(tǒng)推薦檢索詞。使用高級(jí)檢索和專(zhuān)業(yè)檢索查找文獻(xiàn)是研究人員提高檢準(zhǔn)率必需掌握的檢索策略。
表2 讀秀和萬(wàn)方檢索字段對(duì)比
檢索字段。一個(gè)字段即一個(gè)檢索入口,通過(guò)字段檢索用戶(hù)可以快速準(zhǔn)確地查找所需文獻(xiàn),每一個(gè)字段入口都是數(shù)據(jù)庫(kù)的一個(gè)倒排文檔。通過(guò)表2可以看出,讀秀庫(kù)提供的可檢索字段有13個(gè),占所列字段的37%,僅僅提供文獻(xiàn)類(lèi)型的主要特征檢索,降低檢準(zhǔn)性。萬(wàn)方庫(kù)提供的檢索字段共26個(gè),占列出35個(gè)字段的74%,檢索字段豐富,提供用戶(hù)多入口檢索。萬(wàn)方庫(kù)的檢索字段有主題檢索,說(shuō)明在文獻(xiàn)入庫(kù)時(shí)加工人員對(duì)每篇文獻(xiàn)重新進(jìn)行準(zhǔn)確的主題標(biāo)引和深加工。
檢準(zhǔn)率。以“學(xué)術(shù)搜索”為關(guān)鍵詞,分別在讀秀庫(kù)和萬(wàn)方庫(kù)的期刊庫(kù)中使用關(guān)鍵詞字段檢索,讀秀庫(kù)得到85篇題錄,經(jīng)過(guò)排查,85篇題錄均為庫(kù)內(nèi)全文數(shù)據(jù),其中56篇的關(guān)鍵詞有“學(xué)術(shù)搜索”,29篇期刊論文無(wú)法檢索關(guān)鍵詞字段,說(shuō)明讀秀庫(kù)對(duì)于29篇論文沒(méi)有做關(guān)鍵詞標(biāo)引,只有題名、作者、刊名、出版日期、ISSN、期號(hào)、參考文獻(xiàn)格式、摘要。因此檢索讀秀庫(kù)的全文獲取率為100%,檢準(zhǔn)率為56/85=66%。在萬(wàn)方庫(kù)檢得文獻(xiàn)70篇,經(jīng)過(guò)檢查,67篇文獻(xiàn)為全文信息,并且都滿(mǎn)足檢索條件,因此全文獲取率為95%,檢準(zhǔn)率為100%。
圖2 檢索功能對(duì)比
通過(guò)檢索功能的數(shù)據(jù)對(duì)比(見(jiàn)圖2),可以看出讀秀庫(kù)的檢索入口覆蓋率正好是萬(wàn)方庫(kù)的一半。多字段匹配檢索某一文獻(xiàn)相當(dāng)于在多維空間中多坐標(biāo)定位某一點(diǎn),快速而精準(zhǔn)。庫(kù)內(nèi)文獻(xiàn)量龐大而系統(tǒng)檢索功能不充足,想要準(zhǔn)確找到需求文獻(xiàn)需要花費(fèi)一定時(shí)間和精力,這是檢索人員不希望遇到的情況。因此檢索功能強(qiáng)大的萬(wàn)方庫(kù)檢準(zhǔn)率必然比讀秀庫(kù)高。但從全文獲得率來(lái)說(shuō),讀秀庫(kù)的全文數(shù)據(jù)比萬(wàn)方庫(kù)高。
讀秀庫(kù)的結(jié)果篩選方便易操作,在用戶(hù)檢索某一類(lèi)型文獻(xiàn)時(shí),系統(tǒng)自動(dòng)將其他所有類(lèi)型文獻(xiàn)執(zhí)行相同檢索,在同一界面顯示。檢索結(jié)果可以通過(guò)左側(cè)的年代、學(xué)科、期刊名、期刊種類(lèi)篩選,或右側(cè)的匹配方式和排序方式篩選。
萬(wàn)方庫(kù)的結(jié)果篩選只有兩種方式:年份和學(xué)科兩大類(lèi)。萬(wàn)方數(shù)據(jù)庫(kù)對(duì)于入庫(kù)文獻(xiàn)的充分組織和標(biāo)引,保證較高的檢索準(zhǔn)確率,結(jié)果僅作基本篩選即可滿(mǎn)足需求。讀秀庫(kù)的檢索功能無(wú)法達(dá)到較高檢準(zhǔn)率時(shí),必須依靠強(qiáng)大的結(jié)果篩選功能才能保證檢索結(jié)果可視化。
讀秀庫(kù)的文獻(xiàn)獲取方式多樣,主要方式為“圖書(shū)館文獻(xiàn)傳遞”,輸入接收電子郵箱和驗(yàn)證碼即可,系統(tǒng)自動(dòng)將文獻(xiàn)發(fā)送郵箱。這種獲取方式規(guī)避了未知數(shù)量的用戶(hù)點(diǎn)擊鏈接自主批量下載的法律風(fēng)險(xiǎn),我國(guó)信息網(wǎng)絡(luò)傳播權(quán)規(guī)定在電子文獻(xiàn)通過(guò)網(wǎng)絡(luò)一對(duì)一傳遞的情況下,屬于合理適用范圍。其他獲取方式還有文獻(xiàn)互助、本地館藏信息、網(wǎng)絡(luò)書(shū)店信息推送。萬(wàn)方的獲取方式只有一種,即點(diǎn)擊相應(yīng)鏈接下載。
數(shù)據(jù)庫(kù)對(duì)文獻(xiàn)組織和知識(shí)加工的目的在于有序揭示文獻(xiàn)資源,并建立一個(gè)簡(jiǎn)潔明了、便于使用的檢索系統(tǒng)。一方面,文獻(xiàn)經(jīng)過(guò)深加工與挖掘,需要配備相應(yīng)良好功能的檢索系統(tǒng),讓研究人員在不同檢索過(guò)程中深刻體驗(yàn)到系統(tǒng)數(shù)據(jù)加工的有序性和檢索功能的易用性。另一方面,對(duì)文獻(xiàn)的標(biāo)引深度、有序組織程度和知識(shí)挖掘程度影響研究人員對(duì)文獻(xiàn)和文獻(xiàn)間知識(shí)關(guān)聯(lián)的理解程度?!?〕按照知識(shí)挖掘深度,本文把數(shù)據(jù)庫(kù)組織程度分為如下幾個(gè)層次:
①一維組織是指對(duì)大量文獻(xiàn)有序的收納入庫(kù),這個(gè)“序”可能是文獻(xiàn)入藏的序列號(hào),所有文獻(xiàn)按照序號(hào)排列形成一維組織空間。一維空間是一條直線(xiàn),決定直線(xiàn)長(zhǎng)度的即文獻(xiàn)量的多少,對(duì)一維組織空間里的文獻(xiàn)進(jìn)行檢索稱(chēng)為一維檢索空間,特征是只有一條X軸,數(shù)據(jù)按序列號(hào)順排查找。從本質(zhì)講,維度組織空間和維度檢索空間是同一空間,每個(gè)坐標(biāo)軸和軸上的刻度、量才是一樣的,每條軸對(duì)應(yīng)一個(gè)檢索字段。標(biāo)引人員使用則稱(chēng)為組織空間,檢索人員使用則稱(chēng)為檢索空間。②二維組織在一維組織的基礎(chǔ)上,對(duì)入藏文獻(xiàn)的外部特征進(jìn)行二次標(biāo)引和組織,外部特征主要有著者姓名、出版者、文獻(xiàn)題名、出版日期,增加檢索字段即增加一條軸,同時(shí)增加檢索維度形成二維檢索空間。二維空間是一個(gè)平面,特征是有兩條坐標(biāo)軸:X軸和Y軸。③三維組織在二維組織的基礎(chǔ)上,增加標(biāo)引深度同時(shí)也增加了檢索維度,在這一維的組織中,通常使用的組織方法是對(duì)文獻(xiàn)內(nèi)容特征進(jìn)行挖掘,主要有關(guān)鍵詞、主題詞的標(biāo)引、賦予分類(lèi)號(hào)。三維空間是一個(gè)立體空間。④四維組織利用文獻(xiàn)間內(nèi)容的關(guān)聯(lián),諸如文獻(xiàn)與文獻(xiàn)的引證與被印證關(guān)系、科技查新對(duì)比尋求空間里點(diǎn)對(duì)點(diǎn)(點(diǎn)指代某篇文獻(xiàn))的關(guān)系,組織成四維檢索空間。⑤五維組織主要是知識(shí)發(fā)現(xiàn)與趨勢(shì)預(yù)測(cè)技術(shù),尋求點(diǎn)對(duì)面(面指代某個(gè)倒排文檔)、面對(duì)面的關(guān)系。例如用專(zhuān)利地圖分析A公司發(fā)展策略,檢索到某公司與其最大競(jìng)爭(zhēng)對(duì)手公司所發(fā)明的專(zhuān)利,并用相應(yīng)軟件平臺(tái)繪制兩家公司主要的技術(shù)分布和研發(fā)重點(diǎn)(見(jiàn)圖3)。圖中A圈區(qū)域表示A公司擁有專(zhuān)利的主題地形,B圈部分表示其競(jìng)爭(zhēng)對(duì)手擁有專(zhuān)利的主題地形,C圈區(qū)表示兩公司專(zhuān)利申請(qǐng)的空缺部分,可以看出對(duì)手在此領(lǐng)域中專(zhuān)利申請(qǐng)量較少,對(duì)A公司而言,可適當(dāng)考慮技術(shù)合作或并購(gòu)其對(duì)手,避免技術(shù)重復(fù)研發(fā)或因?qū)@Wo(hù)造成兩敗俱傷。這種利用深層知識(shí)挖掘支持決策、預(yù)測(cè)方向在信息咨詢(xún)中具有較大應(yīng)用價(jià)值。⑥多維組織。從一維空間到多維空間的組織,同時(shí)也是對(duì)文獻(xiàn)從定量分析到定性分析的過(guò)程,使得雜亂無(wú)序的文獻(xiàn)庫(kù)從線(xiàn)到面、從面到體,逐漸可視化?!?〕而研究人員在研究過(guò)程中的文獻(xiàn)需求,正符合這個(gè)由線(xiàn)到體逐漸細(xì)化的特征:研究之初,科研人員需要研讀大量文獻(xiàn),逐漸確定研究結(jié)構(gòu)后,從文獻(xiàn)需求過(guò)渡到知識(shí)需求,這個(gè)知識(shí)需求的滿(mǎn)足可能就是某篇文章里的幾句話(huà)對(duì)作者的啟發(fā)。
圖3 兩家公司專(zhuān)利分布地形圖〔3〕
讀秀庫(kù)的特色:①讀秀中文圖書(shū)資源不僅擁有超星數(shù)字圖書(shū)館公司所支持的海量書(shū)籍資源,同時(shí)聯(lián)合成員館實(shí)地館藏目錄和網(wǎng)上大型書(shū)店的圖書(shū)目錄。揭示資源在各館分布情況,保障使用者多種途徑獲取文獻(xiàn)。②可以大幅深入全文的知識(shí)點(diǎn)查找,提高檢全率;比如在圖書(shū)章節(jié)中,某段話(huà)中陳述的一個(gè)結(jié)論、提出的新名詞或關(guān)于研究的發(fā)展方向,這些新知識(shí)點(diǎn)雖還未成系統(tǒng)的在論文或?qū)V姓撌?,但很可能成為研究之初最寶貴的資料。需要檢索關(guān)于某主題在公開(kāi)發(fā)表文獻(xiàn)中最早的資料,可以通過(guò)讀秀學(xué)術(shù)搜索引擎檢索知識(shí)點(diǎn),不僅可以查找到專(zhuān)門(mén)、系統(tǒng)論述的文獻(xiàn),還可以查找到隱藏在文獻(xiàn)內(nèi)容之間的起源知識(shí)點(diǎn)。③全文獲取率高,系統(tǒng)根據(jù)用戶(hù)郵箱自動(dòng)將所需文獻(xiàn)發(fā)送至用戶(hù)郵箱。④實(shí)現(xiàn)一站式檢索,輸入一個(gè)關(guān)鍵詞,檢索結(jié)果包涵了25種類(lèi)型的文獻(xiàn)。
萬(wàn)方庫(kù)的特色:①?gòu)V博的外文文獻(xiàn)庫(kù)保證了科研人員查找外文資料的信息需求。②包涵專(zhuān)利數(shù)據(jù)庫(kù)、科技成果數(shù)據(jù)庫(kù)、中外標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的科技信息庫(kù)成為萬(wàn)方庫(kù)資源的最大特色。③數(shù)據(jù)庫(kù)對(duì)文獻(xiàn)進(jìn)行精確的標(biāo)引,加深數(shù)據(jù)標(biāo)引程度的同時(shí)對(duì)文獻(xiàn)間的知識(shí)關(guān)聯(lián)漸進(jìn)可視化。④檢索功能強(qiáng)大,多字段檢索入口保證用戶(hù)快速準(zhǔn)確查找到空間內(nèi)某節(jié)點(diǎn)文獻(xiàn)。
因此,擁有龐大的資源量但未配備強(qiáng)大、深入、可視化的檢索系統(tǒng),使得讀秀庫(kù)像平面一樣在二維檢索空間無(wú)限伸展,大量資源只能以單個(gè)特征存在于這個(gè)平面上,無(wú)法立體化展示點(diǎn)對(duì)點(diǎn)(某篇文獻(xiàn)與文獻(xiàn)或知識(shí)點(diǎn)與知識(shí)點(diǎn))的關(guān)系、點(diǎn)對(duì)面(文獻(xiàn)與某個(gè)倒排文檔或知識(shí)點(diǎn)與所有文獻(xiàn))的關(guān)系以及面對(duì)面(知識(shí)的深層挖掘)的關(guān)系。如果把擁有海量資源但標(biāo)引未延伸到立體、可視化深度的讀秀庫(kù)比作二維檢索空間,那么萬(wàn)方庫(kù)則可稱(chēng)為多維檢索空間。多維首先體現(xiàn)在檢索入口的多樣化,雖然資源量少但質(zhì)量高,經(jīng)過(guò)數(shù)據(jù)庫(kù)組織人員的重新標(biāo)引和逐步知識(shí)間關(guān)聯(lián)挖掘,使得使用者在數(shù)據(jù)庫(kù)中多維(一個(gè)維即一個(gè)倒排文檔的檢索入口)、多坐標(biāo)定位檢索精準(zhǔn)至某個(gè)文獻(xiàn)?!?〕
高檢全率的讀秀庫(kù)和高檢準(zhǔn)率的萬(wàn)方庫(kù)以其各自的特色為科研人員提供了不同廣度和深度的信息服務(wù)。海量資源以平面空間分布為特征、附帶便捷獲取方式的讀秀庫(kù)為科研人員在初期研究提供了廣泛、全面搜羅學(xué)術(shù)資源、網(wǎng)絡(luò)資源和館藏資源的平臺(tái);精質(zhì)資源以立體空間分布為特征、深入挖掘知識(shí)關(guān)聯(lián)的萬(wàn)方庫(kù)為研究人員提供了深層標(biāo)引、準(zhǔn)確定位科技信息和知識(shí)的平臺(tái)。讀秀庫(kù)在發(fā)揮其廣博資源量的基礎(chǔ)上,應(yīng)該強(qiáng)化系統(tǒng)的檢索功能和標(biāo)引深度,對(duì)于龐大的數(shù)據(jù)庫(kù),可以嘗試自動(dòng)標(biāo)引輔以人工修正標(biāo)引的方式進(jìn)行,加深知識(shí)關(guān)聯(lián)和數(shù)據(jù)挖掘。萬(wàn)方庫(kù)務(wù)必完善全文獲取途徑,在使用高檢準(zhǔn)率的檢索系統(tǒng)時(shí),檢索結(jié)果如果只是題錄信息,亦是使用者不希望看到的。數(shù)據(jù)庫(kù)的建設(shè)一方面需要包涵充足的資源,另一方面要加深文獻(xiàn)標(biāo)引和文獻(xiàn)間知識(shí)關(guān)聯(lián)的挖掘,為科研人員提供可操作的知識(shí)發(fā)現(xiàn)平臺(tái)。
1.肖滬衛(wèi).專(zhuān)利地圖方法與應(yīng)用.上海:上海交通大學(xué)出版社,2011:337-338
2.湯梅.主要國(guó)際性學(xué)術(shù)搜索引擎的比較分析.中國(guó)科技期刊研究,2011(3):385-387
3.L.Ermann1,A.D.Towards Two - dimensional Search Engines.Journal of Physics A,2012(27):275-297
4.Qinghua Zhu.Using a Delphi method and the analytic hierarchy process to evaluate Chinese search engines A case study on Chinese search engines.Online Information Review,2011(6):942 -956
5.Koutsoudis,A .3DSSE -A 3D Scene Search Engine Exploring 3D scenes using keywords.Journal Of Cultural Heritage ,2011(2):187 -194