鄭楊 石進(jìn)
摘?要:[目的/意義]知識經(jīng)濟(jì)時代,學(xué)者的同領(lǐng)域及跨領(lǐng)域合作已成為普遍現(xiàn)象。但知識需求者在搜集相關(guān)領(lǐng)域?qū)W者信息時往往會碰壁,因此,急需構(gòu)建完善的學(xué)者智能目錄體系,促進(jìn)知識主體之間的合作。[方法/過程]分析現(xiàn)有學(xué)者目錄構(gòu)建研究和學(xué)者信息檢索工具的利弊及其對構(gòu)建學(xué)者目錄的啟示;為學(xué)者智能目錄體系的構(gòu)建提出建議。[結(jié)果/結(jié)論]學(xué)者智能目錄體系相對于傳統(tǒng)的學(xué)者信息檢索工具,具有以用戶為中心、優(yōu)化知識管理模式等優(yōu)勢,促進(jìn)了知識主體之間的合作,實(shí)現(xiàn)雙贏。
關(guān)鍵詞:人工智能;學(xué)者目錄體系;信息組織;知識管理
DOI:10.3969/j.issn.1008-0821.2021.02.005
〔中圖分類號〕G257;TP18?〔文獻(xiàn)標(biāo)識碼〕A?〔文章編號〕1008-0821(2021)02-0042-13
Abstract:[Purpose/Significance]In the era of knowledge economy,cross-domain cooperation among scholars has become a common phenomenon.However,knowledge demanders often run into a wall when collecting information about scholars in related fields.Therefore,it is urgent to build a perfect intellectual catalog system for scholars to promote cooperation among knowledge subjects.[Method/Process]Analyzing the advantages and disadvantages of existing scholars'?information retrieval tools and its enlightenment to the construction of scholars'?catalogue,this paper put forward some suggestions for the construction of intelligent catalog system for scholars.[Results/Conclusion]It is necessary and feasible to construct an intelligent directory system for scholars,which is conducive to the cross-domain cooperation among knowledge subjects and to achieve a win-win situation.
Key words:artificial intelligence;bibliography system for scholars;organization of information;knowledge management
知識經(jīng)濟(jì)時代,以共贏為導(dǎo)向的同領(lǐng)域和跨領(lǐng)域合作現(xiàn)象已越來越普遍。以高校為例,高校學(xué)者與企業(yè)的產(chǎn)業(yè)合作以及不同課題組成員間的跨領(lǐng)域合作程度不斷深化,這使得知識主體之間的聯(lián)系日益密切。隨著信息化時代的腳步不斷推進(jìn),學(xué)者信息在互聯(lián)網(wǎng)上的公開度不斷提升,信息需求者能夠快速了解特定領(lǐng)域?qū)W者的相關(guān)資料,這進(jìn)一步推動了知識主體之間的合作。
現(xiàn)有的學(xué)者信息來源途徑包括以學(xué)者名錄、人物傳記、學(xué)者個人主頁、人物信息搜索引擎等為代表的信息檢索工具。諸如“中國科學(xué)家在線”“AMiner”“Wilson人物傳記圖文數(shù)據(jù)庫”“Gale著名傳記數(shù)據(jù)庫”等學(xué)者信息檢索工具的推出,實(shí)現(xiàn)了學(xué)者信息的多維度展示,促成了知識需求者與學(xué)者之間的溝通。
然而,目前所存在的這些學(xué)者信息檢索工具存在諸多弊端:只是將學(xué)者的基本信息進(jìn)行簡單羅列,缺乏對學(xué)者信息的結(jié)構(gòu)化、全方位、立體化組織,無法切實(shí)推動知識需求者與學(xué)者之間的合作;人物傳記工具書上關(guān)于被傳者的資料主要是以頌揚(yáng)為主,有的材料是被傳者本人按統(tǒng)一的格式直接提供的,有的包含政治偏見,其客觀性和準(zhǔn)確性需要仔細(xì)審視,需要與其他材料對比、分析,才能做出比較公正的判斷[1];同一學(xué)者存在多個個人主頁,更新不同步,導(dǎo)致單個主頁揭示的學(xué)者信息較為片面;人物搜索引擎多為收費(fèi)性質(zhì),公開度低,無法平衡好涉及學(xué)者隱私保護(hù)與學(xué)者信息公開的矛盾問題。
為了解決上述問題,本文創(chuàng)新性地提出了學(xué)者智能目錄體系的構(gòu)建設(shè)想。學(xué)者智能目錄體系從信息需求者的角度出發(fā),以非結(jié)構(gòu)化的學(xué)者信息為基礎(chǔ),通過信息收集、信息分析、信息著錄、信息標(biāo)引、信息排檢,將雜亂無章的原始學(xué)者信息進(jìn)行組織,構(gòu)建一個有序的、優(yōu)質(zhì)的信息集成平臺。學(xué)者智能目錄體系的目標(biāo)是為信息需求者提供特定領(lǐng)域?qū)W者的信息,促成知識主體之間的同領(lǐng)域或跨領(lǐng)域合作,實(shí)現(xiàn)共贏。
1?相關(guān)研究工作
學(xué)者是指掌握某一研究領(lǐng)域的學(xué)識、能表達(dá)具有學(xué)術(shù)影響力的觀點(diǎn)、能提出學(xué)術(shù)見解的人。雖然國內(nèi)學(xué)術(shù)界對于學(xué)者目錄的研究起步較早,但研究量不足、研究的深度也不夠?,F(xiàn)有的學(xué)者信息來源途徑包括以學(xué)者名錄、人物傳記、學(xué)者個人主頁、人物信息搜索引擎等為代表的信息檢索工具。
1.1?學(xué)者目錄相關(guān)研究
我國對于學(xué)者目錄的研究可以大致分為單一學(xué)者信息描述和多維度刻畫兩個階段。單一學(xué)者信息描述階段的學(xué)者目錄構(gòu)建可以追溯到1993年,張京生等編纂了回族學(xué)者、史學(xué)家楊志玖先生的著述目錄[2],這一階段的學(xué)者目錄編纂特點(diǎn)是以成文形式概述了學(xué)者的成長軌跡,內(nèi)容記載詳細(xì)、全面,但目錄所記載的內(nèi)容單一、體系紊亂,信息精確度也有待考證。
到了21世紀(jì),學(xué)者目錄的發(fā)展步入多維度刻畫階段,目錄在囊括學(xué)者生平、學(xué)者學(xué)術(shù)成果等基礎(chǔ)信息之上,加入了對學(xué)者的學(xué)術(shù)評價以及各維度指標(biāo)體系的衡量。張前從學(xué)者業(yè)績與境界層面豐富了《岸邊成雄博士業(yè)績目錄》一書的內(nèi)涵[3];李相勛構(gòu)建了韓國船山學(xué)學(xué)者研究成果目錄[4]。目錄所包含的內(nèi)容呈現(xiàn)出多元化的趨勢,信息的精度也有所提升,目錄致用性也有所改善,但目錄的編目維度依舊雜亂,用戶在查找學(xué)者相關(guān)屬性信息時依舊耗時久、效率低。
上述弊端的暴露,表明現(xiàn)存的學(xué)者信息檢索工具無法滿足知識需求者的需要,急需構(gòu)建一個完善的學(xué)者智能目錄平臺來對學(xué)者信息進(jìn)行整合。
1.2?學(xué)者信息檢索工具發(fā)展現(xiàn)狀
隨著信息技術(shù)的發(fā)展,目前用戶對于學(xué)者相關(guān)信息的搜集主要借助于在線學(xué)者信息檢索工具。學(xué)者信息檢索工具的形式多樣,主要包括學(xué)者名錄、人物傳記、學(xué)者個人主頁、人物信息搜索引擎。學(xué)者信息檢索工具為用戶提供了查找關(guān)于人物生平、研究領(lǐng)域、科研成果等方面信息的途徑。
1.3?智能目錄體系發(fā)展
1.3.1?目錄學(xué)發(fā)展的趨勢
大數(shù)據(jù)時代,人工智能技術(shù)的廣泛使用賦予目錄學(xué)全新的時代意義。目錄學(xué)已不單純只是“辨章學(xué)術(shù),考鏡源流”的工具,當(dāng)代目錄學(xué)呈現(xiàn)出數(shù)字化、智能化、全面化和實(shí)用化的研究發(fā)展趨勢,鐵路物資目錄、醫(yī)療大數(shù)據(jù)目錄、地質(zhì)資源目錄等新型目錄體系的出現(xiàn),在進(jìn)一步擴(kuò)大現(xiàn)代目錄學(xué)學(xué)科邊緣的同時,也凸顯出我國目錄學(xué)發(fā)展的實(shí)用性。目錄學(xué)處理的對象也從傳統(tǒng)的文字信息轉(zhuǎn)換為電子信息資源,王蕾等認(rèn)為信息的精準(zhǔn)提取、搜索的快捷方便、信息的有效控制、資源的服務(wù)共享、知識的存儲提取等已成為當(dāng)代目錄學(xué)研究的重點(diǎn)[5]。
新時代下目錄學(xué)與網(wǎng)絡(luò)資源研究的結(jié)合也更加密切,目錄學(xué)的功能拓寬到了智能檢索、個性化推薦等方面,數(shù)字目錄學(xué)的應(yīng)用可以為網(wǎng)絡(luò)信息資源提供導(dǎo)航與評價[6],超文本、搜索引擎、指引庫技術(shù),以及內(nèi)容方面的元數(shù)據(jù)和圖書館編目與目錄學(xué)的關(guān)聯(lián)性也越來越強(qiáng)[7]。
1.3.2?智能目錄學(xué)研究工作
智能目錄學(xué)作為傳統(tǒng)目錄學(xué)與人工智能技術(shù)結(jié)合的產(chǎn)物,已逐漸成為當(dāng)代目錄學(xué)的一個研究熱點(diǎn)。智能目錄學(xué)的研究起源于20世紀(jì)末,這一階段的顯著特征是數(shù)字技術(shù)在目錄學(xué)領(lǐng)域得到了廣泛的應(yīng)用,具有代表性的成果包括美國圖書館公司于1987年研發(fā)了一款作用于多感官、配有聲音及圖像信息、帶有人工智能軟件的BiblioFile新型智能目錄[8];中央檔案館于1992年研發(fā)了《計(jì)算機(jī)檔案資料管理智能軟件系統(tǒng)及革命歷史檔案目錄數(shù)據(jù)庫》并獲得國家級科技進(jìn)步獎[9]。
到了21世紀(jì),智能目錄學(xué)步入快速發(fā)展階段,這一階段的特征是目錄學(xué)與電子商務(wù)、消費(fèi)者行為學(xué)的研究緊密相關(guān)。這一階段的相關(guān)成果主要包括:丁峰提出了一套完整的基于本體映射的電子目錄智能服務(wù)體系,同時設(shè)計(jì)了電子目錄以及相應(yīng)的本體映射關(guān)系描述方法和存儲方法[10];陸楠等開發(fā)了基于商業(yè)智能興趣度的顧客目錄分割算法,實(shí)現(xiàn)了面向不同顧客的目錄個性化定制服務(wù)[11];席磊等緊隨其后,構(gòu)建了一套基于個性化特征的無公害農(nóng)產(chǎn)品目錄智能服務(wù)系統(tǒng),將個性化目錄定制的理論付諸實(shí)踐[12]。
雖然目前已存在大量智能目錄產(chǎn)品,但是對于智能目錄理論體系的研究依舊缺乏,對于智能目錄學(xué)的定義、作用、功能和構(gòu)建學(xué)術(shù)界尚未形成共識。石進(jìn)等率先給出了智能目錄工作的定義,智能目錄工作指應(yīng)用計(jì)算機(jī)、大數(shù)據(jù)、人工智能等技術(shù)提高索引、文摘、參考咨詢等工作的效率并盡量滿足工作人員和用戶的各種需求[13]。
在此基礎(chǔ)之上,本研究給出學(xué)者智能目錄體系的定義:從信息需求者的角度出發(fā),以非結(jié)構(gòu)化的學(xué)者信息為基礎(chǔ),應(yīng)用計(jì)算機(jī)、大數(shù)據(jù)、人工智能等技術(shù),通過信息收集、信息分析、信息著錄、信息標(biāo)引、信息排檢,將雜亂無章的原始學(xué)者信息進(jìn)行組織,從而構(gòu)建的一個有序的、優(yōu)質(zhì)的信息集成平臺。
相較于傳統(tǒng)的學(xué)者目錄,學(xué)者智能目錄體系的創(chuàng)新點(diǎn)主要包含以下幾點(diǎn):從用戶需求出發(fā),完善學(xué)者的社交網(wǎng)絡(luò)圖,將學(xué)者各個維度的信息進(jìn)行自動關(guān)聯(lián),以便給予知識需求者一個直觀的概念;建立更為完善、合理的學(xué)者學(xué)術(shù)評價體系,供知識需求者進(jìn)行篩選,并提供相似學(xué)者的推薦;量化學(xué)者的合作偏好度,幫助知識需求者以較快的效率找到合適的學(xué)者。
2?學(xué)者智能目錄體系的功能
學(xué)者智能目錄體系在功能方面與傳統(tǒng)的學(xué)者信息檢索工具有本質(zhì)區(qū)別。傳統(tǒng)的學(xué)者信息檢索工具以提供學(xué)者基本信息為主要功能,對于用戶來說附加值低、實(shí)用性差;而學(xué)者智能目錄體系以合作為導(dǎo)向,通過提供學(xué)者信息檢索、學(xué)者推薦、學(xué)科導(dǎo)覽、學(xué)者信息導(dǎo)讀、學(xué)者信息關(guān)聯(lián)、學(xué)術(shù)評價等功能,提升信息需求者的檢索滿意度,拉近知識主體之間的距離。
2.1?信息檢索
與傳統(tǒng)目錄檢索系統(tǒng)相比,學(xué)者智能目錄系統(tǒng)的信息檢索功能更具高效性,其高效性體現(xiàn)在高效的信息著錄、標(biāo)引與排檢過程和高效的檢索語言兩個層面。
1)高效的信息著錄、標(biāo)引與排檢過程:基于RDF模型的元數(shù)據(jù)描述框架能夠使學(xué)者信息的著錄更為概念化和直觀化,以XML作為RDF數(shù)據(jù)模型的語法,能通過非常規(guī)則的方式表達(dá)數(shù)據(jù)模型的全部功能,使描述數(shù)據(jù)的語法形式更為簡潔;借助語義網(wǎng)技術(shù),在涉及學(xué)者相關(guān)信息資源主題詞主動標(biāo)引的過程中,結(jié)合主題詞表的分類體系構(gòu)建語義網(wǎng),對標(biāo)引過程中所得到的主題詞在語義網(wǎng)框架下進(jìn)行語義邏輯推理,得到具有語義意義的標(biāo)引詞;智能目錄體系將以搜索引擎的形式呈現(xiàn)給用戶,綜合運(yùn)用PageRankTM技術(shù)、超文本匹配分析技術(shù)和內(nèi)容相關(guān)度評價技術(shù),并基于信息關(guān)鍵詞的排檢能夠?qū)W(xué)者各種信息有序存儲在信息系統(tǒng)、方便用戶檢索。
2)高效的檢索語言:與傳統(tǒng)學(xué)者名錄檢索工作相比,學(xué)者智能目錄在檢索語言上可以支持自然語言檢索、多媒體檢索和超文本檢索,以實(shí)現(xiàn)對文字、圖像、視頻和音頻的檢索,進(jìn)一步提升了用戶友好性。
2.2?學(xué)者推薦
學(xué)者智能目錄以促進(jìn)知識主體之間的跨領(lǐng)域合作為構(gòu)建目的。為響應(yīng)用戶的合作需求,目錄將學(xué)者合作偏好度的考量融入學(xué)者推薦功能模塊,以促成知識需求者與學(xué)者之間的合作為導(dǎo)向,實(shí)現(xiàn)相關(guān)學(xué)者的推薦。
學(xué)者合作偏好度能用來衡量學(xué)者與他人在科研或工程項(xiàng)目等方面進(jìn)行合作的喜好程度[14]。構(gòu)建學(xué)者合作偏好度指標(biāo)體系,能夠量化學(xué)者的合作喜好程度,幫助知識的需求者精準(zhǔn)、高效地找到相關(guān)領(lǐng)域的專家,促成合作。我們可以通過用戶需求與學(xué)者研究領(lǐng)域相似度、學(xué)者的H指數(shù)、論文合著情況等指標(biāo)來量化學(xué)者合作偏好度,具體可見本文第3章中的詳細(xì)描述。
2.3?學(xué)科導(dǎo)覽
不同于傳統(tǒng)學(xué)者名錄的信息展示方式,學(xué)者智能目錄以演化趨勢圖的形式將學(xué)科的發(fā)展脈絡(luò)呈現(xiàn)給使用者,這大大地提升了信息的可塑性與價值性,起到了開化的作用。通過對學(xué)者信息中相關(guān)知識資源的挖掘、分析、總結(jié)與關(guān)聯(lián),能夠?qū)?nèi)含的隱性知識外化,構(gòu)建起學(xué)科內(nèi)各個學(xué)者群的關(guān)聯(lián)脈絡(luò)體系。具體可以表現(xiàn)為運(yùn)用知識圖譜、語義分析、聚類分析等文本處理技術(shù),從現(xiàn)有的學(xué)者知識資源中歸納、總結(jié)、研究某個領(lǐng)域內(nèi)學(xué)者的關(guān)系,辨識出具有高學(xué)術(shù)影響力的學(xué)者,并對學(xué)科的演進(jìn)趨勢和研究發(fā)展方向做出預(yù)測,揭示學(xué)科前沿趨勢。
2.4?學(xué)者信息導(dǎo)讀
學(xué)者智能目錄能夠?yàn)橛脩籼峁﹥?yōu)質(zhì)化的學(xué)者信息導(dǎo)讀,剔除了冗余、過時信息對用戶檢索效果的影響。為剔除冗余信息的影響,學(xué)者智能目錄將結(jié)合大數(shù)據(jù)技術(shù)從源頭對收錄的信息進(jìn)行篩選、清洗和評估,以挖掘出高質(zhì)量、高附加值的學(xué)者信息。為保證學(xué)者信息的時效性,學(xué)者智能目錄體系的構(gòu)建需要引入高效的觸發(fā)器機(jī)制與更新機(jī)制。觸發(fā)器最早是一種應(yīng)用在數(shù)字電路上具有記憶功能的循序邏輯元器件[15]。
在學(xué)者智能目錄體系構(gòu)建的過程中,學(xué)者信息是多維度、多變的,學(xué)者信息的更改會刺激觸發(fā)器使之產(chǎn)生新的脈沖,提醒平臺進(jìn)行信息的更新。此外,針對傳統(tǒng)學(xué)者信息檢索工具所暴露出的信息重復(fù)收集、收錄不精確、回溯性差等問題,學(xué)者智能目錄體系引入高效的溯源機(jī)制。受區(qū)塊鏈技術(shù)的啟發(fā),學(xué)者智能目錄體系將引入去中心化、可溯源性的數(shù)據(jù)存儲模式,構(gòu)建一套適合科研行為溯源的模型及方法。
2.5?學(xué)者信息關(guān)聯(lián)
在學(xué)者信息獲取過程中,受信息渠道非單一的影響,獲取的學(xué)者信息通常具有異構(gòu)性、多樣性、大規(guī)模等特征,同一用戶在不同數(shù)據(jù)源中的信息關(guān)聯(lián)成為了學(xué)者智能目錄體系構(gòu)建過程中的重點(diǎn)。
目前,國內(nèi)外主流的身份關(guān)聯(lián)方法可分為基于表示學(xué)習(xí)的方法和基于身份匹配的方法?;诒硎緦W(xué)習(xí)的方法是指在對學(xué)者信息進(jìn)行特征抽取的基礎(chǔ)之上,以映射的形式表示相關(guān)信息,從而判斷信息是否關(guān)聯(lián),常見的基于表示學(xué)習(xí)方法有基于網(wǎng)絡(luò)結(jié)構(gòu)與嵌入式的方法、無監(jiān)督式方法、基于特征建模方法等;基于身份匹配的方法是指利用概率模型,結(jié)合學(xué)者姓名、工作機(jī)構(gòu)、論文、專利等信息,計(jì)算用戶的相似度及身份關(guān)聯(lián)概率,從而實(shí)現(xiàn)學(xué)者信息的關(guān)聯(lián),常見的基于身份匹配的方法有基于用戶名與用戶頭像方法、基于多種屬性方法、基于拓?fù)浣Y(jié)構(gòu)方法等。
上述兩種身份關(guān)聯(lián)技術(shù)都有各自的優(yōu)缺點(diǎn)。基于表示學(xué)習(xí)的方法普適性強(qiáng),能夠綜合考慮學(xué)者的科研偏好,緩解由于學(xué)者信息量不足帶來的關(guān)聯(lián)不當(dāng)問題,但是該方法會受先驗(yàn)知識的影響,信息特征抽取方式的優(yōu)劣直接影響關(guān)聯(lián)效果;基于身份匹配的方法利用學(xué)者信息中相對獨(dú)特和穩(wěn)定的數(shù)據(jù),能夠緩解先驗(yàn)知識不足帶來的影響,但該方法的擴(kuò)展性能差,普適性差,對應(yīng)用領(lǐng)域的要求較為苛刻。
綜上,基于表示學(xué)習(xí)的方法和基于身份匹配的方法均有各自的優(yōu)缺點(diǎn),各方法之間可以彌補(bǔ)各自的不足,因此在實(shí)現(xiàn)學(xué)者信息關(guān)聯(lián)功能時可以將兩種方法組合使用。
2.6?學(xué)術(shù)評價
智能目錄系統(tǒng)的用戶由于缺乏專業(yè)知識,對于如何選擇合作對象,相似學(xué)者如何進(jìn)行區(qū)別和選擇,往往無從下手。在這種情況下就需要考慮引入學(xué)者學(xué)術(shù)評價功能。
學(xué)術(shù)評價是綜合運(yùn)用定性或定量的研究方法,對學(xué)術(shù)實(shí)體之間在理論和實(shí)踐角度相互影響程度的度量。定性方法以同行評議法最為普遍,學(xué)術(shù)大國多以同行評議作為學(xué)術(shù)界認(rèn)同的主要評價方式,同行評議法具有一定的權(quán)威性和專業(yè)性,某種程度上更加規(guī)范和嚴(yán)謹(jǐn),但該方法對評審專家的學(xué)術(shù)水平要求較高,且?guī)в休^強(qiáng)的主觀性[16]。定量方法就是構(gòu)建一套文獻(xiàn)計(jì)量指標(biāo)體系,學(xué)者的學(xué)術(shù)影響力進(jìn)行量化,常用的定量指標(biāo)有發(fā)文數(shù)量、被引數(shù)量、H因子、G因子、皇冠指數(shù)等,但是定量分析方法存在未區(qū)分不同層次學(xué)術(shù)期刊發(fā)文難度與被引難度、未區(qū)分不同領(lǐng)域發(fā)文和被引難度等問題。因此,急需構(gòu)建一套完善、公平的學(xué)者學(xué)術(shù)水平評價機(jī)制。
學(xué)者智能目錄體系擬將學(xué)術(shù)均衡理論引入學(xué)術(shù)評價研究,以求相對公平地評價研究者的學(xué)術(shù)水平。所謂的學(xué)術(shù)均衡價值度理論,是指充分考慮了每位學(xué)者的論文發(fā)文數(shù)量、對單篇論文的貢獻(xiàn)程度、發(fā)文價值(即刊載期刊排名)和引用價值,經(jīng)過綜合計(jì)算后能夠量化出每位學(xué)者的學(xué)術(shù)價值度,以確保學(xué)術(shù)評價體系的可靠性、可行性與價值性。
圖1?基于均衡價值度的學(xué)者學(xué)術(shù)評價體系
3?學(xué)者智能目錄體系的構(gòu)建
本章首先展示學(xué)者智能目錄體系各個層級的構(gòu)建,再從學(xué)者信息采集標(biāo)準(zhǔn)、學(xué)者入選標(biāo)準(zhǔn)和學(xué)者科研合作偏好度量體系4個部分出發(fā),規(guī)范體系構(gòu)建的流程。
3.1?體系結(jié)構(gòu)介紹
學(xué)者智能目錄體系的構(gòu)建可以分為3個層級:學(xué)者信息收集層、學(xué)者信息處理層和學(xué)者信息應(yīng)用層。信息收集層的重點(diǎn)在于參照學(xué)者信息入選標(biāo)準(zhǔn),收集與學(xué)者相關(guān)的內(nèi)源式和外源式信息;信息處理層的主要工作是基于信息收集層所采集的學(xué)者信息通過預(yù)處理、分析與匯總構(gòu)建學(xué)者信息數(shù)據(jù)庫,對學(xué)者信息數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行著錄、標(biāo)引、索引和排檢,從而建成學(xué)者信息搜索引擎;應(yīng)用層著重于在學(xué)者信息搜索引擎平臺上實(shí)現(xiàn)學(xué)者信息檢索、學(xué)者推薦、學(xué)科導(dǎo)覽、學(xué)者信息導(dǎo)讀、學(xué)者信息關(guān)聯(lián)和學(xué)術(shù)評價6項(xiàng)功能。
3.2?學(xué)者信息采集標(biāo)準(zhǔn)
學(xué)者信息的來源包括內(nèi)源和外源兩種,內(nèi)源是指學(xué)者智能目錄平臺的用戶自己上傳的個人信息,這部分的信息真實(shí)度和可靠性高,但從自我角度出發(fā)往往缺乏對自身的客觀評價;外源主要是指外部數(shù)據(jù)庫。
學(xué)者智能目錄體系在構(gòu)建目標(biāo)和功能上與傳統(tǒng)學(xué)者目錄存在較大的差異,因此需要構(gòu)建一套適用于自身的信息采集標(biāo)準(zhǔn)。綜合前文學(xué)者智能目錄體系所要實(shí)現(xiàn)的功能,收錄的學(xué)者信息應(yīng)包括期刊維度的學(xué)者信息以及作者維度的學(xué)者信息。期刊維度的學(xué)者信息包括期刊載文量、期刊引用量、期刊影響因子和普萊斯指數(shù)等;作者維度的學(xué)者信息包括作者姓名、作者ID、作者所在機(jī)構(gòu)、發(fā)表論文數(shù)量、發(fā)表論文的被引頻次、H因子、G因子等。
3.3?學(xué)者入選標(biāo)準(zhǔn)
本著“求精舍全”的原則,體系在入選學(xué)者時需要遵循一定的標(biāo)準(zhǔn)。結(jié)合2.6中提及的均衡價值度模型,提出學(xué)術(shù)價值度的概念,用以考量待入選學(xué)者的科研貢獻(xiàn)。
學(xué)術(shù)價值度綜合考量了學(xué)者發(fā)文數(shù)量、論文貢獻(xiàn)、發(fā)文價值和引用價值。其中,發(fā)文數(shù)量衡量了
學(xué)者學(xué)術(shù)產(chǎn)出量,但光靠數(shù)量難以客觀反映學(xué)術(shù)價值,還需要結(jié)合其他維度的考量;論文貢獻(xiàn)反映學(xué)者對單篇論文的貢獻(xiàn),可以用作者排名加以區(qū)分;發(fā)文價值體現(xiàn)了論文的學(xué)術(shù)影響力及對學(xué)科的貢獻(xiàn)度,我們可以用刊登論文的期刊排名進(jìn)行衡量;引用價值論文在業(yè)界的認(rèn)可程度,可以利用引證文獻(xiàn)的來源期刊排名衡量。
因此得出了學(xué)者的學(xué)術(shù)價值度計(jì)算公式:
式(1)中n表示該學(xué)者的發(fā)文總數(shù)量。單篇論文的初試分值為1,作者貢獻(xiàn)、發(fā)文價值和引用價值對應(yīng)的取值情況如表3、表4所示。
通過上述計(jì)算公式可以計(jì)算出每位學(xué)者的學(xué)術(shù)價值度。通過學(xué)術(shù)價值度排序,能夠篩選出具有高學(xué)術(shù)影響度的學(xué)者納入學(xué)者智能目錄體系。
3.4?學(xué)者合作偏好度量體系
學(xué)者智能目錄體系的構(gòu)建目標(biāo)是促進(jìn)學(xué)者與知識需求者之間的合作。為量化學(xué)者科研合作偏好,構(gòu)建了基于層次分析法的指標(biāo)體系以及合作偏好度計(jì)算公式。
如表5所示,學(xué)者合作偏好可以從定性與定量兩個維度進(jìn)行考量,定性層面可以圍繞學(xué)者評職稱需求以及個人學(xué)術(shù)追求入手;定量層面可以從研究相似度、H指數(shù)、論文合著情況等入手。學(xué)者合作偏好度的計(jì)算公式可以歸納為:
其中f(x)=β1C1+β2C2+β3C3+C4,式(2)表示學(xué)者合作偏好度的量化計(jì)算公式,其中α、β1、β2、β3為調(diào)節(jié)因子,需要根據(jù)用戶的需求進(jìn)行調(diào)節(jié),C1表示用戶需求與學(xué)者研究領(lǐng)域的相似度,C2表示H指數(shù)除以該學(xué)者總發(fā)文量,C3表示論文合著率,C4為誤差項(xiàng)常量。
由上述公式計(jì)算得到的數(shù)值能直觀反映出學(xué)者的合作偏好,數(shù)值越大說明學(xué)者更傾向于與他人進(jìn)行合作,需求者謀求合作的成功率越高。合作偏好度量方便了信息需求者對檢得結(jié)果進(jìn)行篩選,提升了檢索效率。
4?學(xué)者智能目錄體系構(gòu)建的具體問題
學(xué)者智能目錄構(gòu)建了一套全新的學(xué)者信息檢索、導(dǎo)覽、關(guān)聯(lián)和評價體系,具備新穎性與價值性。學(xué)者智能目錄體系在構(gòu)建的過程中必然會面臨一系列的問題,具體包括海量學(xué)者數(shù)據(jù)的爬取與處理存在難度、同名學(xué)者消歧手段不成熟、信息展示技術(shù)欠佳等。
4.1?海量學(xué)者數(shù)據(jù)的抽取存儲
學(xué)者數(shù)據(jù)包括學(xué)者所發(fā)表的論文、申請的專利、個人信息、獎項(xiàng)成就等,如果要將所有學(xué)者數(shù)據(jù)全部抽取,那么數(shù)據(jù)量過于龐大。然而,若收錄的數(shù)據(jù)量過少,整個學(xué)者智能目錄體系的展示效果則會欠佳。因此,學(xué)者智能目錄體系應(yīng)當(dāng)事先對學(xué)者進(jìn)行分類,在收錄學(xué)者信息時針對不同類型的學(xué)者構(gòu)建不同的信息采集維度標(biāo)準(zhǔn),以規(guī)范體系數(shù)據(jù)庫的構(gòu)建。學(xué)者智能目錄體系本著“求精舍全”的原則,對相關(guān)領(lǐng)域內(nèi)的學(xué)者進(jìn)行篩選,入選學(xué)者應(yīng)當(dāng)滿足體系的入選標(biāo)準(zhǔn)。
借助網(wǎng)絡(luò)爬蟲和自動化腳本處理技術(shù),能夠?qū)崿F(xiàn)對海量學(xué)者數(shù)據(jù)的抓取與篩選。常見的網(wǎng)絡(luò)爬蟲框架包括Pyspider、Scrapy和Scrapy-splash,將學(xué)者信息抓取到后,借助自動化腳本實(shí)現(xiàn)入選學(xué)者的篩選。借助Redis關(guān)系型數(shù)據(jù)庫,完成了入選學(xué)者信息的存儲。
在建立學(xué)者信息索引結(jié)構(gòu)時,傳統(tǒng)的全文檢索存儲結(jié)構(gòu)是對信息字段中每一個詞建立索引,統(tǒng)計(jì)該詞在文章中出現(xiàn)的次數(shù)和位置。當(dāng)用戶鍵入檢索需求時,檢索程序擺弄根據(jù)事先建立的索引進(jìn)行查找,并將結(jié)果反饋給用戶。學(xué)者信息來源多樣、形式復(fù)雜,利用全文索引結(jié)構(gòu)存儲學(xué)者信息會耗用大量的存儲空間,不利于定期維護(hù)和更新,管理成本會大大提升。
因此,本研究引入倒排索引的存儲結(jié)構(gòu)。倒排索引是建立信息字段與信息字段所處文檔的對照關(guān)系,以便用戶從信息字段或檢索詞出發(fā)檢得所需要的信息。倒排索引存儲結(jié)構(gòu)更貼近信息需求者的檢索思路,也大大提升了信息的存儲效率,節(jié)省了大量內(nèi)存空間,提升了用戶的檢索效率。
4.2?同名學(xué)者消歧
海量的科研信息進(jìn)行作者的同名消歧是學(xué)者智能目錄體系構(gòu)建的重點(diǎn)和難點(diǎn),主要體現(xiàn)在:單篇文章的信息量有限,往往只有文章的作者名、題目、發(fā)表會議、期刊和發(fā)表時間。即便在文章中有關(guān)于作者基本信息的描述,但這些諸如學(xué)?;蚪M織機(jī)構(gòu)的信息會因?yàn)樽髡咦陨砺毼坏淖兓a(chǎn)生歧義。
學(xué)者同名消歧本質(zhì)上是關(guān)系發(fā)現(xiàn)的過程,將關(guān)系較強(qiáng)的學(xué)者聚為一類。學(xué)者同名消歧可分為同名異人的消歧和同人異名的消歧。其中同名異人消歧大致包括特征抽取、相似度計(jì)算和聚類3個步驟;同人異名消歧是在特征抽取前加入信息映射這一步驟,主要是為了將可能是同一學(xué)者別名下發(fā)表的學(xué)術(shù)成果均映射到一個模塊之上,再開展特征抽取、相似度計(jì)算和聚類的步驟。
學(xué)者智能目錄構(gòu)建過程中上述兩種消歧方式都會涉及,本文提出基于合作作者、隸屬機(jī)構(gòu)及出版物信息的綜合消歧方法,以提升排歧效果。如圖4所示,基于合作作者、隸屬機(jī)構(gòu)及出版物信息的綜合消歧方法將從論文數(shù)據(jù)重組開始。如圖5所示,原始的論文信息被分解為多條數(shù)據(jù),拆分后的每條數(shù)據(jù)對應(yīng)論文中的每一位著者。其中原始數(shù)據(jù)的一些關(guān)鍵字段被保留,具體包含作者的姓名、ID號、經(jīng)過正則化后的隸屬機(jī)構(gòu)和合著者列表等字段。首先,要判斷作者ID是否相同,若相同則歸為同一學(xué)者,消歧結(jié)束;若不同則進(jìn)行作者姓名的判斷。其次,若作者ID不同且作者姓名也不同,則歸為不同學(xué)者,消歧結(jié)束。最后,若作者ID不同但姓名相同,則將其列入待消歧作者集合,依次對集合內(nèi)作者的隸屬機(jī)構(gòu)、出版物、合作者進(jìn)行對比,通過文本相似度算法計(jì)算相似程度以此衡量兩者是同一人的可能性。
4.3?學(xué)者信息檢索與展示
如何從海量學(xué)者信息中檢索得到用戶所需要的信息,這是學(xué)者智能目錄必須要克服的難題。Elasticsearch引擎為改善學(xué)者信息的檢索效果提供了新方向。
Elasticsearch是一個實(shí)時的分布式搜索和分析引擎,建立在全文搜索引擎Apache Lucene基礎(chǔ)之上。4.1節(jié)中提到學(xué)者數(shù)據(jù)的索引方式是倒排索引,建立了學(xué)者信息字段與包含其信息的文檔列表的映射,再此基礎(chǔ)上建立的Elasticsearch引擎應(yīng)包含6個層面:應(yīng)用通信層、傳輸層、服務(wù)層、索引層、分布Lucene層和網(wǎng)關(guān)層。
應(yīng)用通信層通過Restful Style接口和Netty模塊實(shí)現(xiàn)Http和Netty兩種通信方式。傳輸層基于JMX管理擴(kuò)展模塊,實(shí)現(xiàn)Thrift、Memchached和Http等傳輸方式。服務(wù)層包括以Zen和EC2為主的服務(wù)發(fā)現(xiàn)模塊、知識mvel和js等語言的腳本語言模塊以及第三方插件模塊。索引層包括生成學(xué)者信息倒排索引的索引模塊、負(fù)責(zé)關(guān)鍵字查找和文檔獲取等功能的檢索模塊、負(fù)責(zé)索引文檔數(shù)據(jù)類型和域?qū)傩缘乃饕成淠K。分布式Lucene目錄層負(fù)責(zé)將多個索引段集中存儲,將每個索引段的詞典文件、詞頻文件、位置文件等包含在內(nèi)。網(wǎng)關(guān)層連接本地文件系統(tǒng)、HDFS文件系統(tǒng)等,同時負(fù)責(zé)文件的共享。
Elasticsearch相較于HBase等其他分布式數(shù)據(jù)存儲系統(tǒng)存在一定的優(yōu)勢。首先,分布式的存儲形式使得Elasticsearch具有更高的性能;其次,引擎所支持的接口更高級,支持的代碼語言種類也更多,便于后續(xù)的學(xué)者信息展示;再者,引擎的數(shù)據(jù)可用度高、集群度高,能夠支持PB級別的學(xué)者信息存儲。
為方便使用者進(jìn)一步了解相關(guān)領(lǐng)域的發(fā)展?fàn)顩r,體系在展示學(xué)者相關(guān)信息時,將采用關(guān)聯(lián)技術(shù)與可視化技術(shù),除了展示單個學(xué)者的學(xué)術(shù)信息外,也會顯示作者群、作者單位等方面的關(guān)聯(lián),以此提升信息的可讀性。
如圖7所示,通過檢索學(xué)者的姓名,可以獲取從該學(xué)者涉足科研領(lǐng)域年份起至今的科研成果展示圖,從圖中可以更為直觀地了解學(xué)者的整個成長軌跡、主要科研成果?;诔砷L演化圖的學(xué)者成長軌跡研究也利于做出杰出學(xué)者及相關(guān)科研成就的預(yù)測。
在使用學(xué)者智能目錄進(jìn)行學(xué)者信息檢索的過程中,使用者除了對學(xué)者的研究領(lǐng)域和科研興趣感興趣,也會想去關(guān)注行業(yè)內(nèi)部的科研熱點(diǎn)和發(fā)展趨勢。利用可視化技術(shù)可以展現(xiàn)學(xué)科發(fā)展的演化趨勢。
學(xué)者智能目錄對于科學(xué)前沿趨勢分析步驟為:首先,要檢索學(xué)者在該領(lǐng)域影響力較高的文獻(xiàn)。加菲爾德指出,科學(xué)研究的前沿是以被引頻次最高的文獻(xiàn)為核心,和引用這些核心文獻(xiàn)的來源文獻(xiàn)為基礎(chǔ)的集合,而前沿的名稱由出現(xiàn)頻次最高的名字來表示[17]。其次,對這些文獻(xiàn)進(jìn)行關(guān)鍵詞提取并整理,創(chuàng)建高頻詞匯表,并構(gòu)建共詞矩陣。在此基礎(chǔ)之上,以關(guān)鍵詞相似度為基礎(chǔ)進(jìn)行文本聚類分析,由此可以看出該領(lǐng)域不同時間階段的研究熱點(diǎn),進(jìn)而可以構(gòu)建研究熱點(diǎn)知識圖譜。最后,由共詞知識圖譜的展示,可以歸納、總結(jié)研究演進(jìn)趨勢和研究發(fā)展方向。
5?總結(jié)與展望
本文從學(xué)者之間普遍的合作現(xiàn)象出發(fā),基于智能目錄體系的理論,對學(xué)者智能目錄體系的構(gòu)建提出了規(guī)劃和建議。通過前期的文獻(xiàn)調(diào)查與研究,可以發(fā)現(xiàn)傳統(tǒng)的學(xué)者目錄與學(xué)者信息檢索工具普遍存在學(xué)者信息結(jié)構(gòu)化程度不夠;信息記載內(nèi)容客觀性不足;更新不及時等弊端。因此,構(gòu)建學(xué)者智能目錄體系能夠彌補(bǔ)傳統(tǒng)學(xué)者目錄與學(xué)者信息檢索工具的不足,迎合目錄學(xué)的時代發(fā)展新趨勢。
通過借鑒學(xué)者名錄和在線學(xué)者導(dǎo)航平臺的構(gòu)建模式,構(gòu)建一套以合作為導(dǎo)向,全方位展現(xiàn)學(xué)者科研成果、研究興趣、合作偏好的學(xué)者目錄體系,并融入人工智能、大數(shù)據(jù)、深度學(xué)習(xí)、知識圖譜等技術(shù),有利于促進(jìn)同領(lǐng)域?qū)W者或跨領(lǐng)域?qū)W者之間的合作,實(shí)現(xiàn)雙贏。
學(xué)者智能目錄體系是對傳統(tǒng)學(xué)者信息檢索工具的揚(yáng)棄。較之傳統(tǒng)學(xué)者信息檢索工具,學(xué)者智能目錄體系的優(yōu)勢主要體現(xiàn)在以下幾個方面:一是以合作為導(dǎo)向,向用戶提供全面、完善的合作方案,提高用戶的知識獲取效率;二是通過對學(xué)者相關(guān)信息中包含的顯性知識和隱性知識的協(xié)調(diào)管理,建立了良好的組織方式,促進(jìn)知識的傳播和交流;三是學(xué)者智能目錄體系摒棄了被動處理信息資源的工作模式,它與知識生產(chǎn)、分享、應(yīng)用和創(chuàng)新全過程相融合,拉近了知識主體之間的距離,給傳統(tǒng)目錄學(xué)的智能化發(fā)展帶來了新活力;四是以促進(jìn)學(xué)者與知識需求者的合作為基礎(chǔ)進(jìn)行功能的設(shè)計(jì),功能全面化、多元化,實(shí)用性強(qiáng);五是學(xué)者信息的收集擴(kuò)展至機(jī)構(gòu)、地理位置、事件等多個維度;六是通過引入高效的觸發(fā)器機(jī)制與溯源機(jī)制,確保學(xué)者信息更新及時、可溯源。
本文創(chuàng)新性地提出了學(xué)者智能目錄體系的構(gòu)建設(shè)想,下一步工作將對體系中的數(shù)據(jù)挖掘、數(shù)據(jù)處理及信息展示等技術(shù)進(jìn)行研究,實(shí)現(xiàn)學(xué)者信息的檢索、導(dǎo)覽、關(guān)聯(lián)與評價,引領(lǐng)智能目錄學(xué)發(fā)展的新方向。
參考文獻(xiàn)
[1]沈固朝.信息檢索[M].北京:高等教育出版社,2016.
[2]張京生,宋邐,湯靜芬.回族學(xué)者、史學(xué)家楊志玖先生著述目錄(1939—1991年)[J].圖書館理論與實(shí)踐,1993,(1):61-64.
[3]張前.學(xué)者的業(yè)績與境界——寫在《岸邊成雄博士業(yè)績目錄》出版之際[J].中央音樂學(xué)院學(xué)報(bào),2003,(4):7-8.
[4]李相勛.韓國學(xué)者船山學(xué)研究成果目錄[J].衡陽師范學(xué)院學(xué)報(bào),2017,38(1):172-176.
[5]王蕾,郭芳茸,王五選.淺談大數(shù)據(jù)環(huán)境下圖書館文獻(xiàn)資源建設(shè)模式的變革[J].才智,2019,(28):244.
[6]宮平.數(shù)字目錄學(xué)的功能拓展——網(wǎng)絡(luò)閱讀指導(dǎo)[J].圖書館學(xué)研究,2007,(10):73-75.
[7]司莉,彭斐章,賀劍峰.網(wǎng)絡(luò)信息資源組織與目錄學(xué)的創(chuàng)新和發(fā)展[J].圖書情報(bào)工作,2001,(9):21-24.
[8]都平平.利用BiblioFile光盤編目系統(tǒng)實(shí)現(xiàn)西文套書快速著錄的方法[J].圖書館界,1998,(4):3-5.
[9]習(xí)刪.中央檔案館研制的《計(jì)算機(jī)檔案資料管理智能軟件系統(tǒng)及革命歷史資料目錄數(shù)據(jù)庫》成果獲國家級二等獎[J].檔案學(xué)研究,1993,(1):31.
[10]丁峰.基于本體映射的電子目錄智能服務(wù)理論研究[D].武漢:武漢理工大學(xué),2008.
[11]陸楠,梁正平,杜文峰.一種面向商業(yè)智能興趣度的顧客目錄分割算法[J].信息與電腦:理論版,2011,(3):100-101.
[12]席磊,鄭光,汪強(qiáng),等.基于個性化特征的無公害農(nóng)產(chǎn)品目錄智能服務(wù)系統(tǒng)[J].農(nóng)業(yè)工程學(xué)報(bào),2013,29(20):142-150.
[13]石進(jìn),胡雅萍,李益婷.大數(shù)據(jù)時代目錄學(xué)的新使命[J].圖書館學(xué)研究,2019,(6):49-55.
[14]胡偉,徐福緣,臺德藝.基于供需網(wǎng)的企業(yè)合作偏好度及其穩(wěn)定性[J].系統(tǒng)工程,2014,32(10):84-89.
[15]Schuler D A,Rehbein K.The Filtering Role of the Firm in Corporate Political Involvement[J].Business & Society,1997,36(2):116-139.
[16]付偉棠.我國學(xué)術(shù)期刊同行評議研究綜述[J].中國科技期刊研究,2019,30(8):819-826.
[17]王瑜超,衛(wèi)武.信息資源配置學(xué)科前沿演進(jìn)趨勢分析[J].圖書館理論與實(shí)踐,2016,(5):44-49.
(責(zé)任編輯:陳?媛)