張 嶷
(悉尼科技大學(xué)澳大利亞人工智能研究所,悉尼NSW 2007)
從數(shù)據(jù)(Data)到信息(Information),再到知識(Knowledge)與情報(Intelligence),這條看似簡單的鏈條,囊括了大數(shù)據(jù)框架下“數(shù)據(jù)驅(qū)動”的要義,也貫穿了數(shù)據(jù)科學(xué)的始終。以機(jī)器學(xué)習(xí)為代表的人工智能技術(shù)的飛速發(fā)展,為數(shù)據(jù)科學(xué)打開了新視野,帶來了新方法。如何高效準(zhǔn)確地發(fā)現(xiàn)知識、提煉情報,成為信息管理與圖情領(lǐng)域的重要課題?!秾W(xué)科信息學(xué)與學(xué)科知識發(fā)現(xiàn)》一書由理論出發(fā),介紹學(xué)科信息學(xué)體系;以數(shù)據(jù)為著眼點,剖析并歸納科技數(shù)據(jù)特征;立足于技術(shù),探究學(xué)科知識發(fā)現(xiàn)的工具與方法;回歸應(yīng)用,挖掘新興學(xué)科技術(shù)情報與創(chuàng)新機(jī)會。本文為讀《學(xué)科信息學(xué)與學(xué)科知識發(fā)現(xiàn)》所悟所感,探討當(dāng)前應(yīng)用于知識發(fā)現(xiàn)的文獻(xiàn)計量學(xué)方法,以智能文獻(xiàn)計量學(xué)為核心,強(qiáng)調(diào)其與人工智能技術(shù)的交互、整合與再創(chuàng)新,并剖析這一新興技術(shù)趨勢的應(yīng)用優(yōu)勢及缺陷,淺談其發(fā)展前景。
現(xiàn)代文獻(xiàn)計量學(xué)源自Derek Price博士對科學(xué)活動模式的觀測。早期的文獻(xiàn)計量學(xué)強(qiáng)調(diào)用于分析圖書的數(shù)學(xué)與統(tǒng)計學(xué)方法,而伴隨著20世紀(jì)90年代以來信息技術(shù)的迅速發(fā)展與數(shù)據(jù)形式及規(guī)模的爆炸式增長,文獻(xiàn)計量學(xué)的分析對象從圖書擴(kuò)展到包含學(xué)術(shù)論文、專利、技術(shù)報告以及項目申請書等在內(nèi)的廣義的科技文獻(xiàn)數(shù)據(jù)。同時,科學(xué)活動的載體不再局限于科技文獻(xiàn),廣泛的科技數(shù)據(jù)、大數(shù)據(jù)時代所興起的社交媒體數(shù)據(jù)以及蘊(yùn)含科學(xué)活動模式的一切信息資源紛紛進(jìn)入文獻(xiàn)計量學(xué)的研究范疇,至此文獻(xiàn)計量學(xué)、科學(xué)計量學(xué)(Scientometrics)與信息計量學(xué)(Informetrics)相互融合,分析方法逐步趨同。
以引文分析與合著者分析為核心的文獻(xiàn)計量學(xué)在引入以自然語言處理技術(shù)為代表的文本挖掘方法與信息可視化技術(shù)后,適用范圍大幅提升,被廣泛應(yīng)用于科學(xué)學(xué)、科技管理與科技創(chuàng)新政策等眾多領(lǐng)域,如剖析特定技術(shù)領(lǐng)域與多學(xué)科交互、發(fā)現(xiàn)科技主題及其潛在關(guān)系、追蹤技術(shù)演化路徑等。顯然,諸如上述應(yīng)用場景,文獻(xiàn)計量學(xué)的核心任務(wù)正是面向科學(xué)技術(shù)的知識發(fā)現(xiàn)。然而,在大數(shù)據(jù)背景下,文獻(xiàn)計量學(xué)方法在大規(guī)模數(shù)據(jù)處理(如百萬級及以上的文獻(xiàn)處理與全文本分析)、復(fù)雜關(guān)系發(fā)現(xiàn)(如繼承關(guān)系、因果關(guān)系等)以及模型的可適性、復(fù)用性與魯棒性等問題上相對乏力。如何在大數(shù)據(jù)框架下提升文獻(xiàn)計量學(xué)方法發(fā)現(xiàn)知識、提煉情報的能力成為學(xué)界的熱門話題之一。
毋庸置疑,人工智能技術(shù)強(qiáng)大的適應(yīng)性學(xué)習(xí)與數(shù)據(jù)分析能力為文獻(xiàn)計量學(xué)的長足發(fā)展帶來新契機(jī)。智能文獻(xiàn)計量學(xué)(Intelligent Bibliometrics)應(yīng)運而生,它強(qiáng)調(diào)構(gòu)建將文獻(xiàn)計量指標(biāo)(如,引用信息、主題詞信息、作者信息等)與人工智能方法相結(jié)合的計算模型,并使其適應(yīng)廣泛的科學(xué)、技術(shù)、創(chuàng)新與政策分析場景。當(dāng)前,智能文獻(xiàn)計量學(xué)方法的嘗試與創(chuàng)新集中于思考如何從人工智能技術(shù)中“取長補(bǔ)短”,例如,基于詞嵌入(Word Embedding)與核(Kernel)方法的科技主題萃取利用Word2Vec模型生成的詞向量矩陣替代傳統(tǒng)共現(xiàn)矩陣,提升了特征提取能力并助力于后續(xù)主題聚類算法;引入流數(shù)據(jù)分析(Streaming Data Analysis)的繼承關(guān)系發(fā)現(xiàn)有效追蹤了特定時間區(qū)間內(nèi)科技主題誕生、演化、消亡與再生等形態(tài)變化,較之傳統(tǒng)的相似度計算,關(guān)系刻畫的準(zhǔn)確性、主題演化的還原性以及計算模型的適應(yīng)性均大幅提升;主謂賓分析(Subject-Action-Object Analysis)與網(wǎng)絡(luò)分析的創(chuàng)造性結(jié)合為依托網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)預(yù)測節(jié)點間潛在關(guān)系(即,“問題—解決方案”關(guān)系)提供了可能,有效降低了傳統(tǒng)主謂賓分析中對專家知識的高度依賴。
事實上,與《學(xué)科信息學(xué)與學(xué)科知識發(fā)現(xiàn)》一書所系統(tǒng)介紹的生物醫(yī)學(xué)文本挖掘方法以及案例相印證,面向生物醫(yī)學(xué)文獻(xiàn)的知識發(fā)現(xiàn)正成為智能文獻(xiàn)計量學(xué)的重要應(yīng)用之一。一方面,智能文獻(xiàn)計量學(xué)有效繼承了傳統(tǒng)文獻(xiàn)計量學(xué)分析科技文獻(xiàn)的思路與方法,保留了基于多維度文獻(xiàn)計量指標(biāo)分析的能力。例如,以共現(xiàn)分析(如:共引、主題詞共現(xiàn)等)為核心的主題分析,發(fā)現(xiàn)特定領(lǐng)域技術(shù)分布與關(guān)聯(lián)等。另一方面,智能文獻(xiàn)計量學(xué)與人工智能技術(shù)的交互與生物信息學(xué)(Bioinformatics)方法具有天然親和力,為跨學(xué)科創(chuàng)新提供便利。例如,2019年末以來新冠肺炎疫情的暴發(fā)迅速破壞了傳統(tǒng)冠狀病毒研究的既定知識體系,我們運用前述提到的數(shù)據(jù)流分析與網(wǎng)絡(luò)分析方法,以復(fù)雜系統(tǒng)的視角追蹤并檢測知識系統(tǒng)分裂與再適應(yīng)的過程,同時,與“技術(shù)挖掘(Tech Mining)”體系的深度結(jié)合繪制自20世紀(jì)40年代以來80余年的冠狀病毒主題演化圖譜,為冠狀病毒科研人員以及公共衛(wèi)生政策制定者提供決策支持。此外,相關(guān)的應(yīng)用還包括:繪制基因相關(guān)的心腦血管疾病主題演化圖譜、基于鏈路預(yù)測方法發(fā)現(xiàn)房顫相關(guān)的重要基因等。
在2021年的iConference上,以“人工智能+信息計量學(xué)”為主題的研討會(https://aiinformetrics.github.io/)將智能文獻(xiàn)計量學(xué)的理論基礎(chǔ)、方法框架與應(yīng)用范疇推向了一個更為廣闊的多學(xué)科平臺。顯然,在構(gòu)建人工智能視角下的知識發(fā)現(xiàn)方法體系這一共同目標(biāo)上,智能文獻(xiàn)計量學(xué)與《學(xué)科信息學(xué)與學(xué)科知識發(fā)現(xiàn)》多學(xué)科融合與交互的主旨思想是相得益彰的。
無論是學(xué)科知識發(fā)現(xiàn),還是更為廣泛的科學(xué)、技術(shù)、創(chuàng)新與政策分析,問題是復(fù)雜的——如何識別內(nèi)在的層級與耦合,如何考量外部的影響與作用,如何發(fā)現(xiàn)隨著時間演化的動力系統(tǒng)等。在當(dāng)前的技術(shù)條件下,即便是人工智能,亦不能實現(xiàn)完全替代人類的真正“智能”。因此,思考以智能文獻(xiàn)計量方法為代表的定量方法與以專家知識為代表的定性方法的有效溝通與深度交互仍然是亟待思考的重要問題。在這一方向上,《學(xué)科信息學(xué)與學(xué)科知識發(fā)現(xiàn)》亦為我們提供了很好的范例。無論是干細(xì)胞領(lǐng)域新興技術(shù)主題的突破性預(yù)測,還是醫(yī)學(xué)領(lǐng)域前沿的主題識別,恰當(dāng)?shù)膶<抑R宛若畫龍點睛,從深度與廣度上延伸了知識發(fā)現(xiàn)的能力與效用。
在21世紀(jì)的第三個十年悄然開啟的今天,人工智能的“潘多拉魔盒”已然打開,如何理解與駕馭人工智能,并將其應(yīng)用于新時代的知識發(fā)現(xiàn),也許還有很長的路要走。所謂,“如將不盡,與古為新”,借古人言,與諸君共勉。