建立機(jī)構(gòu)知識庫,收集整理科研成果,已成為很多單位科研部門近年來的一項(xiàng)重要工作。建立機(jī)構(gòu)知識庫最關(guān)鍵、最難的環(huán)節(jié)是清洗機(jī)構(gòu)科研成果數(shù)據(jù),特別是清洗學(xué)者英文成果的數(shù)據(jù)最為繁瑣,其中相當(dāng)一部分需要人工辨認(rèn)。據(jù)中科院機(jī)構(gòu)知識庫項(xiàng)目組統(tǒng)計(jì),目前很多單位雖然建設(shè)了機(jī)構(gòu)知識庫,但因數(shù)據(jù)清洗不徹底而導(dǎo)致數(shù)據(jù)無法使用,其原因就是中國學(xué)者發(fā)表英文文獻(xiàn)時(shí),學(xué)者名稱著錄格式多樣、機(jī)構(gòu)和科室的英文名稱書寫不規(guī)范。如我國著名的呼吸疾病專家鐘南山在SCI和PubMed數(shù)據(jù)庫中的科研成果,作者名稱標(biāo)注有zhong nanshan、zhong nan-shan、zhong n-s、zhong NS、zhong N等形式,所在單位附屬第一醫(yī)院的英文寫法有:first hospital、1st hospital、hospital 1、First Affiliated Hospital等形式。著錄格式的多樣化造成自動(dòng)化程度不高,大量成果需要人工清洗,而學(xué)者自行認(rèn)領(lǐng)個(gè)人成果的模式因沒有行政命令和利益驅(qū)動(dòng)導(dǎo)致無法進(jìn)行,最終科研管理部門只能通過人工辨認(rèn)學(xué)者成果,費(fèi)人費(fèi)時(shí)費(fèi)力。
人工智能時(shí)代的到來,醫(yī)學(xué)數(shù)據(jù)、圖像、信號等各種形式的數(shù)據(jù)日益增多,醫(yī)療大數(shù)據(jù)的智能化處理變得越來越重要,其巨大的潛力引起了很多專家學(xué)者和高科技公司的關(guān)注[1]。深度學(xué)習(xí)是最近幾年人工智能領(lǐng)域發(fā)展起來的一項(xiàng)新技術(shù),是一種基于大數(shù)據(jù)的新型機(jī)器學(xué)習(xí)方法,具有分布式、并行信息處理及智能計(jì)算的功能[2]。它通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,達(dá)到處理信息的目的,并具備學(xué)習(xí)、自組織、泛化及訓(xùn)練的能力。本文探索利用人工智能的深度學(xué)習(xí)技術(shù),模擬人工辨認(rèn)學(xué)者身份,進(jìn)而解決英文文獻(xiàn)中中國學(xué)者身份的智能化識別問題。
深度學(xué)習(xí)技術(shù)主要有徑向基函數(shù)網(wǎng)絡(luò)(Radial Basis Function,RBF)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)等幾種類別[3]。徑向基函數(shù)網(wǎng)絡(luò)通常只有輸入層、中間層和輸出層3層,中間層計(jì)算輸入矢量與樣本矢量歐式距離的徑向基函數(shù)值,輸出層計(jì)算它們的線性組合。循環(huán)神經(jīng)網(wǎng)絡(luò)的目的是用來處理序列數(shù)據(jù),但處理速度比較慢。卷積神經(jīng)網(wǎng)絡(luò)不但用于圖像識別,還可對自然語言處理,能夠有效地從原始輸入中學(xué)習(xí)到高階不變性的特征,廣泛應(yīng)用于圖像識別、人臉檢測、語音識別和語義分析等領(lǐng)域。
卷積神經(jīng)網(wǎng)絡(luò)主要結(jié)構(gòu)為一個(gè)多層的感知器,每層由多個(gè)二維平面組成,而每個(gè)平面由多個(gè)獨(dú)立神經(jīng)元組成。網(wǎng)絡(luò)中包含一些簡單元和復(fù)雜元,分別記為C元和S元,C元聚合在一起構(gòu)成卷積層。卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心層,用它來進(jìn)行特征提取。如圖1中輸入數(shù)據(jù)通過一組卷積核進(jìn)行卷積運(yùn)算,在C層產(chǎn)生N個(gè)特征圖,通常會使用多層卷積層來得到更深層次的特征圖S元聚合在一起構(gòu)成池化層,實(shí)現(xiàn)對特征圖的壓縮。然后,特征圖通過激活函數(shù)( Logistic、Softmax等函數(shù))得到S層的特征圖。根據(jù)設(shè)定的C層和S層的數(shù)量,以上過程依此循環(huán)。最終對最尾部的卷積層和輸出層進(jìn)行全連接,然后將輸出值送給分類器[4]。
圖1 CNN原理示意圖
鑒于單一類型信息處理的身份識別效果很難達(dá)到理想的要求,而現(xiàn)實(shí)生活中人們在識別英文文獻(xiàn)的學(xué)者身份時(shí),總是結(jié)合不同類別的學(xué)者特征信息如單位名稱、院系名稱、合作關(guān)系等,人腦是對多種特征信息綜合分析的基礎(chǔ)上進(jìn)行最終的辨別確認(rèn)。所以,筆者從融合多種特征信息的觀點(diǎn)出發(fā),提出了融合學(xué)者名稱、學(xué)者機(jī)構(gòu)、學(xué)者院系/科室、合作關(guān)系等特征信息的身份識別神經(jīng)網(wǎng)絡(luò)模型[5](圖2)。
圖2 學(xué)者身份識別神經(jīng)網(wǎng)絡(luò)模型
該模型的計(jì)算過程為:輸入初始數(shù)據(jù)給CNN的初始層,各層依次計(jì)算出輸出值;每一層的輸入值都是由上一層的輸出值乘以當(dāng)前層的權(quán)值向量,取得加權(quán)數(shù)組成;應(yīng)用非線性函數(shù)如修正線性單元(ReLU)或雙曲正切函數(shù)加權(quán)總數(shù)計(jì)算輸出層。
利用北京唯博賽科技公司開發(fā)的網(wǎng)絡(luò)爬蟲軟件從Web of Science數(shù)據(jù)庫采集2000年以來國內(nèi)6所知名醫(yī)學(xué)高校(首都醫(yī)科大學(xué)、哈爾濱醫(yī)科大學(xué)、南方醫(yī)科大學(xué)、南京醫(yī)科大學(xué)、北京協(xié)和醫(yī)學(xué)院、天津醫(yī)科大學(xué))的數(shù)據(jù)共95 364條,采集到的SCIE數(shù)據(jù)的著錄字段包括標(biāo)題、作者、地址信息、年代、期刊名、WOS號等。
當(dāng)前主要解決多分類問題,本文選用Softmax函數(shù)作為分類函數(shù)。Softmax函數(shù)其實(shí)就是一個(gè)歸一化的指數(shù)函數(shù),其定義如下:
通過Softmax函數(shù),可以使P(i)的范圍在0~1。在回歸和分類問題中,通常θ是待求參數(shù),通過尋找使得P(i)最大的θ作為最佳參數(shù)。
CNN中最重要的部分是“學(xué)習(xí)規(guī)則”,即類似人類大腦,需要很長時(shí)間來訓(xùn)練模型,通過訓(xùn)練過程調(diào)整網(wǎng)絡(luò)中運(yùn)算單元間連接的權(quán)重,以期達(dá)到最理想的結(jié)果[6]。隨著CNN模型訓(xùn)練次數(shù)的增加,根據(jù)輸出的結(jié)果不斷調(diào)整CNN的連接權(quán)重,使目標(biāo)值與CNN輸出值的誤差逐漸減小直至為零,此時(shí)稱CNN已收斂,訓(xùn)練完成。CNN的工作性能與樣本也有直接關(guān)系,若訓(xùn)練集樣本數(shù)量少或太相似,則模型的工作能力將大大降低[7]。因此,樣本量越大,樣本差異性越強(qiáng),則CNN模型的能力越強(qiáng)。而測試樣本選取值與訓(xùn)練樣本值越相近,其輸出值與實(shí)際值的差異就越小,模型準(zhǔn)確度也會增加[8]。
為避免樣本數(shù)據(jù)差異化對識別結(jié)果的影響,對這6所知名醫(yī)學(xué)高校從1到6進(jìn)行標(biāo)號,從每個(gè)高校的數(shù)據(jù)池中隨機(jī)挑選兩段為訓(xùn)練樣本,每段選出5 000條數(shù)據(jù),最終得到60 000條訓(xùn)練集。其余35 364條數(shù)據(jù)為測試樣本,訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)之間不重疊。
模型采用前期無監(jiān)督訓(xùn)練和后期微調(diào)兩個(gè)階段。4個(gè)特征信息的原始權(quán)值可設(shè)置同等比例,輸出數(shù)據(jù)的閾值設(shè)置為0.8,若輸出數(shù)據(jù)的權(quán)值超過閾值即完全匹配,可判定為該學(xué)者的成果。閾值在0.5~0.8為高匹配度,閾值低于0.5為低匹配度。通過CNN的訓(xùn)練優(yōu)化權(quán)值向量,從而獲得更加準(zhǔn)確的輸出值。
CNN訓(xùn)練結(jié)束后,還需要用另幾組與訓(xùn)練集不同的樣本,測試其輸出是否與所要求的相近,從而驗(yàn)證模型的推廣性[9]。通過對已有樣本的學(xué)習(xí),將所提取樣本的非線性映射關(guān)系存儲在訓(xùn)練的權(quán)重矩陣中,即使向模型輸入訓(xùn)練時(shí)未曾見過的非樣本數(shù)據(jù)時(shí),網(wǎng)絡(luò)也能完成由輸入層向輸出層的正確映射[10]。
從每個(gè)學(xué)校的測試數(shù)據(jù)結(jié)果中隨機(jī)選出1名學(xué)者進(jìn)行查驗(yàn),將測試數(shù)據(jù)結(jié)果分別標(biāo)記為完全匹配、高匹配度、低匹配度3種,并以人工確認(rèn)該學(xué)者SCIE成果數(shù)為基數(shù)。每個(gè)學(xué)者以深度學(xué)習(xí)模型識別的準(zhǔn)確成果總數(shù)與該學(xué)者全部SCIE成果數(shù)中的比值來算出準(zhǔn)確率(表1)。
表1 CNN模型檢測匹配結(jié)果
本文的學(xué)者身份識別是典型的文獻(xiàn)檢索問題,利用標(biāo)準(zhǔn)的“學(xué)者全拼+學(xué)者機(jī)構(gòu)”查詢學(xué)者的數(shù)據(jù),以保證此數(shù)據(jù)絕對是該學(xué)者的。如在Web of Science數(shù)據(jù)庫中查詢學(xué)者,檢索式如下:AU=Zhong Nanshan SAME AD=Guangzhou medical univ,因?qū)W者名稱著錄格式多樣、機(jī)構(gòu)和科室的英文名稱書寫不規(guī)范,查詢結(jié)果遠(yuǎn)不及利用模型識別的數(shù)據(jù)全面,且傳統(tǒng)檢索方式必須需要人工設(shè)置檢索式進(jìn)行查詢,耗時(shí)時(shí)間長。利用深度學(xué)習(xí)模型進(jìn)行識別的方式不但精準(zhǔn)度高,且節(jié)省了大量的人工工作量[11]。
使用訓(xùn)練集樣本訓(xùn)練網(wǎng)絡(luò)模型,當(dāng)訓(xùn)練次數(shù)到10次時(shí),網(wǎng)絡(luò)代價(jià)函數(shù)收斂較佳。然后再用測試樣本集中的35 364條數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行驗(yàn)證,結(jié)果如表1所示。網(wǎng)絡(luò)有較高的可靠性識別出學(xué)者的身份(識別率為:86.7%、86.8%、90.2%、92.4%、94.4%和76.2%),且每條數(shù)據(jù)平均耗時(shí)約2秒??梢姡蒙疃葘W(xué)習(xí)模型解決生物醫(yī)學(xué)英文文獻(xiàn)的學(xué)者身份識別問題,不但識別效率與準(zhǔn)確性較高,而且速度已經(jīng)大大快于人工辨別,能滿足快速識別海量數(shù)據(jù)的要求。
從結(jié)果中還可以發(fā)現(xiàn),相對于學(xué)者名是兩個(gè)字(如學(xué)者1、2),當(dāng)學(xué)者名字為3個(gè)字時(shí)(如學(xué)者3、4、5)網(wǎng)絡(luò)識別的效果更好。利用訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)模型對中國學(xué)者的英文文獻(xiàn)進(jìn)行辨別的整體識別率達(dá)到85%以上,而且凡是模型識別的文獻(xiàn)均準(zhǔn)確[12]。
但如果兩個(gè)學(xué)者名字是同音,而且又在同一院系,如李君如和李俊茹,他們的英文名稱均為li,junru或li,jr,通過以上模型無法進(jìn)行區(qū)分辨別,只能進(jìn)行人工辨認(rèn)。而學(xué)者名字是兩個(gè)字的,同時(shí)只寫了名字的縮寫,如李軍,li,j,這種情況容易和li,js;li,jb;li,ja等名字的縮寫混淆,相對于名字是3個(gè)字的成果辨別度要低一些,如表1中的學(xué)者6。另外,學(xué)者發(fā)生遷徙后,學(xué)者的成果署名單位變更,成果識別度也會降低,這些問題有待進(jìn)一步研究。
綜上所述,通過學(xué)者多元特征建立的基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,對學(xué)者英文文獻(xiàn)中的身份能夠自動(dòng)精準(zhǔn)識別,可在很大程度上解決中國學(xué)者的英文文獻(xiàn)人工辨別的麻煩,大大提高了工作效率,對目前很多單位建立機(jī)構(gòu)學(xué)者庫中存在的數(shù)據(jù)清洗難題具有很好的實(shí)際意義。