劉 燕 孫月萍 侯 麗
(中國(guó)醫(yī)學(xué)科學(xué)院/北京協(xié)和醫(yī)學(xué)院醫(yī)學(xué)信息研究所 北京100020)
面對(duì)日益激增的海量數(shù)字化文獻(xiàn)資源,如何利用規(guī)范化的機(jī)構(gòu)體系對(duì)文獻(xiàn)資源進(jìn)行整合、挖掘、分析等一直是學(xué)界關(guān)注的重點(diǎn)[1]。近年來,學(xué)界加強(qiáng)了對(duì)機(jī)構(gòu)規(guī)范文檔[2-3]、機(jī)構(gòu)知識(shí)庫(kù)[4]等的構(gòu)建與應(yīng)用研究,從機(jī)構(gòu)名稱統(tǒng)一標(biāo)識(shí)[5]、機(jī)構(gòu)類別特征化[6]、機(jī)構(gòu)名稱相似度計(jì)算[7]等角度,推進(jìn)規(guī)范化機(jī)構(gòu)在各種服務(wù)場(chǎng)景中的應(yīng)用。機(jī)構(gòu)作為科技文獻(xiàn)的重要組成元素之一,是開展科研評(píng)價(jià)、信息檢索、學(xué)術(shù)資源組織與關(guān)聯(lián)的基礎(chǔ)。但現(xiàn)實(shí)中文獻(xiàn)機(jī)構(gòu)名稱著錄混亂、層級(jí)結(jié)構(gòu)模糊、更名、重組、合并、拆分等現(xiàn)象頻繁,加之名稱存在縮寫、簡(jiǎn)稱、書寫不規(guī)范等問題,導(dǎo)致機(jī)構(gòu)名稱識(shí)別度降低,各類數(shù)據(jù)庫(kù)和搜索引擎很難準(zhǔn)確統(tǒng)計(jì)機(jī)構(gòu)對(duì)應(yīng)的資源數(shù)量[8],從而影響統(tǒng)計(jì)分析和評(píng)價(jià)結(jié)果的可靠性[9]。因此為有效整合并利用機(jī)構(gòu)實(shí)體不同名稱下的信息資源[10],進(jìn)行機(jī)構(gòu)名稱規(guī)范化的研究與實(shí)踐至關(guān)重要。
機(jī)構(gòu)名稱規(guī)范一般是指通過收集機(jī)構(gòu)實(shí)體的所有表現(xiàn)形式,實(shí)現(xiàn)多個(gè)機(jī)構(gòu)名稱到一個(gè)機(jī)構(gòu)實(shí)體的映射[11]。對(duì)于科技文獻(xiàn)中的機(jī)構(gòu)名稱規(guī)范研究而言,其核心問題是提取“作者單位”著錄項(xiàng)中的機(jī)構(gòu)名稱,并進(jìn)行機(jī)構(gòu)名稱的消歧,使同一機(jī)構(gòu)實(shí)體的不同名稱表現(xiàn)形式都指向一處。學(xué)者們據(jù)此開展諸多研究,取得較好效果,然而還無法有效解決表達(dá)形式差異較大的機(jī)構(gòu)名稱規(guī)范問題,如“北京安貞醫(yī)院”與“首都醫(yī)科大學(xué)第六臨床醫(yī)學(xué)院”。對(duì)此,有學(xué)者通過發(fā)文著者共現(xiàn)情況來判斷機(jī)構(gòu)名稱的相似度[12-13],取得了一定效果,但未考慮不同類型機(jī)構(gòu)的差異。鑒于此,本文嘗試從“機(jī)構(gòu)-作者”共現(xiàn)和機(jī)構(gòu)類型特征詞的角度,進(jìn)行機(jī)構(gòu)名稱的規(guī)范化研究,分析不同類型機(jī)構(gòu)名稱的命名特點(diǎn),并結(jié)合機(jī)構(gòu)共現(xiàn)作者和相似度計(jì)算方法進(jìn)行中文機(jī)構(gòu)名稱的消歧,最后以醫(yī)學(xué)領(lǐng)域機(jī)構(gòu)為例進(jìn)行實(shí)踐。
機(jī)構(gòu)名稱的規(guī)范化建設(shè)經(jīng)歷了規(guī)范控制、訪問控制、唯一標(biāo)識(shí)符等階段。其中,規(guī)范控制是為各機(jī)構(gòu)設(shè)置一個(gè)規(guī)范名稱并將其他名稱都指向它,缺點(diǎn)是檢索其他名稱時(shí)只能獲取包含該名稱的資源;訪問控制則不設(shè)置規(guī)范名稱,而是將所有名稱都加入一個(gè)可訪問的白名單中,檢索任意名稱都能獲取全部資源,但多次檢索會(huì)加重系統(tǒng)負(fù)擔(dān)[14];國(guó)際標(biāo)準(zhǔn)名稱識(shí)別碼[15](International Standard Name Identifier, ISNI)、Ringgold標(biāo)識(shí)數(shù)據(jù)庫(kù)[16]等希望通過唯一標(biāo)識(shí)符來實(shí)現(xiàn)機(jī)構(gòu)的唯一識(shí)別,但由于目前并未形成統(tǒng)一的全球化方案,在文獻(xiàn)數(shù)據(jù)中的應(yīng)用程度還較低,因此利用唯一標(biāo)識(shí)符解決機(jī)構(gòu)實(shí)體的歧義問題更多是愿景和輔助手段[14]。常見機(jī)構(gòu)名稱規(guī)范化方法主要有基于字符串相似度的方法、基于規(guī)則的方法、基于統(tǒng)計(jì)關(guān)聯(lián)的方法和混合策略的方法。
基本思路是利用字符串相似度計(jì)算的方法判定機(jī)構(gòu)名稱相似性程度。常用方法包括Levenshtein編輯距離[17]、Cosine相似度、Jaccard相似度等。有學(xué)者[18-19]基于字符串編輯距離的方法構(gòu)建機(jī)構(gòu)名稱規(guī)范文檔。Ferosh J[20]利用Levenshtein編輯距離方法對(duì)求職簡(jiǎn)歷中求職者機(jī)構(gòu)名稱進(jìn)行規(guī)范。Jiang Y等[21]基于歸一化的壓縮聚類方法實(shí)現(xiàn)對(duì)同一機(jī)構(gòu)不同名稱的聚類。
主要思想是基于建立的規(guī)則庫(kù)對(duì)錯(cuò)誤匹配對(duì)進(jìn)行過濾。有學(xué)者[22-23]根據(jù)機(jī)構(gòu)名稱的特點(diǎn),提出基于規(guī)則的機(jī)構(gòu)名稱消歧方法,并在Web of Science不同學(xué)科數(shù)據(jù)集中進(jìn)行有效性測(cè)試。沈嘉懿等[24]針對(duì)網(wǎng)絡(luò)文本數(shù)據(jù)提出基于規(guī)則識(shí)別中文組織機(jī)構(gòu)名稱的方法,借助機(jī)構(gòu)后綴詞庫(kù)、規(guī)則匹配和貝葉斯模型識(shí)別機(jī)構(gòu)邊界。
基本思路是利用Web大規(guī)模語料,通過計(jì)算不同機(jī)構(gòu)名稱字符串搜索結(jié)果中統(tǒng)一資源定位符(Universal Resource Locator,URL)的共現(xiàn)情況來判定機(jī)構(gòu)名稱相似度[25]。Aumueller D等[26]基于谷歌和雅虎搜索返回的前k個(gè)URL共現(xiàn)重疊情況來計(jì)算兩個(gè)機(jī)構(gòu)名稱匹配程度。
主要思想是通過整合兩種或兩種以上的方法,來實(shí)現(xiàn)更高的機(jī)構(gòu)名稱識(shí)別精準(zhǔn)度。楊瑞仙等[27]提出一種基于規(guī)則和向量空間模型的科研機(jī)構(gòu)名稱識(shí)別方法。孫海霞等[9]提出一種基于規(guī)則和編輯距離的機(jī)構(gòu)名稱匹配策略,并以中文生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)為例進(jìn)行實(shí)踐。張建勇等[14]基于規(guī)則和相似度計(jì)算的方法對(duì)國(guó)家科技圖書文獻(xiàn)中心內(nèi)的科研機(jī)構(gòu)實(shí)體進(jìn)行消歧,以便構(gòu)建科研合作網(wǎng)絡(luò)等。
本研究以中文科技文獻(xiàn)中的機(jī)構(gòu)為例開展名稱規(guī)范化研究。設(shè)計(jì)中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范實(shí)現(xiàn)流程,包括數(shù)據(jù)采集、機(jī)構(gòu)名稱提取和機(jī)構(gòu)實(shí)體消歧3個(gè)步驟,見圖1。
圖1 中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范化處理流程
科技文獻(xiàn)來源包括數(shù)據(jù)庫(kù)商、出版商、服務(wù)商等,不同來源的數(shù)據(jù)描述粒度不同,數(shù)據(jù)質(zhì)量也有所差異。本研究制定數(shù)據(jù)采集方案如下:根據(jù)數(shù)據(jù)質(zhì)量、權(quán)威性等采集要求,確定采集來源、時(shí)間范圍、期刊等;確定需要采集的字段項(xiàng),如題目、作者、機(jī)構(gòu)著錄項(xiàng)等;利用爬蟲軟件進(jìn)行數(shù)據(jù)采集,完成格式轉(zhuǎn)換與存儲(chǔ);制定規(guī)則對(duì)不完整數(shù)據(jù)和重復(fù)數(shù)據(jù)進(jìn)行處理,將缺少文獻(xiàn)題目、作者、機(jī)構(gòu)等關(guān)鍵字段的數(shù)據(jù)直接剔除,刪除重復(fù)數(shù)據(jù)中字段項(xiàng)較少的,判定重復(fù)數(shù)據(jù)的條件為兩篇文獻(xiàn)DOI是否一致或題目、作者和期刊3項(xiàng)信息是否完全相同。
3.2.1 概述 機(jī)構(gòu)名稱在科技文獻(xiàn)中的表述形式多樣,存在問題主要包括兩點(diǎn):機(jī)構(gòu)合作客觀存在,且1位作者可能會(huì)隸屬于多個(gè)機(jī)構(gòu),故1篇文獻(xiàn)可能會(huì)存在多個(gè)機(jī)構(gòu)的現(xiàn)象(簡(jiǎn)稱多機(jī)構(gòu));機(jī)構(gòu)著錄項(xiàng)標(biāo)注形式不統(tǒng)一,且不同期刊對(duì)機(jī)構(gòu)著錄項(xiàng)要求不同,如郵編位置、是否標(biāo)注機(jī)構(gòu)所在國(guó)家、機(jī)構(gòu)是否為獨(dú)立法人等。鑒于此,本研究將利用字符串匹配、詞典和規(guī)則過濾的方法進(jìn)行規(guī)范化機(jī)構(gòu)名稱提取。
3.2.2 多機(jī)構(gòu)拆分 將包含多個(gè)機(jī)構(gòu)的數(shù)據(jù)拆分為多條數(shù)據(jù),確保1條數(shù)據(jù)只包含1個(gè)機(jī)構(gòu)及其對(duì)應(yīng)的作者,便于統(tǒng)計(jì)機(jī)構(gòu)發(fā)表的文獻(xiàn)及隸屬于機(jī)構(gòu)的作者。拆分方法是先利用字符串方法找到機(jī)構(gòu)著錄項(xiàng)之間的分隔符,并以分隔符為邊界完成機(jī)構(gòu)拆分。
3.2.3 機(jī)構(gòu)著錄項(xiàng)拆分與過濾 對(duì)單機(jī)構(gòu)的機(jī)構(gòu)著錄項(xiàng)進(jìn)行拆分并過濾郵編、行政區(qū)劃地址等信息,以獲取作者原始著錄的機(jī)構(gòu)名稱信息。(1)機(jī)構(gòu)著錄項(xiàng)拆分。以逗號(hào)或空格為分隔符對(duì)機(jī)構(gòu)著錄項(xiàng)包含的字段進(jìn)行拆分,考慮到機(jī)構(gòu)名稱長(zhǎng)度至少為4,可直接過濾掉長(zhǎng)度小于4的字段。(2)郵編和行政區(qū)劃地址過濾。判斷剩余的字段是否為郵編和行政區(qū)劃地址,若是則直接刪除。其中,郵編可使用字符串編輯的方法處理,若該字段由6位連續(xù)的數(shù)字組成,則判定為郵編;行政區(qū)劃地址可通過構(gòu)建國(guó)內(nèi)各省市地區(qū)字典來處理。
3.2.4 機(jī)構(gòu)名稱規(guī)范化提取方案 本研究的規(guī)范化機(jī)構(gòu)名稱是指法人級(jí)別的機(jī)構(gòu),因此要對(duì)部門、科室等二級(jí)機(jī)構(gòu)名稱進(jìn)行識(shí)別并刪除。通常,中文機(jī)構(gòu)名稱以“A+B”的形式表達(dá),A部分一般由方位詞、序數(shù)詞、動(dòng)詞等構(gòu)成,B部分一般為“大學(xué)”“研究所”“醫(yī)院”等用來表示機(jī)構(gòu)特征的中心語,故可以通過B部分來判定機(jī)構(gòu)名稱是否已規(guī)范至法人級(jí)別。本研究設(shè)計(jì)面向中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范化提取方案包括:(1)機(jī)構(gòu)名稱分詞。構(gòu)建機(jī)構(gòu)名稱詞庫(kù),利用中文分詞工具Jieba對(duì)機(jī)構(gòu)名稱進(jìn)行分詞,得到A和B 兩部分。(2)構(gòu)建機(jī)構(gòu)特征詞表。結(jié)合國(guó)家機(jī)構(gòu)類型分類標(biāo)準(zhǔn)《組織機(jī)構(gòu)類型(GB/T 20091—2006)》,將機(jī)構(gòu)分為科研機(jī)構(gòu)、高等教育機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)、事業(yè)單位、行政機(jī)構(gòu)、公司企業(yè)、社會(huì)團(tuán)體、其他8類,進(jìn)而利用中文機(jī)構(gòu)名稱的命名特點(diǎn),構(gòu)建機(jī)構(gòu)類型特征詞表。(3)識(shí)別機(jī)構(gòu)名稱著錄深度。依次比較機(jī)構(gòu)名稱的B部分與機(jī)構(gòu)類型特征詞表有無匹配項(xiàng),若有匹配項(xiàng)則不作處理,若無匹配項(xiàng)則表明該字段包含二級(jí)機(jī)構(gòu)名,應(yīng)從右至左依次遍歷分詞列表,直到匹配到正確的機(jī)構(gòu)中心語,并將中心語右側(cè)的二級(jí)機(jī)構(gòu)名刪除,得到規(guī)范的一級(jí)機(jī)構(gòu)名稱,見圖2。
圖2 中文科技文獻(xiàn)中的機(jī)構(gòu)名稱規(guī)范化提取方案
3.3.1概述 可用于機(jī)構(gòu)實(shí)體匹配的文獻(xiàn)特征有機(jī)構(gòu)名稱、行政區(qū)劃地址、郵編等,但很多機(jī)構(gòu)著錄項(xiàng)中的行政區(qū)劃地址和郵編信息并不完整。因此本研究考慮從機(jī)構(gòu)名稱出發(fā),構(gòu)建“機(jī)構(gòu)-作者”關(guān)系表,并基于機(jī)構(gòu)類型特征詞典對(duì)機(jī)構(gòu)進(jìn)行分類,進(jìn)而面向不同機(jī)構(gòu)類別分別構(gòu)建“機(jī)構(gòu)-機(jī)構(gòu)”作者共現(xiàn)矩陣、計(jì)算作者共現(xiàn)率,以實(shí)現(xiàn)機(jī)構(gòu)實(shí)體消歧。假設(shè)不同類別中的機(jī)構(gòu)名不可能指向同一機(jī)構(gòu)實(shí)體,即無需匹配不同類別之間的機(jī)構(gòu)名,這樣一方面可以減少機(jī)構(gòu)之間兩兩匹配的次數(shù),提高計(jì)算效率;另一方面能夠降低錯(cuò)誤匹配的幾率,提升匹配準(zhǔn)確率。
3.3.2 構(gòu)建“機(jī)構(gòu)-作者”關(guān)系表 通常,機(jī)構(gòu)發(fā)表的文獻(xiàn)都不止1篇,故本研究先以機(jī)構(gòu)為中心對(duì)文獻(xiàn)進(jìn)行聚類,聚類個(gè)數(shù)即為待消歧機(jī)構(gòu)名稱的數(shù)量,從而得到各機(jī)構(gòu)發(fā)表的文獻(xiàn)集合,整合對(duì)應(yīng)集合中的作者,完成“機(jī)構(gòu)-作者”關(guān)系表構(gòu)建。作者消歧是實(shí)體消歧的另一關(guān)鍵問題,非本研究重點(diǎn),故暫不考慮作者同名的情況。
3.3.3 機(jī)構(gòu)分類 利用分詞工具對(duì)上述規(guī)范至法人級(jí)別的機(jī)構(gòu)名稱進(jìn)行分詞處理,選取能夠代表機(jī)構(gòu)類型的中心語,即分詞列表中的最后一個(gè)詞,依次與機(jī)構(gòu)類型特征詞表中的特征詞進(jìn)行比較,據(jù)此得到各機(jī)構(gòu)名稱的分類。以“中國(guó)人民大學(xué)”為例,首先分詞得到“中國(guó)/ns 人民/n 大學(xué)/n”,然后選擇分詞列表中的最后一個(gè)詞“大學(xué)”與機(jī)構(gòu)特征詞表進(jìn)行匹配,發(fā)現(xiàn)該機(jī)構(gòu)名稱屬于“高等教育機(jī)構(gòu)”。
3.3.4 機(jī)構(gòu)消歧 本研究假設(shè),在一段時(shí)期內(nèi)機(jī)構(gòu)成員會(huì)保持相對(duì)穩(wěn)定[28],因此可通過機(jī)構(gòu)之間的作者共現(xiàn)率來推斷不同機(jī)構(gòu)名是否指向同一實(shí)體。此外,考慮到本研究涉及的機(jī)構(gòu)類型多樣,如公司企業(yè)、社會(huì)團(tuán)體等機(jī)構(gòu)發(fā)文量難以保證,無法避免由于發(fā)文量低而導(dǎo)致的重名風(fēng)險(xiǎn),即若某機(jī)構(gòu)發(fā)文量極低(如小于5),則可能因個(gè)別作者重名而導(dǎo)致作者共現(xiàn)率超過閾值[29],影響消歧準(zhǔn)確率。因此綜合考慮機(jī)構(gòu)對(duì)之間的作者共現(xiàn)率和作者絕對(duì)共現(xiàn)量指標(biāo),即針對(duì)不同類別機(jī)構(gòu)的數(shù)據(jù),循環(huán)遍歷“機(jī)構(gòu)-作者”關(guān)系表中的n個(gè)機(jī)構(gòu),依次比較機(jī)構(gòu)m(1≤m≤n)和剩下的n-1個(gè)機(jī)構(gòu),統(tǒng)計(jì)兩機(jī)構(gòu)各自的作者數(shù)、機(jī)構(gòu)間的共同作者數(shù)和全部作者數(shù),構(gòu)建“機(jī)構(gòu)-機(jī)構(gòu)”共現(xiàn)矩陣,計(jì)算機(jī)構(gòu)對(duì)之間的作者共現(xiàn)率,此處共現(xiàn)率是指機(jī)構(gòu)的共同作者占全部作者的比值,見公式(1),進(jìn)而確定共現(xiàn)率閾值(如0.3),并據(jù)此篩選出具有同一關(guān)系的候選機(jī)構(gòu)對(duì);利用作者絕對(duì)共現(xiàn)量(機(jī)構(gòu)間的共同作者數(shù))指標(biāo)控制重名風(fēng)險(xiǎn):若作者絕對(duì)共現(xiàn)量大于等于2,判定兩個(gè)機(jī)構(gòu)名稱指向同一機(jī)構(gòu)實(shí)體,否則即使機(jī)構(gòu)對(duì)的作者共現(xiàn)率大于等于閾值,仍將其判定為非同一實(shí)體。
(1)
其中,A和B分別為兩個(gè)機(jī)構(gòu)對(duì)應(yīng)的作者集合,A∩B為兩個(gè)機(jī)構(gòu)的共同作者數(shù),A∪B為兩個(gè)機(jī)構(gòu)的全部作者數(shù)。
主要采用準(zhǔn)確率P來評(píng)價(jià)本文提出的中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范化方案有效性,見公式(2)。
(2)
其中,n為人工審核的正確機(jī)構(gòu)對(duì)數(shù)量,N為識(shí)別出的機(jī)構(gòu)共現(xiàn)對(duì)數(shù)量。
醫(yī)藥衛(wèi)生知識(shí)服務(wù)系統(tǒng)(https://med. ckcest.cn)整合大量醫(yī)學(xué)領(lǐng)域的科技文獻(xiàn)、專家、機(jī)構(gòu)、專利等學(xué)術(shù)資源,但科研成果中的機(jī)構(gòu)名稱存在著錄混亂、層級(jí)結(jié)構(gòu)模糊、更名頻繁等問題,導(dǎo)致機(jī)構(gòu)名稱識(shí)別困難,難以開展文獻(xiàn)、專家、機(jī)構(gòu)等科研實(shí)體之間的進(jìn)一步關(guān)聯(lián)分析與深入挖掘。為進(jìn)一步提高機(jī)構(gòu)名稱識(shí)別效率,打通不同類型學(xué)術(shù)資源之間的壁壘,提高用戶信息檢索效率,需要對(duì)機(jī)構(gòu)名稱進(jìn)行規(guī)范化處理。本研究以醫(yī)藥衛(wèi)生領(lǐng)域的中文科技文獻(xiàn)為例,開展機(jī)構(gòu)名稱規(guī)范化實(shí)踐,驗(yàn)證提出的機(jī)構(gòu)名稱規(guī)范化處理方案是否可行。
選取醫(yī)藥衛(wèi)生知識(shí)服務(wù)系統(tǒng)作為數(shù)據(jù)來源,篩選醫(yī)藥衛(wèi)生領(lǐng)域相關(guān)的期刊進(jìn)行采集,采集內(nèi)容包括文獻(xiàn)題目、作者、機(jī)構(gòu)著錄項(xiàng)等,共采集1999—2020年發(fā)表的文獻(xiàn)數(shù)據(jù)10萬條,完成數(shù)據(jù)格式轉(zhuǎn)換與存儲(chǔ),并對(duì)不完整數(shù)據(jù)和重復(fù)數(shù)據(jù)進(jìn)行預(yù)處理,剔除文獻(xiàn)題目、作者、機(jī)構(gòu)等關(guān)鍵字段不完整的數(shù)據(jù),得到相對(duì)規(guī)范、完整的數(shù)據(jù),見表1。
表1 部分采集樣例數(shù)據(jù)
4.2.1 多機(jī)構(gòu)拆分 從采集的中文科技文獻(xiàn)數(shù)據(jù)可知,其機(jī)構(gòu)著錄項(xiàng)之間都是通過分號(hào)進(jìn)行分割。因此以分號(hào)為分隔符,利用字符串方法對(duì)機(jī)構(gòu)進(jìn)行拆分,拆分后共得到包含單機(jī)構(gòu)記錄的數(shù)據(jù)350 587條。
4.2.2 機(jī)構(gòu)著錄項(xiàng)拆分與過濾 對(duì)于拆分后的單機(jī)構(gòu)記錄,其機(jī)構(gòu)名稱、行政區(qū)劃地址和郵編之間均以空格或逗號(hào)作為分隔符,據(jù)此可先對(duì)機(jī)構(gòu)著錄項(xiàng)進(jìn)行初步拆分,并直接剔除長(zhǎng)度小于4的字段。然后,基于字符串編輯方法過濾掉剩余字段中的郵編。最后,基于構(gòu)建的國(guó)內(nèi)各省市地區(qū)字典識(shí)別并刪除行政區(qū)劃地址,只保留作者原始著錄的機(jī)構(gòu)名稱。
4.2.3 機(jī)構(gòu)名稱規(guī)范化處理 系統(tǒng)分析并構(gòu)建醫(yī)藥衛(wèi)生領(lǐng)域機(jī)構(gòu)類型特征詞表,該詞表共覆蓋8種類型機(jī)構(gòu),包含特征詞103個(gè),其中醫(yī)療機(jī)構(gòu)最多(41個(gè)),其次為事業(yè)單位(22個(gè)),見表2。
表2 醫(yī)藥衛(wèi)生領(lǐng)域機(jī)構(gòu)類型特征詞
對(duì)作者原始著錄的機(jī)構(gòu)名稱數(shù)據(jù)進(jìn)行分詞、識(shí)別機(jī)構(gòu)著錄深度并刪除相應(yīng)的二級(jí)機(jī)構(gòu)名稱,完成機(jī)構(gòu)名稱規(guī)范化處理,見表3。
表3 規(guī)范化機(jī)構(gòu)名稱部分示例
4.3.1 構(gòu)建“機(jī)構(gòu)-作者”關(guān)系表 以機(jī)構(gòu)為中心對(duì)文獻(xiàn)進(jìn)行聚類,共得到15 088個(gè)聚類集合,分別整合各集合中的作者,構(gòu)建“機(jī)構(gòu)-作者”對(duì)應(yīng)關(guān)系表。
4.3.2 機(jī)構(gòu)分類 基于醫(yī)藥衛(wèi)生領(lǐng)域機(jī)構(gòu)類型特征詞表,對(duì)上述機(jī)構(gòu)名稱進(jìn)行分類,其中,醫(yī)療機(jī)構(gòu)占比最高,其次為事業(yè)單位,社會(huì)團(tuán)體最低,見表4。
表4 醫(yī)藥衛(wèi)生領(lǐng)域機(jī)構(gòu)名稱分類情況
4.3.3 構(gòu)建“機(jī)構(gòu)-機(jī)構(gòu)”共現(xiàn)矩陣 按照分類,依次計(jì)算各類別中機(jī)構(gòu)對(duì)之間的作者共現(xiàn)率。經(jīng)統(tǒng)計(jì)共14 592個(gè)機(jī)構(gòu)對(duì)間存在作者共現(xiàn)情況,考慮到共現(xiàn)率小于0.1時(shí)誤判率過高,分析意義不大,本研究只針對(duì)共現(xiàn)率大于等于0.1的2 088個(gè)機(jī)構(gòu)對(duì)進(jìn)行比較分析,并將根據(jù)不同類型機(jī)構(gòu)在數(shù)據(jù)集中所占的比例,按照同等比例從中隨機(jī)遴選300個(gè)機(jī)構(gòu)共現(xiàn)對(duì),進(jìn)行準(zhǔn)確率的分析。需要說明的是由于“其他”類型中共現(xiàn)率大于等于0.1的機(jī)構(gòu)對(duì)共2個(gè)、“社會(huì)團(tuán)體”共0個(gè),故實(shí)際遴選出來的相較按比例的數(shù)量少(若按比例應(yīng)遴選“其他”14個(gè)、“社會(huì)團(tuán)體”1個(gè)),因此最終子集共包含機(jī)構(gòu)共現(xiàn)對(duì)287個(gè)。由專業(yè)人員進(jìn)行結(jié)果準(zhǔn)確性測(cè)評(píng),經(jīng)分析,將共現(xiàn)率閾值設(shè)置為0.1時(shí)準(zhǔn)確率可達(dá)89.2%,具有較高的機(jī)構(gòu)實(shí)體消歧能力,盡管隨著閾值的提升,準(zhǔn)確率也呈上升趨勢(shì),但提升幅度較小,同時(shí)也會(huì)過濾掉很多雖然共現(xiàn)率低但實(shí)際為同一實(shí)體的機(jī)構(gòu)對(duì),故本研究暫將共現(xiàn)率閾值設(shè)置為0.1。
通過統(tǒng)計(jì),隨機(jī)遴選的閾值大于等于0.1的287個(gè)機(jī)構(gòu)共現(xiàn)對(duì)中,人工認(rèn)為其中256個(gè)機(jī)構(gòu)對(duì)是同一機(jī)構(gòu),整體準(zhǔn)確率為89.2%,具有較好的可參考性。此外,為進(jìn)一步比較該方法對(duì)于不同類型機(jī)構(gòu)的消歧效果,針對(duì)各類機(jī)構(gòu)分別進(jìn)行了誤判率統(tǒng)計(jì)。其中,“其他”類型誤判率最高,究其原因是該類型數(shù)據(jù)太少,少量誤判就會(huì)造成大的結(jié)果偏差;“高等教育機(jī)構(gòu)”和“行政機(jī)構(gòu)”類型誤判率也顯著高于其他類別,其原因可能是這兩類機(jī)構(gòu)存在更為頻繁的更名、重組、拆分等現(xiàn)象,依據(jù)較低的共現(xiàn)率難以實(shí)現(xiàn)機(jī)構(gòu)實(shí)體的有效識(shí)別。后續(xù)可通過進(jìn)一步擴(kuò)大數(shù)據(jù)集或提升共現(xiàn)率閾值來提高其準(zhǔn)確率。
規(guī)范化的機(jī)構(gòu)名稱是開展面向機(jī)構(gòu)的科技評(píng)價(jià)、異構(gòu)學(xué)術(shù)資源整合、學(xué)術(shù)圖譜構(gòu)建等工作的基礎(chǔ)與關(guān)鍵。本研究從“機(jī)構(gòu)-作者”共現(xiàn)和機(jī)構(gòu)類型特征詞的角度,開展面向中文科技文獻(xiàn)數(shù)據(jù)的機(jī)構(gòu)名稱規(guī)范化研究,通過分析科技文獻(xiàn)中不同類型機(jī)構(gòu)名稱的著錄特點(diǎn),并結(jié)合作者共現(xiàn)情況進(jìn)行機(jī)構(gòu)名稱的消歧,最后在醫(yī)學(xué)領(lǐng)域進(jìn)行驗(yàn)證。經(jīng)測(cè)試評(píng)估,該策略能夠有效匹配同一機(jī)構(gòu)的不同表現(xiàn)形式。后續(xù)將進(jìn)一步優(yōu)化消歧策略,擴(kuò)大實(shí)驗(yàn)數(shù)據(jù)集并盡快推進(jìn)其在醫(yī)藥衛(wèi)生知識(shí)服務(wù)系統(tǒng)中的應(yīng)用。通過機(jī)構(gòu)間的作者共現(xiàn)率可以有效規(guī)范機(jī)構(gòu)名稱,實(shí)現(xiàn)機(jī)構(gòu)實(shí)體不同名稱形式的全面聚類與挖掘。但從長(zhǎng)遠(yuǎn)發(fā)展來看,建議積極落實(shí)對(duì)機(jī)構(gòu)唯一識(shí)別碼的使用,特別是發(fā)表論文、專利等成果時(shí),準(zhǔn)確標(biāo)識(shí)不同機(jī)構(gòu)實(shí)體,從而更好地開展機(jī)構(gòu)評(píng)價(jià)、構(gòu)建機(jī)構(gòu)知識(shí)庫(kù)、構(gòu)建學(xué)術(shù)知識(shí)圖譜、規(guī)范存儲(chǔ)機(jī)構(gòu)知識(shí)資源等工作。