融合多策略的中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范化研究與實(shí)踐*

2022-02-13 11:09孫月萍

醫(yī)學(xué)信息學(xué)雜志 2022年12期

劉燕孫月萍侯麗

(中國(guó)醫(yī)學(xué)科學(xué)院/北京協(xié)和醫(yī)學(xué)院醫(yī)學(xué)信息研究所北京100020)

1 引言

面對(duì)日益激增的海量數(shù)字化文獻(xiàn)資源，如何利用規(guī)范化的機(jī)構(gòu)體系對(duì)文獻(xiàn)資源進(jìn)行整合、挖掘、分析等一直是學(xué)界關(guān)注的重點(diǎn)[1]。近年來，學(xué)界加強(qiáng)了對(duì)機(jī)構(gòu)規(guī)范文檔[2-3]、機(jī)構(gòu)知識(shí)庫(kù)[4]等的構(gòu)建與應(yīng)用研究，從機(jī)構(gòu)名稱統(tǒng)一標(biāo)識(shí)[5]、機(jī)構(gòu)類別特征化[6]、機(jī)構(gòu)名稱相似度計(jì)算[7]等角度，推進(jìn)規(guī)范化機(jī)構(gòu)在各種服務(wù)場(chǎng)景中的應(yīng)用。機(jī)構(gòu)作為科技文獻(xiàn)的重要組成元素之一，是開展科研評(píng)價(jià)、信息檢索、學(xué)術(shù)資源組織與關(guān)聯(lián)的基礎(chǔ)。但現(xiàn)實(shí)中文獻(xiàn)機(jī)構(gòu)名稱著錄混亂、層級(jí)結(jié)構(gòu)模糊、更名、重組、合并、拆分等現(xiàn)象頻繁，加之名稱存在縮寫、簡(jiǎn)稱、書寫不規(guī)范等問題，導(dǎo)致機(jī)構(gòu)名稱識(shí)別度降低，各類數(shù)據(jù)庫(kù)和搜索引擎很難準(zhǔn)確統(tǒng)計(jì)機(jī)構(gòu)對(duì)應(yīng)的資源數(shù)量[8]，從而影響統(tǒng)計(jì)分析和評(píng)價(jià)結(jié)果的可靠性[9]。因此為有效整合并利用機(jī)構(gòu)實(shí)體不同名稱下的信息資源[10]，進(jìn)行機(jī)構(gòu)名稱規(guī)范化的研究與實(shí)踐至關(guān)重要。

機(jī)構(gòu)名稱規(guī)范一般是指通過收集機(jī)構(gòu)實(shí)體的所有表現(xiàn)形式，實(shí)現(xiàn)多個(gè)機(jī)構(gòu)名稱到一個(gè)機(jī)構(gòu)實(shí)體的映射[11]。對(duì)于科技文獻(xiàn)中的機(jī)構(gòu)名稱規(guī)范研究而言，其核心問題是提取“作者單位”著錄項(xiàng)中的機(jī)構(gòu)名稱，并進(jìn)行機(jī)構(gòu)名稱的消歧，使同一機(jī)構(gòu)實(shí)體的不同名稱表現(xiàn)形式都指向一處。學(xué)者們據(jù)此開展諸多研究，取得較好效果，然而還無法有效解決表達(dá)形式差異較大的機(jī)構(gòu)名稱規(guī)范問題，如“北京安貞醫(yī)院”與“首都醫(yī)科大學(xué)第六臨床醫(yī)學(xué)院”。對(duì)此，有學(xué)者通過發(fā)文著者共現(xiàn)情況來判斷機(jī)構(gòu)名稱的相似度[12-13]，取得了一定效果，但未考慮不同類型機(jī)構(gòu)的差異。鑒于此，本文嘗試從“機(jī)構(gòu)-作者”共現(xiàn)和機(jī)構(gòu)類型特征詞的角度，進(jìn)行機(jī)構(gòu)名稱的規(guī)范化研究，分析不同類型機(jī)構(gòu)名稱的命名特點(diǎn)，并結(jié)合機(jī)構(gòu)共現(xiàn)作者和相似度計(jì)算方法進(jìn)行中文機(jī)構(gòu)名稱的消歧，最后以醫(yī)學(xué)領(lǐng)域機(jī)構(gòu)為例進(jìn)行實(shí)踐。

2 常見機(jī)構(gòu)名稱規(guī)范化方法

機(jī)構(gòu)名稱的規(guī)范化建設(shè)經(jīng)歷了規(guī)范控制、訪問控制、唯一標(biāo)識(shí)符等階段。其中，規(guī)范控制是為各機(jī)構(gòu)設(shè)置一個(gè)規(guī)范名稱并將其他名稱都指向它，缺點(diǎn)是檢索其他名稱時(shí)只能獲取包含該名稱的資源；訪問控制則不設(shè)置規(guī)范名稱，而是將所有名稱都加入一個(gè)可訪問的白名單中，檢索任意名稱都能獲取全部資源，但多次檢索會(huì)加重系統(tǒng)負(fù)擔(dān)[14]；國(guó)際標(biāo)準(zhǔn)名稱識(shí)別碼[15](International Standard Name Identifier, ISNI)、Ringgold標(biāo)識(shí)數(shù)據(jù)庫(kù)[16]等希望通過唯一標(biāo)識(shí)符來實(shí)現(xiàn)機(jī)構(gòu)的唯一識(shí)別，但由于目前并未形成統(tǒng)一的全球化方案，在文獻(xiàn)數(shù)據(jù)中的應(yīng)用程度還較低，因此利用唯一標(biāo)識(shí)符解決機(jī)構(gòu)實(shí)體的歧義問題更多是愿景和輔助手段[14]。常見機(jī)構(gòu)名稱規(guī)范化方法主要有基于字符串相似度的方法、基于規(guī)則的方法、基于統(tǒng)計(jì)關(guān)聯(lián)的方法和混合策略的方法。

2.1 基于字符串相似度的方法

基本思路是利用字符串相似度計(jì)算的方法判定機(jī)構(gòu)名稱相似性程度。常用方法包括Levenshtein編輯距離[17]、Cosine相似度、Jaccard相似度等。有學(xué)者[18-19]基于字符串編輯距離的方法構(gòu)建機(jī)構(gòu)名稱規(guī)范文檔。Ferosh J[20]利用Levenshtein編輯距離方法對(duì)求職簡(jiǎn)歷中求職者機(jī)構(gòu)名稱進(jìn)行規(guī)范。Jiang Y等[21]基于歸一化的壓縮聚類方法實(shí)現(xiàn)對(duì)同一機(jī)構(gòu)不同名稱的聚類。

2.2 基于規(guī)則的方法

主要思想是基于建立的規(guī)則庫(kù)對(duì)錯(cuò)誤匹配對(duì)進(jìn)行過濾。有學(xué)者[22-23]根據(jù)機(jī)構(gòu)名稱的特點(diǎn)，提出基于規(guī)則的機(jī)構(gòu)名稱消歧方法，并在Web of Science不同學(xué)科數(shù)據(jù)集中進(jìn)行有效性測(cè)試。沈嘉懿等[24]針對(duì)網(wǎng)絡(luò)文本數(shù)據(jù)提出基于規(guī)則識(shí)別中文組織機(jī)構(gòu)名稱的方法，借助機(jī)構(gòu)后綴詞庫(kù)、規(guī)則匹配和貝葉斯模型識(shí)別機(jī)構(gòu)邊界。

2.3 基于統(tǒng)計(jì)關(guān)聯(lián)的方法

基本思路是利用Web大規(guī)模語料，通過計(jì)算不同機(jī)構(gòu)名稱字符串搜索結(jié)果中統(tǒng)一資源定位符(Universal Resource Locator，URL)的共現(xiàn)情況來判定機(jī)構(gòu)名稱相似度[25]。Aumueller D等[26]基于谷歌和雅虎搜索返回的前k個(gè)URL共現(xiàn)重疊情況來計(jì)算兩個(gè)機(jī)構(gòu)名稱匹配程度。

2.4 混合策略的方法

主要思想是通過整合兩種或兩種以上的方法，來實(shí)現(xiàn)更高的機(jī)構(gòu)名稱識(shí)別精準(zhǔn)度。楊瑞仙等[27]提出一種基于規(guī)則和向量空間模型的科研機(jī)構(gòu)名稱識(shí)別方法。孫海霞等[9]提出一種基于規(guī)則和編輯距離的機(jī)構(gòu)名稱匹配策略，并以中文生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)為例進(jìn)行實(shí)踐。張建勇等[14]基于規(guī)則和相似度計(jì)算的方法對(duì)國(guó)家科技圖書文獻(xiàn)中心內(nèi)的科研機(jī)構(gòu)實(shí)體進(jìn)行消歧，以便構(gòu)建科研合作網(wǎng)絡(luò)等。

3 中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范化處理流程

本研究以中文科技文獻(xiàn)中的機(jī)構(gòu)為例開展名稱規(guī)范化研究。設(shè)計(jì)中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范實(shí)現(xiàn)流程，包括數(shù)據(jù)采集、機(jī)構(gòu)名稱提取和機(jī)構(gòu)實(shí)體消歧3個(gè)步驟，見圖1。

圖1 中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范化處理流程

3.1 數(shù)據(jù)采集

科技文獻(xiàn)來源包括數(shù)據(jù)庫(kù)商、出版商、服務(wù)商等，不同來源的數(shù)據(jù)描述粒度不同，數(shù)據(jù)質(zhì)量也有所差異。本研究制定數(shù)據(jù)采集方案如下：根據(jù)數(shù)據(jù)質(zhì)量、權(quán)威性等采集要求，確定采集來源、時(shí)間范圍、期刊等；確定需要采集的字段項(xiàng)，如題目、作者、機(jī)構(gòu)著錄項(xiàng)等；利用爬蟲軟件進(jìn)行數(shù)據(jù)采集，完成格式轉(zhuǎn)換與存儲(chǔ)；制定規(guī)則對(duì)不完整數(shù)據(jù)和重復(fù)數(shù)據(jù)進(jìn)行處理，將缺少文獻(xiàn)題目、作者、機(jī)構(gòu)等關(guān)鍵字段的數(shù)據(jù)直接剔除，刪除重復(fù)數(shù)據(jù)中字段項(xiàng)較少的，判定重復(fù)數(shù)據(jù)的條件為兩篇文獻(xiàn)DOI是否一致或題目、作者和期刊3項(xiàng)信息是否完全相同。

3.2 機(jī)構(gòu)名稱提取

3.2.1 概述機(jī)構(gòu)名稱在科技文獻(xiàn)中的表述形式多樣，存在問題主要包括兩點(diǎn)：機(jī)構(gòu)合作客觀存在，且1位作者可能會(huì)隸屬于多個(gè)機(jī)構(gòu)，故1篇文獻(xiàn)可能會(huì)存在多個(gè)機(jī)構(gòu)的現(xiàn)象(簡(jiǎn)稱多機(jī)構(gòu))；機(jī)構(gòu)著錄項(xiàng)標(biāo)注形式不統(tǒng)一，且不同期刊對(duì)機(jī)構(gòu)著錄項(xiàng)要求不同，如郵編位置、是否標(biāo)注機(jī)構(gòu)所在國(guó)家、機(jī)構(gòu)是否為獨(dú)立法人等。鑒于此，本研究將利用字符串匹配、詞典和規(guī)則過濾的方法進(jìn)行規(guī)范化機(jī)構(gòu)名稱提取。

3.2.2 多機(jī)構(gòu)拆分將包含多個(gè)機(jī)構(gòu)的數(shù)據(jù)拆分為多條數(shù)據(jù)，確保1條數(shù)據(jù)只包含1個(gè)機(jī)構(gòu)及其對(duì)應(yīng)的作者，便于統(tǒng)計(jì)機(jī)構(gòu)發(fā)表的文獻(xiàn)及隸屬于機(jī)構(gòu)的作者。拆分方法是先利用字符串方法找到機(jī)構(gòu)著錄項(xiàng)之間的分隔符，并以分隔符為邊界完成機(jī)構(gòu)拆分。

3.2.3 機(jī)構(gòu)著錄項(xiàng)拆分與過濾對(duì)單機(jī)構(gòu)的機(jī)構(gòu)著錄項(xiàng)進(jìn)行拆分并過濾郵編、行政區(qū)劃地址等信息，以獲取作者原始著錄的機(jī)構(gòu)名稱信息。(1)機(jī)構(gòu)著錄項(xiàng)拆分。以逗號(hào)或空格為分隔符對(duì)機(jī)構(gòu)著錄項(xiàng)包含的字段進(jìn)行拆分，考慮到機(jī)構(gòu)名稱長(zhǎng)度至少為4，可直接過濾掉長(zhǎng)度小于4的字段。(2)郵編和行政區(qū)劃地址過濾。判斷剩余的字段是否為郵編和行政區(qū)劃地址，若是則直接刪除。其中，郵編可使用字符串編輯的方法處理，若該字段由6位連續(xù)的數(shù)字組成，則判定為郵編；行政區(qū)劃地址可通過構(gòu)建國(guó)內(nèi)各省市地區(qū)字典來處理。

3.2.4 機(jī)構(gòu)名稱規(guī)范化提取方案本研究的規(guī)范化機(jī)構(gòu)名稱是指法人級(jí)別的機(jī)構(gòu)，因此要對(duì)部門、科室等二級(jí)機(jī)構(gòu)名稱進(jìn)行識(shí)別并刪除。通常，中文機(jī)構(gòu)名稱以“A+B”的形式表達(dá)，A部分一般由方位詞、序數(shù)詞、動(dòng)詞等構(gòu)成，B部分一般為“大學(xué)”“研究所”“醫(yī)院”等用來表示機(jī)構(gòu)特征的中心語，故可以通過B部分來判定機(jī)構(gòu)名稱是否已規(guī)范至法人級(jí)別。本研究設(shè)計(jì)面向中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范化提取方案包括：(1)機(jī)構(gòu)名稱分詞。構(gòu)建機(jī)構(gòu)名稱詞庫(kù)，利用中文分詞工具Jieba對(duì)機(jī)構(gòu)名稱進(jìn)行分詞，得到A和B 兩部分。(2)構(gòu)建機(jī)構(gòu)特征詞表。結(jié)合國(guó)家機(jī)構(gòu)類型分類標(biāo)準(zhǔn)《組織機(jī)構(gòu)類型(GB/T 20091—2006)》，將機(jī)構(gòu)分為科研機(jī)構(gòu)、高等教育機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)、事業(yè)單位、行政機(jī)構(gòu)、公司企業(yè)、社會(huì)團(tuán)體、其他8類，進(jìn)而利用中文機(jī)構(gòu)名稱的命名特點(diǎn)，構(gòu)建機(jī)構(gòu)類型特征詞表。(3)識(shí)別機(jī)構(gòu)名稱著錄深度。依次比較機(jī)構(gòu)名稱的B部分與機(jī)構(gòu)類型特征詞表有無匹配項(xiàng)，若有匹配項(xiàng)則不作處理，若無匹配項(xiàng)則表明該字段包含二級(jí)機(jī)構(gòu)名，應(yīng)從右至左依次遍歷分詞列表，直到匹配到正確的機(jī)構(gòu)中心語，并將中心語右側(cè)的二級(jí)機(jī)構(gòu)名刪除，得到規(guī)范的一級(jí)機(jī)構(gòu)名稱，見圖2。

圖2 中文科技文獻(xiàn)中的機(jī)構(gòu)名稱規(guī)范化提取方案

3.3 機(jī)構(gòu)實(shí)體消歧

3.3.1概述可用于機(jī)構(gòu)實(shí)體匹配的文獻(xiàn)特征有機(jī)構(gòu)名稱、行政區(qū)劃地址、郵編等，但很多機(jī)構(gòu)著錄項(xiàng)中的行政區(qū)劃地址和郵編信息并不完整。因此本研究考慮從機(jī)構(gòu)名稱出發(fā)，構(gòu)建“機(jī)構(gòu)-作者”關(guān)系表，并基于機(jī)構(gòu)類型特征詞典對(duì)機(jī)構(gòu)進(jìn)行分類，進(jìn)而面向不同機(jī)構(gòu)類別分別構(gòu)建“機(jī)構(gòu)-機(jī)構(gòu)”作者共現(xiàn)矩陣、計(jì)算作者共現(xiàn)率，以實(shí)現(xiàn)機(jī)構(gòu)實(shí)體消歧。假設(shè)不同類別中的機(jī)構(gòu)名不可能指向同一機(jī)構(gòu)實(shí)體，即無需匹配不同類別之間的機(jī)構(gòu)名，這樣一方面可以減少機(jī)構(gòu)之間兩兩匹配的次數(shù)，提高計(jì)算效率；另一方面能夠降低錯(cuò)誤匹配的幾率，提升匹配準(zhǔn)確率。

3.3.2 構(gòu)建“機(jī)構(gòu)-作者”關(guān)系表通常，機(jī)構(gòu)發(fā)表的文獻(xiàn)都不止1篇，故本研究先以機(jī)構(gòu)為中心對(duì)文獻(xiàn)進(jìn)行聚類，聚類個(gè)數(shù)即為待消歧機(jī)構(gòu)名稱的數(shù)量，從而得到各機(jī)構(gòu)發(fā)表的文獻(xiàn)集合，整合對(duì)應(yīng)集合中的作者，完成“機(jī)構(gòu)-作者”關(guān)系表構(gòu)建。作者消歧是實(shí)體消歧的另一關(guān)鍵問題，非本研究重點(diǎn)，故暫不考慮作者同名的情況。

3.3.3 機(jī)構(gòu)分類利用分詞工具對(duì)上述規(guī)范至法人級(jí)別的機(jī)構(gòu)名稱進(jìn)行分詞處理，選取能夠代表機(jī)構(gòu)類型的中心語，即分詞列表中的最后一個(gè)詞，依次與機(jī)構(gòu)類型特征詞表中的特征詞進(jìn)行比較，據(jù)此得到各機(jī)構(gòu)名稱的分類。以“中國(guó)人民大學(xué)”為例，首先分詞得到“中國(guó)/ns 人民/n 大學(xué)/n”，然后選擇分詞列表中的最后一個(gè)詞“大學(xué)”與機(jī)構(gòu)特征詞表進(jìn)行匹配，發(fā)現(xiàn)該機(jī)構(gòu)名稱屬于“高等教育機(jī)構(gòu)”。

3.3.4 機(jī)構(gòu)消歧本研究假設(shè)，在一段時(shí)期內(nèi)機(jī)構(gòu)成員會(huì)保持相對(duì)穩(wěn)定[28]，因此可通過機(jī)構(gòu)之間的作者共現(xiàn)率來推斷不同機(jī)構(gòu)名是否指向同一實(shí)體。此外，考慮到本研究涉及的機(jī)構(gòu)類型多樣，如公司企業(yè)、社會(huì)團(tuán)體等機(jī)構(gòu)發(fā)文量難以保證，無法避免由于發(fā)文量低而導(dǎo)致的重名風(fēng)險(xiǎn)，即若某機(jī)構(gòu)發(fā)文量極低(如小于5)，則可能因個(gè)別作者重名而導(dǎo)致作者共現(xiàn)率超過閾值[29]，影響消歧準(zhǔn)確率。因此綜合考慮機(jī)構(gòu)對(duì)之間的作者共現(xiàn)率和作者絕對(duì)共現(xiàn)量指標(biāo)，即針對(duì)不同類別機(jī)構(gòu)的數(shù)據(jù)，循環(huán)遍歷“機(jī)構(gòu)-作者”關(guān)系表中的n個(gè)機(jī)構(gòu)，依次比較機(jī)構(gòu)m(1≤m≤n)和剩下的n-1個(gè)機(jī)構(gòu)，統(tǒng)計(jì)兩機(jī)構(gòu)各自的作者數(shù)、機(jī)構(gòu)間的共同作者數(shù)和全部作者數(shù)，構(gòu)建“機(jī)構(gòu)-機(jī)構(gòu)”共現(xiàn)矩陣，計(jì)算機(jī)構(gòu)對(duì)之間的作者共現(xiàn)率，此處共現(xiàn)率是指機(jī)構(gòu)的共同作者占全部作者的比值，見公式(1)，進(jìn)而確定共現(xiàn)率閾值(如0.3)，并據(jù)此篩選出具有同一關(guān)系的候選機(jī)構(gòu)對(duì)；利用作者絕對(duì)共現(xiàn)量(機(jī)構(gòu)間的共同作者數(shù))指標(biāo)控制重名風(fēng)險(xiǎn)：若作者絕對(duì)共現(xiàn)量大于等于2，判定兩個(gè)機(jī)構(gòu)名稱指向同一機(jī)構(gòu)實(shí)體，否則即使機(jī)構(gòu)對(duì)的作者共現(xiàn)率大于等于閾值，仍將其判定為非同一實(shí)體。

(1)

其中，A和B分別為兩個(gè)機(jī)構(gòu)對(duì)應(yīng)的作者集合，A∩B為兩個(gè)機(jī)構(gòu)的共同作者數(shù)，A∪B為兩個(gè)機(jī)構(gòu)的全部作者數(shù)。

3.4 評(píng)價(jià)指標(biāo)

主要采用準(zhǔn)確率P來評(píng)價(jià)本文提出的中文科技文獻(xiàn)機(jī)構(gòu)名稱規(guī)范化方案有效性，見公式(2)。

(2)

其中，n為人工審核的正確機(jī)構(gòu)對(duì)數(shù)量，N為識(shí)別出的機(jī)構(gòu)共現(xiàn)對(duì)數(shù)量。

4 機(jī)構(gòu)名稱規(guī)范化實(shí)踐

醫(yī)藥衛(wèi)生知識(shí)服務(wù)系統(tǒng)(https://med. ckcest.cn)整合大量醫(yī)學(xué)領(lǐng)域的科技文獻(xiàn)、專家、機(jī)構(gòu)、專利等學(xué)術(shù)資源，但科研成果中的機(jī)構(gòu)名稱存在著錄混亂、層級(jí)結(jié)構(gòu)模糊、更名頻繁等問題，導(dǎo)致機(jī)構(gòu)名稱識(shí)別困難，難以開展文獻(xiàn)、專家、機(jī)構(gòu)等科研實(shí)體之間的進(jìn)一步關(guān)聯(lián)分析與深入挖掘。為進(jìn)一步提高機(jī)構(gòu)名稱識(shí)別效率，打通不同類型學(xué)術(shù)資源之間的壁壘，提高用戶信息檢索效率，需要對(duì)機(jī)構(gòu)名稱進(jìn)行規(guī)范化處理。本研究以醫(yī)藥衛(wèi)生領(lǐng)域的中文科技文獻(xiàn)為例，開展機(jī)構(gòu)名稱規(guī)范化實(shí)踐，驗(yàn)證提出的機(jī)構(gòu)名稱規(guī)范化處理方案是否可行。

4.1 數(shù)據(jù)采集

選取醫(yī)藥衛(wèi)生知識(shí)服務(wù)系統(tǒng)作為數(shù)據(jù)來源，篩選醫(yī)藥衛(wèi)生領(lǐng)域相關(guān)的期刊進(jìn)行采集，采集內(nèi)容包括文獻(xiàn)題目、作者、機(jī)構(gòu)著錄項(xiàng)等，共采集1999—2020年發(fā)表的文獻(xiàn)數(shù)據(jù)10萬條，完成數(shù)據(jù)格式轉(zhuǎn)換與存儲(chǔ)，并對(duì)不完整數(shù)據(jù)和重復(fù)數(shù)據(jù)進(jìn)行預(yù)處理，剔除文獻(xiàn)題目、作者、機(jī)構(gòu)等關(guān)鍵字段不完整的數(shù)據(jù)，得到相對(duì)規(guī)范、完整的數(shù)據(jù)，見表1。

表1 部分采集樣例數(shù)據(jù)

4.2 機(jī)構(gòu)名稱提取

4.2.1 多機(jī)構(gòu)拆分從采集的中文科技文獻(xiàn)數(shù)據(jù)可知，其機(jī)構(gòu)著錄項(xiàng)之間都是通過分號(hào)進(jìn)行分割。因此以分號(hào)為分隔符，利用字符串方法對(duì)機(jī)構(gòu)進(jìn)行拆分，拆分后共得到包含單機(jī)構(gòu)記錄的數(shù)據(jù)350 587條。

4.2.2 機(jī)構(gòu)著錄項(xiàng)拆分與過濾對(duì)于拆分后的單機(jī)構(gòu)記錄，其機(jī)構(gòu)名稱、行政區(qū)劃地址和郵編之間均以空格或逗號(hào)作為分隔符，據(jù)此可先對(duì)機(jī)構(gòu)著錄項(xiàng)進(jìn)行初步拆分，并直接剔除長(zhǎng)度小于4的字段。然后，基于字符串編輯方法過濾掉剩余字段中的郵編。最后，基于構(gòu)建的國(guó)內(nèi)各省市地區(qū)字典識(shí)別并刪除行政區(qū)劃地址，只保留作者原始著錄的機(jī)構(gòu)名稱。

4.2.3 機(jī)構(gòu)名稱規(guī)范化處理系統(tǒng)分析并構(gòu)建醫(yī)藥衛(wèi)生領(lǐng)域機(jī)構(gòu)類型特征詞表，該詞表共覆蓋8種類型機(jī)構(gòu)，包含特征詞103個(gè)，其中醫(yī)療機(jī)構(gòu)最多(41個(gè))，其次為事業(yè)單位(22個(gè))，見表2。

表2 醫(yī)藥衛(wèi)生領(lǐng)域機(jī)構(gòu)類型特征詞

對(duì)作者原始著錄的機(jī)構(gòu)名稱數(shù)據(jù)進(jìn)行分詞、識(shí)別機(jī)構(gòu)著錄深度并刪除相應(yīng)的二級(jí)機(jī)構(gòu)名稱，完成機(jī)構(gòu)名稱規(guī)范化處理，見表3。

表3 規(guī)范化機(jī)構(gòu)名稱部分示例

4.3 機(jī)構(gòu)實(shí)體消歧

4.3.1 構(gòu)建“機(jī)構(gòu)-作者”關(guān)系表以機(jī)構(gòu)為中心對(duì)文獻(xiàn)進(jìn)行聚類，共得到15 088個(gè)聚類集合，分別整合各集合中的作者，構(gòu)建“機(jī)構(gòu)-作者”對(duì)應(yīng)關(guān)系表。

4.3.2 機(jī)構(gòu)分類基于醫(yī)藥衛(wèi)生領(lǐng)域機(jī)構(gòu)類型特征詞表，對(duì)上述機(jī)構(gòu)名稱進(jìn)行分類，其中，醫(yī)療機(jī)構(gòu)占比最高，其次為事業(yè)單位，社會(huì)團(tuán)體最低，見表4。

表4 醫(yī)藥衛(wèi)生領(lǐng)域機(jī)構(gòu)名稱分類情況

4.3.3 構(gòu)建“機(jī)構(gòu)-機(jī)構(gòu)”共現(xiàn)矩陣按照分類，依次計(jì)算各類別中機(jī)構(gòu)對(duì)之間的作者共現(xiàn)率。經(jīng)統(tǒng)計(jì)共14 592個(gè)機(jī)構(gòu)對(duì)間存在作者共現(xiàn)情況，考慮到共現(xiàn)率小于0.1時(shí)誤判率過高，分析意義不大，本研究只針對(duì)共現(xiàn)率大于等于0.1的2 088個(gè)機(jī)構(gòu)對(duì)進(jìn)行比較分析，并將根據(jù)不同類型機(jī)構(gòu)在數(shù)據(jù)集中所占的比例，按照同等比例從中隨機(jī)遴選300個(gè)機(jī)構(gòu)共現(xiàn)對(duì)，進(jìn)行準(zhǔn)確率的分析。需要說明的是由于“其他”類型中共現(xiàn)率大于等于0.1的機(jī)構(gòu)對(duì)共2個(gè)、“社會(huì)團(tuán)體”共0個(gè)，故實(shí)際遴選出來的相較按比例的數(shù)量少(若按比例應(yīng)遴選“其他”14個(gè)、“社會(huì)團(tuán)體”1個(gè))，因此最終子集共包含機(jī)構(gòu)共現(xiàn)對(duì)287個(gè)。由專業(yè)人員進(jìn)行結(jié)果準(zhǔn)確性測(cè)評(píng)，經(jīng)分析，將共現(xiàn)率閾值設(shè)置為0.1時(shí)準(zhǔn)確率可達(dá)89.2%，具有較高的機(jī)構(gòu)實(shí)體消歧能力，盡管隨著閾值的提升，準(zhǔn)確率也呈上升趨勢(shì)，但提升幅度較小，同時(shí)也會(huì)過濾掉很多雖然共現(xiàn)率低但實(shí)際為同一實(shí)體的機(jī)構(gòu)對(duì)，故本研究暫將共現(xiàn)率閾值設(shè)置為0.1。

4.4 結(jié)果

通過統(tǒng)計(jì)，隨機(jī)遴選的閾值大于等于0.1的287個(gè)機(jī)構(gòu)共現(xiàn)對(duì)中，人工認(rèn)為其中256個(gè)機(jī)構(gòu)對(duì)是同一機(jī)構(gòu)，整體準(zhǔn)確率為89.2%，具有較好的可參考性。此外，為進(jìn)一步比較該方法對(duì)于不同類型機(jī)構(gòu)的消歧效果，針對(duì)各類機(jī)構(gòu)分別進(jìn)行了誤判率統(tǒng)計(jì)。其中，“其他”類型誤判率最高，究其原因是該類型數(shù)據(jù)太少，少量誤判就會(huì)造成大的結(jié)果偏差；“高等教育機(jī)構(gòu)”和“行政機(jī)構(gòu)”類型誤判率也顯著高于其他類別，其原因可能是這兩類機(jī)構(gòu)存在更為頻繁的更名、重組、拆分等現(xiàn)象，依據(jù)較低的共現(xiàn)率難以實(shí)現(xiàn)機(jī)構(gòu)實(shí)體的有效識(shí)別。后續(xù)可通過進(jìn)一步擴(kuò)大數(shù)據(jù)集或提升共現(xiàn)率閾值來提高其準(zhǔn)確率。

5 結(jié)語

規(guī)范化的機(jī)構(gòu)名稱是開展面向機(jī)構(gòu)的科技評(píng)價(jià)、異構(gòu)學(xué)術(shù)資源整合、學(xué)術(shù)圖譜構(gòu)建等工作的基礎(chǔ)與關(guān)鍵。本研究從“機(jī)構(gòu)-作者”共現(xiàn)和機(jī)構(gòu)類型特征詞的角度，開展面向中文科技文獻(xiàn)數(shù)據(jù)的機(jī)構(gòu)名稱規(guī)范化研究，通過分析科技文獻(xiàn)中不同類型機(jī)構(gòu)名稱的著錄特點(diǎn)，并結(jié)合作者共現(xiàn)情況進(jìn)行機(jī)構(gòu)名稱的消歧，最后在醫(yī)學(xué)領(lǐng)域進(jìn)行驗(yàn)證。經(jīng)測(cè)試評(píng)估，該策略能夠有效匹配同一機(jī)構(gòu)的不同表現(xiàn)形式。后續(xù)將進(jìn)一步優(yōu)化消歧策略，擴(kuò)大實(shí)驗(yàn)數(shù)據(jù)集并盡快推進(jìn)其在醫(yī)藥衛(wèi)生知識(shí)服務(wù)系統(tǒng)中的應(yīng)用。通過機(jī)構(gòu)間的作者共現(xiàn)率可以有效規(guī)范機(jī)構(gòu)名稱，實(shí)現(xiàn)機(jī)構(gòu)實(shí)體不同名稱形式的全面聚類與挖掘。但從長(zhǎng)遠(yuǎn)發(fā)展來看，建議積極落實(shí)對(duì)機(jī)構(gòu)唯一識(shí)別碼的使用，特別是發(fā)表論文、專利等成果時(shí)，準(zhǔn)確標(biāo)識(shí)不同機(jī)構(gòu)實(shí)體，從而更好地開展機(jī)構(gòu)評(píng)價(jià)、構(gòu)建機(jī)構(gòu)知識(shí)庫(kù)、構(gòu)建學(xué)術(shù)知識(shí)圖譜、規(guī)范存儲(chǔ)機(jī)構(gòu)知識(shí)資源等工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡