左惠凱, 閆路娜, 任瑞娟
(1.河北科技大學(xué) 圖書館,河北 石家莊 050018;2.河北科技大學(xué) 生物科學(xué)與工程學(xué)院,河北 石家莊 050018;3.河北大學(xué) 管理學(xué)院,河北 保定 071002)
?
面向本體的專有敘詞語(yǔ)義關(guān)系研究
左惠凱1,閆路娜2,任瑞娟3
(1.河北科技大學(xué) 圖書館,河北 石家莊050018;2.河北科技大學(xué) 生物科學(xué)與工程學(xué)院,河北 石家莊050018;3.河北大學(xué) 管理學(xué)院,河北 保定071002)
摘要:基于《中國(guó)主題分類詞表》等敘詞表中的專有敘詞,參考中外文敘詞表編制標(biāo)準(zhǔn),提出了面向本體的專有敘詞語(yǔ)義關(guān)系的調(diào)整原則,在此基礎(chǔ)上,將專有敘詞語(yǔ)義關(guān)系劃分為3個(gè)層次19種細(xì)分關(guān)系,并對(duì)語(yǔ)義關(guān)系的判定原則及應(yīng)用,同形異義詞的語(yǔ)義關(guān)系及人物敘詞語(yǔ)義關(guān)系等進(jìn)行了探討。
關(guān)鍵詞:《中國(guó)主題分類詞表》;本體;專有敘詞;語(yǔ)義關(guān)系
在當(dāng)今大數(shù)據(jù)時(shí)代,數(shù)據(jù)正在成為信息社會(huì)的重要財(cái)富,同時(shí)也對(duì)人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),如何高效快速地處理海量數(shù)據(jù),實(shí)現(xiàn)大數(shù)據(jù)的歸檔存儲(chǔ)以及快速準(zhǔn)確查詢等成為當(dāng)前研究的熱點(diǎn),其中利用構(gòu)建領(lǐng)域本體來(lái)解決這一問題成為趨勢(shì)。鑒于領(lǐng)域本體與敘詞表在知識(shí)表達(dá)上的相似性,許多國(guó)內(nèi)外學(xué)者在構(gòu)建領(lǐng)域本體時(shí),紛紛借鑒了敘詞表的語(yǔ)義關(guān)系體系。[1~3]
敘詞表通常由普通敘詞和專有敘詞組成,“專有敘詞”又稱“專有名詞”,是指表示單獨(dú)概念的某一特定事物的專有名稱主題詞。為了滿足計(jì)算機(jī)標(biāo)引的需求,有學(xué)者對(duì)專有名詞的識(shí)別技術(shù)進(jìn)行了研究[4~5],但是面向本體的專有敘詞語(yǔ)義關(guān)系的研究卻幾乎無(wú)人涉及,尤其是在我國(guó)區(qū)域一體化、城鄉(xiāng)一體化等大環(huán)境下,專有敘詞語(yǔ)義關(guān)系研究更顯得尤為重要。本研究主要基于《中國(guó)主題分類詞表》等敘詞表構(gòu)建一個(gè)專有敘詞漢語(yǔ)語(yǔ)義框架,旨在為形成漢語(yǔ)敘詞語(yǔ)義關(guān)系標(biāo)準(zhǔn)化研究提供幫助。
一、專有敘詞語(yǔ)義關(guān)系的調(diào)整原則
為了提高大數(shù)據(jù)時(shí)代信息的查全和查準(zhǔn),就必須重視本體構(gòu)建過(guò)程中語(yǔ)義關(guān)系的研究。我們利用歸納推理法,制定出面向本體的專有敘詞語(yǔ)義關(guān)系的調(diào)整原則(如圖1所示),具體來(lái)說(shuō):
(一)詞族分析
在敘詞表內(nèi)具有屬分關(guān)系的一群專有敘詞中,所選定的最上位敘詞稱為族首詞。在本研究中,詞族分析主要是分析這兩個(gè)敘詞的族首詞異同。如族首詞不同,直接進(jìn)入相關(guān)關(guān)系的分析;如族首詞相同,則進(jìn)入詞義分析階段。
(二)詞義分析
在本研究中,詞義分析是指分析敘詞的語(yǔ)義。根據(jù)兩個(gè)專有敘詞詞義的差異,進(jìn)而歸入等同關(guān)系、等級(jí)關(guān)系或相關(guān)關(guān)系。
(三)細(xì)劃分析
細(xì)劃分析是指在上一階段的基礎(chǔ)上,根據(jù)專用敘詞使用時(shí)的具體語(yǔ)義區(qū)別,在等級(jí)關(guān)系內(nèi)細(xì)分為屬分關(guān)系、整部關(guān)系、舉例關(guān)系等關(guān)系,或相關(guān)關(guān)系中的并列關(guān)系、交叉關(guān)系、親朋關(guān)系等具體關(guān)系。
圖1 構(gòu)建專有敘詞語(yǔ)義關(guān)系的工作原則
二、專有敘詞語(yǔ)義關(guān)系的描述與分析
按照前文所述研究方案,我們基于《中國(guó)主題分類詞表》、《漢語(yǔ)主題詞表》(附表)以及《中國(guó)分類主題詞表標(biāo)引手冊(cè)》中的專有敘詞,參考中外文敘詞表編制標(biāo)準(zhǔn)[6~7],對(duì)專有敘詞語(yǔ)義關(guān)系進(jìn)行了分析調(diào)整,將專有敘詞語(yǔ)義關(guān)系劃分為3個(gè)層次19種細(xì)分關(guān)系(見表1),具體描述與分析如下:
(一)等同關(guān)系
等同關(guān)系是指在專有敘詞中同一概念的不同譯名、別名與本名、全稱與簡(jiǎn)稱、中文名與外文名、舊稱與新稱等之間的關(guān)系。
1.全稱與簡(jiǎn)稱,如加利福尼亞州與加州;
2.同一概念的不同譯名,如康斯坦察與康斯坦薩;
3.舊稱與新稱,如西貢與胡志明市;
4.中文名與外文名,如美國(guó)與USA;
5.別名與本名,如柳河?xùn)|與柳宗元。
(二)等級(jí)關(guān)系
等級(jí)關(guān)系表示上位專有敘詞與下位專有敘詞之間的關(guān)系,包括屬分關(guān)系、整體與部分關(guān)系和舉例關(guān)系。
1.屬分關(guān)系:表示下位專有敘詞概念必然包含在上位專有敘詞概念的外延之中,并且是外延的組成部分,如西漢與漢代。
2. 整體與部分關(guān)系:表示在專有敘詞概念間整體與部分的關(guān)系,如亞州與伊朗。
3.舉例關(guān)系:指在專有敘詞中個(gè)體作為類的成員與類的關(guān)系,即實(shí)例和概念整體間的關(guān)系,如大西洋與海洋。
(三)相關(guān)關(guān)系
相關(guān)關(guān)系是指在專有敘詞間不具有等同關(guān)系或等級(jí)關(guān)系,但在使用中經(jīng)常一起出現(xiàn)的專有敘詞與專有敘詞(或普通敘詞)間的關(guān)系。同時(shí)考慮到人物敘詞在我國(guó)區(qū)域一體化、城鄉(xiāng)一體化等大環(huán)境下的重要應(yīng)用意義,在本研究中分成非人物敘詞的相關(guān)關(guān)系和人物敘詞的相關(guān)關(guān)系兩類進(jìn)行細(xì)化研究。
1.非人物敘詞的相關(guān)關(guān)系
(1)并列關(guān)系:指在行政區(qū)劃、地理區(qū)劃、組織機(jī)構(gòu)、時(shí)代等專有敘詞的同一族首詞下,互不包含的專有敘詞之間的關(guān)系,如聯(lián)合國(guó)教科文組織與聯(lián)合國(guó)糧農(nóng)組織。
(2)交叉關(guān)系:指隸屬于不同的族首詞,但有部分內(nèi)涵相同的兩個(gè)專有敘詞之間的關(guān)系,如俄羅斯族與俄羅斯人。
表1 專有敘詞語(yǔ)義關(guān)系匯總表
(3)事物與來(lái)源關(guān)系:表示國(guó)家、機(jī)構(gòu)、組織、民族、種族等與其來(lái)源(因果)之間的關(guān)系,如烏克蘭與蘇聯(lián)。
(4)事物與時(shí)間關(guān)系:表示國(guó)家、組織機(jī)構(gòu)等事物與其建立或滅亡時(shí)間、年代等之間的關(guān)系,如閩國(guó) (893~945)與五代十國(guó)時(shí)期。
(5)事物與空間關(guān)系:表示種族、國(guó)家、組織機(jī)構(gòu)等事物與其建立、分布或滅亡的地理空間之間的關(guān)系,其中地理空間包含自然地理名稱和行政區(qū)劃名稱,如國(guó)際奧林匹克委員會(huì)與瑞士洛桑,臺(tái)灣與阿里山。
2.人物敘詞的相關(guān)關(guān)系
(1)親朋關(guān)系:指人物敘詞間存在父子、夫妻、兄弟、姐妹等親屬、朋友或師生關(guān)系。
一是親屬關(guān)系,如毛澤東與楊開慧(夫妻),多爾袞與努爾哈赤(父子),班固、班超與班昭(兄妹)。二是朋友關(guān)系,如管仲與鮑叔牙。三是師生關(guān)系,如顏回與孔子。
(2)人物與屬性:表達(dá)人物與其生活時(shí)代、籍貫、種族、性別、稱謂、流派等特征之間的關(guān)系,如李文學(xué)(1826~1874)與彝族。
(3)人物與事件:是指事件的發(fā)生、創(chuàng)建與有直接主導(dǎo)作用的人物的關(guān)系,如安祿山與安史之亂。
(4)人物與工程:是指工程的設(shè)計(jì)、建造等與有直接主導(dǎo)作用的人物的關(guān)系,如秦始皇與靈渠。
(5)人物與制度:是指制度、條約、協(xié)定、憲章等設(shè)計(jì)、執(zhí)行等與有直接主導(dǎo)作用的人物的關(guān)系,如曹操與屯田制。
(6)人物與理論:表示某思想、理論、學(xué)說(shuō)、著作、論文等與主要代表人物間的關(guān)系,如巴甫洛夫與反射論。
三、關(guān)于專有敘詞語(yǔ)義關(guān)系細(xì)化研究中應(yīng)注意的問題
(一)語(yǔ)義關(guān)系的判定原則及應(yīng)用
在本研究中,我們構(gòu)建了一套專有敘詞語(yǔ)義關(guān)系的基本工作原則(如圖1所示),即詞族分析——詞義分析——細(xì)化分析,這是本研究判斷語(yǔ)義關(guān)系的基礎(chǔ)。這對(duì)于解決某些長(zhǎng)期存在爭(zhēng)議的問題具有一定的啟迪意義。例如,在漢語(yǔ)主題詞表中對(duì)敘詞“建安七子”和敘詞“孔融”之間認(rèn)為是相關(guān)關(guān)系,而衛(wèi)榮娟[8]研究認(rèn)為,“建安七子”和“孔融”之間相關(guān)關(guān)系的界定太過(guò)寬泛,而應(yīng)精確為等級(jí)關(guān)系中的類與實(shí)例關(guān)系。我們通過(guò)對(duì)“建安七子”與“孔融”的關(guān)系分析發(fā)現(xiàn),孔融為人物專有敘詞,建安七子為稱謂名詞,盡管也存在一定包含關(guān)系,但考慮到他們分屬不同族首詞,所以應(yīng)為相關(guān)關(guān)系中的人物與屬性關(guān)系,而非等級(jí)關(guān)系。也有學(xué)者(如我國(guó)臺(tái)灣地區(qū)蔡柏生)提出,雖然族首詞不同,也可建立泛等級(jí)關(guān)系的觀點(diǎn)[9],然而,考慮到構(gòu)建本體的目的之一就是提高信息的查準(zhǔn)率,故本研究也不贊成此觀點(diǎn)。因此,我們認(rèn)為只有同一族首詞的包含關(guān)系才能劃入到等級(jí)關(guān)系,對(duì)于族首詞不同的兩個(gè)敘詞,雖然兩者有一定的包含關(guān)系,也不應(yīng)該歸為等級(jí)關(guān)系,而應(yīng)劃入相關(guān)關(guān)系。
(二)同形異義詞的語(yǔ)義關(guān)系
同形異義詞是語(yǔ)言學(xué)中的一個(gè)術(shù)語(yǔ),用以描述不同語(yǔ)言中,形態(tài)(拼寫)相同而表達(dá)涵義卻不同的詞(一詞多義現(xiàn)象)。這就導(dǎo)致我們只有在一定的語(yǔ)境中,才能確切理解該詞的含義。
在本研究中我們發(fā)現(xiàn),在專有敘詞中也存在大量的同形異義詞,如“墨西哥”既是一個(gè)國(guó)家名稱,又是城市名稱,二者具有不同的語(yǔ)義關(guān)系。針對(duì)專有敘詞這種現(xiàn)象,在構(gòu)建本體時(shí)可采取同形詞詞后加備注的方式進(jìn)行分類闡述,從而解決同形異義詞問題。同時(shí)應(yīng)在用戶檢索界面增加同形異義詞提示功能入口,由用戶選擇該敘詞的相關(guān)領(lǐng)域,再執(zhí)行檢索,進(jìn)而提高查準(zhǔn)率。
(三)人物敘詞語(yǔ)義關(guān)系分析
通過(guò)比較普通敘詞與專有敘詞語(yǔ)義關(guān)系,我們發(fā)現(xiàn),專有敘詞語(yǔ)義間也具有相同關(guān)系、等級(jí)關(guān)系和相關(guān)關(guān)系3個(gè)層次,這與孫亮(2010)、劉麗斌(2010)等學(xué)者對(duì)普通敘詞研究相似[10~11]。同時(shí)發(fā)現(xiàn),在專有敘詞中還存在一些特殊的語(yǔ)義關(guān)系,例如“多爾袞”與“努爾哈赤”,如歸類于并列關(guān)系,很難準(zhǔn)確表達(dá)這兩個(gè)人物間的內(nèi)在關(guān)聯(lián)(父子關(guān)系),因此,在我國(guó)區(qū)域一體化、城鄉(xiāng)一體化等大環(huán)境下,我們構(gòu)建領(lǐng)域本體時(shí)增加了親朋關(guān)系、人物與屬性等人物敘詞的相關(guān)關(guān)系。
四、結(jié)語(yǔ)與展望
在大數(shù)據(jù)時(shí)代,面向本體構(gòu)建的敘詞語(yǔ)義關(guān)系的調(diào)整是一項(xiàng)復(fù)雜而艱巨的工作,專有敘詞與普通敘詞相比較,其無(wú)關(guān)聯(lián)性較強(qiáng),從而決定了調(diào)整專有敘詞語(yǔ)義關(guān)系的特殊性與困難性。同時(shí),本體構(gòu)建的初衷是為了提高大數(shù)據(jù)時(shí)代信息的查全率和查準(zhǔn)率,但現(xiàn)存的各領(lǐng)域本體標(biāo)準(zhǔn)繁多,很難達(dá)到提高大數(shù)據(jù)時(shí)代信息的查全率和查準(zhǔn)率。因此,本研究以漢語(yǔ)專有敘詞詞間關(guān)系作為切入點(diǎn),提出了專有敘詞詞間關(guān)系的調(diào)整方案,試圖尋找到一個(gè)普遍適用的關(guān)系準(zhǔn)則,從而使后來(lái)者能快速完成概念數(shù)據(jù)的交換與共享,這也為今后的研究指明了方向。
參考文獻(xiàn):
[1]趙會(huì)園, 李紹穩(wěn),劉超, 等. 基于云變換的農(nóng)業(yè)領(lǐng)域本體概念構(gòu)建方法研究[J]. 安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015,(2): 123~128.
[2]A. I. Walisadeera, A. Ginige, G. N. Wikramanayake. User Centered Ontology for Sri Lankan Farmers[J]. Ecological Informatics,2015, (26): 140~150.
[3]B. M. Konopka. Biomedical Ontologies——A Review, Biocy Bernetics and Biomedical Engineering [J]. 2015 ,(35): 75~86.
[4]羅浩, 魏祖寬, 金在弘. 面向GIS基于專有名詞優(yōu)先的中文分詞方法[J]. 計(jì)算機(jī)應(yīng)用, 2010, (7): 1 941~1 943.
[5]J. Heu, I. Qasim, D. Lee. FoDoSu: Multi-document Summarization Exploiting Semantic Analysis Based on Social Folksonomy[J]. Information Processing & Managements, 2015,(1): 212~225.
[6]BSI. BS 8723-2:2005 Structured Vocabularies for Information Retrieval-Guide-Thesauri[S]. British: BSI, 2005.1~64.
[7]全國(guó)文獻(xiàn)工作標(biāo)準(zhǔn)化技術(shù)委員會(huì).GB13190-91 漢語(yǔ)敘詞表編制規(guī)則[S].北京:國(guó)家技術(shù)監(jiān)督局, 1991.1~15.
[8]衛(wèi)榮娟.《漢語(yǔ)主題詞表》本體化的自動(dòng)生成研究[D]. 太原: 山西大學(xué), 2010.30.
[9]蔡柏生,等. 中文詞義關(guān)系的定義與判定原則[J].中文信息學(xué)報(bào), 2002, (4):25~27.
[10]孫亮. 面向本體的中文敘詞詞間關(guān)系改造研究[D]. 保定: 河北大學(xué), 2010.43~45.
[11]劉麗斌, 任瑞娟, 米佳, 等. 基于敘詞表構(gòu)建本體的中文敘詞詞間關(guān)系細(xì)化研究[J]. 山東圖書館學(xué)刊, 2010, (1): 73~76.
文章編號(hào):1671-1653(2016)02-0045-04
收稿日期:2016-03-26
基金項(xiàng)目:河北省高等學(xué)校人文社會(huì)科學(xué)研究項(xiàng)目(SZ14126);河北科技大學(xué)博士啟動(dòng)項(xiàng)目(000304)
作者簡(jiǎn)介:左惠凱(1973- ),男,河北唐縣人,河北科技大學(xué)圖書館館員,主要從事信息組織與管理研究。
中圖分類號(hào):G254.0
文獻(xiàn)標(biāo)識(shí)碼:ADOI 10.3969/j.issn.1671-1653.2016.02.007
Research on Semantic Relation of Proprietary Thesaurus for Ontology
ZUO Hui-kai1, YAN Lu-na2, REN Rui-juan3
(1.Library, Hebei University of Science and Technology, Shijiazhuang 050018, China;2.College of Bioscience and Bioengineering, Hebei University of Science and Technology, Shijiazhuang 050018, China;3.School of Management, Hebei University, Baoding 071002, China)
Abstract:Based on the proprietary thesaurus of Chinese Classified Subject Thesaurus, and referred to the standard in thesaurus of domestic and international, an adjustment principle oriented to the semantic relation of proprietary thesaurus forward ontology is put forward. On this basis, there were 3 levels with 19 subdivided relations for semantic relation of proprietary thesaurus such as equal relation, hierarchical relation and correlation. And the judging principle and application of semantic relations as well as homographs and the semantic relation of characters thesaurus were discussed.
Key words:Chinese Classified Subject Thesaurus; ontology; proprietary thesaurus; semantic relation
河北科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2016年2期