国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

DCMI 2013聽會點滴

2013-09-29 02:49:54曾蕾美國肯特州立大學美國肯特44242
數(shù)字圖書館論壇 2013年12期
關(guān)鍵詞:數(shù)據(jù)模型本體規(guī)范

□ 曾蕾/美國肯特州立大學 美國肯特 44242

DCMI 2013聽會點滴

□ 曾蕾/美國肯特州立大學 美國肯特 44242

文章分享作者參加都柏林核心元數(shù)據(jù)組織(Dublin Core Metadata Initiative,DCMI)2013年國際會議的幾點體會,重點在于采用規(guī)范數(shù)據(jù)支持數(shù)據(jù)實時混搭的兩種不同方式、元數(shù)據(jù)屬性映射的兩種不同水平和表現(xiàn)方法,以及數(shù)字圖書館數(shù)據(jù)模型的三種不同實現(xiàn)方案。

都柏林元數(shù)據(jù),DCMI,關(guān)聯(lián)數(shù)據(jù),規(guī)范數(shù)據(jù),元數(shù)據(jù)映射,數(shù)據(jù)模型

2013年都柏林核心元數(shù)據(jù)組織(Dublin Core Metadata Initiative,簡稱DCMI)國際元數(shù)據(jù)會議9月2日-6日在葡萄牙里斯本召開。今年的會議與iPRES2013(International Conference on Preservation of Digital Objects,數(shù)字對象保存國際會議)共同舉辦,與會者能選擇任何一方的專題會議參加,主旨發(fā)言也特別強調(diào)數(shù)據(jù)保存與元數(shù)據(jù)的關(guān)系。值得注意的是今年DCMI首次實行與其他組織共同舉辦專場和學習班,例如RDF詞匯長期保存和管理(Longterm Preservation and Governance of RDF Vocabularies)專場是W3C(萬維網(wǎng)聯(lián)盟,World Wide Web Consortium)協(xié)辦的,CAMP-4-DATA網(wǎng)絡基礎(chǔ)構(gòu)架及元數(shù)據(jù)協(xié)議(Cyber-infrastructure & Metadata Protocols)學習研討班是研究數(shù)據(jù)聯(lián)盟RDA(Research Data Alliance)協(xié)辦的。從元數(shù)據(jù)方面的參加人員來看,依然保持那種讓人激動和向往創(chuàng)新的氣氛,不論是DCMI元老們(Karen Coyle、Tom Baker、Gordon Dunsire、Diane Hillman、Jane Greenburg、Liddy Nevile、Shigeo Sugimoto、秦健、陳雪華),還是后起之秀(Antoine Isaac、Kai Eckert),或是新一代研究生(李愷、Tsunagu Honma、Biligsaikhan Batjargal、Mariana Curado Malta),他們的文章和發(fā)言都引起聽眾極大的興趣和踴躍提問,整個會議內(nèi)容實際、面向問題,同時也讓人很開眼界。秦健和李愷的關(guān)于科學元數(shù)據(jù)標準的可移植性的文章采用了大量數(shù)據(jù),而且提出了一系列衡量標準,水平很高,是四個最佳論文候選者之一,在此希望二位作者能自己寫成中文給大家介紹。

DCMI 2013會議學術(shù)委員會主席Kai Eckert發(fā)言

這次上海圖書館的幾位沒能參會,本人臨時受命將聽會的幾點體會在此與大家交流,但是因為事先沒有準備寫報道,會議期間也在忙專業(yè)組的工作,所以不能為大家提供全面和比較正式的報告。這里介紹的是在元數(shù)據(jù)項目中不同方法的比較,這是在聽會過程中得到的點滴啟示,結(jié)合本人已經(jīng)知道的一些方法來進行一點討論,供大家參考。

1 采用規(guī)范數(shù)據(jù)支持數(shù)據(jù)實時混搭的兩種不同方式

日本立命館大學的Biligsaikhan Batjargal介紹了他們采用關(guān)聯(lián)數(shù)據(jù)驅(qū)動的動態(tài)聯(lián)接來提供跨語種訪問多種人文數(shù)據(jù)庫的方法[1]。立命館大學的研究團隊在關(guān)聯(lián)數(shù)據(jù)資源、人名規(guī)范數(shù)據(jù)、主題詞規(guī)范數(shù)據(jù)的基礎(chǔ)上建立了一個聯(lián)邦情報檢索系統(tǒng)原型。以聯(lián)接各種日本浮世繪版畫(17世紀到20世紀)的資源為例,鑒于數(shù)據(jù)庫可能來自不同的博物館和數(shù)字圖書館,多語種、且沒有統(tǒng)一的名稱規(guī)范,在跨語種檢索過程中要先針對用戶輸入的人物名稱進行實時規(guī)范處理。用戶輸入名稱后,系統(tǒng)及時將之納入規(guī)范文檔進行查找,一旦選定名稱(例如歌川広重,Hiroshige Utagawa),系統(tǒng)馬上根據(jù)其國際虛擬規(guī)范文檔VIAF的URI、英文DBpedia URI和日文DBpedia URI獲取各種數(shù)據(jù)(關(guān)于歌川広重本人及其作品等)進行實時混搭并提供給用戶。我們知道國際虛擬規(guī)范文檔VIAF、美國國會圖書館規(guī)范主題(LCSH)及名稱文檔,以及日本國家圖書館規(guī)范主題(NDLSH)及名稱文檔相互之間以及它們與DBpedia之間都有映射(圖1中實線),其已發(fā)布成關(guān)聯(lián)數(shù)據(jù)的值(value)可能已在不少數(shù)據(jù)集里被采用,通過它們進而又能與日本博物館和其他浮世繪版畫數(shù)據(jù)庫進行聯(lián)接,這樣查回來的數(shù)據(jù)自然成為混搭的效果,給用戶提供更多相關(guān)資源。

圖1 通過規(guī)范數(shù)據(jù)聯(lián)接多種資源[1]

值得注意的是這種方式不同于聯(lián)合國糧農(nóng)組織等已經(jīng)采用的方法。以糧農(nóng)組織的OpenAGRIS為例,在顯示被查到的書目數(shù)據(jù)時,OpenAGRIS會自動將文獻內(nèi)容相關(guān)的事實(例如某種植物在世界的種植地段地圖、屬于瀕臨滅絕的動植物數(shù)據(jù)、某國家的基本檔案等)以及相關(guān)的文獻(例如《自然》雜志上的有關(guān)文章)同時混搭出來,使得每條書目數(shù)據(jù)都成為一個小型的知識網(wǎng)絡,讓讀者感到有觸類旁通的效果(圖2)[2]。

圖2 聯(lián)合國糧農(nóng)組織OpenAgris實時數(shù)據(jù)混搭結(jié)果截圖[2]

糧農(nóng)組織的做法是利用其書目數(shù)據(jù)中的主題關(guān)鍵詞,以其為出發(fā)點,通過在AGROVOC詞表中已經(jīng)匹配好的映射詞的URI去“抓”其他含有同樣主題URI的文獻資源的元數(shù)據(jù)。這樣做的前提是先有受控詞匯之間的映射。糧農(nóng)組織花了很多人力將詞表與十多個詞表類表做了映射。在主題詞表中這種方法是很合適的,但對于人名機構(gòu)名稱,這種做法很難達到類似的效果。首先是量大,名稱規(guī)范的詞條量比主題規(guī)范的詞條量要大很多倍;第二是增加很快,每天都會有新人成為作者或者成為新聞人物,提前將已有規(guī)范文檔匹配起來不現(xiàn)實;第三是多語種。由此可見日本研究者提出的這個方法的可行性和合理性。

2 元數(shù)據(jù)屬性映射的兩種不同水平和表現(xiàn)方法

我們知道在試圖合并數(shù)據(jù)或者轉(zhuǎn)換數(shù)據(jù)時,要先對數(shù)據(jù)格式的可互操作性作出評價并采用映射對照表來列舉對應的元素和字段(例如DC的“creator”對應Marc的1xx字段a子字段)。長期以來人們采用“crosswalk”(直譯為人行橫道,意譯是對應表)這個詞來表現(xiàn)這種映射方法和結(jié)果。在DC2013年會上,Diane Hillmann、Gordon Dunsire和Jon Phipps三員大將特別指出了對應表的局限[3]。他們提出應該提倡用“map”(地圖)以便看出映射的情況和斷層情況。所謂映射“地圖”是兩個或兩個以上的RDF元素(類、屬性、概念)通過本體屬性(RDFS、OWL)的連接。有很多映射關(guān)系,人當然能判斷出其匹配程度,但是機器就不行了,所以有必要用機器能看懂的方式準確表達出來。圖3是一個具體的地圖。舉最中間的一條屬性為例,最下面是RDA的本體類“劇本作家(Screenwriter)”,是RDA的“作者(Author)”的子類,“作者”的上位類為RDA的“創(chuàng)作者(Creator)”類。這個類或許可以與DCT的“創(chuàng)作者(Creator)”相對應。但是看看左邊那一系列匹配,出現(xiàn)了一系列不能確定等同映射的情況。最后歸到最上面兩個DC元素(Creator和Contributor)時,在這兩者之間可以看出是有很大鴻溝的。

總的來說,對應表是不同元數(shù)據(jù)格式之間的轉(zhuǎn)換,只能反映看到非常有限的映射。而映射地圖則顯示出不同元數(shù)據(jù)元素之間的上下、平行、重合、鴻溝等位置,使用戶對這些不同元素間的映射關(guān)系一目了然,也便于機器去理解。

圖3 采用自下而上的匹配方法得出的RDF元素映射地圖[3]

圖4 MARC 100字段a子字段與DCT、音樂本體(MO)、schema.org、FOAF有關(guān)屬性的映射[4]

實際上我們可能在研究和實際工作中早已采用了類似這種地圖的方法,在匹配中引進SKOS的不同的匹配程度的表述,包括準確匹配、廣義匹配、狹義匹配、相關(guān)匹配、交叉匹配等,只不過大家一直采用‘對應表’這個詞。這里有一段截屏(圖4)[4],是本人的關(guān)聯(lián)數(shù)據(jù)團隊做的映射表中的一個小部分,圖中展示MARC 100字段a子字段與DCT、音樂本體(MO)、schema. org之間屬性的映射,比如最后一行說明:MARC 100字段a子字段(責任者)與音樂本體里的“指揮mo:conductor”的匹配關(guān)系是廣義匹配(broadMatch),不是對等(exact)匹配。

3 數(shù)字圖書館數(shù)據(jù)模型的三種不同實現(xiàn)方案

另外體會到的一個“不同之處”是數(shù)據(jù)模型的實現(xiàn)方式。在一個專題專場中,Karen Coyle和Tom Baker特意提出了元數(shù)據(jù)應用綱要(Application Profile)作為OWL本體的可取代形式的觀點。這一場中歐洲數(shù)字圖書館Europeana的Antoine Issac的發(fā)言最給人以啟示,他從Europeana的數(shù)據(jù)模型與對數(shù)據(jù)應證(validation)功能的要求的關(guān)系來看,討論到底是做成什么好:XML schema、OWL本體,還是做成應用綱要(application profile)的形式來實現(xiàn)[5]。Europeana已經(jīng)有來自2200個博物館、檔案館、圖書館以及其他機構(gòu)共2900萬的對象元數(shù)據(jù),其數(shù)據(jù)模型需要達到的目的包括:(1)區(qū)分“對象”(繪畫、書籍、電影等)與它們的數(shù)字表現(xiàn);(2)區(qū)分對象及其元數(shù)據(jù)記錄;(3)允許同一個對象的多個記錄,包括潛在的有矛盾的陳述;(4)支持由對象組成的對象;(5)支持上下文的資源,包括受控詞表里的概念。對于大量的來自多方的數(shù)據(jù),數(shù)據(jù)模型應該能進行監(jiān)測以保證進來的數(shù)據(jù)滿足Europeana的基本數(shù)據(jù)功能并達到一定的質(zhì)量。

Antoine Issac和團隊將數(shù)據(jù)模型先做成OWL本體,但是其監(jiān)測的功能不強。他們又將數(shù)據(jù)模型用XML schema的形式來實現(xiàn),這樣做雖然能解決監(jiān)測的問題,但是局限于XML格式,而且回到以元數(shù)據(jù)整條“記錄”為基礎(chǔ)的老的方法,不是RDF強調(diào)的三元組“陳述”為基礎(chǔ)的方法。當外面數(shù)據(jù)進來時,又成了內(nèi)部格式與外部格式要匹配的問題。XML schema一級的限制導致大量的重復聲明,而且很難貫徹限定條件。那么現(xiàn)在這種數(shù)據(jù)模型是不是可以按照應用綱要的方法來實現(xiàn)呢?從內(nèi)容上來看,其數(shù)據(jù)模型已經(jīng)融合了幾種元數(shù)據(jù)標準的元素,每個元素也都有限定條件,看來符合應用綱要的要求,但是還要能與SPARQL關(guān)聯(lián)數(shù)據(jù)查詢語句的限定條件相吻合。下面他們還會做更多的測試,但是基本上已經(jīng)決定放棄OWL本體和XML Schema的辦法。

以上是幾點令人思考的問題和方法,因為覺得很受啟發(fā),就在此作為重點討論了。DCMI已經(jīng)將所有發(fā)言資料公布在網(wǎng)上,包括培訓課程、主旨演講、會議論文的文章全文以及發(fā)言PPT,都可在http:// dcevents.dublincore.org/IntConf/ dc-2013/schedConf/presentations處查到[6],是十分珍貴的資料。

DCMI 2013會議現(xiàn)場的學生表演

今年DCMI還有一件大事,就是它脫離了原來在新加坡注冊管理的單位。經(jīng)過挑選,最后和ASIS&T(原來名稱為“美國信息科學與技術(shù)學會,The American Society for Information Science and Technology”,現(xiàn)在正式改名為“信息科學與技術(shù)學會,Association for Information Science and Technology ”,縮寫不變)達成協(xié)議,成為ASIS&T的一個項目,前景非常樂觀。DCMI顧問委員會也開始更加結(jié)構(gòu)和功能化,未來一年間將成立若干執(zhí)行委員會,分管管理、教育、開發(fā)、應用等方面的主題和活動。今年DCMI也正式開始實行會員制,已經(jīng)有很多單位和個人成為DCMI成員。2014年DCMI年會將在美國得克薩斯的奧斯丁召開,希望能見到更多來自中國的同行。

曾蕾和秦健(左,美國雪城大學)、陳雪華(中,臺灣大學)在DCMI 2013會議

[1]BATJARGAL B, KUYAMA T, KIMURA F, MAEDA A. Linked Data driven dynamic Web services for providing multilingual access to diverse Japanese humanities databases [C/OL]//DC2013: Linking to the Future. International Conference on Dublin Core and Metadata Applications, Sept. 2-6, 2013. Lisbon, Lisbon, Portugal. http:// dcevents.dublincore.org/IntConf/dc-2013/paper/view/150/129.

[2]OpenAgris. Agricultural Information Management Standards (AIMS). FAO of the UN [OL]. [2013-10-24]. http://aims.fao.org/openagris.

[3]HILLMANN D I, DUNSIRE G, PHIPPS J. Maps and gaps: strategies for vocabulary design and development [C/OL]//DC2013: Linking to the Future. International Conference on Dublin Core and Metadata Applications, Sept. 2-6, 2013. Lisbon, Lisbon, Portugal. http://dcevents.dublincore.org/IntConf/dc-2013/paper/view/185/133.

[4]Linked Open Data- Library Archives Museum Research Group, Kent State University.Crosswalks from MARC to Digital Collections and Music Ontology [OL]. [2013-10-24]. http://lod-lam.slis.kent.edu/07/classes/MARC___-442367101.html.

[5]ISAAC A. Validation of Europeana data: application profile, OWL ontology, or else? [C/OL]//DC2013: Linking to the Future. International Conference on Dublin Core and Metadata Applications, Sept. 2-6, 2013. Lisbon, Lisbon, Portugal. http://dcevents.dublincore.org/IntConf/dc-2013/paper/view/139/159.

[6]DC2013: Linking to the Future. International Conference on Dublin Core and Metadata Applications, Sept. 2-6, 2013. Lisbon, Lisbon, Portugal. Presentations and Authors [OL]. [2013-10-24]. http://dcevents.dublincore.org/IntConf/dc-2013/schedConf/presentations.

Notes from DCMI 2013 Conference

Marcia Lei Zeng/Kent State University, Kent, OH 44242, USA

The author shares her experience of participating in the 2013 DCMI (Dublin Core Metadata Initiative) International Conference on Dublin Core and Metadata Applications, with the emphases on some of the issues and processes, including two different methodologies used in mashups of Linked Data supported by controlled vocabularies and authority files, two different levels of metadata property mapping and their representations, and three different approaches for implementing the data model in a large digital library.

Dublin Core Metadata, DCMI, Linked data, Authority data, Metadata mapping, Data model

2013-11-11)

10.3772/j.issn.1673—2286.2013.12.002

曾蕾(Marcia Lei Zeng),教授,DCMI首位咨詢委員會主席。研究方向:知識組織系統(tǒng)、元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、語義技術(shù)。

個人主頁:http://marciazeng.slis.kent.edu/。E-mail: mzeng@kent.edu

猜你喜歡
數(shù)據(jù)模型本體規(guī)范
Abstracts and Key Words
哲學分析(2023年4期)2023-12-21 05:30:27
來稿規(guī)范
來稿規(guī)范
PDCA法在除顫儀規(guī)范操作中的應用
來稿規(guī)范
對姜夔自度曲音樂本體的現(xiàn)代解讀
中國音樂學(2020年4期)2020-12-25 02:58:06
面板數(shù)據(jù)模型截面相關(guān)檢驗方法綜述
加熱爐爐內(nèi)跟蹤數(shù)據(jù)模型優(yōu)化
電子測試(2017年12期)2017-12-18 06:35:36
《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
文學教育(2016年27期)2016-02-28 02:35:15
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
闽侯县| 浑源县| 海伦市| 武义县| 威宁| 水城县| 洪泽县| 清镇市| 平潭县| 象州县| 靖远县| 常州市| 始兴县| 泊头市| 邳州市| 建湖县| 垦利县| 炉霍县| 金昌市| 鄂托克前旗| 凌云县| 平乐县| 北碚区| 靖州| 科技| 札达县| 淮阳县| 灵丘县| 临高县| 兴安盟| 略阳县| 咸宁市| 沙田区| 玉环县| 攀枝花市| 南陵县| 雷波县| 视频| 沧州市| 扎兰屯市| 西平县|