DCMI 2021虛擬年會綜述*

2022-02-08 18:51:24范煒林君松

數字圖書館論壇 2022年5期

范煒林君松

（四川大學公共管理學院，成都 610064）

DC元數據（Dublin Core Metadata）是全球范圍內影響力最大、應用范圍最廣的網絡資源通用描述標準。都柏林核心元數據組織倡議（Dublin Core Metadata Initiative，DCMI）制定了DC元數據標準，并持續(xù)推動元數據的應用實踐。

1995年，DCMI在美國俄亥俄州都柏林發(fā)起第一次元數據研討會。自此，DC元數據吸引了全球范圍內眾多信息專業(yè)人員參與其中，產生了廣泛的影響力。DCMI逐漸從區(qū)域性會議轉變?yōu)閲H性年會，鼓勵全球范圍內對元數據感興趣的人員參與進來分享實踐經驗與看法。自2001年起，DCMI不再使用DC元數據研討會（Dublin Core Metadata Workshop）提法，不限制參與人數，開始以年份命名會議，目前已連續(xù)舉辦29次，已發(fā)展成為全球最具影響力的元數據學術盛會。

由于新型冠狀病毒肺炎疫情肆虐全球并產生持續(xù)影響，2020年起DCMI年會由線下實體會議轉變?yōu)榫€上網絡會議。疫情雖然阻隔了面對面的會議交流，但同時推動了在線會議交流形式的靈活性與多樣性，吸引全球范圍更廣泛的關注與參與。

DCMI 2021虛擬年會于2021年10月4—15日成功舉辦，歷時12天，其規(guī)模和體量較以往更大，是至今為止元數據年會中規(guī)模最大的一次。會議匯報交流者來自全球26個國家的100多名專家學者、專業(yè)人員以及高校師生等。DCMI 2021虛擬年會主題為“元數據創(chuàng)新”（Metadata Innovation），探討全球視野的元數據創(chuàng)新發(fā)展，分享元數據實踐成果與項目經驗[1]。此次年會組織者陣容強大，會議主席是美國肯特州立大學的曾蕾教授，會議組委成員包括我國武漢大學的黃如花教授、韓國成均大學的Sam Oh教授等。

此次年會形式多樣，包括主旨報告、主題匯報、最佳實踐、特邀講座、培訓講座和會員論壇等多種形式。一個創(chuàng)新之舉在于，增設了學生論壇。通過不同國家地區(qū)學生的學術成果分享，提供與業(yè)屆專家交流機會，為元數據專業(yè)人才培養(yǎng)、新生力量的培養(yǎng)提供了交流與展示舞臺。

根據年會日程，通過DCMI網站采集參會者匯報內容的摘要與標題，整理形成文本文件。借助Python的分詞包jieba，通過段落、語句切分，自定義停用詞表和用戶詞典，經過數據清洗與分析，統(tǒng)計詞頻在3個以上的關鍵詞共有310個。除元數據外，數字化、數據和信息等通用詞詞頻較高，其次是圖書館、檔案館、網絡、項目、政策、科研、文化遺產、數據建模、關聯數據及本體等。

此次年會內容豐富且交流形式多樣，限于篇幅，本文首先重點分析特邀主旨報告，隨后按研究主題選擇性進行評述，以期為國內讀者提供一份元數據研究線索資料。

1 年會特邀主旨報告分析

DCMI 2021虛擬年會特邀兩位資深專家做主旨報告。一位是學者型專家，芬蘭赫爾辛基大學的Eero Hyv?nen教授；另一位是實踐型專家，來自谷歌的Dan Brickley目前負責Schema.org的運維。以下重點分析兩份主旨報告。

1.1 芬蘭國家級本體和語義門戶建設經驗

Eero Hyv?nen教授的主旨報告主要介紹了Sampo模型及其系列語義門戶項目經驗，芬蘭國家本體建設與服務，以及面向用戶服務和數據開放重用的7星模型。

（1）基于Sampo模型的系列語義門戶構建。Sampo模型是一種用于創(chuàng)建跨領域本體和關聯數據集成的元模型，是語義門戶建設的核心所在[2]。Sampo模型主要包括三部分：用于創(chuàng)建和發(fā)布關聯數據的業(yè)務模型；面向最終用戶的資源內容視圖；基于視圖的分面檢索和數據分析。其中，業(yè)務模型依賴于國家本體基礎設施提供的本體服務，協(xié)調多個來源的內容提供，采用國際標準與常見做法，以語義關聯的方式在應用中集成各類資源。在面向最終用戶使用的語義平臺服務，基于Sampo模型的語義門戶從提升用戶體驗出發(fā)，除提供傳統(tǒng)資源的文本檢索、瀏覽與下載等服務外，還提供了多樣化的內容視圖，幫助用戶從多維度進行語義檢索與分析。在Sampo模型基礎上，開發(fā)了多個專題語義門戶，如WarSampo、CultureSampo、HistorySampo、LawSampo等[3]。

（2）國家本體模型基礎設施建設。芬蘭國家級本體基礎設施建設是較為特殊的一種集中式本體項目實施做法。Eero Hyv?nen以芬蘭博物館項目建設所面臨的問題和挑戰(zhàn)，如多源異構數據發(fā)布問題、本體無法適應語義網應用程序、海量數據索引效率，以及開發(fā)大型跨領域詞表所需要的領域專家的參與問題等，提出面向國家級本體基礎設施項目FinnONTO（2003—2012）。該國家本體基于敘詞表構建共享本體，能夠實現不同領域本體之間的自動關聯與語義豐富。由特定領域專家組通過分布式參與方式進行領域本體開發(fā)。通過協(xié)調芬蘭國內眾多機構和專家學者，開發(fā)一系列領域本體，主要包括通用概念、參與者、地點、時間、事件以及特定主題領域，如醫(yī)療健康和農林等。在分布式參與模式下，不同領域專家通過詞表對齊與轉換生成本體。最后，統(tǒng)一映射到YSO上層本體，實現不同領域本體之間的關聯映射和語義互操作。各個本體匯聚成一個整體，即KOKO本體，通過ONKI（onki.fi）本體服務平臺，提供本體發(fā)布、編輯與維護等[4]。

（3）數據開放重用的7星模型。數據的最終價值是服務于用戶需求，通過借助網絡能在最大程度上被更廣范圍的用戶使用并重用。以用戶為中心提供數據服務并兼顧數據發(fā)布者的應用需求，Eero Hyv?nen教授在關聯數據發(fā)布5星模型基礎上，創(chuàng)新性擴充了2星要求，形成關聯數據服務7星模型。6星要求為數據提供模式和文檔，以便用戶能夠理解和重用數據。7星要求驗證數據并指出其來源，以便用戶可以信任數據質量[5]。Eero Hyv?nen認為，5星數據能夠吸引用戶使用這些數據，但并不足夠支持用戶“消費”這些數據。關聯數據服務7星模型的提出，一方面，增進了用戶對發(fā)布數據的內容結構、質量、來源等多方面的了解，盡可能地減少用戶為使用數據所做的額外工作，刺激用戶對數據的“消費欲望”；另一方面，也要考慮到數據發(fā)布者的工作負擔。因此，在平衡數據用戶與數據發(fā)布者二者的利益需求上，目前LDF.fi平臺符合其提出的關聯數據服務7星模型，支持用戶上傳發(fā)布自己的數據和使用各類服務。

通過早期的項目建設為后續(xù)的文化遺產保存利用和數字人文研究奠定了較為堅實的基礎，將各類資源借助語義門戶網站呈現，以知識單元形式提供給用戶，服務于知識發(fā)現。經歷了第一代只提供給用戶檢索、瀏覽的門戶建設模式，向第二代為用戶提供檢索工具、幫助數字人文研究人員解決研究問題的模式轉變，實現從為用戶提供資源到為用戶提供解決問題工具的過渡，逐步走向以知識發(fā)現、問題解決和自動推理等AI技術賦能的第三代門戶建設[6]，推動數字人文研究發(fā)展。

1.2 DC元數據與Schema.org競爭共生發(fā)展

Dan Brickley見證了DCMI與DC元數據的發(fā)展歷史，是典型的業(yè)界技術實踐專家。他在DCMI 2012年會上曾做主旨報告，“What is left to do？”，以老問題新回答的方式，討論了初創(chuàng)的Schema.org與DC的關系，指出在語義網與關聯數據中發(fā)展元數據[7]。9年之后，他再次受邀作為主旨報告嘉賓，以“Schema.org and Dublin Core：the next chapter”為題，分享了最新網絡元數據實踐。

Dan Brickley參與制定了語義網相關標準，如W3C RDF Schema規(guī)范[8]，網絡個人信息描述的事實常用元數據方案FOAF。目前其負責的Schema.org是由網絡社群驅動的開放元數據標準，被主流搜索引擎公司與各類知識圖譜應用所采用。

Dan Brickley首先從參與DC元數據制定談起，結合實際工作，介紹了DC與Schema.org的發(fā)展歷程與應用情境，主要內容歸納為以下4點。

（1）跨區(qū)域的組織協(xié)作是運行保障。當前各類網絡資源的數據化開發(fā)與利用，需要各類專業(yè)人員跨領域進行協(xié)作。W3C為網絡數據標準的制定與推廣提供了保障。通過網絡社群參與的專業(yè)人員所擁有的不同學科背景，給標準的推廣創(chuàng)造了有利條件。這些專業(yè)人員將這些數據標準或應用或拓展，使行業(yè)彼此之間的開放關聯性增強。

（2）DC與語義網的強綁定是必然選擇。從元數據發(fā)展歷程看，DC元數據能夠發(fā)展為最通用的元數據方案，實現機器的可讀取和可理解，這與契合語義網發(fā)展，選擇與W3C的RDF、OWL緊密結合是分不開的。各類組織機構將DC元數據用于網站資源結構化描述，通過關聯數據方式發(fā)布，逐步形成開放關聯的數據網絡。

（3）Schema.org的數據變現能力強。Schema.org是在谷歌、必應、雅虎、Yandex這4家搜索引擎的共同支持下，由網絡社群開發(fā)的一套網絡資源描述與標注方案。最早是為了搜索引擎更好地識別網頁內容，以微數據格式嵌入網頁，賦予機器理解網頁內容的能力。在此基礎上，通過實體與關系的豐富化，逐步增強語義化描述能力，能夠處理文章、食譜、事件、事實核查、數據集等多種結構化數據對象，實現檢索優(yōu)化和語義理解等[8]。

（4）兩者共同面臨的挑戰(zhàn)。DC元數據作為國際標準（ISO：15836）的通用擴展性強，Schema.org的網絡實踐活躍且擴展豐富。盡管兩者在當前擁有顯著影響力，但面臨的問題依然存在，例如服務于社會發(fā)展的需求轉變所存在的應用范圍、描述粒度等問題，還需要DCMI與Schema.org社群加強交流，探索網絡信息資源描述與發(fā)現的共融發(fā)展之路。

Dan Brickley的主旨報告引發(fā)了參會者對DC元數據與Schema.org融合發(fā)展方向的思考。高質量的結構化與語義化的數據資源是知識圖譜與人工智能應用的重要支撐，Schema.org代表了網絡資源描述與標注的新陣地，DC元數據與Schema.org的開放融合也是發(fā)展的必然選擇。

2 年會研究主題評述

此次年會分享了來自不同領域的眾多主題演講與項目實踐，通過不同機構組織之間的交流溝通，為元數據的創(chuàng)新應用提供全球視野與新發(fā)展思路。以下主要對5個主題進行線索式概要評述。

2.1 文化遺產元數據

此次年會有關文化遺產元數據的應用實踐非常豐富，代表性報告評述如下。

日本筑波大學的Shigeo Sugimoto教授等在數字空間中，討論了面向物質文化遺產和非物質文化遺產的關系表示的元數據模型[9]，提出文化資源開發(fā)利用中所面臨的一系列研究問題與挑戰(zhàn)。例如，為哪些文化實體創(chuàng)建元數據，煙花屬于藝術活動還是物理實體，作為非物質文化遺產的傳統(tǒng)舞蹈屬于舞蹈技巧還是表演，人文學科中的研究數據是將個體還是整體檔案作為一個數據集，以單件為中心的元數據描述是否適用于煙花表演、文化活動和新媒體藝術等問題。

日本IT顧問工程師Tetsuya Mihara結合自身興趣，介紹了日本媒體藝術數據庫（Media Art Database，MADB）的項目開發(fā)[10]。他提出了一種基于單件與基于內容相結合的本體建模方法，既從資源內容建模，又從單件屬性說明資源的個體特征，介紹其在數據收集、組織等過程中遇到的困難與挑戰(zhàn)。MADB中主要包括四類資源：日本漫畫、動畫、視頻游戲及其他新媒體藝術。目前MADB數據庫中前三類資源居多，收集了日本近480 000本漫畫雜志、9 000部動畫和48 000種視頻游戲，以關聯數據發(fā)布到GitHub。

斯里蘭卡科倫坡大學的Chiranthi Wijesundara從無形和短暫文化實體建模出發(fā)，介紹了文化遺產信息的豐富性與相關特征，分析了文化遺產數字環(huán)境模型CHDE，將建模對象區(qū)分為數字空間和物理空間兩類，對兩種不同空間范圍的實體屬性映射到CIDOC-CRM和FRBR，從而構建本體，實現數字資源聚合。

Europeana目前包括44個國家近4 000個文化機構的文化數據資源網絡。在元數據語義豐富化方面，EDM數據模型為不同機構之間的語義關聯和描述提供數據模型基礎。Europeana的Antoine Isaac在本次年會上介紹了基礎實體收集過程和實體管理的一些做法。例如，開發(fā)與實體關聯的協(xié)作用戶庫、通過推薦引擎推薦新項目等。Antoine Issac等分享了Europeana在建設過程中面臨的多語言挑戰(zhàn)，對用戶網站瀏覽、閱讀網站內容、文本閱讀和搜索4類行為進行多語言支持。多語言支持的困難體現在24種官方語言更新、每兩周更新一次用戶界面以及資金支持不足等。他們提出了使用谷歌自動翻譯服務節(jié)省志愿者時間與資金，翻譯存疑之處尋找母語人員解決，以及項目建設伙伴以郵件或網站反饋形式進行翻譯更新。采用谷歌云翻譯API對檢索結果實時翻譯更新等手段，提高多語言兼容效率。

上海圖書館的劉煒副館長、夏翠娟研究館員介紹了上海圖書館歷史人文數據平臺的構建過程，以及現有的三大數字人文平臺（元數據搜索、全文提供系統(tǒng)和語義知識系統(tǒng)）。上海圖書館數字人文平臺語義架構設計采用數據中臺理念構建，結合智慧圖書館建設，強調知識服務的主體在于數據中臺的建設，數據中臺能夠最大程度地增強圖書館對知識單元的查找、關聯、分析和可視化能力。未來智慧圖書館建設中DC將發(fā)揮核心基礎性作用。

其他匯報包括：泰國朱拉隆功大學的Songphan Choemprayong副教授分享的泰國莫科倫地區(qū)文化遺產語言建模研究；泰國孔敬大學的Suwannee Hoaihongthong從文化遺產信息管理角度，將壁畫特征、壁畫使用者信息行為特征、數據注冊者使用元素與VRA CORE進行對比分析等；瑞典索德脫恩大學的Karin Hansson副教授從開放研究數據庫的角度解讀當前面向文化遺產元數據與圖片共享的開放研究，指出早期對開放數據庫中的文化遺產數據共享存在個人研究偏好、知識產權保護和相關元數據標準缺乏的問題，提出在開放數據庫中可以應用怎樣的準則和元數據去描述開放獲取的數據。

DCMI曾在2012年成立文化遺產元數據任務組。2022年初由Shigeo Sugimoto教授牽頭成立核心文化元數據建模興趣組，開展圖檔博視角的文化遺產多樣性數據建模研究。未來文化遺產領域的元數據研究與應用實踐會持續(xù)活躍。

2.2 圖書館元數據業(yè)務實踐

英國聯合信息系統(tǒng)委員會的Neil Grindly分享了英國國家書目知識庫NBK的建設經驗和應對數據應用的M計劃。由JISC負責建設的NBK數據庫，收集了來自176個機構約1.3億條數據記錄。這些數據包括各類圖書館、檔案館的編目數據，以及開放存?。∣A）資源數據和出版社數據等，經過去重、對比等處理得到4 800萬條記錄，這些數據對外開放并發(fā)布在WorldCat中，便于編目處理與分析。他認為，元數據M計劃的提出，旨在優(yōu)化英國的元數據市場，以簡化目錄記錄的供應和需求，推動各類圖書館之間可以自由和重用書目數據。

美國國會圖書館提出的BIBFRAME基于關聯數據，在北美地區(qū)應用較廣，歐洲地區(qū)也舉辦了相應的研討會。此次“BIBFRAME實踐”分會場為全球各地機構與專家提供了交流空間。美國國會圖書館的Sally Mccallum介紹BIBFRAME在美國國會圖書館所面臨的挑戰(zhàn)與解決方案。她指出，從MARC向BIBFRAME過渡時，需要考慮關聯書目數據模型的開放性與兼容性，需要處理好書目模型的語言和底層數據腳本的支持問題。因此，美國國會圖書館推出兩個階段性項目以實現過渡。從MARC向BIBFRAME的數據遷移還需要花費更長的時間，人員培訓、系統(tǒng)靈活性在BIBFRAME 100計劃中面臨挑戰(zhàn)。

美國斯坦福大學圖書館的Philip E. Schreur副館長討論了BIBFRAME數據轉換流程中的問題。面向生產的關聯數據LD4P（Linked Data for Production）項目分為多個階段進行，包括擴大實施范圍、吸引更多機構參與的LD4P2階段，以及面向數據轉換與存儲至本地系統(tǒng)的LD4P3階段。

瑞典國家圖書館的Fredrik Klingwall介紹了為MARC向BIBFRAME轉換數據而建設的librisXL系統(tǒng)，該系統(tǒng)鏈接了多個機構資源，提供關聯數據服務和美國國會圖書館的鏈接。新加坡國家圖書館委員會的Linnet Ng介紹了新加坡國家圖書館基于現有資源的關聯數據轉化，以及各類圖書館、檔案館資源描述的MARC格式向BIBFRAME轉換的發(fā)展規(guī)劃。

韓國國立圖書館的Yoon Kyung Choi介紹了主題詞自動推薦，主題詞描述自動轉換為KORMARC的項目做法，從數據模式分析、系統(tǒng)處理設計、系統(tǒng)實施進行元數據流程改進等在應對韓國國家圖書館元數據工作流程中的挑戰(zhàn)。

葡萄牙國家圖書館的Helena Patrício面對不斷增長的數據資源描述需求，從數字特藏、獲取服務、開放數據以及內容重用4個方面提出簡化原有數據模型、使用本地標準代替部分元數據標準完善元數據模型，參考國際模型設置資源數據開放專區(qū)，以公有領域發(fā)布開放數據，每年向Europeana共享元數據。

元數據業(yè)務是信息資源建設的核心，以BIBFRAME為代表的編目工作升級，融入網絡開放數據生態(tài)體現出圖書館元數據的傳統(tǒng)編目與技術創(chuàng)新融合。

2.3 元數據和隱私保護

數據時代的個人信息與隱私保護越來越受到關注。元數據在很大程度上決定著隱私數據安全利用的發(fā)展走向。

愛丁堡龍比亞大學的David Haynes以美國中情局的“We kill people based on metadata”為引子，討論類機構如何利用元數據對目標個體、社交媒體監(jiān)督、基礎設施進行的關聯監(jiān)督以及預防網絡犯罪。他介紹了如何防范此類情況發(fā)生的方法，例如完善保護隱私數據的法律法規(guī)、隱私保護元數據標準的制定、相關機構對于隱私數據保護利用的政策支持以及相應的規(guī)則制定等。

都柏林圣三一大學ADAPT中心的Harshvardhan J. Pandit研究員介紹了W3C數據隱私詞匯與控制社區(qū)小組（Data Privacy Vocabulary and Controls Community Group，DPVCG）提出的數據隱私詞表（Data privacy vocabulary，DPV）。該詞表在《歐盟通用數據保護條例》（General Data Protection Regulation，GDPR）基礎上擴展，包括個人數據分類、數據收集目的分類以及處理、披露、同意利用個人數據事件的描述信息。DPV使用語義詞匯術語和本體關系，表示與隱私和數據保護相關概念。

加拿大安大略省檔案管理員、首席信息安全官John Roberts從自身從事政府工作的經驗出發(fā)，分享其對元數據在政府政務應用與行政工作中的作用的看法?！皵底职泊舐浴钡膽?zhàn)略規(guī)劃愿景在于構建一個便捷數字化、安全、互聯以及數據支持的世界領先的數字管轄區(qū)。在對數據（或元數據）的管理與政策制定上，出臺了一系列標準法規(guī)用于規(guī)范數據開放、存取、人工智能應用、網絡安全、隱私保護、數據集成以及檔案描述等，充分實現政府對元數據的管理，提高安大略省政府的行政效率。

由于元數據與隱私之間關系密切，在移動互聯、物聯網、信息流推薦的數據密集型應用中，將有更多討論。

2.4 科學數據管理

在開放科學和數字學術環(huán)境中，元數據在科學數據管理中將發(fā)揮主要作用。此次年會對FAIR原則的應用、科學數據開放獲取與存檔等方面開展討論。

澳大利亞研究數據共享中心的吳明芳指出建設研究資源庫對于滿足科研教育需求的迫切性，介紹了在構建資源庫所面臨的資源描述與呈現等過程中的挑戰(zhàn)與相應的解決方案，提出遵循FAIR原則，將結構化元數據應用于資源庫建設，以指南方式介紹了一系列用于網絡應用和發(fā)布結構化元數據的做法。

西班牙薩拉戈薩大學的Javier Nogueras Iso副教授分享了DC元數據在開放地理空間數據出版中的應用，從空間數據基礎設施的背景、DC元數據作為互操作性和可查找性解決方案、開放地理空間數據時代的DC元數據以及DC元數據對于地理數據描述質量的挑戰(zhàn)等方面進行了介紹。

加拿大西蒙菲莎大學的Emma Griffiths介紹了加拿大公共衛(wèi)生綜合快速傳染病分析生物信息學平臺IRIDA，應對食品安全保障和基因流行病學研究，在基因本體基礎上開發(fā)了Foodon和GenEpio兩個本體，實現了本體搜索OLS、自動標引LexMapr、基因跟蹤GenomeTrakr等功能。

在促進食品農業(yè)科學數據獲取方面，聯合國糧農業(yè)組織（Food and Agriculture Organization of the United Nations，FAO）高級信息管理官Imma Subirats Coll介紹了FAO的AGRIS現狀，當前已有454個數據提供者向FAO提交了數據集，以促進科學數據共享，分享了AGRIS多語種支持，以及向AGRIS提交元數據的方式。

2.5 元數據技術應用

DCMI年會的一個傳統(tǒng)是突出實務性，始終關注元數據相關技術工具和系統(tǒng)應用。此次年會設有一個前沿話題“Why AI≠Automated Indexing”，從人工智能技術賦能元數據角度展開探討。

荷蘭歷史學家Hans Brandhorst介紹了其創(chuàng)建的Iconclass系統(tǒng)，這是全球最大的基于杜威十進制分類法的視覺藝術分類系統(tǒng)，用于對各類歷史圖片和現代攝影照片進行分類與描述。2015年該系統(tǒng)網站以關聯數據形式對外開放，2021年網站更新，進一步提升用戶體驗。最新的Iconclass系統(tǒng)支持多語種，如葡萄牙語、荷蘭語以及部分中文等，還提供交流論壇、機構API接入以及書目數據分類等功能。面向圖片分類識別的更新，通過自動圖片索引方式區(qū)分不同圖片含義，在測試大量的圖片集用于機器學習后，系統(tǒng)能更加精確面向圖片進行細節(jié)描述分類與自動標引。

西班牙巴塞羅那超級計算機中心的Joaquim More López等以“Saint Geovge On a Bike”為主題，說明人工智能在圖片識別和自動圖片索引的應用。巴塞羅那超級計算中心的Marinescu Maria-Cristina指出，將人工智能用于圖片識別的最初動機是元數據的自動標注、用戶通過網頁或應用程序交互，提高搜索引擎檢索效率以及提供用戶無障礙訪問等。他認為，人工智能逐漸應用于文化遺產領域的圖像自動索引，將極大提高不同時空范圍的圖片內容描述效率。以Saint George on a Bike數據庫為例，該數據庫包含15000多幅圖像數據，提供API允許第三方采集圖像數據。將該數據集作為圖像識別訓練集，根據算法識別出不同圖像描述語句的主語、謂語與賓語，從而實現不同圖像之間視覺關系的精確分類索引。

美國資深詞表專家Marjorie Hlava結合文獻研究和自身詞表開發(fā)經驗，對自動標引和人工智能中兩個“AI”談及個人理解。芬蘭國家圖書館的Osma Suominen介紹了應用于芬蘭文化與科學資料庫Finna的自動主題索引和分類的工具Annif以及關于該工具的開發(fā)過程、開發(fā)目標、使用的目標索引質量、參與的社區(qū)建設和開發(fā)工具的安裝部署流程。

除此之外，此次年會的技術工具培訓與系統(tǒng)使用分享也非常豐富。美國密歇根州立大學的Sharon Leon副教授介紹了面向文化遺產資源研究、發(fā)布關聯數據和資源管理的平臺Omeka。Omeka是一個由多個組織贊助支持、服務于文化遺產研究的數字學術項目。2016年推出新一代的Omeka S，在Omeka Classic開源基礎上做出大量優(yōu)化，實現多項目、跨站點資源聚合管理，實現了對單一資源對象實體的數字化展覽與保管，以JSONLD數據格式發(fā)布并對外提供API。Omeka S能夠從其他機構知識庫系統(tǒng)Fedora和DSpace導入集成數據。

Coli-Conc開源系統(tǒng)由德國公共圖書館網絡總部開發(fā)，用以促進圖書館知識組織系統(tǒng)之間的索引管理和交換。該系統(tǒng)提供基于網絡訪問的Cocoda工具，為用戶提供知識組織系統(tǒng)的標引與映射編輯功能，以可視化瀏覽方式展示知識組織系統(tǒng)，支持創(chuàng)建和修改映射候選術語并分配映射類型，并對外提供開源，后端服務則包括術語發(fā)布與檢索服務、映射與存儲、映射建議與映射質量統(tǒng)計等服務。

出版供應商Casalini Libri首席信息官Tiziana Possemato介紹了面向文化機構的關聯數據管理系統(tǒng)Share-VDE。該系統(tǒng)致力于為圖書館和各類文化數據機構提供一套數據的關聯管理方案，使用關聯數據技術進行關聯和呈現日益增長的海量數據，促進書目數據的交換重用，提高知識可視化與知識獲取的便捷性。匈牙利塞切尼國家圖書館的Miklós Lendvay介紹了匈牙利國家圖書館項目平臺HNLP，該平臺旨在整合多源異構數據，以分布式、模塊化促進數字資源共享與協(xié)作。德國斯圖加特傳媒學院Kai Eckert教授介紹了以關聯數據形式發(fā)布猶太文化，分享了歷史資源平臺JudaicaLink的實體管理過程等。

3 總結與展望

DC元數據從初始制定到推廣應用歷經了26年，舉辦了29屆年會。發(fā)展至今，DCMI年會是了解元數據最新研究與應用的學術活動，其討論與交流內容反映了當下元數據研究面臨的熱點問題與發(fā)展態(tài)勢。

2020年是DCMI成立25周年。在回顧和展望未來的當下，DCMI 2020年會主旨報告第一位專家是DCMI組織的創(chuàng)始人之一Stuart Weibel，作題為“2020 Vision：Reflections on a Quarter Century of Metadata”的主旨報告[11]。這份主旨報告串起了元數據的過去、現在與未來，引發(fā)元數據研究者、實踐者及教育者的集體共鳴。在25周年節(jié)點上，DCMI 2021虛擬年會承上啟下，繼往開來，辦成了至今為止最盛大的一次元數據學術盛會。此次年會帶來豐富的元數據研究素材與實踐經驗，為國內元數據相關研究者、從業(yè)者以及高校專業(yè)師生開拓了視野，啟發(fā)了思路。元數據作為數據基礎設施建設的核心要件，相關的技術要素活躍，語義增強與關聯集成是當前元數據助推行業(yè)和主題數據資源建設的核心任務。面向數字人文的文化遺產元數據、隱私保護、科學數據管理等是元數據應用領域的新開拓。

隨著DC元數據的全球推廣，國內對DC元數據有著持續(xù)關注和本地化應用。2004年國內圖書情報機構上海圖書館承辦了DC-2004年會。2006—2013年，國內專家學者曾對DCMI年會內容持續(xù)跟蹤與評述。近些年，盡管DCMI年會都有國內專家學者參會，但有關的年會進展與評述鮮見于公開發(fā)表，造成跟蹤中斷。對DCMI年會的持續(xù)關注、積極參與、國際交流及評述轉化，是促進國內元數據研究與應用保持活力的一種推動力。

國內在元數據標準制定、各類信息資源建設中已取得階段性進展，學界與業(yè)界對語義網、關聯數據、本體的技術理念理解與應用手段也已達到成熟階段，但依然缺乏像芬蘭語義門戶、Europeana等具有影響力的本土項目。在數智賦能的數字文明新時代，中國元數據研究與實踐應守好數據基礎設施建設盤面，加強與國外交流合作，在數據新基建中，以元數據為助推器，以智慧數據作為目標，用好數據，開拓創(chuàng)新多元化應用與服務。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡