国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

BBC關(guān)聯(lián)數(shù)據(jù)實現(xiàn)研究*

2020-10-23 02:09:20賈君枝梅玥
數(shù)字圖書館論壇 2020年9期
關(guān)鍵詞:本體頁面關(guān)聯(lián)

賈君枝 梅玥

(1. 山西大學(xué)經(jīng)濟(jì)與管理學(xué)院,太原 030006;2. 中國人民大學(xué)信息資源管理學(xué)院,北京 100872)

互聯(lián)網(wǎng)被稱為繼報紙、廣播、電視三大傳統(tǒng)媒體之后的“第四媒體”。網(wǎng)絡(luò)媒體傳播速度快、內(nèi)容多、范圍廣,極大地影響和改變了人們的生活。但其信息數(shù)據(jù)量龐大,信息載體種類豐富且信息更新速度快,不僅增加了媒體機(jī)構(gòu)制作及維護(hù)網(wǎng)站的工作量,且手工制作的網(wǎng)站之間相互獨立,導(dǎo)致節(jié)目之間的相互關(guān)聯(lián)變得極為困難。同時因缺乏單一、共同的綜合數(shù)據(jù)來源和有效的數(shù)據(jù)發(fā)布機(jī)制使媒體機(jī)構(gòu)無法及時對其網(wǎng)站內(nèi)容以及新形式的信息載體(移動設(shè)備、游戲機(jī)等)上的內(nèi)容進(jìn)行更新,導(dǎo)致媒體機(jī)構(gòu)的工作效率低下且實際支出遠(yuǎn)遠(yuǎn)高于預(yù)算成本。

關(guān)聯(lián)數(shù)據(jù)是國際互聯(lián)網(wǎng)協(xié)會推薦的一種規(guī)范,用來發(fā)布和聯(lián)接各類數(shù)據(jù)、信息和知識,最早在2007年5月提出,旨在構(gòu)建一張計算機(jī)能夠理解的語義數(shù)據(jù)網(wǎng)絡(luò),而不僅僅是人能讀懂的文檔網(wǎng)絡(luò),以便在此之上構(gòu)建更智能的應(yīng)用[1]。其能夠使互聯(lián)網(wǎng)進(jìn)化為一個富含語義的、互聯(lián)互通的知識海洋,從而使任何人都能夠借助整個互聯(lián)網(wǎng)的計算設(shè)施和運算能力,在更大范圍內(nèi),準(zhǔn)確、高效、可靠地查找、分享、利用這些相互關(guān)聯(lián)的信息和知識。一定程度上關(guān)聯(lián)數(shù)據(jù)可幫助媒體機(jī)構(gòu)解決上述困境。當(dāng)前鏈接開放數(shù)據(jù)(LOD)云圖包含1 239個數(shù)據(jù)集(截至2019年3月),其中作為九大子領(lǐng)域之一的媒體領(lǐng)域數(shù)據(jù)集有31個,在LOD云圖中占比約2.5%[2]。

BBC作為媒體領(lǐng)域應(yīng)用關(guān)聯(lián)數(shù)據(jù)技術(shù)的成功案例,它自動將內(nèi)容分類系統(tǒng)(CIS)與DBpedia建立連接,使其門戶網(wǎng)站能夠呈現(xiàn)從關(guān)聯(lián)數(shù)據(jù)云自動更新的豐富內(nèi)容,在控制成本的前提下生成動態(tài)聚合的頁面而無須人工交互,將其內(nèi)部資源與外部資源有機(jī)地整合起來,以方便用戶導(dǎo)航、改善用戶體驗、為用戶提供更好的服務(wù)。

實現(xiàn)其關(guān)聯(lián)數(shù)據(jù)化不僅能夠促進(jìn)媒體領(lǐng)域關(guān)聯(lián)數(shù)據(jù)的發(fā)展,同時也對媒體行業(yè)其他組織實現(xiàn)關(guān)聯(lián)數(shù)據(jù)化發(fā)展提供了重要的借鑒意義?;诖?,本文對BBC數(shù)據(jù)模型及其本體、關(guān)聯(lián)數(shù)據(jù)實現(xiàn)步驟及應(yīng)用實踐進(jìn)行分析,為其他媒體機(jī)構(gòu)的關(guān)聯(lián)數(shù)據(jù)化提供一定的參考。

1 BBC數(shù)據(jù)模型及其本體

BBC制作了大量面向用戶的媒體資源,而構(gòu)建數(shù)據(jù)模型是關(guān)聯(lián)數(shù)據(jù)實現(xiàn)的關(guān)鍵。數(shù)據(jù)模型旨在定義該類型資源的主要實體對象及其關(guān)系,并運用本體對其進(jìn)行描述,以實現(xiàn)對數(shù)據(jù)的管理、存儲和共享。

1.1 BBC通用數(shù)據(jù)模型

Thing是BBC創(chuàng)造并談?wù)摰乃惺挛锏淖罡呒夘?,包?個數(shù)據(jù)屬性,即短標(biāo)簽、首選標(biāo)簽、消歧提示以及以編程方式使用且人類可讀的關(guān)鍵字,均用字符串表示。其中事件、機(jī)構(gòu)、人物、地點、主題都是其子類,并且每個子類所需的最少元數(shù)據(jù)都由core:Thing繼承,并定義了各自的屬性,如人物有性別、職業(yè)、出生死亡日期與地點等。Thing指代寬泛,等同于owl語言中的Thing,可以表示W(wǎng)eb文檔的主要話題,是內(nèi)容管理系統(tǒng)(CMS)的定位符所需的表示形式,也是BBC創(chuàng)意作品的標(biāo)簽(見圖1)。

圖1 BBC數(shù)據(jù)模型

1.2 BBC本體

BBC根據(jù)其當(dāng)前業(yè)務(wù)需求逐步構(gòu)建起多個本體,以描述所創(chuàng)建的內(nèi)容,成為BBC關(guān)聯(lián)數(shù)據(jù)平臺提供關(guān)聯(lián)數(shù)據(jù)服務(wù)的基礎(chǔ)。目前平臺發(fā)布了14個本體[3],如圖2所示,主要分為內(nèi)容、領(lǐng)域、應(yīng)用程序本體三大類型[4]。

內(nèi)容本體包括創(chuàng)意作品本體與核心概念本體。創(chuàng)意作品本體(Creative Work Ontology)定義了描述BBC制作的創(chuàng)意作品及其相關(guān)元數(shù)據(jù)所需的術(shù)語,是表達(dá)創(chuàng)意內(nèi)容所需最少元數(shù)據(jù)的模型。核心概念本體(Core Concepts Ontology),即針對人、地點、事件、組織、主題的通用BBC本體,代表了整個BBC有意義的事物。

領(lǐng)域本體是根據(jù)BBC的用戶需求所構(gòu)建的特定領(lǐng)域范圍內(nèi)的本體,包括節(jié)目、體育、故事、課程、野生動物、政治、食品、新聞、商業(yè)新聞本體。

應(yīng)用程序本體編碼了應(yīng)用邏輯,即幫助BBC存儲、管理關(guān)聯(lián)數(shù)據(jù)的本體。內(nèi)容管理系統(tǒng)本體(CMS Ontology)是一個表示CMS與三元組存儲庫交互的本體,定義了關(guān)聯(lián)數(shù)據(jù)平臺與生成內(nèi)容的系統(tǒng)相交互的術(shù)語。關(guān)聯(lián)數(shù)據(jù)平臺包含創(chuàng)意內(nèi)容的語義元數(shù)據(jù)以及BBC生產(chǎn)的內(nèi)容。CMS本體定義了這些事物和內(nèi)容如何與表示同一事物的其他BBC實例相關(guān)聯(lián)。如曼聯(lián)的URI應(yīng)該如何鏈接到提供有關(guān)曼聯(lián)的更多信息(如體育統(tǒng)計數(shù)據(jù))的外部內(nèi)容管理系統(tǒng)?;蛘?,三元組存儲庫中的創(chuàng)意作品URI應(yīng)該如何引用另一個CMS。CMS本體為關(guān)聯(lián)數(shù)據(jù)平臺客戶提供指向其他系統(tǒng)中某個事物附加信息的鏈接。起源本體(Provenance Ontology)是用于捕獲有關(guān)RDF三元組存儲庫中數(shù)據(jù)源的數(shù)據(jù)本體。BBC本體(BBC Ontology)可用于描述網(wǎng)絡(luò)文檔、BBC產(chǎn)品和平臺之間的邏輯聯(lián)系。目前,在未來所有的媒體產(chǎn)品中,以BBC在線制作為主要內(nèi)容的產(chǎn)品共有10種,包含News(新聞頻道)、Sport(體育頻道)、Weather(氣象頻道)、CBBC(少兒頻道)、CBeebies(兒童頻道)、K&L(教育頻道)、TV(電視頻道)、Radio(電臺頻道)、Home(主頁)、Search(搜索服務(wù))[5]。產(chǎn)品部門發(fā)布關(guān)聯(lián)數(shù)據(jù)并與三元組存儲庫交互,這些平臺制作并且發(fā)布與BBC內(nèi)容相關(guān)的網(wǎng)絡(luò)文檔。

圖2 BBC本體關(guān)系

2 BBC發(fā)布關(guān)聯(lián)數(shù)據(jù)的步驟

為捕捉媒體新聞報道的關(guān)鍵事件、人物、活動等,需提取出報道中的重要單詞及短語,將之與所定義的概念建立鏈接,通過豐富的語義關(guān)系構(gòu)造以實現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化展示及后期的聚合應(yīng)用。

2.1 實體抽取

基于命名實體識別技術(shù),從BBC文章中提取出主要實體。當(dāng)前有較多的實體識別器,如OpenCalais、Twine和Zemanta等幫助用戶從文本中提取實體。BBC與Rattle Research合作創(chuàng)建了Muddy Boots特征檢索系統(tǒng)處理BBC文章,結(jié)合Yahoo公司的術(shù)語抽取API,從文檔內(nèi)容中提取出重要單詞或短語的列表以進(jìn)行內(nèi)容分析[6]。這些提取出的實體只是文本,并且此時沒有附加語義或分類。

2.2 實體歸類

對提取出的文本進(jìn)行內(nèi)容分析,找到其對應(yīng)的概念類。BBC通過內(nèi)容分類系統(tǒng)完成此項工作。CIS分類體系總共包含15萬個術(shù)語,涵蓋4個領(lǐng)域,即BBC品牌、地點、人物和一般主題。每個領(lǐng)域都有自己的一個術(shù)語層次結(jié)構(gòu),并采用SKOS表示[7]。通過實體分析,找到與CIS對應(yīng)的類,如節(jié)目概要“展望北京奧運會,英國拳擊的希望”將被歸類為“北京”(地點),“英國拳擊”(主題)。通過“北京”一詞鏈接到與北京有關(guān)的BBC新聞報道,有效地建立該節(jié)目與其他關(guān)于“北京”的節(jié)目之間的聯(lián)系。既實現(xiàn)不同BBC服務(wù)的連接,又同時保持各自獨立開發(fā)。

2.3 使用URI命名實體

URI是所描述事物的全局唯一名稱,通過HTTP URI,很容易在線鏈接到每個描述并訪問它們的內(nèi)容。實體對象明確后,必須采用URI命名,且最好用可用的關(guān)聯(lián)數(shù)據(jù)集命名,這是重用現(xiàn)有Web標(biāo)識符的原則。BBC開發(fā)人員使用最廣泛的來源包括DBpedia、MusicBrainz(一種開放式的音樂數(shù)據(jù)庫)和節(jié)目本體。DBpedia為廣泛的概念提供URI,還提供有關(guān)這些概念和關(guān)系的豐富結(jié)構(gòu)化數(shù)據(jù)。2009年開始,BBC中提到的地點、人員、主題或組織都用DBpedia的URI進(jìn)行標(biāo)記。這些標(biāo)簽讓BBC的觀眾很容易就能找到特定主題的節(jié)目。而且使用鏈接數(shù)據(jù)URI作為標(biāo)簽的一個優(yōu)點是可以不斷地豐富這些標(biāo)簽的信息。

BBC重用DBpedia的標(biāo)識符,使用DBpedia查找搜索服務(wù)[8],即給定一個字符串(包含一個或多個單詞),通過關(guān)鍵詞搜索API來查找給定字符串的關(guān)聯(lián)DBpedia資源。以字符串“berlin”為例:http://lookup.dbpedia.org/api/search/KeywordSearch?QueryClass=place&QueryString=berlin,得到5個查詢結(jié)果,如表1所示。得到查詢結(jié)果后,BBC編輯再根據(jù)上下文消歧選出最合適的URI。

表1 “berlin”的查詢結(jié)果

2.4 建立CIS與DBpedia鏈接

將數(shù)據(jù)與其他數(shù)據(jù)集互聯(lián)有助于數(shù)據(jù)被用戶發(fā)現(xiàn),也有助于將數(shù)據(jù)集發(fā)布到關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)。BBC將CIS與DBpedia鏈接起來,依靠DBpedia標(biāo)識符鏈入關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)。與DBpedia相鏈接具有許多優(yōu)點:其提供了豐富的關(guān)聯(lián)和層次關(guān)系,可用作自動分類系統(tǒng)的補(bǔ)充材料;其已建立了與BBC領(lǐng)域特定數(shù)據(jù)(如MusicBrainz)的互操作,維護(hù)成本較低等。在BBC應(yīng)用程序中可以使用和顯示鏈接數(shù)據(jù),并提供實體之間的豐富關(guān)系。

通常通過基于術(shù)語的上下文相似性聚類算法實現(xiàn)鏈接。鏈接過程分為兩步:一是查找DBpedia標(biāo)簽,二是基于上下文消歧[9]。通過DBpedia關(guān)鍵詞和前綴搜索API,與CIS的輸入字符串進(jìn)行匹配。為了找到給定術(shù)語的最可能匹配,使用維基百科文章之間的鏈接數(shù)作為總體相關(guān)性的權(quán)重。如維基百科關(guān)于威廉·莎士比亞的文章有超過6 000個指向它的鏈接,而尼古拉斯·莎士比亞的文章只有18個,CIS輸入的術(shù)語“莎士比亞”最有可能的匹配是“威廉·莎士比亞”。為了消除可能匹配的歧義,繼續(xù)在DBpedia中通過聚類和上下文查找來識別CIS術(shù)語的相似上下文。鏈接算法為所有CIS術(shù)語創(chuàng)建集群,集群由CIS分類層次結(jié)構(gòu)和括號文本組成。如“Mary(1985情景喜劇)”歸屬于“電視”類。該算法基于多個可能的DBpedia匹配來識別每個集群的匹配DBpedia類別和臨時值。之后,這些識別出的上下文用于消除CIS概念匹配的冗余。如“蘋果”本身是模棱兩可的,考慮到“微軟”和“谷歌”的背景,“蘋果”的含義將變得清晰。最后,系統(tǒng)結(jié)合前面步驟的結(jié)果,完成與DBpedia的鏈接。

2.5 發(fā)布數(shù)據(jù)

發(fā)布數(shù)據(jù)并不復(fù)雜,只需將數(shù)據(jù)存儲在可公開訪問的DNS并設(shè)置合適的權(quán)限即可。BBC通過兩種方式來發(fā)布關(guān)聯(lián)數(shù)據(jù),一是將數(shù)據(jù)集和本體作為關(guān)聯(lián)數(shù)據(jù)發(fā)布到Web上,供用戶獲?。欢荁BC已經(jīng)開發(fā)了一種自動建模算法,用于將RDF三元組轉(zhuǎn)換為帶有基于主題樹的注釋的HTML頁面。這樣一來存儲在數(shù)據(jù)庫中的文章內(nèi)容以及與之關(guān)聯(lián)的鏈接數(shù)據(jù)將發(fā)布在HTML頁面上。同時BBC已加入LOD云圖,現(xiàn)已發(fā)布了4個數(shù)據(jù)集,分別是BBCMusic、BBC Programmes、BBC Wildlife Finder以及DBTune.org John Peel Sessions RDF server,并在關(guān)聯(lián)開放詞表(LOV)平臺上注冊了8個詞表,即bbc、bbccore、bbcprov、bbccms、wlo、sport、cwork、stories[10],這在一定程度上提高了數(shù)據(jù)集的影響力。

3 BBC關(guān)聯(lián)數(shù)據(jù)的應(yīng)用優(yōu)勢

目前,BBC開發(fā)了一個全新的關(guān)聯(lián)開放數(shù)據(jù)網(wǎng)站BBC Things[11],該網(wǎng)站包括出現(xiàn)在BBC節(jié)目和在線內(nèi)容中的地點、人物和組織等重要概念的數(shù)據(jù)。起初只能從BBC內(nèi)部訪問,現(xiàn)在任何人都可以通過這個新網(wǎng)站來訪問存儲在BBC平臺上的數(shù)據(jù)。作為BBC關(guān)聯(lián)數(shù)據(jù)平臺的一部分,BBC Things網(wǎng)站可幫助在技術(shù)或編輯層面處理BBC數(shù)據(jù)。從編輯的角度來看,網(wǎng)站可以使內(nèi)容編輯和生產(chǎn)者很容易通過搜索事件、地點、人物和其他概念快速找到與內(nèi)容相關(guān)的引用;從技術(shù)的角度來看,BBC以外的開發(fā)者現(xiàn)在可以使用BBC提供的數(shù)據(jù)創(chuàng)建他們自己的新網(wǎng)站和應(yīng)用程序。BBC Things體現(xiàn)了BBC未來媒體的許多指導(dǎo)原則,它開放了整個BBC的在線數(shù)據(jù),代表了BBC向公眾開放其關(guān)聯(lián)數(shù)據(jù)平臺的第一步。BBC現(xiàn)已成功地應(yīng)用關(guān)聯(lián)數(shù)據(jù)技術(shù)到其節(jié)目、音樂、新聞、出版、教育等眾多領(lǐng)域。這種成功源于在BBC門戶網(wǎng)站中使用關(guān)聯(lián)數(shù)據(jù),使網(wǎng)站能夠從關(guān)聯(lián)數(shù)據(jù)云自動更新并強(qiáng)化自己的內(nèi)容,集成其他網(wǎng)站的數(shù)據(jù)并支持他人重用自己的數(shù)據(jù),這樣可確保聚合頁面盡可能包含更加豐富的內(nèi)容。

縱觀國內(nèi)新聞媒體,央視網(wǎng)是我國重點新聞網(wǎng)站之一,在全國有著較大的影響力。央視網(wǎng)和BBC在地位和定位上均存在相似之處。央視網(wǎng)作為中央電視臺的官方網(wǎng)站,擁有國內(nèi)最大的網(wǎng)絡(luò)新聞視頻庫,匯聚了150多個央視和地方新聞欄目??梢哉f,BBC和央視網(wǎng)都是依托本國最著名的廣電平臺而發(fā)展起來的全國性權(quán)威新聞網(wǎng)站。這些相似的媒介特點使得對二者進(jìn)行比較具有了可能性。對比央視網(wǎng),BBC關(guān)聯(lián)數(shù)據(jù)的應(yīng)用優(yōu)勢主要包括以下4點。

(1)制作成本低。央視總共擁有45個頻道,在中國和海外均可收看到其電視節(jié)目。每一個頻道下又包含多個節(jié)目,這些節(jié)目的頁面均為編輯手工制作,不僅效率低下而且網(wǎng)站之間的代碼重用量有限,不僅浪費時間更造成了巨大的成本開銷。隨著移動設(shè)備的普及,央視網(wǎng)開通了手機(jī)電視和移動傳媒服務(wù),需要在移動平臺上提供相對應(yīng)的產(chǎn)品。平臺產(chǎn)品的增加直接導(dǎo)致了工作量的冗余,需要大量的人力物力去完成。BBC Programme(BBC節(jié)目)于2007年夏季啟動,利用關(guān)聯(lián)數(shù)據(jù)來解決這些問題。它為BBC的每個節(jié)目提供持久的網(wǎng)絡(luò)標(biāo)識符,每個網(wǎng)絡(luò)標(biāo)識符都有多種內(nèi)容協(xié)商表示,確??缍鄠€設(shè)備(如桌面和移動設(shè)備)推出一致的產(chǎn)品,并且用于生成頁面的數(shù)據(jù)可以以不同格式(RDF/XML、JSON和普通模式)重復(fù)使用,以構(gòu)建節(jié)目支持應(yīng)用程序[12]。BBC內(nèi)的其他團(tuán)隊可以將這些節(jié)目頁面直接納入新的或現(xiàn)有的電視頻道和廣播電臺節(jié)目頁面,以及食品、音樂和自然歷史等跨節(jié)目類型網(wǎng)站,節(jié)省了大量的人力成本和時間成本。

(2)數(shù)據(jù)豐富且更新快,易于整合多種數(shù)據(jù)來源,并提供推薦服務(wù)。目前,央視網(wǎng)使用的數(shù)據(jù)資源基本上都來自政府部門公開和商業(yè)機(jī)構(gòu)提供的數(shù)據(jù)。不僅數(shù)據(jù)來源單一且數(shù)據(jù)實時更新較慢。針對這樣的問題,以BBC Music(音樂)為例,BBC音樂網(wǎng)站的目的是提供全面的BBC音樂內(nèi)容指南,將藝術(shù)家的信息與播放他們的BBC節(jié)目聯(lián)系起來,為音樂領(lǐng)域的藝術(shù)家、出版商和評論等主要對象提供持久的網(wǎng)絡(luò)標(biāo)識符,并將其與觀眾感興趣的其他BBC領(lǐng)域信息集成。BBC音樂集成包括3種信息來源,即Musicbrainz、維基百科和BBC[13]。Musicbrainz提供藝術(shù)家之間的關(guān)系以及外部網(wǎng)站鏈接等數(shù)據(jù),維基百科提供藝術(shù)家傳記信息,BBC提供了曲目的音頻片段、圖像、專輯評論等額外信息。因此用戶可以獲取到藝術(shù)家廣泛全面、及時更新的信息,其所提供地理項目查找服務(wù),能夠訪問藝術(shù)家所在的地理位置信息或者給出與該地點相關(guān)的藝術(shù)家,并實現(xiàn)音樂推薦。通過藝術(shù)家可以訪問許多與音樂相關(guān)的數(shù)據(jù)集,跟隨一個藝術(shù)家到另一個藝術(shù)家的鏈接,獲取到藝術(shù)家之間的聯(lián)系(如這位藝術(shù)家的第一個音樂視頻由與其他藝術(shù)家相同的人指導(dǎo)),可以用來推薦相關(guān)藝術(shù)家的有序列表。

(3)參與編輯社交媒體,利用更廣泛的網(wǎng)絡(luò)作為內(nèi)容管理系統(tǒng)。央視網(wǎng)有內(nèi)部的內(nèi)容管理系統(tǒng),對于像央視這樣業(yè)務(wù)規(guī)模較大的媒體,需要耗費大量的人力與成本,占用了大量的內(nèi)存。對于BBC而言,BBC Music利用外部網(wǎng)絡(luò)作為其內(nèi)容管理系統(tǒng),采用Musicbrainz和維基百科為BBC音樂網(wǎng)站提供基礎(chǔ)數(shù)據(jù),使其能夠覆蓋更廣泛的藝術(shù)家。由于資源有限無法為BBC的每位藝術(shù)家保留傳記,充分利用外部網(wǎng)絡(luò)作為內(nèi)容管理系統(tǒng)的構(gòu)成,不僅節(jié)約內(nèi)存,還可以確保數(shù)據(jù)保持最新并且不會過時。它也比維護(hù)內(nèi)部內(nèi)容管理系統(tǒng)更有效,因為內(nèi)部內(nèi)容管理系統(tǒng)需要開發(fā)和集成成本,而且很難引導(dǎo)、策劃和維護(hù)最新的內(nèi)容管理系統(tǒng)。如當(dāng)一位藝術(shù)家去世時,這位藝術(shù)家的主頁將在幾小時內(nèi)被外部社區(qū)更新,這一變化將直接在BBC的網(wǎng)站上反映出來。BBC編輯將直接為Musicbrainz和維基百科的用戶作出貢獻(xiàn),BBC音樂將展示這些信息的匯總視圖放在其背景中。

(4)改善用戶體驗,利于記者創(chuàng)作。BBC新聞組織利用關(guān)聯(lián)數(shù)據(jù)(如百科、政府類數(shù)據(jù))以添加其上下文和進(jìn)行導(dǎo)航。用戶可以輕松從一個特定新聞頁面鏈接到與之相關(guān)的新聞頁面,也能根據(jù)主題導(dǎo)航輕松找到關(guān)于某特定事物的所有新聞[14]。這不僅可以改善用戶體驗,而且有利于記者的創(chuàng)作。如果一個記者正在研究關(guān)于政治家的故事,通過確定感興趣的政治家,利用關(guān)聯(lián)數(shù)據(jù)可以合并有用的數(shù)據(jù)和文檔,以提供有關(guān)政治家的背景信息。而央視網(wǎng)的新聞頁面中缺乏相關(guān)鏈接,用戶無法直接在當(dāng)前新聞頁面中通過特定關(guān)鍵詞的鏈接輕松找到自己所感興趣的內(nèi)容。要想找到所感興趣內(nèi)容的全部信息需要用戶自己不斷搜索與翻閱歷史頁面。

4 討論

以BBC為代表媒體領(lǐng)域的關(guān)聯(lián)數(shù)據(jù)實現(xiàn)具有深遠(yuǎn)且重要的意義。這種實現(xiàn)方法在實踐中也被證明是一種有效的方法,對其他新聞媒體機(jī)構(gòu)實現(xiàn)關(guān)聯(lián)數(shù)據(jù)化有一定的借鑒意義。BBC通過實體抽取、實體歸類、使用URI命名實體、建立CIS與DBpedia鏈接、發(fā)布數(shù)據(jù)等,成功將關(guān)聯(lián)數(shù)據(jù)技術(shù)廣泛應(yīng)用到眾多業(yè)務(wù)領(lǐng)域。通過上述研究也可發(fā)現(xiàn),新聞機(jī)構(gòu)利用關(guān)聯(lián)數(shù)據(jù)是大勢所趨,其具有相當(dāng)明顯的應(yīng)用優(yōu)勢,制作成本低、數(shù)據(jù)豐富且更新快、易于整合多種數(shù)據(jù)來源、改善用戶體驗等。盡管應(yīng)用關(guān)聯(lián)數(shù)據(jù)有以上諸多優(yōu)勢,但不可忽視的是關(guān)聯(lián)數(shù)據(jù)的可靠性成為重要問題,央視網(wǎng)的數(shù)據(jù)質(zhì)量來源可靠,因為政府?dāng)?shù)據(jù)比百科數(shù)據(jù)信任度更高。如何在保證數(shù)據(jù)質(zhì)量的前提下有效地借鑒BBC實踐,是我們未來研究中需要進(jìn)一步探討的問題。

猜你喜歡
本體頁面關(guān)聯(lián)
Abstracts and Key Words
刷新生活的頁面
對姜夔自度曲音樂本體的現(xiàn)代解讀
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
同一Word文檔 縱橫頁面并存
語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
天柱县| 宣恩县| 嘉义市| 广宗县| 安新县| 天祝| 长汀县| 固原市| 新泰市| 孝昌县| 原平市| 宁都县| 崇州市| 大宁县| 新泰市| 天峨县| 永登县| 嘉义县| 扶风县| 盐亭县| 韶山市| 阳谷县| 泰兴市| 伊金霍洛旗| 建湖县| 泗阳县| 从江县| 虹口区| 云浮市| 五峰| 蕲春县| 阿克| 大庆市| 镇安县| 四子王旗| 岳阳市| 高陵县| 措勤县| 宁陵县| 宁津县| 珲春市|