摘要:[目的/意義]中華民族與中國(guó)共產(chǎn)黨人對(duì)真理追求的過(guò)程形成紅色文化資源,對(duì)其進(jìn)行知識(shí)組織和挖掘構(gòu)建“紅色記憶”,不僅能夠提升民族自信與凝聚力,更是堅(jiān)定文化自信的重要途徑。針對(duì)紅色文化資源所存在的分布廣、來(lái)源多、類型雜、內(nèi)容有限、組織程度低等問(wèn)題,構(gòu)建基于多源異構(gòu)數(shù)據(jù)挖掘的“紅色記憶”知識(shí)圖譜,以充分利用紅色文化資源。[方法/過(guò)程] 首先通過(guò)設(shè)計(jì)概念、關(guān)系及屬性構(gòu)建紅色文化資源本體庫(kù),完成 “紅色記憶”的知識(shí)建模工作;其次通過(guò)多渠道采集紅色文化資源,具體分析紅色文化資源的構(gòu)成和特點(diǎn),針對(duì)這些多源異構(gòu)數(shù)據(jù)進(jìn)行實(shí)體、屬性、關(guān)系識(shí)別采取;最后通過(guò)圖數(shù)據(jù)庫(kù)存儲(chǔ)構(gòu)建“紅色記憶”知識(shí)圖譜。[結(jié)果/結(jié)論] 通過(guò)構(gòu)建“紅色記憶”知識(shí)圖譜,能夠?qū)Χ嘣串悩?gòu)的紅色文化資源數(shù)據(jù)進(jìn)行深層關(guān)系挖掘,提升紅色文化資源的組織水平,為實(shí)現(xiàn)紅色文化智能化服務(wù)奠定基礎(chǔ)。
關(guān)鍵詞:紅色文化資源? 知識(shí)圖譜構(gòu)建? 知識(shí)建模
分類號(hào):G250
引用格式:郭嘉欣. 基于多源異構(gòu)數(shù)據(jù)挖掘的“紅色記憶”知識(shí)圖譜構(gòu)建[J/OL]. 知識(shí)管理論壇, 2020, 5(1): 59-68[引用日期]. http://www.kmf.ac.cn/p/200/.
1? 引言
紅色文化資源是中華民族與中國(guó)共產(chǎn)黨人在對(duì)真理追尋的過(guò)程中形成的,這使得其歷史發(fā)展的周期性較長(zhǎng),從而導(dǎo)致紅色文化資源在開(kāi)發(fā)和利用的過(guò)程中存在著分布廣、來(lái)源多、類型雜、內(nèi)容有限、組織程度低等問(wèn)題,阻礙了用戶對(duì)紅色文化資源的深層次利用。2012年,谷歌公司首先提出知識(shí)圖譜的概念[1],意在從語(yǔ)義角度組織網(wǎng)絡(luò)數(shù)據(jù),構(gòu)建大型知識(shí)庫(kù),進(jìn)而提供智能搜索服務(wù)。國(guó)內(nèi)外各公司和研究機(jī)構(gòu)也紛紛開(kāi)始構(gòu)建知識(shí)圖譜,如德國(guó)馬普所的YAGO[2]、谷歌的Knowledge Vault[3]、復(fù)旦大學(xué)的CN-DBpedia[4]及清華大學(xué)的XLore[5]等。知識(shí)圖譜作為一種重要的知識(shí)表示方式,逐漸成為各行各業(yè)從網(wǎng)絡(luò)化向智能化轉(zhuǎn)型升級(jí)的重要一環(huán),具有廣闊的發(fā)展前景[3]。
紅色文化資源作為中華優(yōu)秀文化的重要構(gòu)成部分,蘊(yùn)涵著十分豐富的革命和歷史價(jià)值,是堅(jiān)定文化自信的基礎(chǔ)支撐[6]。受電子技術(shù)迅速發(fā)展的影響,許多地區(qū)提出了建立紅色文資源數(shù)據(jù)庫(kù),如四川特色文化資源數(shù)據(jù)庫(kù)[7]、西柏坡紅色教育資源基礎(chǔ)數(shù)據(jù)庫(kù)[8]等,這在一定程度上使得紅色文化資源的組織程度得到了提升,但也還僅僅停留在數(shù)據(jù)存儲(chǔ)的階段,其組織程度還不夠高。知識(shí)圖譜這一新的資源組織方式并沒(méi)有在紅色文化資源的研究利用中得到廣泛的應(yīng)用。因此,筆者通過(guò)采集結(jié)構(gòu)各異、來(lái)源不同的紅色文化資源數(shù)據(jù),對(duì)其進(jìn)行知識(shí)組織和挖掘,進(jìn)而構(gòu)建“紅色記憶”知識(shí)圖譜,提升紅色文化資源組織程度,把紅色文化資源以更直觀、動(dòng)態(tài)、關(guān)聯(lián)的形式呈現(xiàn)給用戶。
2 “紅色記憶”知識(shí)圖譜的構(gòu)建流程
紅色文化資源是中國(guó)共產(chǎn)黨領(lǐng)導(dǎo)的革命和建設(shè)中所形成的崇高精神及其物質(zhì)載體的總稱[9],它不僅存在于過(guò)去,而且發(fā)展于當(dāng)下,其內(nèi)涵將伴隨歷史進(jìn)程和實(shí)踐需要而不斷深化。對(duì)紅色文化資源進(jìn)行組織和挖掘,可以重現(xiàn)蘊(yùn)涵在其中的“紅色記憶”。知識(shí)圖譜本質(zhì)上是結(jié)構(gòu)化、語(yǔ)義化的知識(shí)庫(kù),它以圖的結(jié)構(gòu)表示現(xiàn)實(shí)世界中的實(shí)體、屬性及其關(guān)聯(lián),其中圖的節(jié)點(diǎn)代表實(shí)體,而實(shí)體之間存在的語(yǔ)義關(guān)聯(lián)則用圖中的邊來(lái)描述 [10]。構(gòu)建知識(shí)圖譜的方式主要有以下兩種:自頂向下和自底向上 [11]。自頂向下的方式是指事先細(xì)化概念及概念之間的關(guān)系,完成本體庫(kù)設(shè)計(jì),形成知識(shí)圖譜的Schema層,然后將實(shí)體匹配填充到預(yù)定義好的本體Schema層中。自底向上的方法則是先從語(yǔ)料庫(kù)或數(shù)據(jù)集中抽取出實(shí)體、屬性和關(guān)系,并把同類型的實(shí)體重新進(jìn)行組織,將其抽象為概念,最后構(gòu)建得到Schema層。
筆者將綜合應(yīng)用自頂向下和自底向上這兩種不同的方式來(lái)構(gòu)建“紅色記憶”知識(shí)圖譜。首先,通過(guò)觀察比較紅色文化資源的各個(gè)數(shù)據(jù)源,確定“紅色記憶”知識(shí)圖譜所需要的具體數(shù)據(jù),通過(guò)編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)、手動(dòng)采集等方式從紅色圖書(shū)、網(wǎng)站、開(kāi)放數(shù)據(jù)集、百科等多種數(shù)據(jù)源中獲取構(gòu)建“紅色記憶”知識(shí)圖譜所需要的數(shù)據(jù),其中,開(kāi)放數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù)的主要來(lái)源,百科是半結(jié)構(gòu)化數(shù)據(jù)的來(lái)源,從紅色圖書(shū)和紅色文化垂直站點(diǎn)獲取的則是非結(jié)構(gòu)化文本;其次,通過(guò)剖析紅色文化資源數(shù)據(jù)的構(gòu)成及特征來(lái)設(shè)計(jì)概念、關(guān)系及屬性,運(yùn)用工具Protégé構(gòu)建紅色文化資源本體庫(kù),從而完成“紅色記憶”知識(shí)建模;然后,基于設(shè)計(jì)好的本體庫(kù),根據(jù)所獲取的不同形式的數(shù)據(jù)采取不同的方法進(jìn)行實(shí)體、關(guān)系、屬性的抽取;最后,將識(shí)別得到的紅色文化資源知識(shí)進(jìn)行整合處理,并將其存入圖數(shù)據(jù)庫(kù)Neo4j中,通過(guò)Neo4j 完成知識(shí)的可視化呈現(xiàn),實(shí)現(xiàn)“紅色記憶”知識(shí)圖譜的構(gòu)建,整體過(guò)程如圖1所示。
3? 基于“紅色記憶”本體構(gòu)建的知識(shí)建模
知識(shí)建模是知識(shí)圖譜構(gòu)建的一項(xiàng)重要任務(wù),它是對(duì)知識(shí)進(jìn)行邏輯化和體系化的過(guò)程。通過(guò)本體構(gòu)建來(lái)進(jìn)行知識(shí)建模能夠充分描述知識(shí)圖譜中所涉及到事物的屬性及聯(lián)系。本體作為一種抽象化的表示模型,可以清楚明了地定義和描述概念及概念之間的關(guān)系,確定知識(shí)圖譜的數(shù)據(jù)形態(tài),說(shuō)明知識(shí)圖譜中存在哪些數(shù)據(jù),例如實(shí)體的類別、不同實(shí)體所擁有的屬性、實(shí)體與實(shí)體之間的關(guān)聯(lián)[12]。本體的構(gòu)建過(guò)程較為復(fù)雜,為了確保規(guī)范性,構(gòu)建本體時(shí)必須要遵循相應(yīng)的原則。目前被廣泛認(rèn)同的本體建模規(guī)范是T. R. Gruber提出的5條準(zhǔn)則:明確性、一致性、可擴(kuò)展性、最小編碼偏差和最小本體承諾[13]。對(duì)于本體構(gòu)建方法而言,目前已有一些較為成熟的方式,如IDEF-5法、Methontology法、七步法和基于敘詞表構(gòu)建本體法等,其中,七步法相比其他方法而言具有一定的通用性[14],所以筆者選用七步法,并綜合考慮紅色文化資源自身的特點(diǎn),構(gòu)建“紅色記憶”本體庫(kù)。
作為一種特別的文化資源,紅色文化資源不僅具有資源的屬性也具有文化的屬性,還具有二者深度融合所衍生出來(lái)的特殊屬性[15],這也導(dǎo)致了其分類標(biāo)準(zhǔn)的多樣性。根據(jù)渠長(zhǎng)根等[16]的歸納,目前學(xué)術(shù)界針對(duì)紅色文化資源所采用的最基本的分類法是將其劃分為物質(zhì)和精神兩大類,除此之外,有的學(xué)者將紅色文化資源劃分為動(dòng)態(tài)和靜態(tài)兩種類型,或是根據(jù)一般、特殊的兩分法來(lái)對(duì)紅色文化資源進(jìn)行分類。在實(shí)際的研究中,除了將紅色文化資源按照簡(jiǎn)單的二分法標(biāo)準(zhǔn)來(lái)劃分外,通常還會(huì)根據(jù)不同的學(xué)科需要來(lái)進(jìn)行進(jìn)一步的調(diào)整劃分,張?zhí)┏荹17]依據(jù)“以主題分類為主、兼顧學(xué)科的原則”,并遵循中文的語(yǔ)言習(xí)慣將紅色文化資源劃分為紅色舊址、器物、文獻(xiàn)、人物、事件、文藝、建筑、精神、研究、創(chuàng)作10個(gè)大類;張克偉[18]按照國(guó)家旅游資源的分類方法首先把紅色文化資源細(xì)分為三大主類:遺址遺跡、建筑和設(shè)施、人文活動(dòng),再將其細(xì)分為10種基本類型,其中遺址遺跡包含歷史事件的發(fā)生地、軍事遺址與古戰(zhàn)場(chǎng)兩類,建筑和設(shè)施分為文化活動(dòng)場(chǎng)所、展示演示的場(chǎng)館、碑碣(林)、名人故居和歷史紀(jì)念建筑、陵區(qū)陵園5類,人文活動(dòng)包含人物、事件和文藝作品3類。
構(gòu)建“紅色記憶”本體庫(kù)通常需要對(duì)概念、屬性及關(guān)系等多個(gè)方面進(jìn)行設(shè)計(jì)考量。對(duì)于“紅色記憶”來(lái)說(shuō),其核心是人,因此首先確定的是“人物”這一重要概念,與之密切聯(lián)系的必然是人物所經(jīng)歷或參與的事件,因此也加入“事件”概念。根據(jù)“人物”和“事件”這兩個(gè)主題概念對(duì)“紅色記憶”相關(guān)的信息進(jìn)行瀏覽,發(fā)現(xiàn)人物所加入的組織與人物和事件的聯(lián)系也非常密切,故將“組織”加入本體列表。除此之外,人物故居、紀(jì)念館、陵園等信息也是比較重要的概念,而這些信息都可以看作是建筑,因此,新增“建筑”這一概念。針對(duì)“紅色記憶”,其所具有的文化屬性也必然會(huì)涉及到紅色文學(xué)藝術(shù)作品,所以增加“資源”這一概念。這5個(gè)概念確定之后,參考前文提到的分類標(biāo)準(zhǔn)以及實(shí)際搜集到的數(shù)據(jù)來(lái)輔助劃分子概念。其中,人物作為獨(dú)立概念不再進(jìn)行劃分;由于搜集到的事件相關(guān)數(shù)據(jù)基本為會(huì)議和戰(zhàn)爭(zhēng)兩類,所以將事件劃分為會(huì)議、戰(zhàn)爭(zhēng)及其他3類,同樣地將組織劃分為學(xué)校、軍團(tuán)、政黨和其他,將建筑分為名人故居、紀(jì)念館、紀(jì)念碑、紀(jì)念塔、遺址(舊址)、陵園、陵墓;資源則按照載體形態(tài)的不同分為書(shū)籍、電影、畫(huà)作、詩(shī)詞和歌曲。綜合考慮以上幾個(gè)概念,發(fā)現(xiàn)事件、建筑、組織的細(xì)分概念存在一些模糊的邊界問(wèn)題難以確定,并且直接使用子類概念進(jìn)行構(gòu)建會(huì)降低本體的可擴(kuò)展性,所以將事件、建筑、組織的子類概念取消,轉(zhuǎn)而新增“類型”這一概念,并將類型劃分為事件類型、建筑類型和組織類型3類,并在各類型中添加“其他”這一選項(xiàng),從而保證了所構(gòu)建本體的全面性、準(zhǔn)確性和可擴(kuò)展性。
綜上所述,“紅色記憶”本體中的概念主要分為以下6個(gè)類別:建筑(Architecture)、事件(Event)、類型(Genre)、組織(Organization)、人物(Person)、資源(Resource),其中類型與資源兩個(gè)概念下又劃分了多個(gè)子概念,類別分為建筑類型、事件類型和組織類型。對(duì)每個(gè)類別的數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn)每個(gè)概念具有的特征不同,故根據(jù)不同類別的特征對(duì)屬性進(jìn)行定義,這里選取了“紅色記憶”本體模型部分概念和屬性進(jìn)行展示,如表1所示:
上述所設(shè)計(jì)的本體庫(kù)中,概念和子概念之間是上下位關(guān)系,子概念具有不同的屬性,子概念所包含的實(shí)體和實(shí)體之間則存在不同的語(yǔ)義關(guān)聯(lián),如人物與人物之間存在“配偶”、“子女”等多種關(guān)系,建筑與人物/事件之間存在“紀(jì)念”關(guān)系,基于前文所述概念設(shè)計(jì),最終確定“紅色記憶”中所涉及的部分關(guān)系。通過(guò)本體構(gòu)建工具Protégé添加“紅色記憶”定義好的概念及關(guān)系,完成“紅色記憶”知識(shí)建模,設(shè)計(jì)的部分本體概念如圖2所示:
4 “紅色記憶”數(shù)據(jù)源與知識(shí)獲取
紅色文化資源見(jiàn)證了我們黨從成立之初到逐漸發(fā)展壯大的整個(gè)過(guò)程[19],其歷史發(fā)展的周期較長(zhǎng),所以其資源采集、處理和存儲(chǔ)方式也不盡相同,這也使得與紅色文化資源有關(guān)的數(shù)據(jù)也呈現(xiàn)出明顯的多源異構(gòu)性。全國(guó)各地的圖書(shū)館、檔案館、博物館及各類紀(jì)念館、陳列館、紅色旅游景點(diǎn)等都是獲取紅色文化資源的來(lái)源,除此外,大數(shù)據(jù)時(shí)代的到來(lái)也使得各種Web資源變成獲取紅色文化資源的重要來(lái)源。所以,從這些來(lái)源采集到的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)就是構(gòu)建“紅色記憶”知識(shí)圖譜的數(shù)據(jù)基礎(chǔ)。
結(jié)構(gòu)化數(shù)據(jù)能夠用數(shù)字或文字來(lái)描述或表達(dá),具有相同的層次或網(wǎng)絡(luò)結(jié)構(gòu),通常存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中?!凹t色記憶”的結(jié)構(gòu)化數(shù)據(jù)主要來(lái)源于開(kāi)放數(shù)據(jù)集,具體方法是利用API接口將數(shù)據(jù)下載到本地并存儲(chǔ)為關(guān)系型數(shù)據(jù)?!凹t色記憶”知識(shí)圖譜的構(gòu)建便是基于結(jié)構(gòu)化數(shù)據(jù),并搜集其他不同來(lái)源、不同結(jié)構(gòu)的數(shù)據(jù)進(jìn)行補(bǔ)充。
非結(jié)構(gòu)化數(shù)據(jù)通常是利用自然語(yǔ)言形式保存的文本資源[20],是最豐富的知識(shí)來(lái)源,在紅色文化網(wǎng)頁(yè)、紅色旅游網(wǎng)頁(yè)、圖書(shū)等非結(jié)構(gòu)化的數(shù)據(jù)源中均存在大量文本。實(shí)體識(shí)別作為自然語(yǔ)言文本處理的基礎(chǔ)[21],是知識(shí)圖譜構(gòu)建的重要步驟。實(shí)體識(shí)別即命名實(shí)體識(shí)別,是指從語(yǔ)料中抽取出具有特定含義的命名性指稱項(xiàng),如人名、地名及機(jī)構(gòu)名等[22]。對(duì)“紅色記憶”知識(shí)圖譜而言,要識(shí)別的實(shí)體即是在模式層的“紅色記憶”本體模型中所定義的概念。對(duì)于實(shí)體識(shí)別,目前最常用的方法是通過(guò)機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn),可以利用網(wǎng)絡(luò)爬蟲(chóng)等相關(guān)工具從網(wǎng)頁(yè)中獲取“紅色記憶”語(yǔ)料,再利用分詞工具對(duì)語(yǔ)料進(jìn)行分詞、標(biāo)注等預(yù)處理工作,之后將標(biāo)注好的語(yǔ)料進(jìn)行詞向量轉(zhuǎn)換。最后選取訓(xùn)練集語(yǔ)料,并通過(guò)機(jī)器學(xué)習(xí)訓(xùn)練出抽取模型[23],利用實(shí)體識(shí)別模型來(lái)從文本中提取出“紅色記憶”的實(shí)體。實(shí)體識(shí)別完成后,可繼續(xù)進(jìn)行屬性獲取。
“紅色記憶”知識(shí)圖譜實(shí)體屬性獲取的來(lái)源是各類百科網(wǎng)站詞條的infobox,infbox中的信息通常為半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)具有較高的一致性和完整性,這使得在獲取“紅色記憶”中人物信息時(shí),只需利用爬蟲(chóng)爬取百科詞條中相應(yīng)的infobox標(biāo)簽即可獲取關(guān)于人物的一些基本信息。例如圖3展示的是“楊至成”這一人物詞條的360百科的infobox信息,選取其中的中文名稱、外文名稱、別名、國(guó)籍4個(gè)屬性,通過(guò)瀏覽網(wǎng)頁(yè)源代碼可以得到這些屬性的信息(見(jiàn)圖4)。通過(guò)解析網(wǎng)頁(yè)源代碼,發(fā)現(xiàn)根據(jù)“class”標(biāo)簽找到人物所對(duì)應(yīng)的屬性,那么可以利用python的BeautifulSoup 庫(kù)來(lái)對(duì)html元素進(jìn)行操作,從而獲取“楊至成”的屬性信息,得到<實(shí)體,屬性,屬性值>三元組。
實(shí)體間關(guān)系的識(shí)別抽取則與實(shí)體識(shí)別的原理類似,再獲取得到“紅色記憶”實(shí)體后,結(jié)合所獲得的“紅色記憶”實(shí)體,選取含實(shí)體對(duì)象較多的語(yǔ)句,對(duì)其進(jìn)行實(shí)體關(guān)系的抽取。通過(guò)對(duì)實(shí)體、屬性、關(guān)系的識(shí)別抽取,最終獲取到構(gòu)建“紅色記憶”知識(shí)圖譜所需要的實(shí)體、屬性和關(guān)系。最后,把從不同來(lái)源獲取的數(shù)據(jù)進(jìn)行整理歸類,并將其存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,部分?jǐn)?shù)據(jù)示例如圖5所示:
5 “紅色記憶”知識(shí)存儲(chǔ)
目前,知識(shí)圖譜的存儲(chǔ)工作主要是通過(guò)圖數(shù)據(jù)庫(kù)完成的。通過(guò)圖數(shù)據(jù)庫(kù)存儲(chǔ)知識(shí)圖譜,能夠?qū)崿F(xiàn)圖數(shù)據(jù)的可視化,并能通過(guò)圖數(shù)據(jù)庫(kù)所提供的各種工具對(duì)知識(shí)圖譜進(jìn)行集成管理,能高效迅速地滿足用戶的各類需求。當(dāng)前,Neo4j以其優(yōu)良的性能和簡(jiǎn)單的操作等優(yōu)點(diǎn),在各種圖數(shù)據(jù)庫(kù)中使用最為廣泛。筆者將“紅色記憶”知識(shí)圖譜存儲(chǔ)在Neo4j中,Neo4j中的標(biāo)簽代表“紅色記憶”中的概念,節(jié)點(diǎn)代表了“紅色記憶”中的實(shí)體,而邊則描述的是關(guān)系。Neo4j通過(guò)執(zhí)行Cypher命令能夠管理和操作知識(shí)圖譜中的數(shù)據(jù)。由于Cypher命令提供批量導(dǎo)入CSV格式數(shù)據(jù)的Load語(yǔ)句,所以將關(guān)系型數(shù)據(jù)庫(kù)中的“紅色記憶”知識(shí)轉(zhuǎn)化為CSV格式的文件進(jìn)行存儲(chǔ),并按照以下語(yǔ)句批量導(dǎo)入。
批量導(dǎo)入概念/實(shí)體(以導(dǎo)入“建筑”為例):
LOAD CSV WITH HEADERS? FROM “file:///Architecture.csv” AS line
MERGE(p:Architecture{ArchID:line.ArchID,nameS:line.nameS,address:line.address,place:line.place,firstImg:line.firstImg,type:line.type,desc:line.desc})
批量導(dǎo)入關(guān)系(以導(dǎo)入人物與事件之間的關(guān)系“ParticiPateIn”為例):
LOAD CSV WITH HEADERS FROM “file:///PersonToEvent.csv” AS line
Match(from:Person{PersonID:line.PersonID}),(to:Event{EventID:line.EventID})
merge(from)-[r:participateIn{PersonID:line.PersonID,EventID:line.EventID}]->(to))
將存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中的“紅色記憶”知識(shí)批量導(dǎo)入Neo4j后形成“紅色記憶”知識(shí)圖譜,結(jié)果如圖6所示,藍(lán)色的圓點(diǎn)表示人物,綠色的圓點(diǎn)表示組織,紅色圓點(diǎn)表示建筑,棕色圓點(diǎn)表示紅色資源,橙色原點(diǎn)代表事件,通過(guò)箭頭指示它們之間的關(guān)系。由于知識(shí)圖譜所具有的開(kāi)放互聯(lián)的特性,后續(xù)還可運(yùn)用Cypher命令增加新的數(shù)據(jù)[24],形成大規(guī)?!凹t色記憶”知識(shí)圖譜,從而實(shí)現(xiàn)紅色文化智能搜索、知識(shí)問(wèn)答、知識(shí)推理等應(yīng)用,為實(shí)現(xiàn)紅色文化資源的智能化服務(wù)奠定基礎(chǔ)。
6? 結(jié)語(yǔ)
將知識(shí)圖譜這一新的組織技術(shù)應(yīng)用于紅色文化資源的開(kāi)發(fā)研究,是紅色文化資源學(xué)科發(fā)展的必然抉擇,也是數(shù)字化、智能化的時(shí)代要求。筆者通過(guò)定義概念、屬性、關(guān)系設(shè)計(jì)了“紅色記憶”本體庫(kù),完成“紅色記憶”知識(shí)建模,并從結(jié)構(gòu)不同、來(lái)源各異的紅色文化數(shù)據(jù)源獲取數(shù)據(jù),基于這些數(shù)據(jù)進(jìn)行命名實(shí)體的識(shí)別、關(guān)系及屬性抽取來(lái)獲取知識(shí),進(jìn)而得到“紅色記憶”三元組,并將其存儲(chǔ)于Neo4j中,構(gòu)建了“紅色記憶”知識(shí)圖譜,從而更進(jìn)一步地提升紅色文化資源的組織程度,將紅色文化資源以更直觀、更現(xiàn)代的方式呈現(xiàn)出來(lái),使得分布于各處的碎片化紅色文化資源得到了重組[25],重現(xiàn)了蘊(yùn)涵在書(shū)籍、歌曲、遺址中的“紅色記憶”。在后續(xù)的工作中,筆者將進(jìn)一步對(duì)“紅色記憶”知識(shí)圖譜的智能問(wèn)答、知識(shí)推理等應(yīng)用進(jìn)行研究,滿足用戶對(duì)于紅色文化的智能化服務(wù)的需求,更大程度上發(fā)揮紅色文化資源中所蘊(yùn)含的價(jià)值。
參考文獻(xiàn):
[1] SINGHA A. Introducing the knowledge graph: things, not strings[EB/OL]. [2019-04-10]. http://googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.html.
[2] SUCHANEK F M, KASNECI G, WEIKUM G. Yago: a core of semantic knowledge[C]//Proceedings of the 16th international conference on World Wide Web. New York: ACM, 2007: 697-706.
[3] DONG X, GABRILOVICH E, HEITZ G, et al. Knowledge vault: a web-scale approach to probabilistic knowledge fusion[C] //International conference on knowledge discovery and data mining. New York: ACM, 2014: 601-610.
[4] XU B, XU Y, LIANG J, et al. CN-DBpedia: a never-ending Chinese knowledge extraction system[C]//International conference on industrial, engineering and other applications of applied intelligent systems. Berlin: Springer, 2017: 428-438.
[5] WANG Z, LI J, WANG Z, et al. XLore: a large-scale English-Chinese bilingual knowledge graph[C]//International semantic Web conference. New York: ACM, 2013: 121-124.
[6] 胡果, 張榮秀.中華紅色文化的主要特質(zhì)及時(shí)代價(jià)值[J]. 山西廣播電視大學(xué)學(xué)報(bào), 2017(1): 103-105.
[7] 王茂春.特色文化資源與高新技術(shù)融合的路徑探索[J]. 中華文化論壇, 2015(6): 128-133.
[8] 王玉平, 張同樂(lè), 張志永.西柏坡紅色文化資源數(shù)據(jù)庫(kù)建設(shè)熱議[J]. 河北師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2014, 37(1): 140-145.
[9] 李實(shí).準(zhǔn)確認(rèn)識(shí)“紅色資源”的豐富內(nèi)涵[J]. 政工學(xué)刊, 2005(12): 23.
[10] 漆桂林, 高桓, 吳天星.知識(shí)圖譜研究進(jìn)展[J]. 情報(bào)工程, 2017, 3(1): 4-25.
[11] 劉嶠, 李楊, 段宏, 等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(3): 582-600.
[12] 馬燦.面向“智慧法院”的知識(shí)圖譜構(gòu)建方法與研究[D]. 貴州: 貴州大學(xué), 2019.
[13] GRUBER T R. Toward principles for the design of ontologies used for knowledge sharing?[J]. International journal of human-computer studies, 1995, 43(5/6): 907-928.
[14] 岳麗欣, 劉文云.國(guó)內(nèi)外領(lǐng)域本體構(gòu)建方法的比較研究[J]. 情報(bào)理論與實(shí)踐, 2016, 39(8): 119-125.
[15] 張?zhí)┏?論紅色文化資源[J]. 紅色文化資源研究, 2015, 1(1): 1-11.
[16] 渠長(zhǎng)根, 聞潔璐.紅色文化資源研究綜述[J]. 浙江理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2019, 42(2): 179-187.
[17] 張?zhí)┏?論紅色文化資源的分類[J]. 中國(guó)井岡山干部學(xué)院學(xué)報(bào), 2017, 10(4): 137-144.
[18] 張克偉.沂蒙紅色文化資源產(chǎn)業(yè)化研究[D]. 濟(jì)南: 山東大學(xué), 2010.
[19] 許慶領(lǐng).人文地理信息整合及可視化關(guān)鍵技術(shù)研究[D]. 阜新: 遼寧工程技術(shù)大學(xué), 2012.
[20] 郭文龍.中醫(yī)方劑知識(shí)圖譜構(gòu)建研究與實(shí)現(xiàn)[D]. 蘭州: 蘭州大學(xué), 2019.
[21] 張曉艷, 王挺, 陳火旺.命名實(shí)體識(shí)別研究[J]. 計(jì)算機(jī)科學(xué), 2005(4): 44-48.
[22] 王良萸.基于web數(shù)據(jù)的碳交易領(lǐng)域知識(shí)圖譜構(gòu)建研究[D]. 馬鞍山: 安徽工業(yè)大學(xué), 2018.
[23] 蔣秉川, 萬(wàn)剛, 許劍, 等.多源異構(gòu)數(shù)據(jù)的大規(guī)模地理知識(shí)圖譜構(gòu)建[J]. 測(cè)繪學(xué)報(bào), 2018, 47(8): 1051-1061.
[24] 吳雪峰, 趙志凱, 王莉, 等.煤礦巷道支護(hù)領(lǐng)域知識(shí)圖譜構(gòu)建[J]. 工礦自動(dòng)化, 2019, 45(6): 42-46.
Abstract: [Purpose/significance] Red cultural resources are produced in the process of the Chinese nation and the Chinese Communists pursuit of truth. Constructing “red memory” by organizing and mining knowledge of red cultural resources can not only enhance national self-confidence and cohesiveness, but also be an important part of cultural self-confidence. There may be many problems when using red cultural resources, such as wide distribution, multiple sources and types, limited content and low degree of organization. In order to make full use of red cultural resources, this paper constructs a “red memory” knowledge graph based on multi-source heterogeneous data. [Method/process] Firstly, this paper constructed a red cultural resource ontology library for knowledge modeling of “red memory”. Secondly, it analyzed the composition and characteristics of red cultural resources collected through multiple channels and extract entities, attributes, relationships. Finally, the “red memory” knowledge graph was constructed through knowledge fusion and storage. [Result/conclusion] By constructing the “red memory” knowledge graph, it is possible to mine deep relationship on multi-source heterogeneous red cultural resource data, improve the organization degree of red cultural resources, and realize of intelligent services of red cultural resources.
Keywords: red cultural resources? ? knowledge graph construction? ? knowledge modeling