張潤(rùn)梅,楊超,尹蕾,張媛
(1.安徽建筑大學(xué) 機(jī)械與電氣工程學(xué)院,安徽 合肥 30601;2.安徽建筑大學(xué) 電子與信息工程學(xué)院,安徽 合肥 230601)
將傳統(tǒng)建筑的特征元素融入到現(xiàn)代建筑設(shè)計(jì)中是實(shí)現(xiàn)傳統(tǒng)建筑傳承的必要手段,也是弘揚(yáng)傳統(tǒng)文化的有效途徑。傳統(tǒng)建筑及其構(gòu)件本身具備獨(dú)特的美感,且類型豐富,數(shù)量巨大,通過(guò)傳統(tǒng)的手段獲取所需的傳統(tǒng)建筑數(shù)據(jù)信息是一件費(fèi)時(shí)費(fèi)力的工作。2012年,谷歌正式提出知識(shí)圖譜的概念,旨在實(shí)現(xiàn)更加智能化的搜索引擎。隨著人工智能和大數(shù)據(jù)技術(shù)的不斷發(fā)展和應(yīng)用,知識(shí)圖譜已在多個(gè)領(lǐng)域得到了廣泛應(yīng)用,如智能搜索、智能問(wèn)答、個(gè)性化推薦等。目前基于知識(shí)的智能問(wèn)答和推薦系統(tǒng)有很多,如蘋(píng)果手機(jī)智能語(yǔ)音助手Siri、科大訊飛的訊飛開(kāi)放平臺(tái)等,但基于傳統(tǒng)建筑知識(shí)庫(kù)構(gòu)建智能化推薦和搜索系統(tǒng)的研究尚不多見(jiàn)。因此,構(gòu)建傳統(tǒng)建筑知識(shí)圖譜是實(shí)現(xiàn)大規(guī)模知識(shí)管理和應(yīng)用的基礎(chǔ),具有重要的研究意義與應(yīng)用價(jià)值。
近年來(lái),特定領(lǐng)域知識(shí)圖譜構(gòu)建的研究受到研究者的廣泛關(guān)注。祁志武將知識(shí)圖譜與地質(zhì)標(biāo)本相結(jié)合,通過(guò)七步法構(gòu)建了地質(zhì)標(biāo)本知識(shí)本體,實(shí)現(xiàn)了地質(zhì)標(biāo)本知識(shí)圖譜的構(gòu)建。王良萸針對(duì)碳交易領(lǐng)域的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),分別采用自定義的Web數(shù)據(jù)包裝器,結(jié)合BiLSTM-CRF模型與依存句法分析實(shí)現(xiàn)了三元組抽取,構(gòu)建了碳交易領(lǐng)域知識(shí)圖譜。湯潔提出了一種基于啟發(fā)式規(guī)則的網(wǎng)頁(yè)正文內(nèi)容抽取算法,并提出基于最短路徑算法和深度優(yōu)先搜索算法來(lái)分析金融市場(chǎng)中各實(shí)體之間的關(guān)系。
目前,很多專業(yè)領(lǐng)域已完成了知識(shí)圖譜構(gòu)建,且基于知識(shí)圖譜的各類應(yīng)用開(kāi)發(fā)也得到迅速發(fā)展。國(guó)內(nèi)外很多大公司通過(guò)知識(shí)圖譜來(lái)提高服務(wù)質(zhì)量,如金融知識(shí)圖譜、醫(yī)學(xué)知識(shí)圖譜、化學(xué)知識(shí)圖譜等。在建筑領(lǐng)域更多針對(duì)聚落基因圖譜開(kāi)展相關(guān)研究,如秦為徑等人對(duì)涼山彝族地區(qū)的鄉(xiāng)土景觀基因要素進(jìn)行提取、分類和編碼,完成了涼山彝族地區(qū)鄉(xiāng)土景觀基因圖譜信息鏈的構(gòu)建。聶聆通過(guò)對(duì)徽州古村落景觀特征進(jìn)行研究識(shí)別,構(gòu)建了徽州古村落景觀基因圖譜。翟洲燕等人通過(guò)對(duì)陜西省35個(gè)傳統(tǒng)村落的分析,識(shí)別并提取了傳統(tǒng)村落文化遺產(chǎn)景觀基因,繪制了陜西傳統(tǒng)村落文化遺產(chǎn)景觀基因組圖譜。但以上均未形成完整的、專業(yè)的知識(shí)圖譜。
徽派建筑形成于宋,成長(zhǎng)于元,至明清達(dá)到鼎盛,是中國(guó)傳統(tǒng)建筑的重要組成部分?;张山ㄖN類繁多,建筑形式多樣,時(shí)間跨度大。要實(shí)現(xiàn)數(shù)據(jù)有效整合,自動(dòng)構(gòu)建徽派建筑知識(shí)圖譜存在諸多困難。本文從分析徽派建筑現(xiàn)存資料入手定義了徽派建筑知識(shí)圖譜的概念層,通過(guò)對(duì)異構(gòu)數(shù)據(jù)過(guò)濾、清洗、解析、進(jìn)行實(shí)體、屬性以及關(guān)系的抽取,并通過(guò)構(gòu)建徽派建筑領(lǐng)域詞典,結(jié)合先驗(yàn)知識(shí)提升了BiLSTM-CRF模型的實(shí)體識(shí)別效果,通過(guò)Neo4j圖數(shù)據(jù)庫(kù)實(shí)現(xiàn)知識(shí)的表示、存儲(chǔ)并用Cypher實(shí)現(xiàn)知識(shí)查詢。
命名實(shí)體識(shí)別作為自然語(yǔ)言處理的一項(xiàng)基礎(chǔ)技術(shù),其主要任務(wù)是識(shí)別出文本數(shù)據(jù)中的專有名詞和有特殊含義的詞并將其歸類到已定義的類型中。命名實(shí)體識(shí)別有基于規(guī)則的方法、基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)方法和基于機(jī)器學(xué)習(xí)的方法三種基本方法,本文采用的是基于機(jī)器學(xué)習(xí)的方法。
λ
是對(duì)應(yīng)的權(quán)重。上式表示在輸入數(shù)據(jù)序列m的條件下,得到輸出序列n的概率。長(zhǎng)短期記憶網(wǎng)絡(luò)模型(Long Short-Term Memory,LSTM)是對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Recurrent Neural Network,RNN)改進(jìn)后的特殊形式的模型,由Hochreiter等人于1997年提出,主要思想是通過(guò)改變RNN中的隱藏層機(jī)構(gòu),采用門結(jié)構(gòu)方式控制RNN中信息的傳播方式,通過(guò)不同門結(jié)構(gòu)來(lái)控制信息的輸入、遺忘、變換、輸出等過(guò)程。LSTM的缺點(diǎn)是無(wú)法完整獲取語(yǔ)句的上下文信息,因此,研究者們采用雙向長(zhǎng)短記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)方法。
將CRF模塊作為BiLSTM模塊的輸出層,解決了字向量經(jīng)過(guò)BiLSTM層后可能得到無(wú)效標(biāo)簽序列的問(wèn)題。CRF層將BiLSTM層輸出的標(biāo)簽數(shù)列進(jìn)行集中解碼,獲得整個(gè)句子的序列標(biāo)注,而不是僅對(duì)單一標(biāo)簽進(jìn)行單獨(dú)的解碼。BiLSTM模型加入CRF層后可以考慮到不同類型標(biāo)簽之間的關(guān)聯(lián)性,使得輸入的數(shù)據(jù)序列經(jīng)過(guò)模型處理后可以得到一個(gè)最優(yōu)的標(biāo)簽序列。BiLSTM-CRF模型結(jié)構(gòu)圖如圖1所示。
圖1 BiLSTM-CRF模型結(jié)構(gòu)圖
徽派建筑知識(shí)圖譜的構(gòu)建分為四個(gè)步驟,如圖2所示。
圖2 徽派建筑知識(shí)圖譜構(gòu)建流程圖
(1)概念層的構(gòu)建。本文采用傳統(tǒng)的自頂向下的方法構(gòu)建了徽派建筑知識(shí)圖譜的基本概念層。
(2)利用結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù),包括網(wǎng)頁(yè)數(shù)據(jù),現(xiàn)有數(shù)據(jù)庫(kù)等抽取實(shí)體、屬性以及關(guān)系,然后進(jìn)行命名實(shí)體識(shí)別。
(3)知識(shí)表示?;张山ㄖR(shí)圖譜使用屬性圖為基本的表示形式。
(4)知識(shí)存儲(chǔ)。使用Neo4j圖數(shù)據(jù)庫(kù)存儲(chǔ)徽派建筑知識(shí)數(shù)據(jù)。
概念層構(gòu)建是對(duì)徽派建筑知識(shí)圖譜主體框架的構(gòu)建,需要定義類及類之間的關(guān)系,即對(duì)知識(shí)圖譜中的概念及概念之間的語(yǔ)義關(guān)系進(jìn)行定義。
本文構(gòu)建的是徽派建筑知識(shí)圖譜,以民居、祠堂為主,設(shè)計(jì)并構(gòu)建了徽派建筑領(lǐng)域知識(shí)圖譜的概念層,主要從建筑基本信息、建筑平面信息、建筑立面、建筑空間分布、雕刻、文化特色六大類進(jìn)行定義。
概念類通過(guò)相關(guān)屬性進(jìn)行詳細(xì)描述,傳統(tǒng)建筑基本信息屬性包括建筑名稱、類型、坐落位置、建造時(shí)期。建筑平面的屬性包括建筑開(kāi)間、布局、外觀。立面屬性包括馬頭墻、門樓??臻g屬性有檐高、屋脊高度、院落進(jìn)數(shù)和拼接方式。雕刻屬性包括石雕、磚雕、木雕。徽派建筑知識(shí)圖譜模式層如圖3所示。
圖3 徽派建筑知識(shí)圖譜模式層
從獲取到的原始數(shù)據(jù)文本中獲取實(shí)體是構(gòu)建徽派建筑知識(shí)圖譜的關(guān)鍵步驟,基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別模型已在通用領(lǐng)域中廣泛使用。神經(jīng)網(wǎng)絡(luò)模型方法的優(yōu)勢(shì)在于可以對(duì)數(shù)據(jù)特征進(jìn)行自動(dòng)提取,而且訓(xùn)練模型的過(guò)程是端到端的,生成的模型可以直接用于命名實(shí)體識(shí)別。因此,本文采用BiLSTM-CRF學(xué)習(xí)框架與徽派建筑詞典相結(jié)合的方法,對(duì)徽州傳統(tǒng)建筑的命名實(shí)體進(jìn)行識(shí)別。圖4為徽派建筑命名實(shí)體識(shí)別關(guān)鍵技術(shù)框架圖。
圖4 徽派建筑命名實(shí)體識(shí)別關(guān)鍵技術(shù)框架圖
2.2.1 分詞
本文選擇基于中文語(yǔ)料庫(kù)的CorpusWordParser進(jìn)行分詞。CorpusWordParser基于現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)開(kāi)發(fā),具有中文分詞和詞性標(biāo)注等功能,用戶可以自行添加詞表來(lái)增強(qiáng)分詞效果。分詞結(jié)果如圖5所示。
圖5 分詞結(jié)果圖
2.2.2 數(shù)據(jù)搜集與處理
由于目前缺乏用于徽派建筑命名實(shí)體識(shí)別的公開(kāi)數(shù)據(jù)集,本文通過(guò)實(shí)驗(yàn)室已建成的數(shù)據(jù)庫(kù)及百科詞條構(gòu)造了徽派建筑語(yǔ)料庫(kù),語(yǔ)料庫(kù)涵蓋了徽派建筑典型的建筑類型。另外,實(shí)驗(yàn)室已建成的國(guó)內(nèi)唯一的徽州傳統(tǒng)建筑特征元素?cái)?shù)據(jù)庫(kù),收集了近百種建筑構(gòu)件相關(guān)數(shù)據(jù)近萬(wàn)條,徽州地區(qū)100多個(gè)聚落、萬(wàn)幢建筑的相關(guān)信息。本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自經(jīng)過(guò)整理分析的數(shù)據(jù)庫(kù)數(shù)據(jù)和相關(guān)徽派建筑百度百科詞條信息。
本文抽取了168個(gè)描述徽派建筑文本,將其中80%的樣本數(shù)據(jù)作為訓(xùn)練集,20%作為測(cè)試集。當(dāng)訓(xùn)練出的準(zhǔn)確率達(dá)到設(shè)定的標(biāo)準(zhǔn)后,用訓(xùn)練好的模型從168條文本中抽取徽派建筑的實(shí)體,使用BRAT文本標(biāo)注工具進(jìn)行數(shù)據(jù)標(biāo)注,對(duì)獲取的語(yǔ)料進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換。按照BIO格式對(duì)語(yǔ)料進(jìn)行標(biāo)記,標(biāo)記為:B、I、O,分別表示實(shí)體的首字符、中間字符和非建筑名詞。
2.2.3 BiLSTM-CRF與徽派建筑詞典相結(jié)合的命名實(shí)體識(shí)別
通過(guò)對(duì)《中國(guó)古代建筑辭典》的參考分析,構(gòu)建本文所需要的徽派建筑詞典,通過(guò)詞典來(lái)獲取非結(jié)構(gòu)化文本中的語(yǔ)料類別信息,把獲取的信息作為特征值傳遞給BiLSTM-CRF模型去識(shí)別數(shù)據(jù)中的徽派建筑實(shí)體,類別信息如表1所示。本文將描述徽派建筑的數(shù)據(jù)分為兩類,一類是描述徽派建筑的術(shù)語(yǔ),標(biāo)記為“HA”。其他非建筑術(shù)語(yǔ),標(biāo)記為“HO”。
表1 類別信息
2.2.4 實(shí)驗(yàn)與結(jié)果
實(shí)驗(yàn)抽取168條非結(jié)構(gòu)化文本數(shù)據(jù),任意選取其中的130條數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別。將100條數(shù)據(jù)作為訓(xùn)練樣本,30條數(shù)據(jù)作為測(cè)試樣本。為了緩解模型存在過(guò)擬合性,將BiLSTM模型網(wǎng)絡(luò)輸入與輸出端的Dropout rate值設(shè)為0.5,實(shí)驗(yàn)結(jié)果如表2所示。
表2 識(shí)別結(jié)果統(tǒng)計(jì)
為了判別BiLSTM-CRF模型結(jié)合徽派建筑詞典特征的性能,分別進(jìn)行了BiLSTM模型、BiLSTMCRF模型和BiLSTM-CRF模型結(jié)合徽派建筑詞典特征的對(duì)比實(shí)驗(yàn)。根據(jù)表2的實(shí)驗(yàn)結(jié)果可以看出,結(jié)合詞典特征的BiLSTM-CRF模型比其他兩組實(shí)驗(yàn),在準(zhǔn)確率、召回率和F1值上都取得了最好的效果。BiLSTM-CRF模型比BiLSTM模型效果好,是因?yàn)锽iLSTM-CRF模型能夠利用上下文的語(yǔ)義信息以及相鄰標(biāo)簽間的關(guān)系,產(chǎn)生更優(yōu)的標(biāo)簽序列。結(jié)合徽派建筑詞典特征的BiLSTM-CRF模型比單獨(dú)使用BiLSTM-CRF模型準(zhǔn)確率提升了3.49%,召回率上升了1.34%,F(xiàn)1值提高了2.41%。分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在徽派建筑訓(xùn)練數(shù)據(jù)集中沒(méi)有明顯特征的建筑名詞被結(jié)合詞典的BiLSTM-CRF模型準(zhǔn)確地識(shí)別了出來(lái),體現(xiàn)了作為先驗(yàn)知識(shí)的詞典對(duì)實(shí)體識(shí)別起到了重要的輔助作用。例如佛塔,在徽州區(qū),塔主要指的是村口的風(fēng)水塔,如黟縣柯村鄉(xiāng)的旋溪塔。佛塔的相關(guān)數(shù)據(jù)不多,在本文的訓(xùn)練樣本中沒(méi)有描述佛塔的術(shù)語(yǔ),但是徽派建筑詞典能準(zhǔn)確的識(shí)別出此類建筑術(shù)語(yǔ),利用這些建筑術(shù)語(yǔ)的語(yǔ)料信息為BiLSTMCRF模型提供支持,使得識(shí)別效果更好。
因?yàn)閷?shí)驗(yàn)在準(zhǔn)確率、召回率和F值上都取得了比較好的效果,因此,本文利用結(jié)合徽派建筑詞典的BiLSTM-CRF模型,對(duì)168條非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行徽派建筑實(shí)體的抽取,共抽取出504個(gè)徽派建筑實(shí)體。
知識(shí)圖譜是一種網(wǎng)絡(luò)結(jié)構(gòu)圖,實(shí)體就是圖里面的節(jié)點(diǎn),實(shí)體之間的關(guān)系就是圖的邊。知識(shí)圖譜有兩種表示形式:三元組和屬性圖。本文采用Neo4j圖數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)徽派建筑領(lǐng)域知識(shí),用屬性圖模型表示知識(shí)。
屬性圖模型就是頂點(diǎn)、邊、標(biāo)簽、關(guān)系類型和屬性組成的有向圖。實(shí)體可以表示成一個(gè)或多個(gè)鍵值對(duì)形式的屬性:
(1)頂點(diǎn)。每個(gè)頂點(diǎn)具有一個(gè)唯一的ID,每個(gè)頂點(diǎn)還有一個(gè)實(shí)體類,表示頂點(diǎn)所對(duì)應(yīng)的概念類型,每個(gè)頂點(diǎn)屬性的集合通過(guò)鍵值對(duì)來(lái)表示。
(2)邊。每一條邊都有一個(gè)唯一的ID,每一條邊都有一個(gè)頭結(jié)點(diǎn)和尾結(jié)點(diǎn)。同時(shí),每一條邊有一個(gè)實(shí)體類type,表示頭節(jié)點(diǎn)和尾結(jié)點(diǎn)的關(guān)系,每條邊也由鍵值對(duì)來(lái)定義邊屬性集合。
圖6為Neo4j的一個(gè)實(shí)體屬性圖模型,實(shí)體大菩薩廳和空間布局串聯(lián)之間的關(guān)系是拼接方式。其中,id是實(shí)體的位置符號(hào),是其唯一的標(biāo)識(shí)符;type表示實(shí)體類別;start表示頭結(jié)點(diǎn)id;end表示尾結(jié)點(diǎn)id;name表示對(duì)應(yīng)節(jié)點(diǎn)屬性描述。
圖6 實(shí)體的屬性圖模型
本文采用的是Neo4j圖數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù)。Neo4j是一個(gè)高性能的、基于Java語(yǔ)言開(kāi)發(fā)并且開(kāi)源的圖形數(shù)據(jù)庫(kù),它將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在靈活的、面向?qū)ο蟮木W(wǎng)絡(luò)結(jié)構(gòu)中而不是表格中,它還具備了完整的數(shù)據(jù)庫(kù)特性。通過(guò)對(duì)知識(shí)圖譜進(jìn)行可視化展示,使得用戶更加直觀、清晰地了解實(shí)體之間的關(guān)聯(lián)規(guī)則。
將提取出的徽派建筑的建筑實(shí)體以及實(shí)體與實(shí)體之間的關(guān)系等數(shù)據(jù)信息全部整理成結(jié)構(gòu)化的數(shù)據(jù),并設(shè)置相應(yīng)的概念類存儲(chǔ)在CSV格式的文件中,如表3、4所示。然后將所有的CSV文件通過(guò)Cypher導(dǎo)入到Neo4j圖數(shù)據(jù)庫(kù)中,即完成了徽派建筑知識(shí)圖譜的數(shù)據(jù)存儲(chǔ)。
表3 徽派建筑實(shí)體在CSV文件中的錄入格式
表4 徽派建筑實(shí)體、類型實(shí)體及兩者關(guān)系在CSV文件中的存儲(chǔ)格式
將徽派建筑知識(shí)數(shù)據(jù)存儲(chǔ)到Neo4j圖數(shù)據(jù)庫(kù)后,圖7徽派建筑知識(shí)圖譜(節(jié)選)中紫色圓圈表示建筑類型實(shí)體,深藍(lán)色圓圈表示建筑實(shí)體,連接建筑類型實(shí)體與建筑實(shí)體之間的線段表示這些實(shí)體之間相對(duì)應(yīng)的關(guān)系。圖中展示了包括民居、祠堂、牌坊等16種不同的建筑類型,每種建筑實(shí)體展示出了建筑位置,開(kāi)間及門樓形式等信息,同時(shí)介紹了徽派建筑著名的三雕技術(shù),包括7種雕刻手法,形式多樣的雕刻內(nèi)容和裝飾位置等信息。Neo4j圖數(shù)據(jù)庫(kù)使用Cypher語(yǔ)言對(duì)數(shù)據(jù)庫(kù)進(jìn)行增刪改查操作,實(shí)現(xiàn)了對(duì)每一座建筑的檢索、遍歷等功能。
圖7 徽派建筑圖譜(節(jié)選)
本文詳細(xì)描述了在傳統(tǒng)建筑領(lǐng)域通過(guò)數(shù)據(jù)抽取來(lái)構(gòu)建徽派建筑知識(shí)圖譜的方法,并介紹了徽派建筑知識(shí)圖譜的構(gòu)建流程。針對(duì)徽派建筑數(shù)據(jù)異構(gòu)多源和非結(jié)構(gòu)化的特點(diǎn),提出了BiLSTM-CRF模型結(jié)合徽派建筑詞典的方法來(lái)對(duì)徽派建筑實(shí)體進(jìn)行識(shí)別抽取。實(shí)驗(yàn)結(jié)果表明,在先驗(yàn)知識(shí)的輔助作用下,實(shí)體識(shí)別的效果更好。在獲取到徽派建筑的知識(shí)之后,利用Neo4j數(shù)據(jù)庫(kù)存儲(chǔ)知識(shí),用屬性圖模型表示知識(shí)。最后利用Neo4j圖數(shù)據(jù)庫(kù)可視化地展示了構(gòu)建的徽派建筑知識(shí)圖譜。本文所構(gòu)建的徽派建筑知識(shí)圖譜,為研究徽派建筑知識(shí)的智能化推薦和搜索系統(tǒng)奠定了基礎(chǔ)。