国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向位置聚合的泛在地圖信息分類模型

2021-06-29 00:28:38王光霞田江鵬
測繪學(xué)報 2021年6期
關(guān)鍵詞:語義維度分類

王 思,王光霞,田江鵬

信息工程大學(xué)地理空間信息學(xué)院,河南 鄭州 450052

信息分類是人類思維所固有的一種活動,是人們?nèi)粘I钪杏靡哉J(rèn)識、區(qū)別和判斷事物的一種邏輯方法[1]。人們通過對現(xiàn)有的信息和知識的提取、組織、分類和管理之后才能對信息進(jìn)行有效的認(rèn)識和使用。地圖學(xué)和GIS中,地理信息按照一定的原則和方法進(jìn)行分類和編碼,建立了特定的通用或?qū)S玫乩硇畔⒎诸愺w系,以便于地理信息的存儲、檢索、管理、分析與共享。地理信息分類是地理數(shù)據(jù)得以綜合分析和共享利用的重要基礎(chǔ)。

在ICT和大數(shù)據(jù)技術(shù)的推動下,地圖學(xué)發(fā)展迎來了空前的機(jī)遇與挑戰(zhàn)[2-3]。伴隨著信息量的急劇增長,地理信息逐漸表現(xiàn)出實時性強(qiáng)、空間覆蓋面廣、來源多、體量大、復(fù)雜度高、碎片化和不確定性等特點,呈現(xiàn)出“時空泛在”[4]的新質(zhì)特征。地圖作為表達(dá)和傳輸?shù)乩硇畔⒌闹匾ぞ?,也開始呈現(xiàn)“泛在化”的發(fā)展趨勢[5-6]。與傳統(tǒng)地圖類似,泛在地圖可認(rèn)為是在地圖投影、制圖綜合和地圖可視化支撐下對地理對象、現(xiàn)象、過程等從現(xiàn)實空間到地圖空間的映射[7],具備傳輸和表達(dá)地理信息的功能[2]。所不同的是,泛在地圖對傳統(tǒng)地圖進(jìn)行了進(jìn)一步的拓展,表現(xiàn)出更加包羅萬象的內(nèi)涵和特征。特別是在時空大數(shù)據(jù)[3]的背景下,更加強(qiáng)調(diào)其信息價值大、復(fù)雜但稀疏[8]、實時性強(qiáng)等特點。因而,如何在信息層面抽象泛在地圖的本質(zhì)特征,抓取泛在地圖的信息維度,實現(xiàn)泛在地圖信息的科學(xué)分類和管理,已經(jīng)成為地圖學(xué)面向泛在化發(fā)展而衍生的新問題。

構(gòu)建泛在地圖信息的分類體系,旨在為如何認(rèn)識和理解泛在地圖,以及如何管理和使用泛在地圖提供依據(jù)與規(guī)范。泛在地圖信息的大數(shù)據(jù)特點使得其難以直接套用傳統(tǒng)地理信息分類方法,需要對泛在地圖信息的特征、分類模型等基本問題進(jìn)行重新思考。針對這一需求,本文提出一種面向位置聚合的泛在地圖分類模型,希冀以此來探究泛在地圖的信息維度本征。

1 現(xiàn)狀分析

地理信息分類在一定時期內(nèi)已經(jīng)形成了相對穩(wěn)定的多級分類標(biāo)志體系和模型[9],并作為一種概念模型長期以來支撐了地圖和GIS的發(fā)展。傳統(tǒng)地理信息分類主要依托專家的知識和經(jīng)驗構(gòu)建地理信息分類的原則、方法和標(biāo)準(zhǔn)規(guī)范,采用規(guī)范的術(shù)語和清晰的層級關(guān)系描述地理要素,屬于專家分類法(taxonomy)的范疇。在諸如《GB/T13923—2006基礎(chǔ)地理信息要素分類與代碼》等標(biāo)準(zhǔn)形成之后,分類問題逐漸面向語義一致性方向發(fā)展,出現(xiàn)了基于本體的地理信息分類[10-11]和基于形式語義的地理信息分類[12]等研究,旨在達(dá)成不同領(lǐng)域分類體系之間的共享與互操作。從廣義的信息學(xué)視角來看,地理信息分類可認(rèn)為是信息分類的一個具例,但將地理信息分類與信息學(xué)分類進(jìn)行比較分析,可以發(fā)現(xiàn)地理信息分類存在下述不足:

(1) 面向網(wǎng)絡(luò)地理信息資源的分類研究不足。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,帶有時空標(biāo)識的泛在網(wǎng)絡(luò)資源已經(jīng)將地理信息由傳統(tǒng)的地理空間全面擴(kuò)展至社會人文空間,物理域到認(rèn)知域的擴(kuò)展使得專家分類法難以適應(yīng)。突破分類受控詞只能由專家產(chǎn)生的限制,基于用戶協(xié)作式創(chuàng)建的標(biāo)簽實現(xiàn)網(wǎng)絡(luò)資源分類的大眾分類法(folksonomy)[13],成為海量網(wǎng)絡(luò)信息快速分類的主流方法。雖然Web地圖學(xué)和WebGIS已經(jīng)取得長足的進(jìn)步,但本質(zhì)上仍沿用的是傳統(tǒng)地圖信息的分類模型,缺乏真正面向網(wǎng)絡(luò)信息資源的地圖信息分類模型與方法的研究。

(2) 缺乏兼容人機(jī)各自優(yōu)勢的分類模型設(shè)計。大眾分類法依賴于機(jī)器學(xué)習(xí)的自動分類或者帶有專家驗證的自動分類。而機(jī)器分類通常有兩類任務(wù):①構(gòu)建特定的類別層次;②指定待分類對象在類別層次中所屬的類別[14]。這些任務(wù)的實現(xiàn)均依賴于算法抽取的特征。例如,ImageNet借助于圖像的特征標(biāo)注,已經(jīng)給出了涉及地圖在內(nèi)的不同領(lǐng)域的圖像數(shù)據(jù)分類方案[15]。然而,算法語義與人類語義之間存在鴻溝,機(jī)器分類算法獲得的類別層次和分類效果與人的分類結(jié)果之間存在一定的差異性。這一問題雖然已經(jīng)得到部分學(xué)者的關(guān)注,例如文獻(xiàn)[16]將影像光譜特征語義詞匯與地圖要素分類體系進(jìn)行結(jié)合的研究,但總體上仍缺乏兼容人機(jī)各自優(yōu)勢的分類模型的設(shè)計。

2 分類模型

2.1 基本認(rèn)識約定

(1) 泛在地圖信息:泛在信息的一種類型。泛在信息通常表現(xiàn)為文本、圖表、圖像、音頻、視頻和地圖等模態(tài),泛在地圖信息即以泛地圖[6]形式而存在的信息類型。泛在地圖信息也是專題地圖信息的一種,存在于泛在網(wǎng)絡(luò)中用以表示自然和社會人文環(huán)境要素的地圖,包括專題內(nèi)容要素、表示方式和地圖說明信息。

(2) 位置:特指一種擴(kuò)展的“位置”概念。地圖信息整體上可分為時間、空間和屬性[3]3個維度,傳統(tǒng)上的位置是指空間中的坐標(biāo)或區(qū)域。在時空大數(shù)據(jù)背景下,單純以空間位置為基本框架來組織和關(guān)聯(lián)信息,并不能完全滿足全息制圖和表達(dá)[17]的需求。位置需由空間維擴(kuò)展到時間維和語義維,突破笛卡兒幾何空間至多要素相統(tǒng)一的高維語義空間,形成時空和語義為整體的描述能力。對位置進(jìn)行拓展后,尤其到語義維,能夠突破傳統(tǒng)位置計算的“幾何算法”屬性,可衍化出時間位置、空間位置和語義位置[18]等更為細(xì)致的位置分類,共同支撐高維語義空間中的概念、實體及其關(guān)系的結(jié)構(gòu)化描述。

(3) 位置聚合:面向時空泛在信息的信息聚合[19-20]模式。泛在信息的復(fù)雜稀疏性特點,與越來越精準(zhǔn)化、個性化的用戶需求之間形成了矛盾。為解決這一問題,一方面可通過對離散分布、異構(gòu)無序的多類型“信息碎片”進(jìn)行篩選、關(guān)聯(lián)、組織、匯集與呈現(xiàn)[21];另一方面,可采用擴(kuò)展的位置為框架組織和關(guān)聯(lián)信息,以全面反映位置本身及其相關(guān)的事物或事件的各種屬性。因此,位置聚合是一種以時空泛在信息為對象,以位置為框架關(guān)聯(lián)信息碎片,以構(gòu)建專題化地理場景[22]為目標(biāo)的時空泛在信息應(yīng)用新模式。

(4) 分類模型:特指用于指導(dǎo)泛在地圖信息分類的理論模型。分類的兩類主要任務(wù)[14],使得當(dāng)前存在構(gòu)建類別層次的分類模型和對象類別劃分的分類模型;同時,由于研究的層次需求,存在理論模型、數(shù)據(jù)模型和算法模型等區(qū)別。本文瞄準(zhǔn)地理信息分類研究中存在的兩點不足,面向位置聚合應(yīng)用需求,試圖從理論的層次探討泛在地圖信息的分類問題,因此分類模型是一種側(cè)重類別層次建模(即泛在地圖信息分類分級)的理論模型。

2.2 分類需求與研究思路

泛在地圖信息分類既需要延續(xù)傳統(tǒng)地理信息分類的一般原則和要求,也需要顧及泛在地圖的信息維度特征。歸納起來,需要滿足下述需求:①支撐位置聚合應(yīng)用——分類模型旨在建立泛在地圖信息的層級化組織結(jié)構(gòu),實現(xiàn)泛在地圖信息作為一種“大數(shù)據(jù)”的管理,進(jìn)而為位置聚合提供信息索引作用;②揭示微內(nèi)容——泛在地圖信息的稀疏性特點,使得有效揭示和描述其中蘊(yùn)含的“細(xì)粒度”信息碎片成為突出需求,因此其分類應(yīng)有助于信息碎片的描述;③符合認(rèn)知結(jié)構(gòu)——泛在地圖信息分類分級結(jié)構(gòu)中,類別之間應(yīng)有明確、規(guī)范和清晰的語義關(guān)系,符合人們對地理事物的認(rèn)知結(jié)構(gòu);④自動化分類能力——傳統(tǒng)地理信息分類方案制定和分類實施均由人完成,費(fèi)時費(fèi)力且更新升級周期長,泛在地圖信息分類需要一種數(shù)據(jù)驅(qū)動、自由靈活、快速迭代的自動化分類方法。

泛在地圖信息分類需求,決定了其分類需要從模型和方法上進(jìn)行改進(jìn)和創(chuàng)新?;诂F(xiàn)有的研究成果,本文的試圖從以下兩個方面進(jìn)行改進(jìn):

2.2.1 結(jié)合專家分類法和大眾分類法的各自優(yōu)點

專家分類法可以認(rèn)為是自頂向下的分類模式,而大眾分類法則是立足資源標(biāo)注的自下而上的分類模式,二者各具優(yōu)劣,具有互補(bǔ)融合的特點[23]。泛在地圖信息分類不僅需要延續(xù)傳統(tǒng)地理信息分類的層級化結(jié)構(gòu)、使用受控詞描述層級語義、符合人的認(rèn)知習(xí)慣等優(yōu)點,也需要吸納網(wǎng)絡(luò)信息資源分類的細(xì)粒度語義描述、成本低、周期短、自動化程度高等優(yōu)點。表1展示了泛在地圖信息分類的具體特點。

表1 泛在地圖信息分類需融合傳統(tǒng)地理信息分類和網(wǎng)絡(luò)信息資源分類的各自優(yōu)點

2.2.2 耦合認(rèn)知規(guī)律和數(shù)據(jù)驅(qū)動的模型設(shè)計

人工分類和機(jī)器分類有著各自的優(yōu)點,人類自古以來就進(jìn)化出對環(huán)境事物的抽象和分類的能力,能夠輕松完成概念化、關(guān)系推理和模式識別等任務(wù),而機(jī)器則擅長于快速、高精度的數(shù)據(jù)處理。因此,較為可行的路線是設(shè)計耦合人機(jī)各自優(yōu)勢的分類模型,即一方面自上而下,擴(kuò)展經(jīng)典地理信息分類中細(xì)粒度語義信息的描述能力;另一方面則是自下而上,基于現(xiàn)有機(jī)器分類模型在數(shù)據(jù)和特征層面的算力,拓展其在概念、語義和知識層面的建模能力。

這種設(shè)計理念本質(zhì)上符合“視覺序列→視覺描述?知識模式?認(rèn)知表達(dá)”這一人類理解地圖的認(rèn)知原理[24],也是縮短算法語義與人類語義之間的鴻溝的有益嘗試。因此,耦合人機(jī)各自優(yōu)勢的分類模型,就是將之前全部由人類認(rèn)知系統(tǒng)完成的工作,現(xiàn)在部分交由機(jī)器去完成——將泛在地圖的數(shù)據(jù)組織管理、特征抽取、聚類分析等工作交由算法去實現(xiàn),而人則是在概念術(shù)語、分類模式、知識推理等更高層次進(jìn)行約束。

2.3 模型設(shè)計

基于上述設(shè)計理念,本文提出了由“實例層→特征層?維度層?主題層”4個層次構(gòu)成的泛在地圖信息分類模型,如圖1所示。

圖1 面向位置聚合的泛在地圖信息分類模型Fig.1 Classification model of ubiquitous map information facing location-based aggregation

2.3.1 實例層

實例層涵蓋了不同類型的泛在地圖實例,是分類的數(shù)據(jù)基礎(chǔ)。根據(jù)地圖的“泛化”程度,可以將標(biāo)準(zhǔn)地圖、矢量地圖、影像地圖、專題地圖和意象地圖(例如旅游心象地圖)等實例納入泛在地圖的分類范圍之內(nèi)。

2.3.2 特征層

特征層描述了能夠從泛在地圖中抽取的信息碎片的類型和值。泛在地圖的構(gòu)成和形式較為靈活多樣,圖名、圖例和要素內(nèi)容等構(gòu)成元素均可能存在缺省情況,因此特征層的核心任務(wù)是建立泛在地圖特征系統(tǒng),以支撐不同類型泛在地圖的統(tǒng)一特征抽取與要素描述。借鑒適用于描述復(fù)雜地理數(shù)據(jù)的地理信息六要素[25]理念,結(jié)合泛在地圖自身特點,本文從內(nèi)容特征、結(jié)構(gòu)特征和關(guān)系特征3個方面構(gòu)建泛在地圖的特征系統(tǒng)。①內(nèi)容特征——側(cè)重描述地圖中所表達(dá)的信息,例如地理對象或現(xiàn)象發(fā)生的時間和空間節(jié)點(時間定位、空間定位),地理對象的組成和演化結(jié)構(gòu)(幾何形態(tài)),地理對象和現(xiàn)象的固有屬性(屬性特征)、地理現(xiàn)象的發(fā)生與演化(演化過程)以及基于人類認(rèn)知的地理特征(語義描述)。②結(jié)構(gòu)特征——側(cè)重描述地圖的元數(shù)據(jù)或幅面構(gòu)成,例如圖名、副圖名、出版單位、出版時間、圖廓等,可以抽象地概括為圖幅、布局、模式、圖層、圖例等部分。③關(guān)系特征——側(cè)重描述特征之間存在的定性或定量的關(guān)系。泛在地圖需要顯式地抽取和描述這些基本關(guān)系,并作為特征記錄下來,例如時序關(guān)系(例如正序、逆序、插序)、拓?fù)潢P(guān)系(例如九元組模型)、語義關(guān)系(例如部分整體關(guān)系、上下義關(guān)系)、尺度關(guān)系和因果關(guān)系等。

2.3.3 維度層

借鑒文獻(xiàn)[6]的觀點,在分類層級系統(tǒng)中,一個維度實質(zhì)上就是它的一個側(cè)面,同一維度下的具體維度值形成了視角面,不同維度值按照一定規(guī)則關(guān)聯(lián)并疊加組合構(gòu)成了泛在地圖信息的一個種類。因此,維度是泛在地圖信息的基本量,一個維度實際上代表了信息特征的一個側(cè)面,能夠使用不同細(xì)化程度的特征予以表示。鑒于泛在地圖信息的社會屬性和大數(shù)據(jù)特點,由時空信息X和屬性信息Z構(gòu)成最簡二元組〈X,Z〉的地理信息描述范式[26],已經(jīng)難以覆蓋泛在信息范疇。因此,引入社會學(xué)領(lǐng)域信息分類[27]思想,并借鑒場景學(xué)[22]理論,宏觀上將泛在信息劃分為時間維、地點維、人物維、事物維、事件維和現(xiàn)象維6個維度。信息維度的劃分來源于社會學(xué)的歸納,在認(rèn)知層面界定了地圖信息的不同歸屬,是信息層面的范疇劃定,理論上任何粒度或類型的泛在地圖信息均可以劃分到此6個信息維度之中。

信息維度的劃分,為不同特征值提供了類型標(biāo)注,形成了〈特征,維度〉最簡二元標(biāo)注單位。分類分級體系通常是一個層次化、結(jié)構(gòu)化的多維層級系統(tǒng)。因此以〈特征,維度〉標(biāo)注單位為基本信息單元構(gòu)建泛在地圖信息分類分級,具有以下優(yōu)勢。一是最簡二元標(biāo)注單位能夠讓分類分級體系具備多維特征描述特點,這是實現(xiàn)由特征數(shù)據(jù)(算法語義)到分類分級(人類語義)之間銜接的關(guān)鍵。二是采用最簡二元標(biāo)注單位標(biāo)注的泛在地圖信息,能夠與擴(kuò)展的位置(時間位置、空間位置和語義位置等)之間產(chǎn)生深層次的關(guān)聯(lián)性:時間維信息與時間位置是同質(zhì)的,地點維信息和空間位置是同質(zhì)的,人物維、事物維、事件維和現(xiàn)象維信息適宜于使用語義位置進(jìn)行關(guān)聯(lián),這種關(guān)聯(lián)性是實現(xiàn)信息和位置之間進(jìn)行關(guān)聯(lián)和聚合計算的基礎(chǔ)。

基于信息維度,可通過設(shè)置不同分類模式、分類結(jié)構(gòu)參數(shù)等構(gòu)建泛在地圖信息的分類分級體系。分類分級體系包含了譜系、模式(schema)和特征等部分。譜系體現(xiàn)了層級化結(jié)構(gòu),模式體現(xiàn)了受控詞和信息維度之間的關(guān)聯(lián)關(guān)系,而特征則映射了細(xì)粒度地圖信息內(nèi)容。

2.3.4 主題層

主題層描述了面向不同聚合主題的分類需求,例如按照時間序列、空間分布、事件過程、演化規(guī)律等主題進(jìn)行分類。

概括而言,該模型立足泛在地圖信息自身特點,以不同的位置聚合主題為牽引,通過對地圖實例中抽取的信息碎片進(jìn)行信息維度分析和聚類,構(gòu)建數(shù)據(jù)驅(qū)動、全面系統(tǒng)、精確合理的泛在地圖信息分類分級體系,為實現(xiàn)海量、多源異構(gòu)泛在地圖的管理、聚類和分析等提供認(rèn)知結(jié)構(gòu)保證。本質(zhì)上,該分類模型將傳統(tǒng)地理信息分類的“實例→維度?主題”模式擴(kuò)展為“實例→特征?維度?主題”模式,特征層的擴(kuò)展為機(jī)器提供了細(xì)粒度語義信息的描述能力,同時也能夠保持經(jīng)典地理信息分類模型的層級化認(rèn)知結(jié)構(gòu),這種擴(kuò)展是滿足泛在地圖信息分類需求的根本原因。

3 模型驗證

3.1 驗證方法

為了驗證泛在地圖信息分類模型,本文設(shè)計并實現(xiàn)了一種泛在地圖信息分類建模方法,技術(shù)路線如下:①輸入泛在地圖數(shù)據(jù)集;②主題特征標(biāo)注——面向位置聚合主題需求,以〈特征,維度〉為基本單元抽取泛在地圖中的特征信息并標(biāo)注信息維度;③特征頻率矩陣構(gòu)建——將不同信息維度的非結(jié)構(gòu)化特征數(shù)據(jù)映射到統(tǒng)一的向量空間中;④層次聚類——基于特征頻率矩陣進(jìn)行層次聚類計算,建立泛在地圖信息分類分級體系;⑤輸出分類分級體系。

3.1.1 主題特征標(biāo)注

主題特征標(biāo)注旨在從泛在地圖中抽取出與位置聚合主題相關(guān)的特征信息,側(cè)重解決兩個問題:

(1) 特征描述框架,即抽取和標(biāo)注哪些信息。根據(jù)分類模型,為了實現(xiàn)非結(jié)構(gòu)化泛在地圖的統(tǒng)一解構(gòu),可從特征系統(tǒng)和信息維度兩個方面建立泛在地圖特征描述框架,并抽取獲得〈特征,維度〉基本標(biāo)注單元。以圖2所示的“薔薇”臺風(fēng)路徑概率預(yù)報圖的標(biāo)注為例。該圖的結(jié)構(gòu)包括圖名、附圖名、出版單位、發(fā)布時間和圖例等,不同的結(jié)構(gòu)可以抽取不同的特征,例如在圖名結(jié)構(gòu)中可以抽取得到〈今年,時間維〉、〈未來48 h,時間維〉、〈“薔薇”臺風(fēng),事件維〉、〈路徑概率預(yù)報圖,事物維〉等特征。內(nèi)容結(jié)構(gòu)中主要包括底圖和專題圖層,例如在專題圖層中,可以抽取得到〈8月9日05時,時間維〉、〈概率范圍,地點維〉、〈熱帶風(fēng)暴,現(xiàn)象維〉、〈薔薇,事件維〉等不同特征值。

注:本圖僅作地圖樣圖展示,不涉及國家版圖相關(guān)問題。圖2 泛在地圖解構(gòu)與特征抽取示例Fig.2 Deconstruction and feature extraction of ubiquitous map

(2) 主題信息過濾。基于特征描述框架抽取的特征可能覆蓋不同的特征結(jié)構(gòu)和信息維。然而這些特征與位置聚合主題的相關(guān)性不盡相同,其能夠發(fā)揮出的作用有大有小,部分作用小的特征甚至無法反映地圖的核心信息,在一定程度上會干擾后續(xù)地圖信息分類的準(zhǔn)確性。因此,在具體的抽取實現(xiàn)過程中,需顧及位置聚合的主題需求,選取出能最能代表地圖主題特色的那部分特征,并作為泛在地圖信息維度抽象的數(shù)據(jù)基礎(chǔ)。

3.1.2 特征頻率矩陣構(gòu)建

泛在地圖中抽取的特征,通常是由符號、文字、數(shù)字等構(gòu)成,但這些特征信息通常不能直接參與分類體系構(gòu)建,需要通過特定的運(yùn)算轉(zhuǎn)換形成統(tǒng)一向量空間的表達(dá),以便于后續(xù)的聚類計算。特征頻率矩陣是一種特征的向量空間表示,即每個特征項在向量空間某一維度上都采用特定的數(shù)值表示,使得符號、文字、數(shù)字等形式的特征值能夠統(tǒng)一轉(zhuǎn)化為向量表示。特征頻率矩陣構(gòu)建的總體思路如圖3所示。

圖3 特征頻率矩陣構(gòu)建流程Fig.3 Construction process of feature frequency matrix

(1) 對特征值進(jìn)行規(guī)范化處理。時間類特征值通常表現(xiàn)出相對性和模糊性特點,需要將相對時間、時間省略現(xiàn)象等表示為統(tǒng)一的、標(biāo)準(zhǔn)的表達(dá)形式。參照時間規(guī)范化[28]的方法進(jìn)行轉(zhuǎn)換,例如“8月9日05時”可轉(zhuǎn)換為數(shù)值“2020-08-09 T05:00:00”。地點類特征值通常表現(xiàn)為坐標(biāo)形式和地名形式,具有多級別性、相對性和模糊性等特點。特別對于地名值,一種方法是采用地名解析和換算方法,轉(zhuǎn)換為坐標(biāo)數(shù)值;另一種方法則是針對無法完成坐標(biāo)換算的情形,可將其作為自然語言文本進(jìn)行處理。對于人物、事物、事件和現(xiàn)象類特征值,由于它們通常表現(xiàn)為自然語言描述形式,可采取自然語言處理中的詞袋[29]模型表示,并采取分詞/去停用詞、命名實體識別等技術(shù),計算得到特征詞匯集合。

(2) 生成特征頻率矩陣。對時間值和坐標(biāo)值采用歸一化、特征詞匯采用TF-IDF[30]計算方法,獲得標(biāo)注文檔的全部特征頻率矩陣。初步獲得的特征頻率矩陣通常具有高維、稀疏的特點,為提高后續(xù)分類計算效率,還需對其進(jìn)行降維計算。降維是在保證向量空間基本特性不變的前提下,將高維度的特征空間映射到一個較低維度的空間中。本文采用主元分析(PCA)[31]降維計算方法,獲得最后的低維度的特征頻率矩陣。

3.1.3 基于層聚類分析的分類分級體系生成

以特征頻率矩陣為基礎(chǔ),可以通過聚類分析將特征區(qū)分為不同的類別,不同的類別又可進(jìn)一步通過聚類分析區(qū)分為更高層次的類別,如此不斷迭代收斂,最終可獲得基于特征值的泛在地圖信息分類分級體系。

本文基于BIRCH算法[32]實現(xiàn)分類維度聚類,并使用LDA(latent Dirichlet allocation)算法對每一個聚類簇進(jìn)行主題提取,算法描述如下。

輸入:特征頻率矩陣weight,特征字典dict,距離閾值T,分支數(shù)量約束B

輸出:帶有節(jié)點主題標(biāo)簽的CFTree

(1) 將特征頻率矩陣weight轉(zhuǎn)化為向量{v1,v2,…,vn}

(2) 初始化CFTree,使其根節(jié)點為一個空的node

(3) forviin {v1,v2,…,vn}

尋找CFTree中與vi距離最近的節(jié)點node(k)以及距離d(i,k)

ifd(i,k)≤T

將vi插入到節(jié)點node(k)中,計算node(k)節(jié)點數(shù)num(k)

if num (k)≤B

更新node(k)節(jié)點到根節(jié)點路徑上的所有結(jié)點的(N,LS,SS,TAG)值

else

分裂node(k)為兩個新節(jié)點node(k1)和node(k2),按照距離重新分配node(k)中的向量

更新node(k1)和node(k2)到根節(jié)點路徑上的所有結(jié)點(N,LS,SS,TAG)值

else

創(chuàng)建一個新的節(jié)點node并插入node(k)之中,將vi插入到節(jié)點node中

更新node節(jié)點到根節(jié)點路徑上的所有結(jié)點的(N,LS,SS,TAG)值

(4) 遍歷CFTree所有節(jié)點,基于TAG值自底向上對每個節(jié)點使用LDA算法獲得主題標(biāo)簽

(5) 打印輸出CFTree

BIRCH算法是典型的聚類算法之一,能夠通過拆分特征向量構(gòu)建樹狀層次結(jié)構(gòu),較好地適應(yīng)本文的聚類需求。根據(jù)BIRCH算法原理,本文對聚類特征樹(cluster feature tree,CFTree)進(jìn)行了改進(jìn)設(shè)計,將樹中每一個節(jié)點由(N,LS,SS)三元組擴(kuò)展為(N,LS,SS,TAG)四元組,使得特征個數(shù)N、特征之和LS以及特征的平方和SS 3個參數(shù)用于樹的構(gòu)建,TAG記錄當(dāng)前節(jié)點包含的特征值,用于當(dāng)前節(jié)點主題的計算。

3.2 試驗與分析

3.2.1 數(shù)據(jù)說明

地圖的泛在性體現(xiàn)在數(shù)據(jù)來源、內(nèi)容信息和表達(dá)形式等方面。為了驗證分類模型的可行性,本文圍繞地圖內(nèi)容信息的泛在性,通過網(wǎng)絡(luò)爬蟲構(gòu)建了一個以各類圖像格式為主的泛地圖數(shù)據(jù)集。數(shù)據(jù)集包含地圖共計1605幅,表2按照分類模型的實例層對所收集的地圖數(shù)據(jù)進(jìn)行了歸納,并結(jié)合地圖實例進(jìn)行了說明。數(shù)據(jù)集的信息內(nèi)容涉及行政區(qū)劃、經(jīng)濟(jì)生產(chǎn)、交通出行、人文旅游、自然資源、日常生活等多個方面,特別是手繪地圖、語義地圖和知識地圖等這類非標(biāo)準(zhǔn)化但廣泛存在于社會媒介中的地圖實例的納入,力圖體現(xiàn)對地理空間和社會人文空間的覆蓋。

表2 試驗數(shù)據(jù)說明和統(tǒng)計

3.2.2 分類體系生成

為了驗證面向特定主題的地圖數(shù)據(jù)特征標(biāo)注和分類分級建模方法的可行性,并展現(xiàn)建模過程細(xì)節(jié),從專題地圖數(shù)據(jù)集中按照氣象主題選取的部分地圖實例,涵蓋臺風(fēng)事件、大風(fēng)/降水預(yù)報、干旱、火險等專題內(nèi)容進(jìn)行試驗。圖4為按照分類建模的流程,取距離閾值T=1.8,分支數(shù)量約束因子B=8的分類體系效果圖。

圖4 氣象主題分類體系生成效果Fig.4 Generation result of the meteorological theme classification system

分類體系展現(xiàn)了整體的分類結(jié)構(gòu)和分類節(jié)點的細(xì)節(jié)信息。本試驗結(jié)果共分為3個層級:層級Ⅰ為一級聚類節(jié)點,層級Ⅱ為二級聚類節(jié)點,層級Ⅲ為三級聚類節(jié)點。每一個節(jié)點中均包含了LDA算法獲得的按照概率排序的主題特征,例如“0.045*臺風(fēng)”表示臺風(fēng)主題的概率為0.045;帶有下劃線的是專家分類受控詞,通過主題特征詞匯匹配獲得。

定義準(zhǔn)確率(P)=分類簇中正確的地圖數(shù)/分類簇中地圖總數(shù),召回率(R)=分類簇中正確的地圖數(shù)/分類簇中應(yīng)有的地圖數(shù),F(xiàn)1=2PR/(P+R)。對不同層級的分類結(jié)果進(jìn)行評價,計算每一分類層級準(zhǔn)確率、召回率和F1值的均值,結(jié)果見表3。

表3 不同分類層級的評測

試驗結(jié)果表明:①層級Ⅰ為直接分類簇,93.13%的P均值表明地圖實例得到較好的分類,但層級Ⅰ的R均值不高,其原因在于同一類型信息易被劃分為多個分類簇,例如臺風(fēng)、干旱、冰雹雷暴分類簇;②隨著分類層級的遞增,P均值整體下降表明聚類性能逐級遞減,但R均值整體上升表明分類簇的語義綜合度得到一定的保證;③所有分類層級的F1均值均保持相對穩(wěn)定水平,表明試驗?zāi)軌蛉〉靡欢ǖ姆诸惙旨壭Ч?,但仍存在進(jìn)一步優(yōu)化和提高的空間。

4 結(jié) 語

本文從泛在地圖的位置聚合應(yīng)用需求出發(fā),提出了一種泛在地圖信息分類模型,并通過相關(guān)試驗進(jìn)行了驗證。該分類模型本質(zhì)上是一種認(rèn)知規(guī)律約束下數(shù)據(jù)驅(qū)動的分類體系自動建模,對泛在地圖數(shù)據(jù)分類、管理、分析和應(yīng)用等具有參考價值。

本文的研究意義包括2個方面。一是能夠推進(jìn)從海量泛在地圖數(shù)據(jù)中挖掘地理信息分類體系的自動化處理水平;二是能夠進(jìn)一步改變地理信息分類模式,特征層將算法語義和人類語義有效銜接起來,使得傳統(tǒng)上由人類專家完成的認(rèn)知分類模式,變?yōu)槿藱C(jī)協(xié)作、甚至完全智能化的地理信息分類模式。

本文的局限性包括3個方面。一是特征抽取的有效性。精準(zhǔn)、快速挖掘泛在地圖中的信息塊,并重建信息塊之間的關(guān)聯(lián)關(guān)系,需要進(jìn)一步構(gòu)建泛在地圖的理解模型,以及基于深度學(xué)習(xí)算法的高效自動標(biāo)注方法。二是信息維度聚類算法的參數(shù)調(diào)優(yōu)。例如BIRCH算法的參數(shù)B和T,對聚類的結(jié)構(gòu)、分類粒度和收斂性等均具有重要影響,B和T參數(shù)如何調(diào)優(yōu)并能夠解釋其實際意義,特別是對于不同量級和規(guī)模的數(shù)據(jù)集,乃是需要進(jìn)一步研究的問題。三是分類結(jié)果的有效性。驗證方法雖然能夠得到分類分級結(jié)構(gòu),但相較于傳統(tǒng)地理信息的分類受控詞,其語義精準(zhǔn)度還需進(jìn)一步提高。

猜你喜歡
語義維度分類
分類算一算
語言與語義
淺論詩中“史”識的四個維度
中華詩詞(2019年7期)2019-11-25 01:43:00
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
光的維度
燈與照明(2016年4期)2016-06-05 09:01:45
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
“五個維度”解有機(jī)化學(xué)推斷題
認(rèn)知范疇模糊與語義模糊
嘉义市| 江永县| 长海县| 普宁市| 焉耆| 青龙| 桂林市| 敦化市| 南溪县| 屏东市| 鹤岗市| 芜湖县| 岳阳县| 涪陵区| 平凉市| 星座| 承德县| 靖州| 于田县| 绿春县| 宣汉县| 安达市| 津南区| 靖州| 社旗县| 收藏| 牟定县| 诸暨市| 喜德县| 沙雅县| 湘阴县| 伊宁县| 库伦旗| 英德市| 柯坪县| 乐平市| 石屏县| 临夏市| 凤冈县| 广元市| 夏津县|