楊岸然
國(guó)防科技大學(xué)電子科學(xué)學(xué)院,湖南 長(zhǎng)沙 410073
志愿者地理信息是用戶以自發(fā)開(kāi)放協(xié)作的方式生產(chǎn)的地理空間數(shù)據(jù),具備生產(chǎn)成本低、數(shù)據(jù)更新快等優(yōu)點(diǎn),理解數(shù)據(jù)質(zhì)量的不確定性是將其用于地理信息應(yīng)用的關(guān)鍵。與傳統(tǒng)地理數(shù)據(jù)生產(chǎn)通過(guò)標(biāo)準(zhǔn)控制數(shù)據(jù)質(zhì)量的方式不同,在志愿者地理信息中,數(shù)據(jù)質(zhì)量隨時(shí)間推移不斷優(yōu)化,是一種“生成”的過(guò)程。這一過(guò)程與數(shù)據(jù)貢獻(xiàn)的過(guò)程乃至項(xiàng)目發(fā)展的歷程密切相關(guān),需要基于歷史數(shù)據(jù)進(jìn)行分析研究。
以志愿者地理信息中最具代表性的開(kāi)放街道地圖(OSM)項(xiàng)目為研究對(duì)象,結(jié)合質(zhì)量和貢獻(xiàn)者這兩個(gè)該領(lǐng)域的重要研究方向,通過(guò)分析貢獻(xiàn)歷史來(lái)分析志愿者地理信息的數(shù)據(jù)質(zhì)量如何在項(xiàng)目的發(fā)展過(guò)程中逐漸優(yōu)化。論文主要包含以下幾部分內(nèi)容。
(1) 提出了志愿者地理信息中數(shù)據(jù)演化與貢獻(xiàn)行為的時(shí)空模型。①面向歷史數(shù)據(jù)規(guī)模大,數(shù)據(jù)格式不友好,時(shí)空數(shù)據(jù)具有本質(zhì)復(fù)雜性等問(wèn)題,基于時(shí)間地理學(xué)定義了一個(gè)OSM歷史數(shù)據(jù)的時(shí)空模型,定義了基于時(shí)態(tài)邏輯的謂詞與算子,用于建模和分析歷史數(shù)據(jù)。②實(shí)現(xiàn)了歷史數(shù)據(jù)分析處理工具集,包括信息保真、內(nèi)存輕量的數(shù)據(jù)庫(kù)快速導(dǎo)入工具,以及可以支撐多種研究應(yīng)用的SQL工具集,便于相關(guān)研究高效建模并形成分析結(jié)果。
(2) 定量分析了貢獻(xiàn)不平衡性的基本特征、時(shí)空規(guī)律與內(nèi)在機(jī)理。①基于分位數(shù)的分組策略,使用洛倫茲曲線、基尼系數(shù)與秩和檢驗(yàn)分析OSM中的貢獻(xiàn)不平衡性,即少數(shù)人生產(chǎn)絕大多數(shù)數(shù)據(jù)這一現(xiàn)象,發(fā)現(xiàn)OSM中的不平衡性顯著高于維基百科等通用開(kāi)放平臺(tái),并隨著項(xiàng)目發(fā)展逐年加劇。②分析了“沉默的多數(shù)”和“發(fā)聲的少數(shù)”這兩極貢獻(xiàn)者在不平衡性加劇中扮演的角色,發(fā)現(xiàn)前者人數(shù)持續(xù)增加、后者人數(shù)相對(duì)穩(wěn)定是不平衡性加劇的主要原因;發(fā)現(xiàn)不平衡性的程度在沒(méi)有顯著導(dǎo)入的國(guó)家持續(xù)平滑增長(zhǎng),在有顯著數(shù)據(jù)導(dǎo)入的國(guó)家存在波動(dòng)并與最活躍用戶的生產(chǎn)率變化保持一致,這可能由數(shù)據(jù)大量導(dǎo)入的事件導(dǎo)致。
(3) 基于貢獻(xiàn)歷史分析了主要貢獻(xiàn)者的專(zhuān)業(yè)度,重新審視了志愿者地理信息的數(shù)據(jù)是來(lái)自專(zhuān)業(yè)用戶還是業(yè)余用戶這一關(guān)鍵問(wèn)題。①研究選取承擔(dān)了絕大多數(shù)編輯工作的頭部貢獻(xiàn)者,圍繞實(shí)踐、技能和動(dòng)機(jī)這三個(gè)主題,基于假設(shè)檢驗(yàn)的思想設(shè)計(jì)了一系列貢獻(xiàn)者專(zhuān)業(yè)性的鑒定指標(biāo),如貢獻(xiàn)天數(shù)、貢獻(xiàn)跨度、主要工具、首月主要工具、工作日生產(chǎn)力及連續(xù)貢獻(xiàn)天數(shù)等,盡可能可信地推斷從事數(shù)據(jù)生產(chǎn)的是否可能是業(yè)余貢獻(xiàn)者。②通過(guò)上述指標(biāo),判斷在德國(guó)、法國(guó)和英國(guó)的主要貢獻(xiàn)者群體更可能是專(zhuān)業(yè)人員而非業(yè)余貢獻(xiàn)者,從一個(gè)側(cè)面解釋了OSM數(shù)據(jù)在這些地區(qū)的優(yōu)良質(zhì)量。
(4) 分析了主要貢獻(xiàn)者的行為偏好、偏好變遷及其影響。①對(duì)用戶偏好進(jìn)行分類(lèi),設(shè)計(jì)基于熵的多樣性指標(biāo),基于關(guān)聯(lián)規(guī)則挖掘和規(guī)律分析方法與一系列統(tǒng)計(jì)方法對(duì)貢獻(xiàn)偏好進(jìn)行考量,并對(duì)其隨時(shí)間的變化規(guī)律進(jìn)行分析。②以建筑數(shù)據(jù)為例,運(yùn)用建筑物數(shù)量、建筑物形狀特征及建筑物屬性等指標(biāo)對(duì)數(shù)據(jù)演化規(guī)律進(jìn)行刻畫(huà),證實(shí)了數(shù)據(jù)從數(shù)量到質(zhì)量逐步精化的發(fā)展規(guī)律。③發(fā)現(xiàn)貢獻(xiàn)者偏好多樣性的增長(zhǎng),且這一多樣性很大程度上歸功于偏好不同的貢獻(xiàn)者的持續(xù)加入。隨著多樣性的提高,為提高屬性精度和精細(xì)度進(jìn)行的編輯在整個(gè)貢獻(xiàn)中的比重逐漸增長(zhǎng),且與數(shù)據(jù)演化中發(fā)現(xiàn)的相關(guān)規(guī)律相一致。④發(fā)現(xiàn)用戶的偏好可能相當(dāng)極端且具有穩(wěn)定性。不進(jìn)行某類(lèi)操作的習(xí)慣較為穩(wěn)固,許多貢獻(xiàn)者甚至一直只進(jìn)行一類(lèi)編輯。這說(shuō)明新增的、偏好不同的用戶對(duì)補(bǔ)齊數(shù)據(jù)質(zhì)量短板具有顯著意義。