高嘉堯
""摘要:隨著智能移動(dòng)設(shè)備的普及,地理信息數(shù)據(jù)的應(yīng)用更加廣泛,整合多源的數(shù)據(jù),才能更好的使用。該文采集了源自社交網(wǎng)絡(luò)的地理信息數(shù)據(jù),并使用距離和名稱兩種匹配方法,將數(shù)據(jù)整合。
關(guān)鍵詞: POI;地理信息;社交網(wǎng)絡(luò)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)21-0203-01
隨著移動(dòng)設(shè)備的不斷普及,地理信息(POI)數(shù)據(jù)的用處已經(jīng)越來越廣泛。任何移動(dòng)設(shè)備應(yīng)用,很多需要位置信息匹配周邊環(huán)境。因此,POI數(shù)據(jù)擁有廣泛的應(yīng)用空間,本文將不同源的POI數(shù)據(jù)整合。一般的POI數(shù)據(jù),有POI名稱、緯度、經(jīng)度、、地址、分類、郵編、聯(lián)系電話、網(wǎng)址、營業(yè)時(shí)間等。
1 POI數(shù)據(jù)采集
本文選擇的POI數(shù)據(jù)源是Facebook和Foursquare的。其中Facebook作為主要數(shù)據(jù)來源,利用Facebook提供的API和FQL,就可以獲取所需要的POI數(shù)據(jù)。
1.1 Facebook的Graph API和FQL
Facebook的Graph API是獲取其網(wǎng)站數(shù)據(jù)的主要方式。它是一個(gè)基于HTTP的簡單API,可以用來查詢數(shù)據(jù),發(fā)布信息,上傳照片和各種應(yīng)用程序可能需要執(zhí)行的其他任務(wù)。Graph API由以下內(nèi)容組成:
·Nodes(比如一個(gè)用戶,一個(gè)圖片,一個(gè)頁面,評(píng)論)
·Edges(Nodes之間的聯(lián)系,如頁面的照片或照片的評(píng)論)
·Fields(Nodes的信息,如用戶的生日,或者頁面的名稱)。
所有的請(qǐng)求都會(huì)被送往graph.facebook.com。每個(gè)節(jié)點(diǎn)都有唯一的ID以便API訪問,同時(shí)還可以訪問屬于節(jié)點(diǎn)的聯(lián)系。
FQL是Facebook的查詢語言,開發(fā)人員可以使用SQL風(fēng)格來查詢的GraphAPI的數(shù)據(jù)。與SQL有所區(qū)別的是,F(xiàn)QL的FROM子句中只能包含一個(gè)表。
1.2 Foursquare的API
Foursquare的API使用URL訪問相應(yīng)的資源。其許開發(fā)者在數(shù)據(jù)庫中查找包括提示、照片、簽入計(jì)數(shù)等各種信息,還可以搜索某個(gè)固定位置附近的點(diǎn)及周邊推薦。
Foursquare的另一個(gè)特點(diǎn),是可以直接使用自然語言的方式,搜索某個(gè)類型的地點(diǎn)(如果數(shù)據(jù)庫當(dāng)中存在的話),并且添加各類變量。
2 POI數(shù)據(jù)的整合
從社交網(wǎng)絡(luò)獲取數(shù)據(jù)后,還需要預(yù)先處理,預(yù)處理的目的如下:
1)驗(yàn)證POI數(shù)據(jù)集
核查是重要原因所有的POI數(shù)據(jù)是用戶生成的,需要了解POI數(shù)據(jù)的有效與否。
2)匹配并去除冗余
對(duì)于冗余數(shù)據(jù)導(dǎo)致不可靠的和不必要的數(shù)據(jù)POI數(shù)據(jù),需要加以處理。
3)全局了解POI數(shù)據(jù)集
需要建立相結(jié)合的POI數(shù)據(jù),但是,哪些類別是有用的,哪些是沒有用的。系統(tǒng)采用的技術(shù)方案分為以下幾個(gè)步驟:
對(duì)于起初的POI數(shù)據(jù)匹配,首先將不同來源的數(shù)據(jù)抓取到數(shù)據(jù)庫暫存,因?yàn)锳PI的關(guān)系,可以確定這些數(shù)據(jù)的字段,并且可以直接存入數(shù)據(jù)庫。
此后,將某一個(gè)源的數(shù)據(jù)作為藍(lán)本,通常使用數(shù)據(jù)量更大的,這樣可以減輕匹配的工作量,這里假設(shè)以Foursquare數(shù)據(jù)作為藍(lán)本,則需要對(duì)每一條新的Facebook數(shù)據(jù),采取以下兩種算法進(jìn)行匹配,從而決定其是否為冗余數(shù)據(jù),架構(gòu)如圖1所示。
在此基礎(chǔ)上兩個(gè)標(biāo)準(zhǔn),建立一個(gè)基于距離和名稱的標(biāo)準(zhǔn)來判定這兩條數(shù)據(jù)是否匹配。POI數(shù)據(jù)匹配的算法如下:
1)用Facebook POI數(shù)據(jù)與Foursquare的數(shù)據(jù)進(jìn)行比對(duì);
2)如果多個(gè)結(jié)果產(chǎn)生:
A. 檢查POI位置之間的距離,并找到最近的POI
B. 最近的POI后,選擇比較之間的兩個(gè)POI數(shù)據(jù)的名稱
C. 如果匹配FOUND選擇匹配的數(shù)據(jù)集D中的POI和存儲(chǔ)。
D. 否則選擇下一個(gè)最近的POI并轉(zhuǎn)到步驟B。
距離匹配:
不同源的社交網(wǎng)絡(luò)產(chǎn)生相同POI數(shù)據(jù)非常常見,因此選擇一定的閾值范圍作為基準(zhǔn),然后計(jì)算該范圍內(nèi)的POI與當(dāng)前POI數(shù)據(jù)之間的歐幾里得距離。步驟如下,采取Foursquare數(shù)據(jù)作為基準(zhǔn),從Facebook數(shù)據(jù)查詢的POI,找到所有最近的POI數(shù)據(jù),并計(jì)算它們之間的距離。檢查POI數(shù)據(jù)之間的最短距離。當(dāng)你有兩個(gè)POI顯示相同的位置,如果兩者完全在同一位置,則可以確定是同一個(gè)數(shù)據(jù),如果不是,則再使用名稱匹配。
名稱匹配:
使用該P(yáng)OI的名稱來匹配是匹配算法的第二個(gè)步驟。兩個(gè)源的不同數(shù)據(jù),必然導(dǎo)致POI的名稱有很多變化。為了匹配,使用以下兩個(gè)方式來精確匹配:
1)標(biāo)準(zhǔn)子串匹配(LCS)
2)Levenshtein距離
在相關(guān)技術(shù)中的討論,Levenshtein距離是測(cè)量兩個(gè)序列之間的差異的字符串。通俗的說,就是改變一個(gè)字成其他字所需的單字符編輯操作(即插入,刪除或替換)的最小數(shù)量。標(biāo)準(zhǔn)的子字符串匹配是常見的算法,將名字劃分程子串與字符串源的每一個(gè)部分匹配。
3 結(jié)論
通過以上這些技術(shù),實(shí)現(xiàn)了對(duì)源于社交網(wǎng)絡(luò)的地理信息的初步整合。不過,還有一些可以完善和改進(jìn)的地方,特別是對(duì)于大量的冗余的處理。這就有待進(jìn)一步的研究來實(shí)現(xiàn)了。
參考文獻(xiàn):
[1] "Grphapi developers documentation," ,F(xiàn)acebook Inc., https://developers.facebook.com/docs/graph-api, 2016-04-10.
[2] "Documentation of Foursquare API," ,F(xiàn)oursquare, https://developer.foursquare.com/..2016-04-10.
[3] Navarro G. A guided tour to approximate string matching. ACM computing surveys (CSUR), 2001,33(1):31-88.
摘要:人類已經(jīng)進(jìn)入了信息網(wǎng)絡(luò)化時(shí)代,而Internet作為當(dāng)今世界上最大的信息資源網(wǎng)絡(luò),涵蓋了非常豐富的醫(yī)學(xué)信息資源。該文在闡述醫(yī)學(xué)信息資源檢索的重要性基礎(chǔ)上,結(jié)合筆者經(jīng)驗(yàn)對(duì)國際國內(nèi)不同醫(yī)學(xué)資源進(jìn)行研究比較,并探討一些解決醫(yī)學(xué)信息資源查找利用困難的方法。
關(guān)鍵詞:醫(yī)學(xué)信息資源檢索;Internet
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)21-0188-02
21世紀(jì)的今天,人類社會(huì)已邁入信息化時(shí)代,醫(yī)療信息化代表著未來醫(yī)學(xué)發(fā)展趨勢(shì)。同時(shí),醫(yī)療信息化也是醫(yī)療活動(dòng)必不可少的支撐和手段。醫(yī)學(xué)院校的大學(xué)生和廣大醫(yī)學(xué)科研人員掌握一定的醫(yī)學(xué)信息管理知識(shí)在醫(yī)療信息化的大環(huán)境顯得尤為重要。學(xué)習(xí)并掌握醫(yī)學(xué)信息檢索知識(shí)是廣大醫(yī)務(wù)工作者構(gòu)建醫(yī)學(xué)信息管理知識(shí)體系,提高信息素養(yǎng)教育的基礎(chǔ)。信息素養(yǎng)為終生學(xué)習(xí)奠定基礎(chǔ),適用于各個(gè)學(xué)科領(lǐng)域,特別是在新知識(shí)新技術(shù)發(fā)展迅速的醫(yī)學(xué)領(lǐng)域。熟練掌握醫(yī)學(xué)信息檢索技能,有利于提高醫(yī)療工作效率以及加快醫(yī)學(xué)領(lǐng)域科技創(chuàng)新,有利于滿足人民群眾日益增長的健康需求。
1醫(yī)學(xué)文獻(xiàn)檢索對(duì)醫(yī)務(wù)工作者的特殊意義
醫(yī)學(xué)信息文獻(xiàn)是反映當(dāng)前醫(yī)學(xué)科技研究的新成果和科技創(chuàng)新的媒介,是傳播和交流醫(yī)學(xué)信息的載體和依據(jù)[1]。醫(yī)務(wù)工作者需要通過醫(yī)學(xué)文獻(xiàn)檢索找到所需資料,對(duì)掌握醫(yī)學(xué)科技的前沿信息,提升自身的醫(yī)術(shù)水平大有幫助。
1.1通過醫(yī)學(xué)文獻(xiàn)檢索,提升醫(yī)術(shù)水平
醫(yī)療相關(guān)從業(yè)人員需要具有終身學(xué)習(xí)的精神,需要洞悉醫(yī)學(xué)領(lǐng)域的最新發(fā)展成果,通過醫(yī)學(xué)信息文獻(xiàn)檢索,掌握醫(yī)學(xué)科技的前沿信息,對(duì)提升自身的醫(yī)技水平和探究人類生命科學(xué)的奧秘有著特殊的意義。通過醫(yī)學(xué)文獻(xiàn)檢索,及時(shí)地更新知識(shí),掌握醫(yī)療新技術(shù)和新方法,與時(shí)俱進(jìn)地增進(jìn)自身的信息素養(yǎng),才能更好地成為一個(gè)醫(yī)術(shù)精湛的優(yōu)秀醫(yī)師。
1.2 醫(yī)學(xué)科研選題的需要
醫(yī)學(xué)科研選題是否具有創(chuàng)新性和實(shí)用性,知曉學(xué)科領(lǐng)域的最新信息是基礎(chǔ)。醫(yī)學(xué)科研選題要避免與他人重復(fù),篩選出有價(jià)值、有創(chuàng)新的課題,少不了醫(yī)學(xué)信息檢索工具的幫助。
1.3 科研成果的主論依據(jù)
醫(yī)務(wù)工作者在把自己的研究成果撰寫為論文時(shí),通過檢索與課題有關(guān)的醫(yī)學(xué)文獻(xiàn),掌握最大量的信息源,再通過自己的分析、判斷,去粗取精、對(duì)比立論,才能更好的凸顯論文的論點(diǎn)及創(chuàng)新點(diǎn)。
1.4 具有較強(qiáng)教學(xué)能力的需要
當(dāng)前,我國各大綜合性或?qū)?漆t(yī)院都有培訓(xùn)基層醫(yī)師、接受進(jìn)修醫(yī)師、帶醫(yī)學(xué)生臨床見習(xí)的教學(xué)任務(wù)。能夠完成這些教學(xué)工作的醫(yī)師必須具有豐富廣博的醫(yī)學(xué)學(xué)科知識(shí)。醫(yī)學(xué)科技的發(fā)展非常迅速,只有通過醫(yī)學(xué)文獻(xiàn)的檢索,更廣泛地學(xué)習(xí)相關(guān)學(xué)科的新技術(shù)、新知識(shí),再結(jié)合自己的實(shí)踐經(jīng)驗(yàn),才能更好地完成所承擔(dān)的教學(xué)任務(wù),做一名醫(yī)德高尚、醫(yī)術(shù)高明的導(dǎo)師。
2 醫(yī)學(xué)信息檢索的基本知識(shí)
1) 醫(yī)學(xué)信息檢索的基本概念:結(jié)合現(xiàn)代信息技術(shù)和學(xué)科發(fā)展的需要,醫(yī)學(xué)信息檢索是指醫(yī)學(xué)信息的有序化識(shí)別和查找的過程,即人們根據(jù)醫(yī)學(xué)信息需求,采取科學(xué)的檢索方法,應(yīng)用專門的檢索工具,從浩瀚的信息海洋中迅速,準(zhǔn)確地獲取所需醫(yī)學(xué)信息的過程。
2) 醫(yī)學(xué)信息檢索系統(tǒng):是為達(dá)到特定的醫(yī)學(xué)信息交流目的而建立的一種能夠向用戶提供醫(yī)學(xué)信息服務(wù)的有序化的信息資源集合體。醫(yī)學(xué)信息檢索系統(tǒng)一般由下列要素構(gòu)成:醫(yī)學(xué)信息資源、設(shè)備、方法與策略、人。方法與策略包括檢索語言、標(biāo)引方法、信息的組織與管理方法、信息的檢索策略與技巧等;人是醫(yī)學(xué)檢索系統(tǒng)的能動(dòng)因素,隨著社會(huì)網(wǎng)絡(luò)化程度的不斷提高,具有自主檢索能力的最終用戶將在醫(yī)學(xué)信息檢索系統(tǒng)中起到?jīng)Q定性的作用。
3) 醫(yī)學(xué)信息檢索工具:信息檢索工具是將大量分散無序的信息經(jīng)過搜集、加工和整理,按照一定的規(guī)則和方法進(jìn)行組織和系統(tǒng)排列,用以存儲(chǔ)和查找信息的工具。主要由使用說明、正文(或數(shù)據(jù)庫)、輔助索引和附錄4個(gè)部分組成。常用的檢索工具有如下類型:手工檢索工具、機(jī)械檢索工具、計(jì)算機(jī)檢索工具、網(wǎng)絡(luò)信息檢索工具。
3 Internet網(wǎng)絡(luò)信息資源檢索
現(xiàn)在Internet網(wǎng)信息資源檢索已經(jīng)成為大多數(shù)醫(yī)務(wù)工作者實(shí)現(xiàn)醫(yī)學(xué)信息管理的重要工具。由于Internet是一個(gè)全球分布式網(wǎng)絡(luò)上,信息分別存儲(chǔ)在各國的主機(jī)、服務(wù)器上,信息的分散性給檢索信息帶來了困難。網(wǎng)上信息數(shù)量非常龐大,每天的信息流量達(dá)萬億比特,用戶面對(duì)成千上萬個(gè)鏈接點(diǎn)信息量,想要迅速、準(zhǔn)確地找到所需要的信息是很困難的。特別是醫(yī)學(xué)信息資源儲(chǔ)存的各個(gè)網(wǎng)站性質(zhì)不同,信息的廣度和深度不同,而且相互交錯(cuò),檢索利用的難度非常高[2]。網(wǎng)絡(luò)醫(yī)學(xué)信息檢索方式智能化檢索功能不強(qiáng),例如,只能檢索到含有用戶指定的關(guān)鍵詞的文件,無法檢索出主題上密切相關(guān),但并沒有包含這些關(guān)鍵詞的文件。要解決醫(yī)學(xué)信息資源查找和利用困難這個(gè)問題,有下面多種方法可供我們研究。
3.1 專業(yè)搜索引擎
當(dāng)前,最主要且最常用的網(wǎng)絡(luò)信息檢索工具是基于超文本的搜索引擎。它具有信息檢索服務(wù)的開放性、超文本的多鏈接性和操作簡易性的特點(diǎn)。一般可分為兩類:一類是通用搜索引擎,如百度、新浪等;另一類是專業(yè)搜索引擎,即針對(duì)某個(gè)專門領(lǐng)域或主題采取自動(dòng)或人工方式進(jìn)行資源搜集,整理而成的搜索引擎?,F(xiàn)代醫(yī)學(xué)的分科越來越細(xì),而通用搜索引擎沒有針對(duì)醫(yī)學(xué)專業(yè)人士需求進(jìn)行優(yōu)化,因此檢索結(jié)果很難滿足這類醫(yī)學(xué)用戶的查詢需求。20世紀(jì)90年代中期,人們把數(shù)據(jù)庫技術(shù)、網(wǎng)絡(luò)技術(shù)、信息檢索技術(shù)、醫(yī)學(xué)信息組織管理的有關(guān)理論和方法有機(jī)地結(jié)合起來,推出了專門用于搜索網(wǎng)絡(luò)醫(yī)學(xué)信息資源的醫(yī)學(xué)各學(xué)科專業(yè)搜索引擎。如心臟科: CardioGuide,URL: http://www.cardioguide.com;牙科: DentalGuide,URL: http://www.dentalgate.com等 [3]。