一種整合社交網(wǎng)絡(luò)地理信息數(shù)據(jù)的方法

2016-10-18 23:14高嘉堯

電腦知識(shí)與技術(shù) 2016年21期

高嘉堯

摘要：隨著智能移動(dòng)設(shè)備的普及，地理信息數(shù)據(jù)的應(yīng)用更加廣泛，整合多源的數(shù)據(jù)，才能更好的使用。該文采集了源自社交網(wǎng)絡(luò)的地理信息數(shù)據(jù)，并使用距離和名稱兩種匹配方法，將數(shù)據(jù)整合。

關(guān)鍵詞： POI；地理信息；社交網(wǎng)絡(luò)

中圖分類號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2016）21-0203-01

隨著移動(dòng)設(shè)備的不斷普及，地理信息（POI）數(shù)據(jù)的用處已經(jīng)越來越廣泛。任何移動(dòng)設(shè)備應(yīng)用，很多需要位置信息匹配周邊環(huán)境。因此，POI數(shù)據(jù)擁有廣泛的應(yīng)用空間，本文將不同源的POI數(shù)據(jù)整合。一般的POI數(shù)據(jù)，有POI名稱、緯度、經(jīng)度、、地址、分類、郵編、聯(lián)系電話、網(wǎng)址、營業(yè)時(shí)間等。

1 POI數(shù)據(jù)采集

本文選擇的POI數(shù)據(jù)源是Facebook和Foursquare的。其中Facebook作為主要數(shù)據(jù)來源，利用Facebook提供的API和FQL，就可以獲取所需要的POI數(shù)據(jù)。

1.1 Facebook的Graph API和FQL

Facebook的Graph API是獲取其網(wǎng)站數(shù)據(jù)的主要方式。它是一個(gè)基于HTTP的簡單API，可以用來查詢數(shù)據(jù)，發(fā)布信息，上傳照片和各種應(yīng)用程序可能需要執(zhí)行的其他任務(wù)。Graph API由以下內(nèi)容組成：

·Nodes（比如一個(gè)用戶，一個(gè)圖片，一個(gè)頁面，評(píng)論）

·Edges（Nodes之間的聯(lián)系，如頁面的照片或照片的評(píng)論）

·Fields（Nodes的信息，如用戶的生日，或者頁面的名稱）。

所有的請(qǐng)求都會(huì)被送往graph.facebook.com。每個(gè)節(jié)點(diǎn)都有唯一的ID以便API訪問，同時(shí)還可以訪問屬于節(jié)點(diǎn)的聯(lián)系。

FQL是Facebook的查詢語言，開發(fā)人員可以使用SQL風(fēng)格來查詢的GraphAPI的數(shù)據(jù)。與SQL有所區(qū)別的是，F(xiàn)QL的FROM子句中只能包含一個(gè)表。

1.2 Foursquare的API

Foursquare的API使用URL訪問相應(yīng)的資源。其許開發(fā)者在數(shù)據(jù)庫中查找包括提示、照片、簽入計(jì)數(shù)等各種信息，還可以搜索某個(gè)固定位置附近的點(diǎn)及周邊推薦。

Foursquare的另一個(gè)特點(diǎn)，是可以直接使用自然語言的方式，搜索某個(gè)類型的地點(diǎn)（如果數(shù)據(jù)庫當(dāng)中存在的話），并且添加各類變量。

2 POI數(shù)據(jù)的整合

從社交網(wǎng)絡(luò)獲取數(shù)據(jù)后，還需要預(yù)先處理，預(yù)處理的目的如下：

1）驗(yàn)證POI數(shù)據(jù)集

核查是重要原因所有的POI數(shù)據(jù)是用戶生成的，需要了解POI數(shù)據(jù)的有效與否。

2）匹配并去除冗余

對(duì)于冗余數(shù)據(jù)導(dǎo)致不可靠的和不必要的數(shù)據(jù)POI數(shù)據(jù)，需要加以處理。

3）全局了解POI數(shù)據(jù)集

需要建立相結(jié)合的POI數(shù)據(jù)，但是，哪些類別是有用的，哪些是沒有用的。系統(tǒng)采用的技術(shù)方案分為以下幾個(gè)步驟：

對(duì)于起初的POI數(shù)據(jù)匹配，首先將不同來源的數(shù)據(jù)抓取到數(shù)據(jù)庫暫存，因?yàn)锳PI的關(guān)系，可以確定這些數(shù)據(jù)的字段，并且可以直接存入數(shù)據(jù)庫。

此后，將某一個(gè)源的數(shù)據(jù)作為藍(lán)本，通常使用數(shù)據(jù)量更大的，這樣可以減輕匹配的工作量，這里假設(shè)以Foursquare數(shù)據(jù)作為藍(lán)本，則需要對(duì)每一條新的Facebook數(shù)據(jù)，采取以下兩種算法進(jìn)行匹配，從而決定其是否為冗余數(shù)據(jù)，架構(gòu)如圖1所示。

在此基礎(chǔ)上兩個(gè)標(biāo)準(zhǔn)，建立一個(gè)基于距離和名稱的標(biāo)準(zhǔn)來判定這兩條數(shù)據(jù)是否匹配。POI數(shù)據(jù)匹配的算法如下：

1）用Facebook POI數(shù)據(jù)與Foursquare的數(shù)據(jù)進(jìn)行比對(duì)；

2）如果多個(gè)結(jié)果產(chǎn)生：

A. 檢查POI位置之間的距離，并找到最近的POI

B. 最近的POI后，選擇比較之間的兩個(gè)POI數(shù)據(jù)的名稱

C. 如果匹配FOUND選擇匹配的數(shù)據(jù)集D中的POI和存儲(chǔ)。

D. 否則選擇下一個(gè)最近的POI并轉(zhuǎn)到步驟B。

距離匹配：

不同源的社交網(wǎng)絡(luò)產(chǎn)生相同POI數(shù)據(jù)非常常見，因此選擇一定的閾值范圍作為基準(zhǔn)，然后計(jì)算該范圍內(nèi)的POI與當(dāng)前POI數(shù)據(jù)之間的歐幾里得距離。步驟如下，采取Foursquare數(shù)據(jù)作為基準(zhǔn)，從Facebook數(shù)據(jù)查詢的POI，找到所有最近的POI數(shù)據(jù)，并計(jì)算它們之間的距離。檢查POI數(shù)據(jù)之間的最短距離。當(dāng)你有兩個(gè)POI顯示相同的位置，如果兩者完全在同一位置，則可以確定是同一個(gè)數(shù)據(jù)，如果不是，則再使用名稱匹配。

名稱匹配：

使用該P(yáng)OI的名稱來匹配是匹配算法的第二個(gè)步驟。兩個(gè)源的不同數(shù)據(jù)，必然導(dǎo)致POI的名稱有很多變化。為了匹配，使用以下兩個(gè)方式來精確匹配：

1）標(biāo)準(zhǔn)子串匹配（LCS）

2）Levenshtein距離

在相關(guān)技術(shù)中的討論，Levenshtein距離是測(cè)量兩個(gè)序列之間的差異的字符串。通俗的說，就是改變一個(gè)字成其他字所需的單字符編輯操作（即插入，刪除或替換）的最小數(shù)量。標(biāo)準(zhǔn)的子字符串匹配是常見的算法，將名字劃分程子串與字符串源的每一個(gè)部分匹配。

3 結(jié)論

通過以上這些技術(shù)，實(shí)現(xiàn)了對(duì)源于社交網(wǎng)絡(luò)的地理信息的初步整合。不過，還有一些可以完善和改進(jìn)的地方，特別是對(duì)于大量的冗余的處理。這就有待進(jìn)一步的研究來實(shí)現(xiàn)了。

參考文獻(xiàn)：

[1] "Grphapi developers documentation，" ，F(xiàn)acebook Inc.， https：//developers.facebook.com/docs/graph-api， 2016-04-10.

[2] "Documentation of Foursquare API，" ，F(xiàn)oursquare， https：//developer.foursquare.com/..2016-04-10.

[3] Navarro G. A guided tour to approximate string matching. ACM computing surveys （CSUR）， 2001，33（1）：31-88.

摘要：人類已經(jīng)進(jìn)入了信息網(wǎng)絡(luò)化時(shí)代，而Internet作為當(dāng)今世界上最大的信息資源網(wǎng)絡(luò)，涵蓋了非常豐富的醫(yī)學(xué)信息資源。該文在闡述醫(yī)學(xué)信息資源檢索的重要性基礎(chǔ)上，結(jié)合筆者經(jīng)驗(yàn)對(duì)國際國內(nèi)不同醫(yī)學(xué)資源進(jìn)行研究比較，并探討一些解決醫(yī)學(xué)信息資源查找利用困難的方法。

關(guān)鍵詞：醫(yī)學(xué)信息資源檢索；Internet

中圖分類號(hào)：TP393 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2016）21-0188-02

21世紀(jì)的今天，人類社會(huì)已邁入信息化時(shí)代，醫(yī)療信息化代表著未來醫(yī)學(xué)發(fā)展趨勢(shì)。同時(shí)，醫(yī)療信息化也是醫(yī)療活動(dòng)必不可少的支撐和手段。醫(yī)學(xué)院校的大學(xué)生和廣大醫(yī)學(xué)科研人員掌握一定的醫(yī)學(xué)信息管理知識(shí)在醫(yī)療信息化的大環(huán)境顯得尤為重要。學(xué)習(xí)并掌握醫(yī)學(xué)信息檢索知識(shí)是廣大醫(yī)務(wù)工作者構(gòu)建醫(yī)學(xué)信息管理知識(shí)體系，提高信息素養(yǎng)教育的基礎(chǔ)。信息素養(yǎng)為終生學(xué)習(xí)奠定基礎(chǔ)，適用于各個(gè)學(xué)科領(lǐng)域，特別是在新知識(shí)新技術(shù)發(fā)展迅速的醫(yī)學(xué)領(lǐng)域。熟練掌握醫(yī)學(xué)信息檢索技能，有利于提高醫(yī)療工作效率以及加快醫(yī)學(xué)領(lǐng)域科技創(chuàng)新，有利于滿足人民群眾日益增長的健康需求。

1醫(yī)學(xué)文獻(xiàn)檢索對(duì)醫(yī)務(wù)工作者的特殊意義

醫(yī)學(xué)信息文獻(xiàn)是反映當(dāng)前醫(yī)學(xué)科技研究的新成果和科技創(chuàng)新的媒介，是傳播和交流醫(yī)學(xué)信息的載體和依據(jù)[1]。醫(yī)務(wù)工作者需要通過醫(yī)學(xué)文獻(xiàn)檢索找到所需資料，對(duì)掌握醫(yī)學(xué)科技的前沿信息，提升自身的醫(yī)術(shù)水平大有幫助。

1.1通過醫(yī)學(xué)文獻(xiàn)檢索，提升醫(yī)術(shù)水平

醫(yī)療相關(guān)從業(yè)人員需要具有終身學(xué)習(xí)的精神，需要洞悉醫(yī)學(xué)領(lǐng)域的最新發(fā)展成果，通過醫(yī)學(xué)信息文獻(xiàn)檢索，掌握醫(yī)學(xué)科技的前沿信息，對(duì)提升自身的醫(yī)技水平和探究人類生命科學(xué)的奧秘有著特殊的意義。通過醫(yī)學(xué)文獻(xiàn)檢索，及時(shí)地更新知識(shí)，掌握醫(yī)療新技術(shù)和新方法，與時(shí)俱進(jìn)地增進(jìn)自身的信息素養(yǎng)，才能更好地成為一個(gè)醫(yī)術(shù)精湛的優(yōu)秀醫(yī)師。

1.2 醫(yī)學(xué)科研選題的需要

醫(yī)學(xué)科研選題是否具有創(chuàng)新性和實(shí)用性，知曉學(xué)科領(lǐng)域的最新信息是基礎(chǔ)。醫(yī)學(xué)科研選題要避免與他人重復(fù)，篩選出有價(jià)值、有創(chuàng)新的課題，少不了醫(yī)學(xué)信息檢索工具的幫助。

1.3 科研成果的主論依據(jù)

醫(yī)務(wù)工作者在把自己的研究成果撰寫為論文時(shí)，通過檢索與課題有關(guān)的醫(yī)學(xué)文獻(xiàn)，掌握最大量的信息源，再通過自己的分析、判斷，去粗取精、對(duì)比立論，才能更好的凸顯論文的論點(diǎn)及創(chuàng)新點(diǎn)。

1.4 具有較強(qiáng)教學(xué)能力的需要

當(dāng)前，我國各大綜合性或?qū)？漆t(yī)院都有培訓(xùn)基層醫(yī)師、接受進(jìn)修醫(yī)師、帶醫(yī)學(xué)生臨床見習(xí)的教學(xué)任務(wù)。能夠完成這些教學(xué)工作的醫(yī)師必須具有豐富廣博的醫(yī)學(xué)學(xué)科知識(shí)。醫(yī)學(xué)科技的發(fā)展非常迅速，只有通過醫(yī)學(xué)文獻(xiàn)的檢索，更廣泛地學(xué)習(xí)相關(guān)學(xué)科的新技術(shù)、新知識(shí)，再結(jié)合自己的實(shí)踐經(jīng)驗(yàn)，才能更好地完成所承擔(dān)的教學(xué)任務(wù)，做一名醫(yī)德高尚、醫(yī)術(shù)高明的導(dǎo)師。

2 醫(yī)學(xué)信息檢索的基本知識(shí)

1）醫(yī)學(xué)信息檢索的基本概念：結(jié)合現(xiàn)代信息技術(shù)和學(xué)科發(fā)展的需要，醫(yī)學(xué)信息檢索是指醫(yī)學(xué)信息的有序化識(shí)別和查找的過程，即人們根據(jù)醫(yī)學(xué)信息需求，采取科學(xué)的檢索方法，應(yīng)用專門的檢索工具，從浩瀚的信息海洋中迅速，準(zhǔn)確地獲取所需醫(yī)學(xué)信息的過程。

2）醫(yī)學(xué)信息檢索系統(tǒng)：是為達(dá)到特定的醫(yī)學(xué)信息交流目的而建立的一種能夠向用戶提供醫(yī)學(xué)信息服務(wù)的有序化的信息資源集合體。醫(yī)學(xué)信息檢索系統(tǒng)一般由下列要素構(gòu)成：醫(yī)學(xué)信息資源、設(shè)備、方法與策略、人。方法與策略包括檢索語言、標(biāo)引方法、信息的組織與管理方法、信息的檢索策略與技巧等；人是醫(yī)學(xué)檢索系統(tǒng)的能動(dòng)因素，隨著社會(huì)網(wǎng)絡(luò)化程度的不斷提高，具有自主檢索能力的最終用戶將在醫(yī)學(xué)信息檢索系統(tǒng)中起到?jīng)Q定性的作用。

3）醫(yī)學(xué)信息檢索工具：信息檢索工具是將大量分散無序的信息經(jīng)過搜集、加工和整理，按照一定的規(guī)則和方法進(jìn)行組織和系統(tǒng)排列，用以存儲(chǔ)和查找信息的工具。主要由使用說明、正文（或數(shù)據(jù)庫）、輔助索引和附錄4個(gè)部分組成。常用的檢索工具有如下類型：手工檢索工具、機(jī)械檢索工具、計(jì)算機(jī)檢索工具、網(wǎng)絡(luò)信息檢索工具。

3 Internet網(wǎng)絡(luò)信息資源檢索

現(xiàn)在Internet網(wǎng)信息資源檢索已經(jīng)成為大多數(shù)醫(yī)務(wù)工作者實(shí)現(xiàn)醫(yī)學(xué)信息管理的重要工具。由于Internet是一個(gè)全球分布式網(wǎng)絡(luò)上，信息分別存儲(chǔ)在各國的主機(jī)、服務(wù)器上，信息的分散性給檢索信息帶來了困難。網(wǎng)上信息數(shù)量非常龐大，每天的信息流量達(dá)萬億比特，用戶面對(duì)成千上萬個(gè)鏈接點(diǎn)信息量，想要迅速、準(zhǔn)確地找到所需要的信息是很困難的。特別是醫(yī)學(xué)信息資源儲(chǔ)存的各個(gè)網(wǎng)站性質(zhì)不同，信息的廣度和深度不同，而且相互交錯(cuò)，檢索利用的難度非常高[2]。網(wǎng)絡(luò)醫(yī)學(xué)信息檢索方式智能化檢索功能不強(qiáng)，例如，只能檢索到含有用戶指定的關(guān)鍵詞的文件，無法檢索出主題上密切相關(guān)，但并沒有包含這些關(guān)鍵詞的文件。要解決醫(yī)學(xué)信息資源查找和利用困難這個(gè)問題，有下面多種方法可供我們研究。

3.1 專業(yè)搜索引擎

當(dāng)前，最主要且最常用的網(wǎng)絡(luò)信息檢索工具是基于超文本的搜索引擎。它具有信息檢索服務(wù)的開放性、超文本的多鏈接性和操作簡易性的特點(diǎn)。一般可分為兩類：一類是通用搜索引擎，如百度、新浪等；另一類是專業(yè)搜索引擎，即針對(duì)某個(gè)專門領(lǐng)域或主題采取自動(dòng)或人工方式進(jìn)行資源搜集，整理而成的搜索引擎?，F(xiàn)代醫(yī)學(xué)的分科越來越細(xì)，而通用搜索引擎沒有針對(duì)醫(yī)學(xué)專業(yè)人士需求進(jìn)行優(yōu)化，因此檢索結(jié)果很難滿足這類醫(yī)學(xué)用戶的查詢需求。20世紀(jì)90年代中期，人們把數(shù)據(jù)庫技術(shù)、網(wǎng)絡(luò)技術(shù)、信息檢索技術(shù)、醫(yī)學(xué)信息組織管理的有關(guān)理論和方法有機(jī)地結(jié)合起來，推出了專門用于搜索網(wǎng)絡(luò)醫(yī)學(xué)信息資源的醫(yī)學(xué)各學(xué)科專業(yè)搜索引擎。如心臟科： CardioGuide，URL： http：//www.cardioguide.com；牙科： DentalGuide，URL： http：//www.dentalgate.com等 [3]。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種整合社交網(wǎng)絡(luò)地理信息數(shù)據(jù)的方法