国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

即時通信文本中地理信息提取——以微信為例

2016-12-13 08:53張瑞潔田原劉思葉王雯夫
關(guān)鍵詞:分詞空間文本

張瑞潔 田原,? 劉思葉 王雯夫

?

即時通信文本中地理信息提取——以微信為例

張瑞潔1,2田原1,2,?劉思葉1,2王雯夫1,2

1. 北京大學(xué)遙感與地理信息系統(tǒng)研究所, 北京100871; 2. 空間信息集成與3S工程應(yīng)用北京市重點實驗室, 北京 100871; ? 通信作者, E-mail: tianyuanpku@pku.edu.cn

提出一套面向即時通信文本中地理信息提取的技術(shù)方案, 綜合使用文本分詞、空間分析匹配與圖文一體服務(wù)等技術(shù), 實現(xiàn)即時文本中地理信息的分析獲取和同步地圖服務(wù), 可以在即時通信交流中提供同步的空間信息分析和主動的網(wǎng)絡(luò)地圖服務(wù)。以微信為例, 對上述技術(shù)方案進行實例驗證。驗證結(jié)果表明, 所提的技術(shù)方案正確、合理、可行。研究成果拓寬了 WebGIS/LBS 的應(yīng)用領(lǐng)域, 增強了即時通信軟件的服務(wù)能力, 可為相關(guān)研究和實踐提供有力支持。

即時通信軟件; WebGIS/LBS; 中文文本分詞; 空間信息服務(wù)模式匹配; 圖文一體服務(wù)

本世紀(jì)以來, 基于移動設(shè)備的應(yīng)用迅速普及, 其中即時通信應(yīng)用獲得迅猛發(fā)展[1]。即時通信應(yīng)用指通過互聯(lián)網(wǎng)即時發(fā)送和接收消息的應(yīng)用軟件, 為人們?nèi)粘=涣魈峁┓奖憧旖莸墓ぞ? 如 QQ、微信和飛信等。即時通信中產(chǎn)生大量與空間相關(guān)的信息, 例如文本中出現(xiàn)的地名信息以及空間關(guān)系信息。在信息交互過程中, 用戶的空間行為規(guī)劃對這些空間信息存在強烈的依賴, 例如選擇出行路線、方式及時間等[2]。目前, 運行在移動端的WebGIS/ LBS軟件已經(jīng)普及, 可以為用戶提供高精度的、在線的空間行為規(guī)劃服務(wù)[3]。但是, 當(dāng)前主流的基于移動設(shè)備的即時通信軟件與 WebGIS/LBS 軟件相互獨立, 即時通信軟件無法直接理解即時通信文本中的地理信息, 需要用戶進行理解分析后, 再跳轉(zhuǎn)到移動WebGIS/LBS應(yīng)用, 將空間信息和服務(wù)需求重新輸入, 才能獲得相符的空間信息服務(wù)。人工跳轉(zhuǎn)和信息轉(zhuǎn)錄過程非常繁瑣, 當(dāng)存在復(fù)雜地名和空間分析需求時, 容易出現(xiàn)操作和錄入失誤, 大大降低了即時通信用戶的交流效率[4-5]。如果能夠直接提取即時通信文本中的地理信息, 并將同時運行在移動端的即時通信軟件與WebGIS/LBS服務(wù)相結(jié)合, 使用戶在進行常規(guī)信息交流的同時獲得同步的空間信息服務(wù), 可以大大提升交流信息的直觀程度以及用戶的交流感受和決策效率。

基于此, 本文針對即時通信文本中地理信息提取技術(shù)展開研究, 以期提供一套切實可行的技術(shù)方案, 使用戶在即時通信中享受到同步的空間信息顯示及查詢分析服務(wù)。為驗證相關(guān)技術(shù)方案的合理性、可行性和服務(wù)效率, 選取微信和百度地圖作為即時通信和WebGIS/LBS服務(wù)平臺, 基于實際的即時通信文本樣本開展實例驗證工作。

1 即時通信文本中地理信息提取總體方案

針對上述現(xiàn)存問題和應(yīng)用需求, 本文提出一套即時通信文本中地理信息提取方案, 以實現(xiàn)即時通信服務(wù)與地理服務(wù)集成的目標(biāo), 為即時通信用戶提供即時的、一體化的空間信息服務(wù)。

即時通信文本包含大量的地理信息及服務(wù)需求信息, 如地名信息、POI (Point of Interest, 興趣點)、空間關(guān)系查詢和路徑分析需求信息等。以“晚上去西直門吃飯”為例, 用戶接收到該信息后會對其進行具體解析: 其中包含的地名信息(即目的地)是“西直門”; 出發(fā)地是用戶的當(dāng)前位置, 可由移動設(shè)備直接獲得; “去”表達了路徑分析需求, 即查找一條從當(dāng)前位置到“西直門”的路徑; 時間信息是“晚上”, 需根據(jù)晚間的路況信息對路徑進行合理的規(guī)劃; “吃飯”是專題信息檢索條件, 需要對西直門周邊的餐飲信息進行檢索, 以專題地圖的形式提供合適的餐廳信息。

本文提出的即時通信文本中地理信息提取方案是對上述自然過程的數(shù)字化模擬, 其總體架構(gòu)如圖1所示。在該方案中, 首先對即時通信文本進行語法結(jié)構(gòu)分析, 完整的即時通信文本被分割成基本的語義單元, 以提取其中空間和專題信息關(guān)鍵詞, 包括時間、地點和查詢分析關(guān)鍵字等; 然后基于語法分析得到的空間分析關(guān)鍵詞, 對信息中的空間分析需求進行模式分析和匹配, 確定符合即時通信語義的地理服務(wù)信息方案; 最后在電子地圖軟件中調(diào)用并實現(xiàn)對應(yīng)的地理信息服務(wù), 并將分析結(jié)果即時或同步地展示給用戶。

2 關(guān)鍵技術(shù)

本文提出的即時通信文本地理信息提取技術(shù)方案涉及的關(guān)鍵技術(shù)如下: 針對信息文本語法結(jié)構(gòu)分解需求, 采用中文文本分詞技術(shù), 將整個通信文本切割成基本的文本語義單元; 針對空間分析模式匹配需求, 基于既有的空間分析模式結(jié)果, 對各類空間分析的語法模式進行研究, 然后結(jié)合即時通信中常用查詢分析關(guān)鍵字, 實現(xiàn)通信文本中空間分析模式的匹配; 針對圖文一體服務(wù)需求, 選用主流的電子地圖軟件, 將得到的空間查詢分析模式和關(guān)鍵字實現(xiàn)為具體的功能調(diào)用, 并以圖文一體的方式將結(jié)果呈現(xiàn)給即時通信用戶。

2.1 中文文本分詞

中文文本分詞指將一個漢字序列切分成單獨的詞, 其算法主要包括基于規(guī)則的分詞方法、基于統(tǒng)計的分詞方法和基于理解的分詞方法[6]?;谝?guī)則的分詞方法中, 最常見的是最長詞優(yōu)先匹配法, Guo[7]對該算法的工作原理給予嚴(yán)格的形式解釋, 劉源等[8]將其大規(guī)模應(yīng)用到漢語自動分詞系統(tǒng)中?;诮y(tǒng)計的分詞方法主要包括基于期望最大值(expectation maximization)的方法和變長分詞方法, 李家福等[9]提出一種根據(jù)詞語出現(xiàn)概率和基于極大似然原則構(gòu)建的漢語自動分詞的零階馬爾可夫模型?;诶斫獾姆衷~算法是在分詞的同時進行句法和語義分析, 并利用語義和句法信息處理歧義現(xiàn)象, 尹鋒[10]和何嘉等[11]分別以BP算法為基礎(chǔ)提出改進算法。

提取即時通信文本中的地理信息時, 中文文本分詞能夠?qū)νㄐ盼谋具M行準(zhǔn)確的語義分割, 得到詞組集合(即相互獨立的關(guān)鍵詞信息), 其中包括地理位置和空間分析需求信息以及在空間分析中可能用到的其他輔助信息, 是后續(xù)分析的前提和基礎(chǔ)。

目前, 既有的很多中文分詞系統(tǒng)都能滿足即時通信文本中文分詞需求。我們認(rèn)為ICTCIAS分詞系統(tǒng)具有較高的效率和準(zhǔn)確率, 同時由于其開源特性, 便于集成開發(fā)。本文選用ICTCIAS作為中文文本分詞的基礎(chǔ)算法, 并結(jié)合即時通信文本的具體特點對其進行調(diào)整和完善。

2.2 查詢分析模式識別

查詢分析模式識別指對中文文本分詞輸出的詞組單元進行模式分析, 提取其中的空間地物信息和空間查詢分析需求, 確定其對應(yīng)的 GIS 分析方法和對應(yīng)的分析要素。相關(guān)學(xué)者對于 GIS 空間分析的類別和內(nèi)容開展了大量研究[12-16]。Unwin[15]將空間分析局限于點、線、面、曲面地圖要素的參數(shù)描述和圖形表述。郭仁忠[16]認(rèn)為空間分析是基于地理對象的位置和形態(tài)特征的空間數(shù)據(jù)分析技術(shù)從空間信息內(nèi)容出發(fā), 提出將空間分析分為5類: 空間位置、空間分布、空間形態(tài)、空間距離, 以及空間相關(guān)(表 1), 此分類方法詳細完整, 與 GIS 系統(tǒng)結(jié)合緊密。本文的查詢分析模式識別基于此分類方法展開。

表1 文本語義空間分析模式識別(據(jù)郭仁忠[16]擴展)

根據(jù)郭仁忠[16]提出的空間分析類別、含義和特點, 本文依次分析并設(shè)定各類空間分析的文本語法、形式化描述以及對應(yīng)的GIS操作, 表1給出分析結(jié)果和對應(yīng)的示例。在技術(shù)實現(xiàn)中, 需要基于中文文本分詞輸出的關(guān)鍵詞信息, 對關(guān)鍵詞的詞性及語法進行分類。將關(guān)鍵詞中的空間地物信息、查詢分析關(guān)鍵詞及其組合模式依次與表 1 中形式化描述進行匹配, 將得到的最佳匹配方案作為此文本對應(yīng)的空間查詢模式。將文本中的地物、時間等信息作為查詢的要素信息, 得到對應(yīng)的 GIS 操作。由于即時通信文本常常是語法不規(guī)范的語言斷片, 在分析中需要給出必要的補充。例如“晚飯時候到北京大學(xué)東門集合吧”顯然對應(yīng)一個路徑查詢, 但實際上并未給出起點, 需要利用即時通信軟件的自定位功能予以補充, 或者要求用戶交互確認(rèn)。

2.3 圖文一體服務(wù)

圖文一體服務(wù)指將空間查詢分析得到的基于地圖的空間查詢分析結(jié)果, 在即時通信軟件中與通信文本進行準(zhǔn)實時的同步展示。圖文一體的服務(wù)方式, 可以為用戶呈現(xiàn)與當(dāng)前交流語義高度相關(guān)、豐富且直觀的地圖服務(wù), 大大提升用戶交流體驗。

目前, 大量網(wǎng)絡(luò)地圖服務(wù)提供了 API 函數(shù)接口, 用戶可以在線提交查詢分析需求, 并得到對應(yīng)的結(jié)果[17-18], 為實現(xiàn)即時通信中的圖文一體服務(wù)提供了直接而有力的支持。本文基于主流網(wǎng)絡(luò)地圖服務(wù)系統(tǒng), 將查詢分析模式識別中得到的GIS操作直接轉(zhuǎn)化為網(wǎng)絡(luò)地圖服務(wù)對應(yīng)的API函數(shù), 并將返回的結(jié)果以圖片的方式與即時通信文本進行同步顯示。在網(wǎng)絡(luò)地圖服務(wù)系統(tǒng)的支持下, 用戶也可以通過點擊圖片進入地圖系統(tǒng), 在既有分析結(jié)果的基礎(chǔ)上執(zhí)行更復(fù)雜或深入的查詢分析操作。

3 實例驗證

為了驗證本文提出的即時通信文本地理信息提取技術(shù)方案的正確性、可行性以及運行效率, 我們設(shè)計了相應(yīng)算法, 采用 C#和 JavaScript, 在 Visual Studio 2012 平臺上開發(fā)了驗證系統(tǒng), 其中集成了ICTCIAS 分詞系統(tǒng)組件以及百度地圖開發(fā)組件, 實現(xiàn)對 ICTCIAS 分詞系統(tǒng)以及百度地圖服務(wù)的調(diào)用。驗證系統(tǒng)的總體界面采用典型的即時通信軟件風(fēng)格, 以便模擬和驗證在即時通信環(huán)境下提供圖文一體服務(wù)的效果。

首先進行中文分詞, 輸出即時通信文本的分詞信息, 提取其中出現(xiàn)的關(guān)鍵詞, 包括動詞、空間地物信息、時間和其他限定詞等; 利用查詢分析模式識別對分詞信息進行正確的解析, 形成地圖服務(wù)調(diào)用方案; 將地圖服務(wù)調(diào)用方案提交百度地圖服務(wù)進行查詢分析, 得到圖片格式的返回結(jié)果, 在系統(tǒng)界面中實現(xiàn)圖文同步服務(wù)。

實驗中采用帶有地理信息的微信文本216例, 均來自北京大學(xué)地球與空間科學(xué)學(xué)院GIS班30位同學(xué)的實際微信數(shù)據(jù)。研究發(fā)現(xiàn), 實例數(shù)據(jù)完全涵蓋了表1給出的5類空間分析模式。其中, 空間位置關(guān)系 186 例, 主要表現(xiàn)為單獨的地理實體或由“的”連接的兩個地理實體; 空間分布關(guān)系 23 例, 多包含“沿著、附近”等關(guān)鍵詞; 空間形態(tài)關(guān)系 5 例, 文本中存在“多大、多長”等關(guān)鍵詞; 空間距離關(guān)系17例, 文本中存在表示距離的關(guān)鍵詞, 如“多遠”等; 空間方位、拓撲、相似和相關(guān)關(guān)系 31 例, 文本中存在表示“以東、南側(cè)”及“里/外/旁邊”等關(guān)鍵詞。

實驗中根據(jù)微信群的具體特點, 對部分群落方言進行翻譯, 比如“搓飯”等價于“吃飯”, 單獨出現(xiàn)的“學(xué)?!钡葍r于“北京大學(xué)”, 保證了相關(guān)分析和模式匹配的正確進行。

經(jīng)本文所有作者人工驗證, 所有實例數(shù)據(jù)均得到正確處理, 相關(guān)的分詞結(jié)果、查詢分析模式匹配和網(wǎng)絡(luò)地圖函數(shù)調(diào)用方案均與其語義相匹配。在北京大學(xué)校園網(wǎng)環(huán)境下, 整體運行時間均在秒級, 可以實現(xiàn)與即時文本通信的準(zhǔn)實時同步。

我們選取部分典型用例來說明實例驗證效果, 如圖2所示??梢悦黠@看出, 在即時通信中加入地理信息同步服務(wù), 將通信信息中文字的地理信息和分析需求以圖片形式同步顯示, 大大提升了交流用戶的直觀體驗, 方便了交流、查詢和決策。

圖 2(a)中, 通信文本為“北京大學(xué)的食堂好吃嘛?”。該例屬于空間位置分析, 關(guān)鍵詞“北京大學(xué)”和“食堂”都為地理名詞, 根據(jù)地名庫匹配為地圖中地理實體的位置, 返回的圖片顯示北京大學(xué)校園內(nèi)食堂的具體位置。

圖 2(b)中, 通信文本為“想回去了…北大附近的車站有哪些呢”。該例屬于空間分布分析, 包含的關(guān)鍵詞是“北大”、“附近”和“車站”, 其中“北大”使用別名信息解析為“北京大學(xué)”, 車站圖層與北京大學(xué)緩沖區(qū)圖層進行疊加, 得到北京大學(xué)附近的車站信息, 以圖片形式返回用戶查看。

圖 2(c)中, 通信文本為“頤和園好大呀^_^”, 該例屬于空間形態(tài)分析, 句中的關(guān)鍵詞是“頤和園”, 地圖中高亮顯示“頤和園”的邊界范圍, 并返回其面積信息。

圖 2(d)中, 通信文本為“離北大最近的華聯(lián)商廈在北京大學(xué)東門 500 m 遠處…”, 該例屬于空間距離類別, 關(guān)鍵詞是“離”、“北大”、“華聯(lián)商廈”、“北京大學(xué)東門”和“500 m”, 地圖查詢標(biāo)注了距離北京大學(xué)東門約500 m遠的華聯(lián)商廈。

圖 2(e)中, 通信文本為“想找一下北大里的教學(xué)樓…”。該例屬于空間拓撲分析, 關(guān)鍵詞是“北大”、“里”和“教學(xué)樓”, 地圖查詢返回北大內(nèi)部的教學(xué)樓信息。

圖 2(f)中, 通信文本為“okay。那就去頤和園好啦”。該例屬于空間距離分析, 關(guān)鍵詞是“去”和“頤和園”, 空間分析返回從當(dāng)前位置去頤和園的路徑和乘車信息。

上述實例研究說明, 本文提出的面向即時通信文本的地理信息提取技術(shù)方案可以順利地予以編程實現(xiàn), 說明該方案具有良好的可行性。針對實例數(shù)據(jù)中的各類空間分析需求, 輸出結(jié)果全部通過人工驗證, 證明了該技術(shù)方案的正確性。在校園網(wǎng)環(huán)境下, 驗證系統(tǒng)秒級的反應(yīng)速度符合即時通信軟件的界面交互需求, 運行效率符合實際需求。

4 結(jié)語

針對當(dāng)前移動終端即時通信與地圖服務(wù)軟件相互隔絕的問題, 本文提出一套綜合使用文本分詞、空間分析模式識別與圖文一體服務(wù)等技術(shù)的即時通信文本地理信息提取技術(shù)方案, 以實現(xiàn)即時通信與地圖服務(wù)軟件的集成應(yīng)用, 為移動用戶提供更為智能、直觀和便捷的應(yīng)用服務(wù)。以微信和百度地圖為例展開實例驗證, 實驗結(jié)果證明該技術(shù)方案是合理、正確和可行的。本文成果進一步拓寬 GIS 應(yīng)用領(lǐng)域, 實現(xiàn) WebGIS/LBS 地圖服務(wù)增值, 也增強了即時通信軟件的空間服務(wù)能力。目前, 基于移動設(shè)備的語音識別技術(shù)正在逐漸得到重視, 如果將本文提出的技術(shù)方案與語音通信結(jié)合, 可以為移動用戶提供更好的應(yīng)用體驗, 這也是我們下一步的研究方向。

參考文獻

[1]朱和平. 即時通信研究綜述. 現(xiàn)代計算機: 專業(yè)版, 2006(12): 55–58

[2]李德仁. 論地球空間信息技術(shù)與通信技術(shù)的集成. 武漢大學(xué)學(xué)報: 信息科學(xué)版, 2001, 26(1): 1–7

[3]Fritz J M. Provides intelligence in web-based tutors // North American Web Developers Conference. Frederiction, 1998: 10

[4]霍艷艷, 沈靖瑞. 即時通信軟件的發(fā)展及現(xiàn)狀研究. 河南科技, 2014(1): 8

[5]毛昕影. 基于GIS的智能手機旅游信息服務(wù)系統(tǒng)的研究與實現(xiàn)[D]. 成都: 電子科技大學(xué), 2012

[6]劉涌泉. 再讀詞的問題. 中文信息學(xué)報, 1988, 2(2): 47–50

[7]Guo J. Critical tokenization and its properties. Computational Linguistics, 1997, 23(4): 569–596

[8]劉源, 梁南元. 漢語處理的基礎(chǔ)工程: 現(xiàn)代漢語詞頻統(tǒng)計. 中文信息學(xué)報, 1986, 1(1): 17–25

[9]李家福, 張亞非. 基于EM算法的漢語自動分詞方法. 情報學(xué)報, 2002, 21(3): 269–272

[10]尹鋒. 基于神經(jīng)網(wǎng)絡(luò)的漢語自動分詞系統(tǒng)的設(shè)計與分析. 情報學(xué)報, 1998, 17(1): 41–50

[11]何嘉, 陳琳. 基于神經(jīng)網(wǎng)絡(luò)漢語分詞模型的優(yōu)化. 成都信息工程學(xué)院學(xué)報, 2006, 21(6): 812–815

[12]Mark M D, Comas D, Egenhofer M J, et al.Evaluating and refining computational models of spatial relations through cross-linguistic human-subjects testing // Frank A U, Kuhn W. Spatial information theory: a theoretical basis for GIS. Berlin: Springer-Verlag, 1995: 553–568

[13]杜世宏, 王橋, 李治江. GIS中自然語言空間關(guān)系定義. 武漢大學(xué)學(xué)報: 信息科學(xué)版, 2005, 30(6): 533–538

[14]朱少楠, 張雪英, 張春菊. 地理空間關(guān)系描述的句法模式識別 // Proceedings of 2010 International Conference on Broadcast Technology and Multimedia Communication. Hong Kong, 2010: 355–357

[15]Unwin D J. Introductory spatial analysis. London: Methuen, 1981

[16]郭仁忠. 空間分析. 武漢: 武漢測繪科技大學(xué)出版社, 1997

[17]王丹. 基于 Web 2.0 的信息服務(wù)研究[D]. 武漢: 華中師范大學(xué), 2007

[18]李艷, 高揚. 基于地圖API的Web地圖服務(wù)及應(yīng)用研究. 地理信息世界, 2010, 8(2): 54–57

Geographical Information Extraction from Instant Communication Messages: A Case Study of WeChat

ZHANG Ruijie1,2, TIAN Yuan1,2,?, LIU Siye1,2, WANG Wenfu1,2

1. Institute of Remote Sensing and Geographical Information System, Peking University, Beijing 100871; 2. Beijing Key Laboratory of Spatial Information Integration and Its Applications, Beijing 100871; ? Corresponding author, E-mail: tianyuanpku@pku.edu.cn

In order to provide synchronous map service based on message semantics in instant communication software, this paper proposes a technical solution, basically a comprehensive combination of Chinese text segmentation, pattern recognition, and image-text integrated service. A case study based on actual WeChat communication messages is carried out to verify the technical solution, which shows that the proposed solution is both feasible and practically effective. The synchronous message semantics-based image-text integrated service provided by the case study improves the user experience very well.

instant communication message; WebGIS/LBS; Chinese text segmentation; spatial analysis pattern recognition; image-text integrated service

10.13209/j.0479-8023.2015.136

P208

國家自然科學(xué)基金(41271385)資助

2015-05-15;

2015-06-30;

網(wǎng)絡(luò)出版日期: 2016-04-07

猜你喜歡
分詞空間文本
文本聯(lián)讀學(xué)概括 細致觀察促寫作
空間是什么?
分詞在英語教學(xué)中的妙用
創(chuàng)享空間
初中群文閱讀的文本選擇及組織
作為“文本鏈”的元電影
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
走進文本 走近大師 走出文本 走向生活
QQ空間那點事
安新县| 肇东市| 台州市| 五大连池市| 泰来县| 米脂县| 买车| 砀山县| 罗田县| 鄯善县| 青冈县| 阳山县| 平凉市| 乌拉特前旗| 新蔡县| 淳安县| 临武县| 白水县| 年辖:市辖区| 康马县| 惠东县| 铜陵市| 清徐县| 壤塘县| 新沂市| 云龙县| 随州市| 五大连池市| 临漳县| 双峰县| 莆田市| 凤庆县| 应城市| 彰化县| 寿宁县| 梧州市| 眉山市| 揭西县| 西平县| 如东县| 车致|