国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合詞典和句法依存樹的地址場所實體分類

2023-08-26 04:13:24蔣言劉海毛雪宇
電腦知識與技術(shù) 2023年20期
關(guān)鍵詞:徐匯區(qū)分詞詞典

蔣言 劉海 毛雪宇

關(guān)鍵詞:地址數(shù)據(jù);場所分類;中文地址分詞;依存句法分析;POI詞典

中圖分類號:TP391 文獻標識碼:A

文章編號:1009-3044(2023)20-0083-04

0 引言

地址數(shù)據(jù)常見于生活中的方方面面,通常以文本的形式表示具體的地理空間[1]。在智慧城市的建設(shè)中,地址數(shù)據(jù)更是在城市安全、規(guī)劃、生活等相關(guān)業(yè)務(wù)中作為數(shù)據(jù)支撐[2-3]。快遞行業(yè)通過對收件人地址使用概率統(tǒng)計模型確定快遞的收取點[4]。在城市治理領(lǐng)域,通過將水電煤氣數(shù)據(jù)與地址數(shù)據(jù)進行關(guān)聯(lián)可檢測流動人口的聚集場所[5]。因此面對現(xiàn)實業(yè)務(wù)需求如何從業(yè)務(wù)地址數(shù)據(jù)中關(guān)聯(lián)出場所是需要解決的難點之一。日常生活中,人們往往選擇借助高德地圖去定位地址數(shù)據(jù)中的場所,然而隨著高德地圖開放資源的限制以及描述地址的復(fù)雜多樣性,需要人們從數(shù)據(jù)本身出發(fā),探求新的方法實現(xiàn)地址數(shù)據(jù)關(guān)聯(lián)到具體場所的功能。

傳統(tǒng)的方法是基于規(guī)則對業(yè)務(wù)地址數(shù)據(jù)進行場所識別,確定地址數(shù)據(jù)中的場所實體[6]。然而此類方法是假設(shè)地址數(shù)據(jù)比較標準,描述方式為省、市、區(qū)到街道、路名、門牌號/POI場所實體的順序。然而現(xiàn)實場景下的業(yè)務(wù)數(shù)據(jù)描述方式靈活多樣,基于規(guī)則的識別方法不再適用,應(yīng)用于業(yè)務(wù)場景中效果欠佳[7]。

然而從語言學的層面分析,文本是由詞構(gòu)成,而地址數(shù)據(jù)的結(jié)構(gòu)是由多個最小地址元素經(jīng)過層層限定后指向唯一的最有效地址要素,即地圖上的某個點或區(qū)域,對于具體業(yè)務(wù)數(shù)據(jù)來說就是目標場所實體[8]。例如某條數(shù)據(jù)為“徐匯區(qū)宛平南路368號蝸牛網(wǎng)咖”是通過“徐匯區(qū)”“宛平南路”“368”“號”等最小地址元素的修飾限定,指向“蝸牛網(wǎng)咖”這一目標場所實體。因此分析出業(yè)務(wù)地址數(shù)據(jù)中各成分詞限定與被限定關(guān)系,即可獲取目標場所實體。在自然語言處理的各項技術(shù)中,依存句法分析旨在從語言學的層面解析語句中各成分詞之間的關(guān)系,從而輔助理解語句結(jié)構(gòu)[9]?;诖朔矫娴膬?yōu)勢,本文首先將業(yè)務(wù)數(shù)據(jù)分詞,隨后引入依存句法分析進行解析,獲取地址數(shù)據(jù)中的目標場所實體,進而通過場所類別詞典匹配得到場所類別。

本文主要工作如下:

1) 為了保證前期對業(yè)務(wù)數(shù)據(jù)分詞的準確性,本文通過添加上海市徐匯區(qū)道路名詞典以及通過高德API 獲取的場所類別詞典作為分詞輔助詞典。

2) 使用依存句法分析對分詞后的業(yè)務(wù)數(shù)據(jù)進行分析,獲取最優(yōu)地址依存樹。

3) 設(shè)定規(guī)則,通過寬度優(yōu)先搜索算法獲取目標場所實體。

4) 將獲取的目標場所實體與場所類別詞典匹配,得到目標場所實體的類別。

1 相關(guān)模型方法

1.1 場所類別詞典的構(gòu)造

現(xiàn)實業(yè)務(wù)需求需要判斷獲取的目標場所實體的所屬類別例如“星游城”對應(yīng)類別標簽為“商場”,因此為了有效地對場所實體進行分類,通過高德API接口獲取上海市徐匯區(qū)境內(nèi)的所有POI地址數(shù)據(jù),并根據(jù)高德地圖提供的類別標簽以及現(xiàn)實業(yè)務(wù)需要,按照一級行業(yè)分類與二級行業(yè)分類對POI場所數(shù)據(jù)進行詳細分類,構(gòu)建場所類別詞典,具體類別如表1所示。

構(gòu)建的場所類別詞典形式例如“{ 公司”:“光大物業(yè)”“上海電氣集團”,……,“國家電網(wǎng)”}。同時對一些場所的簡稱或別稱進行對應(yīng)補充,例如“上海第六人民醫(yī)院”簡稱“第六人民醫(yī)院”“六院”。最終使用場所類別詞典與搜索到的場所實體進行匹配,得到場所類別,滿足具體的業(yè)務(wù)需求。

場所類別詞典前期可以作為自定義詞典輔助業(yè)務(wù)數(shù)據(jù)分詞,保證了分詞結(jié)果的正確性;同時與獲取的目標場所實體進行匹配,得到場所類別,滿足業(yè)務(wù)需求。

從圖2展示的最優(yōu)依存樹結(jié)構(gòu)圖中可以看出,“蝸牛網(wǎng)咖”是被“徐匯區(qū)”“宛平南路”“368”“號”層層限定,因此“蝸牛網(wǎng)咖”是本條業(yè)務(wù)地址數(shù)據(jù)中的目標場所實體,其在整棵依存樹中也處于核心關(guān)系(HED) 。同時百度DDParser工具提供14種依存關(guān)系標簽。

1.3 目標場所匹配規(guī)則

通過依存句法分析能夠得到地址數(shù)據(jù)中各成分詞之間的依存關(guān)系,通常依存樹中處于核心關(guān)系的場所實體詞即為目標場所實體,如圖2樣例所示。然而由于現(xiàn)實業(yè)務(wù)中地址數(shù)據(jù)的多樣性以及復(fù)雜性,業(yè)務(wù)地址數(shù)據(jù)中可能不包含場所實體,也可能場所實體經(jīng)依存句法分析后不在核心關(guān)系所處位置,而是在最優(yōu)依存樹的某個節(jié)點上。因此需要對生成的地址最優(yōu)依存樹進行寬度優(yōu)先搜索將可能的場所實體盡數(shù)列出,并根據(jù)現(xiàn)實業(yè)務(wù)需求,設(shè)定相關(guān)規(guī)則進行篩選。規(guī)則如下:

1) 在不同節(jié)點搜索到多個場所實體,取最小節(jié)點處對應(yīng)實體。

例如業(yè)務(wù)數(shù)據(jù)為“天鑰橋路騰飛大廈對面全家超市”,經(jīng)過DDParser依存句法分析后可生成的樹狀結(jié)構(gòu)如圖3所示,經(jīng)由寬度優(yōu)先搜索可得到場所實體“全家超市”與“騰飛大廈”,從節(jié)點位置層面分析,“全家超市”處于節(jié)點1處,“騰飛大廈”位于節(jié)點3,因此選取節(jié)點1處的“全家超市”場所實體,即最小節(jié)點處的場所實體,從現(xiàn)實語義理解上來說,本條業(yè)務(wù)數(shù)據(jù)所指的場所為“全家超市”符合規(guī)則設(shè)定后的結(jié)果。

2) 在相同節(jié)點搜索到多個場所實體,且實體間存在包含關(guān)系,取被包含的場所實體。

例如業(yè)務(wù)數(shù)據(jù)為“天鑰橋路580號星游城付小姐在成都店里”,經(jīng)過DDParser依存句法分析生成的依存樹的樹狀結(jié)構(gòu)如圖4所示,經(jīng)由寬度優(yōu)先搜索可得到場所實體“星游城”和“付小姐在成都”,兩者位于同一節(jié)點,然而“付小姐在成都”被包含于“星游城”,從現(xiàn)實語義理解層面出發(fā),也應(yīng)選擇“付小姐在成都”場所實體。

3) 核心關(guān)系對應(yīng)的詞匯類似“旁邊”“對面”“中間”等方位詞,舍棄搜索到的實體。

例如業(yè)務(wù)數(shù)據(jù)為“龍華中路卜蜂蓮花拆遷處對面”,經(jīng)過DDParser依存句法分析后可生成的樹狀結(jié)構(gòu)圖如圖5所示,核心關(guān)系對應(yīng)的詞為方位詞“對面”,經(jīng)由寬度優(yōu)先搜索可得到場所實體為“卜蜂蓮花拆遷處”,然而在真實場景中,該業(yè)務(wù)數(shù)據(jù)指代的是“卜蜂蓮花拆遷處”對面的某個實體,該實體在業(yè)務(wù)數(shù)據(jù)中并沒有出現(xiàn),因此將此類情況下搜索到的“卜蜂蓮花拆遷處”場所實體舍去。

2 實驗

為驗證本文提出的方法在現(xiàn)實場景下的有效性,實驗數(shù)據(jù)來源真實脫敏后的上海市徐匯區(qū)的業(yè)務(wù)地址數(shù)據(jù)共計18 126條。其中剔除掉不含有場所實體的地址共計3 604條,例如:徐匯區(qū)小木橋路440弄48 號402室、徐匯區(qū)衡山路東平路。保留地址數(shù)據(jù)中含有場所實體的作為實驗數(shù)據(jù),共計14 522條。例如:徐匯區(qū)零陵路721號徐家匯派出所。

針對含有場所實體的14 522條實驗數(shù)據(jù),本文在對地址數(shù)據(jù)進行分詞后,通過百度DDParser依存分析平臺解析,生成最優(yōu)地址依存樹,繼而對地址依存樹進行寬度優(yōu)先搜索,通過規(guī)則過濾獲取目標場所實體并匹配場所類別詞典得出目標場所實體類別。最終的匹配成功率為89.2,而對于無法匹配的數(shù)據(jù),主要原因在于對場所描述時存在簡稱或俗稱以及錯別字,需要完善場所類別字典中對某些場所約定俗成的簡稱或俗稱,以及改善數(shù)據(jù)質(zhì)量。

3 結(jié)論與展

本文引入依存句法分析對業(yè)務(wù)地址數(shù)據(jù)進行分析,得出最優(yōu)地址依存樹,繼而通過規(guī)則確定業(yè)務(wù)地址數(shù)據(jù)中的目標場所實體,通過詞典匹配的形式得到目標場所實體對應(yīng)的類別。然而由于業(yè)務(wù)數(shù)據(jù)中往往會使用場所實體的簡稱或俗稱,從而存在匹配失誤的情況,因此需要收集場所的簡稱或俗稱完善場所類別詞典。

同時對于不含有明確場所實體的數(shù)據(jù),需要思考采用其他方法,挖掘出數(shù)據(jù)背后所表示的場所。

猜你喜歡
徐匯區(qū)分詞詞典
夜探叢林
上海市徐匯區(qū)楓林街道做好“加減乘除”法持續(xù)開展文明提升鞏固行動
黨政論壇(2022年5期)2022-10-14 12:06:44
上海市徐匯區(qū)田林第四小學四(2)海燕中隊
少先隊活動(2021年9期)2021-12-01 14:49:18
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
結(jié)巴分詞在詞云中的應(yīng)用
智富時代(2019年6期)2019-07-24 10:33:16
評《現(xiàn)代漢語詞典》(第6版)
徐匯區(qū)凌云社區(qū)舉辦科學育兒親子活動
科學生活(2017年7期)2017-08-14 21:33:20
詞典例證翻譯標準探索
值得重視的分詞的特殊用法
高考分詞作狀語考點歸納與疑難解析
涿州市| 垫江县| 清涧县| 扶余县| 阿拉善右旗| 永登县| 凌海市| 易门县| 祁门县| 碌曲县| 望江县| 南召县| 南开区| 东平县| 岑巩县| 腾冲县| 汉阴县| 治多县| 宜兰市| 和田市| 彭州市| 齐齐哈尔市| 勃利县| 聂拉木县| 安陆市| 四平市| 岚皋县| 海阳市| 嘉善县| 克拉玛依市| 黑水县| 吉水县| 米泉市| 政和县| 新晃| 内乡县| 庆阳市| 容城县| 青海省| 清涧县| 广安市|