劉樂(lè)源 代雨柔 曹亞男 周 帆
1 (電子科技大學(xué)信息與軟件工程學(xué)院 成都 610054)
2 (中國(guó)科學(xué)院信息工程研究所 北京 100093)
(leyuanliu@uestc.edu.cn)
過(guò)去的十多年,在線社交網(wǎng)絡(luò)(online social network,OSN)平臺(tái)取得了空前的發(fā)展,每天都吸引著成千上萬(wàn)的用戶加入. 據(jù)統(tǒng)計(jì),Twitter 用戶人數(shù)已超5 億,每月有330 億活躍用戶,每天產(chǎn)生超過(guò)500億的對(duì)話;新浪微博在2020 年第2 季度的微博日活躍用戶人數(shù)也增長(zhǎng)至2.29 億,每天發(fā)布微博的數(shù)量超過(guò)2 500 萬(wàn)條,每秒可以生成785 條微博. 大量用戶生成了大量的個(gè)人數(shù)據(jù),如心情的分享、對(duì)某件事情的評(píng)論以及在某些景點(diǎn)的簽到記錄. 這些用戶數(shù)據(jù)語(yǔ)義豐富,獲取簡(jiǎn)單、靈活、低成本,數(shù)據(jù)的準(zhǔn)確性和粒度有保證.
這些OSN 平臺(tái)可以分為3 類(lèi):1)通用平臺(tái),如Twitter、新浪微博、 Instagram 和Facebook 等. 在這些平臺(tái)上,用戶可以通過(guò)文字、照片、視頻以及打卡等方式記錄自己的生活日常、參與話題討論和關(guān)注熱點(diǎn)事件,也可以與他人建立社交關(guān)系并分享個(gè)人喜好,如分享個(gè)人經(jīng)驗(yàn)心得、關(guān)注新產(chǎn)品的發(fā)布、討論社會(huì)熱點(diǎn)事件、了解最新的交通擁堵情況等. 2)基于位置服務(wù)的平臺(tái),如Foursquare、大眾點(diǎn)評(píng)、Yelp 和Gowalla 等. 這些平臺(tái)需要用戶主動(dòng)簽到(check-in)以記錄自己所在的位置,且可以綁定用戶的其他社交軟件;如Twitter 和Facebook 等以同步分享用戶的地理位置信息. 此外,用戶可以對(duì)地點(diǎn),如電影院、餐廳等進(jìn)行評(píng)價(jià)并展示給其他用戶. 3)圖片社交服務(wù)平臺(tái),如Flickr,Pinterest,Snapchat 等圖片社交服務(wù)網(wǎng)站.此類(lèi)平臺(tái)為用戶提供圖片的分享、管理等功能,同時(shí)可以添加聯(lián)系人,使用戶能夠結(jié)交更多的朋友,增強(qiáng)用戶之間的交流. 用戶可以在這3 類(lèi)平臺(tái)中自由發(fā)布各種信息,其中的文本消息文本統(tǒng)稱為帖子.
在針對(duì)這些OSN 平臺(tái)的科學(xué)研究中,準(zhǔn)確地預(yù)測(cè)用戶地理位置具有重要的意義:首先,預(yù)測(cè)用戶地理位置是很多下游應(yīng)用開(kāi)發(fā)的基礎(chǔ),下游應(yīng)用基于此可對(duì)社交媒體上的動(dòng)態(tài)事件進(jìn)行更全面的時(shí)空分析[1],提升管理部門(mén)的社會(huì)治理能力,如新冠病毒傳播預(yù)測(cè)[2-3]、政治話題檢測(cè)[4]、緊急位置識(shí)別[5]、可疑人物監(jiān)測(cè)[6]、災(zāi)難預(yù)警[7-9]等. 其次,準(zhǔn)確的位置預(yù)測(cè),可以極大地提升運(yùn)營(yíng)商針對(duì)用戶的個(gè)性化服務(wù)能力,提升用戶體驗(yàn),為企業(yè)帶來(lái)巨大的經(jīng)濟(jì)效益,如產(chǎn)品營(yíng)銷(xiāo)[1,10]、精準(zhǔn)廣告投放、信息推薦、打車(chē)調(diào)度優(yōu)化等.
已有關(guān)于OSN 的用戶位置預(yù)測(cè)研究綜述,如文獻(xiàn)[11?12]發(fā)表時(shí)間較為久遠(yuǎn),最近幾年OSN 地理位置預(yù)測(cè)技術(shù)已經(jīng)有了很大發(fā)展. 例如,隨著圖神經(jīng)網(wǎng)絡(luò)的提出,圖神經(jīng)網(wǎng)絡(luò)的各種變形及其與其他網(wǎng)絡(luò)模型組合得到的方法被應(yīng)用于社交網(wǎng)絡(luò)用戶位置預(yù)測(cè). 此外這些綜述僅僅針對(duì)Twitter 數(shù)據(jù)總結(jié)了位置預(yù)測(cè)方法,且沒(méi)有詳細(xì)深入地討論數(shù)據(jù)信息的特征以及基礎(chǔ)模型的劃分. 文獻(xiàn)[13]是一篇關(guān)于用戶地理位置預(yù)測(cè)的綜述,但該文獻(xiàn)只總結(jié)了基于位置的OSN 的工作,并沒(méi)有對(duì)其他非基于位置的OSN 做出總結(jié). 所以,現(xiàn)在迫切需要一個(gè)新的OSN 中用戶地理位置預(yù)測(cè)研究綜述. 與之前的關(guān)于Twitter 位置預(yù)測(cè)和基于位置的社交網(wǎng)絡(luò)(geolocation-based social network,GSN)的研究綜述不同,本文總結(jié)了幾乎所有的OSN數(shù)據(jù)的研究情況,同時(shí)加入了多源數(shù)據(jù)融合的分析、特征的選擇以及采用時(shí)間順序?qū)υ擃I(lǐng)域的基礎(chǔ)算法模型進(jìn)行了總結(jié).
本文回顧了目前OSN 數(shù)據(jù)中用戶位置預(yù)測(cè)的最新文獻(xiàn),并總結(jié)了該任務(wù)面臨的4 個(gè)現(xiàn)實(shí)挑戰(zhàn):
1) 居住在不同城市的用戶可能會(huì)用方言或特定用語(yǔ)來(lái)討論當(dāng)?shù)責(zé)狳c(diǎn)事件和地點(diǎn)等,這時(shí)社交平臺(tái)內(nèi)容的自由性和隨意性給地理位置預(yù)測(cè)帶來(lái)了一些困難.
2) 用戶經(jīng)常以非常隨意的方式編寫(xiě)社交動(dòng)態(tài)內(nèi)容,如縮略詞、漢語(yǔ)拼音縮寫(xiě)、拼寫(xiě)錯(cuò)誤、特殊標(biāo)記等,這讓文本內(nèi)容變得嘈雜,使得很多為正式的規(guī)范化文檔內(nèi)容所開(kāi)發(fā)的文本處理技術(shù)在社交內(nèi)容的應(yīng)用上更容易出錯(cuò).
3) 用戶的注意力和關(guān)注點(diǎn)變化很快,很多歷史社交動(dòng)態(tài)中存在大量與地理位置無(wú)關(guān)的信息,這使得對(duì)該任務(wù)而言,很多文本內(nèi)容變得無(wú)用.
4) 由于OSN 用戶是隨意地手動(dòng)或通過(guò)GPS 附上自己的位置,導(dǎo)致OSN 上的位置信息往往不完整和不準(zhǔn)確. 以Twitter 為例,文獻(xiàn)[14]發(fā)現(xiàn)在Twitter 平臺(tái)的U.S.數(shù)據(jù)集[15]上,只有21%的用戶在個(gè)人檔案信息中提供了自己所居住的城市,5%的用戶給出了家庭住址的詳細(xì)經(jīng)緯度信息.
本文以O(shè)SN 數(shù)據(jù)為重點(diǎn),立足于OSN 中地理位置預(yù)測(cè)任務(wù)時(shí)關(guān)注的3 個(gè)問(wèn)題:結(jié)果如何評(píng)價(jià)(標(biāo)準(zhǔn))、數(shù)據(jù)有何特征(數(shù)據(jù))及采用何種方法(模型),并回顧了用戶位置預(yù)測(cè)問(wèn)題的研究進(jìn)展,特別是近4 年的進(jìn)展. 本文基于前述3 個(gè)問(wèn)題對(duì)OSN 中的地理位置預(yù)測(cè)研究進(jìn)行了綜述. 此外,本文還分析了當(dāng)前研究中存在的主要問(wèn)題,并展望了未來(lái)的研究方向.
為了更清晰地理解OSN 中地理位置預(yù)測(cè)的研究?jī)?nèi)容,本文首先介紹了位置預(yù)測(cè)的問(wèn)題定義、分類(lèi)以及評(píng)價(jià)指標(biāo).
用戶位置預(yù)測(cè)問(wèn)題的目的是通過(guò)分析用戶在OSN 中生成的各種地理標(biāo)簽,即用戶附加到各種媒體類(lèi)型中的地理信息,挖掘其背后隱藏的各種地理信息、用戶移動(dòng)模式和個(gè)人偏好,從而確定用戶的位置.
本文著眼于4 種類(lèi)型的OSN 相關(guān)位置的預(yù)測(cè),即居?。╤ome)位置、文本(text)位置、提及(mentioned)位置和未來(lái)(future)位置.
1.2.1 居住位置
居住位置即OSN 用戶的長(zhǎng)期居住地址. 根據(jù)應(yīng)用程序的具體要求,居住位置可以用不同的粒度表示. 通常,居住位置的粒度有3 種:
1) 行政區(qū)域,即用戶所在的國(guó)家或城市.
2) 地理網(wǎng)格,即地球被劃分成面積大小相等的單元格,住址位置由用戶所在的單元格表示.
3) 地理坐標(biāo),即房屋的坐標(biāo),用它們的緯度和經(jīng)度來(lái)表示. 坐標(biāo)可以通過(guò)其行政區(qū)域或者單元轉(zhuǎn)換獲得.
了解OSN 用戶的居住位置可以實(shí)現(xiàn)許多基于此的服務(wù),如本地內(nèi)容推薦、基于位置的廣告、公共健康監(jiān)測(cè)和民意調(diào)查等. 然而,在幾乎所有的OSN 中,用戶個(gè)人資料都是選填內(nèi)容,其居住位置大多數(shù)情況下都是缺失或包含噪聲的,即不準(zhǔn)確或虛假的,因此很多研究者致力于預(yù)測(cè)用戶的居住位置,且預(yù)測(cè)的粒度是城市級(jí)別.
1.2.2 文本位置
文本位置,即發(fā)送帖子的位置. 有了文本位置,即可得到更完整的用戶移動(dòng)模式,也能更好地估計(jì)事件的發(fā)生位置. 不同于從用戶資料和地理標(biāo)簽中收集的住址位置,文本位置通常是基于文本內(nèi)容的地理標(biāo)簽. 由于文本位置具有獨(dú)特的視圖,研究者們廣泛采用興趣點(diǎn)(points of interest,POI)或坐標(biāo)作為文本位置的表示,而不是行政區(qū)域或網(wǎng)格.
根據(jù)文獻(xiàn)[16] 的分析,用戶發(fā)送帖子的主要目的是為了分享或?qū)ふ倚畔? 例如一個(gè)人可能會(huì)在推文或微博上說(shuō)自己正在餐廳用餐. 如果餐廳的名字作為標(biāo)簽與OSN 平臺(tái)有明確的關(guān)聯(lián),這些信息將有助于推廣這家餐廳;用戶可能會(huì)在Instagram 或新浪微博上發(fā)帖說(shuō)自己迷路了,在這種情況下,他/她的朋友可以在OSN 平臺(tái)的評(píng)論區(qū)或通過(guò)私信給以準(zhǔn)確的指示. 不幸的是,用戶很少在文本中明確提及了自己的地理位置,例如,只有不到1%的Twitter 帖子帶有明確的地理標(biāo)簽[17].
1.2.3 提及位置
用戶在發(fā)帖時(shí),可能會(huì)在內(nèi)容中標(biāo)記或提到一些地點(diǎn)的名字. 例如用戶會(huì)發(fā)帖子評(píng)論餐廳、購(gòu)物中心或電影院,把OSN 平臺(tái)當(dāng)作一個(gè)生活記錄平臺(tái)等.當(dāng)游行或?yàn)?zāi)難發(fā)生時(shí),用戶可能會(huì)發(fā)出大量包含地理標(biāo)簽的帖子來(lái)通知其他人. 用戶還可以通過(guò)在帖子中提及的地點(diǎn)名稱來(lái)透露相關(guān)地理信息. 對(duì)位置名的預(yù)處理是為用戶和事件[18]積累信息和執(zhí)行后續(xù)分析的關(guān)鍵步驟[19]. 在目前的研究中,位置預(yù)處理包括2 個(gè)步驟:1)提及位置識(shí)別,對(duì)潛在的位置信息塊進(jìn)行標(biāo)注提??;2)歧義消除[20],將已識(shí)別的地理位置映射到位置數(shù)據(jù)庫(kù)中的正確條目,從而確定它們所指的位置. 這2 個(gè)問(wèn)題的難點(diǎn)在于地點(diǎn)實(shí)體提及的可變性和模糊性是實(shí)體識(shí)別和關(guān)聯(lián). 可變性是指一個(gè)實(shí)體可能以不同的表面形式被提及,模糊性是指一次提及可能涉及多個(gè)實(shí)體. 不幸的是,這2 個(gè)難題因?yàn)樘雍?jiǎn)短和噪聲變得更具挑戰(zhàn)性. 由于OSN 平臺(tái)語(yǔ)言的固有噪聲和歧義的特點(diǎn),提及地點(diǎn)的實(shí)況數(shù)據(jù)在很大程度上依賴于人的注釋. 對(duì)于提及位置的2個(gè)步驟,位置的粒度既涉及行政區(qū)域,又涉及POI.
1.2.4 未來(lái)位置
未來(lái)位置即用戶將來(lái)可能會(huì)去的位置. 未來(lái)位置的預(yù)測(cè)即利用用戶過(guò)去的軌跡來(lái)預(yù)測(cè)用戶將來(lái)可能會(huì)去的1 個(gè)或者多個(gè)地點(diǎn),其本質(zhì)是深入挖掘數(shù)據(jù)背后隱藏的時(shí)空特征、序列屬性和用戶個(gè)人偏好,然后利用基于機(jī)器學(xué)習(xí)的技術(shù)或大數(shù)據(jù)分析來(lái)整合多維信息,從而推斷用戶未來(lái)的訪問(wèn)地點(diǎn).
在對(duì)未來(lái)位置進(jìn)行預(yù)測(cè)時(shí),由于軌跡是在一定的時(shí)間段內(nèi)生成,用戶可能只進(jìn)行了少量的簽到,存在數(shù)據(jù)稀疏問(wèn)題,增加了預(yù)測(cè)難度;另外,用戶的歷史移動(dòng)模式會(huì)影響后續(xù)足跡,且個(gè)人簽到是復(fù)雜和個(gè)性化的行為,這導(dǎo)致數(shù)據(jù)有很強(qiáng)的復(fù)雜性. 因此,在進(jìn)行此類(lèi)預(yù)測(cè)時(shí),數(shù)據(jù)存在的這些特點(diǎn)是學(xué)者們首要面臨的挑戰(zhàn),例如復(fù)雜的序列過(guò)渡規(guī)律、高度的順序性、人類(lèi)移動(dòng)的多層次周期性以及收集的軌跡數(shù)據(jù)的異質(zhì)性和稀疏性等.
本節(jié)回顧了文獻(xiàn)中用于評(píng)價(jià)最終預(yù)測(cè)結(jié)果的常用指標(biāo). 根據(jù)預(yù)測(cè)結(jié)果的表示方式,常用指標(biāo)分為基于距離的度量、基于標(biāo)記的度量和通用度量.
1.3.1 基于距離的度量
家庭位置預(yù)測(cè)或文本位置預(yù)測(cè)的目標(biāo)是對(duì)每個(gè)用戶或文本的位置進(jìn)行預(yù)測(cè). 令h表示用戶或帖子,H為預(yù)測(cè)結(jié)果的集合,l(h) 為h的真實(shí)位置,系統(tǒng)可以對(duì)每個(gè)h預(yù)測(cè)其位置l′(h). 無(wú)論采用何種粒度,所有的真實(shí)位置l(h)和預(yù)測(cè)位置l′(h)都可以轉(zhuǎn)換為坐標(biāo)形式.直觀地,可以使用真實(shí)位置與預(yù)測(cè)位置之間的歐氏距離來(lái)度量預(yù)測(cè)誤差距離(error distance,ED),記為ED(h). 定義如式(1)所示:
由于評(píng)估是在一組用戶或帖子上進(jìn)行的,所以可以取所有誤差距離的平均值或中值,以獲得語(yǔ)料庫(kù)級(jí)別的誤差度量. 這就產(chǎn)生了平均誤差距離(mean error distance,MeanED)和中值誤差距離(median error distance,MedianED). 其定義分別如式(2)和式(3)所示:
當(dāng)預(yù)測(cè)結(jié)果不準(zhǔn)確時(shí),MedianED通常不如MeanED敏感. 因此,大量研究常用MeanED作為評(píng)估度量. 另外,一些研究[21]使用均方誤差(mean squared error,MSE)代替MeanED. 定義如式(4)所示:
MSE和MeanED的唯一區(qū)別是前者取誤差距離的平方.
除MeanED和MedianED外,還有另一種被廣泛采用的語(yǔ)料庫(kù)級(jí)度量,稱為基于距離的準(zhǔn)確度,記為Acc@d. 與精確匹配不同,Acc@d認(rèn)為在一定距離誤差閾值d之內(nèi)的預(yù)測(cè)結(jié)果都是“正確值”. 語(yǔ)料庫(kù)上的Acc@d度量被定義為可容忍正確預(yù)測(cè)的比例,如式(5)所示:
通常采用的距離閾值d是161 km (100 英里)[21].
1.3.2 基于標(biāo)記的度量
與有精確地理距離度量的方法相比,基于標(biāo)記的度量有更廣闊的應(yīng)用場(chǎng)景. 對(duì)于本文1.2 節(jié)中所述的4 個(gè)地理位置預(yù)測(cè)問(wèn)題,最簡(jiǎn)單的基于標(biāo)記的度量是準(zhǔn)確率. 假設(shè)l(h) 和l′(h)分別為真實(shí)位置和預(yù)測(cè)位置. 在這種情況下,當(dāng)預(yù)測(cè)與真實(shí)情況一致時(shí),預(yù)測(cè)才被認(rèn)為是正確的. 因此將準(zhǔn)確率定義為H中正確預(yù)測(cè)的比例,記作Acc,如式(6)所示:
在某些情況下,預(yù)測(cè)結(jié)果并非是單個(gè)位置,可能是基于某種標(biāo)準(zhǔn)的排名列表L′(h). 按照準(zhǔn)確率度量的標(biāo)準(zhǔn),直觀地,位于列表首位的位置即為預(yù)測(cè)結(jié)果(準(zhǔn)確率最高). 但是這種方法忽略了列表中的其他位置預(yù)測(cè),而實(shí)際應(yīng)用中,其他預(yù)測(cè)對(duì)于下游應(yīng)用程序可能頗有價(jià)值. 所以,有研究者設(shè)計(jì)了基于排名的準(zhǔn)確率度量,稱之為T(mén)op@k. 該方法認(rèn)為:如果真實(shí)位置位于前k個(gè)結(jié)果Lk′(h)內(nèi),則認(rèn)為預(yù)測(cè)結(jié)果是正確的. 認(rèn)定一個(gè)排序列表為正確列表的計(jì)算方法如式(7)所示:
1.3.3 通用度量
在一些情況下,如提及位置消歧,系統(tǒng)可能無(wú)法為給定的位置找到合適的條目. 在這種情況下,采用精確率(Precision)、召回率(Recall)和F1 作為指標(biāo).h表示給定用戶、tweet 或可識(shí)別的提及位置,如果系統(tǒng)無(wú)法做出任何預(yù)測(cè),則l′(h)=null.
評(píng)估語(yǔ)料庫(kù)H上的精確率定義為所有預(yù)測(cè)的位置中正確預(yù)測(cè)所占的比例,如式(8)所示:
召回率定義為正確預(yù)測(cè)位置占所有真實(shí)位置的比例,如式(9)所示:
F1 定義為精確率和召回率的調(diào)和均值,如式(10)所示:
最后,需要注意的是精確率、召回率和F1 在位置預(yù)測(cè)領(lǐng)域都是適用的,并且被廣泛采用. 另外,在某些信息提供不足的情況下,預(yù)測(cè)系統(tǒng)可能無(wú)法做出預(yù)測(cè)[22-24].
OSN 不斷地以極高的速度積累著大量的異構(gòu)數(shù)據(jù),這些數(shù)據(jù)也將作為后續(xù)位置預(yù)測(cè)的輸入. 按照OSN 上數(shù)據(jù)的類(lèi)型,本文將其分為4 類(lèi):1)由用戶發(fā)布的簡(jiǎn)短而嘈雜的消息文本,例如推文、微博和點(diǎn)評(píng)等;2)圖像數(shù)據(jù);3)用戶在基于地理位置的社交網(wǎng)絡(luò)(location based social network,LBSN)上的簽到數(shù)據(jù);4)評(píng)分?jǐn)?shù)據(jù).
文本信息是OSN 中最為普遍的一類(lèi)信息類(lèi)型.隨著社交平臺(tái)的日益流行,OSN 中發(fā)布的帖子數(shù)量龐大,OSN 平臺(tái)發(fā)布的內(nèi)容可以描述用戶想傳遞的任何信息:發(fā)布原創(chuàng)的帖子、轉(zhuǎn)發(fā)他人發(fā)布的帖子,同時(shí)用戶的帖子也會(huì)被推送給關(guān)注他的用戶. 在撰寫(xiě)消息文本內(nèi)容時(shí),可能存在使用特殊字符的現(xiàn)象,即用“#”開(kāi)頭的單詞或不間隔的短語(yǔ)給自己發(fā)布的內(nèi)容添加標(biāo)簽;用戶還可能在消息文本中使用“@”來(lái)提到另一個(gè)用戶的名字,被提及的用戶將會(huì)獲得通知,用戶之間能夠以這種方式開(kāi)始對(duì)話.
除了形式多樣以外,OSN 平臺(tái)上發(fā)布的內(nèi)容往往有許多非標(biāo)準(zhǔn)縮寫(xiě)、排印錯(cuò)誤、使用的表情符號(hào)和熱門(mén)話題被稱為標(biāo)簽. 這種非常規(guī)的、非結(jié)構(gòu)化的文本被稱為噪音,由于標(biāo)準(zhǔn)的自然語(yǔ)言處理(natural language processing, NLP)工具[25]不能很好地處理這些問(wèn)題,給社交網(wǎng)絡(luò)中的內(nèi)容分析帶來(lái)了不小的挑戰(zhàn).
目前,越來(lái)越多OSN 平臺(tái)的用戶將地點(diǎn)與圖像關(guān)聯(lián)起來(lái). 圖像能包含更多的視覺(jué)信息,可以更好地反映用戶對(duì)位置的偏好從而預(yù)測(cè)事件發(fā)生的地點(diǎn).現(xiàn)有位置與圖像相聯(lián)合進(jìn)行位置預(yù)測(cè)的研究大多是將相關(guān)區(qū)域劃分為網(wǎng)格,并預(yù)測(cè)圖像所在的精確網(wǎng)格[26-27],或者用一個(gè)多邊形區(qū)域,例如用圓形或三角形區(qū)域來(lái)表示用戶發(fā)帖數(shù)較多的地點(diǎn)[28],將圖像和地點(diǎn)相關(guān)聯(lián). 例如,文獻(xiàn)[27] 利用視覺(jué)內(nèi)容將Flickr圖片映射到地球上的網(wǎng)格中;文獻(xiàn)[29]利用Instagram上基于地理位置的圖片,對(duì)病患是否遵循了COVID-19 防疫政策進(jìn)行跟蹤. 這些將圖像與位置相關(guān)聯(lián)的研究表明,圖像可以用來(lái)描述位置. 但是到目前為止,基于圖像本身視覺(jué)特征的用戶位置預(yù)測(cè)工作還較少.
在LBS 中,用戶到達(dá)每個(gè)場(chǎng)所可以進(jìn)行簽到,表明到達(dá)過(guò)這個(gè)地方. 通常,一個(gè)簽到記錄可以用一個(gè)三元組(u,p,t)定義,表示用戶u在時(shí)間t時(shí)的簽到地點(diǎn)為p. 在LBS 中的地點(diǎn)被定義為唯一標(biāo)識(shí)的特定地點(diǎn),如電影院、酒吧或咖啡店. 將用戶的這些簽到點(diǎn)按時(shí)間順序連接起來(lái),就能得到該用戶的一條專屬軌跡,現(xiàn)在很多研究,如文獻(xiàn)[30?31],就是利用用戶的歷史軌跡來(lái)預(yù)測(cè)其將來(lái)要去的場(chǎng)所.
一些OSN,如Yelp、大眾點(diǎn)評(píng)等,允許用戶在他們?cè)L問(wèn)的地點(diǎn)添加評(píng)分,一般從1~5 分不等. 數(shù)字評(píng)分包含豐富的信息,可以在位置預(yù)測(cè)任務(wù)中提高預(yù)測(cè)的準(zhǔn)確度. 從情感分析的角度來(lái)看,評(píng)分越高,表示積極情緒越高,說(shuō)明用戶再次訪問(wèn)該地方的可能性越大;相反,較低的評(píng)分代表消極情緒,這意味著用戶未來(lái)訪問(wèn)這里的可能性較小. 在文獻(xiàn)[32]中,討論了情感信息對(duì)捕獲用戶簽到行為的潛在影響. 文獻(xiàn)[33]基于Yelp 數(shù)據(jù)集衍生的用戶POI 評(píng)級(jí)分矩陣,使用語(yǔ)義標(biāo)簽對(duì)每個(gè)用戶的評(píng)級(jí)偏好進(jìn)行建模,并將該因素納入矩陣分解框架用于下一次訪問(wèn)地點(diǎn)預(yù)測(cè). 文獻(xiàn)[34]通過(guò)計(jì)算余弦相似度來(lái)估計(jì)給定用戶在候選地點(diǎn)的簽到概率. 通常情況下,這種用戶場(chǎng)所偏好僅使用用戶配置文件中的積極評(píng)分(評(píng)分大于3.0)進(jìn)行建模. 實(shí)驗(yàn)結(jié)果表明,使用高評(píng)分的方法比所有只訪問(wèn)過(guò)地點(diǎn)的方法能更好地提高用戶位置預(yù)測(cè)的準(zhǔn)確性. 到目前為止,很少有研究考慮用戶位置預(yù)測(cè)的數(shù)字評(píng)分. 如何有效地整合這類(lèi)數(shù)據(jù)來(lái)提高預(yù)測(cè)性能仍有待探索.
用戶在OSN 中發(fā)布各種公開(kāi)的信息,除了帖子本身的內(nèi)容類(lèi)型不同以外,還有可能在帖子上附加各種信息或是在用戶的個(gè)人介紹中提及有價(jià)值的信息等. 如何使用這些不同來(lái)源的信息進(jìn)行位置預(yù)測(cè)或輔助進(jìn)行地理位置預(yù)測(cè)也是越來(lái)越多研究者關(guān)注的問(wèn)題.
本文從地理標(biāo)簽、社交網(wǎng)絡(luò)結(jié)構(gòu)、用戶配置文件和語(yǔ)義信息這4 個(gè)方面,對(duì)數(shù)據(jù)信息特征的類(lèi)型進(jìn)行劃分. 在這4 個(gè)特征類(lèi)型中,地理標(biāo)簽基于直接地理坐標(biāo);語(yǔ)義信息和用戶配置文件需要字符串處理來(lái)提取有用的數(shù)據(jù)信息. 這些特征都能影響位置預(yù)測(cè)的精度,因此需要不同的數(shù)據(jù)分析技術(shù),并且每種技術(shù)都面臨不同的挑戰(zhàn).
3.1.1 地理標(biāo)簽
現(xiàn)在大多數(shù)智能手機(jī)都配備了GPS 功能,能夠準(zhǔn)確地獲知用戶的經(jīng)緯度坐標(biāo)信息,部分用戶也習(xí)慣于在其帖子中直接附加地理位置信息. 突發(fā)事件的目擊者,往往會(huì)在其OSN 上第一時(shí)間發(fā)布相關(guān)的內(nèi)容,包括地理信息. 這些信息在時(shí)間上要早于官方媒體,且有助于估計(jì)突發(fā)事件的精確位置. 例如用戶在新浪微博或微信朋友圈發(fā)布交通事故或火災(zāi)的信息并帶有地理標(biāo)簽. 因此,在OSN 一條帖子中最直接和精確的位置獲取方式,即是從它的GPS 地理標(biāo)簽和位置附件中獲取.
然而實(shí)際的情況卻并非如此簡(jiǎn)單,帖子位置信息面臨著數(shù)據(jù)稀疏性問(wèn)題. 文獻(xiàn)[35?36]報(bào)道地理標(biāo)記過(guò)的帖子只占OSN 平臺(tái)中所有帖子的一小部分,其中收集帖子的方式也會(huì)對(duì)稀疏性有影響. 為了減少稀疏性帶來(lái)的影響,文獻(xiàn)[37]按照時(shí)間線將每個(gè)用戶發(fā)布的帖子劃分為多個(gè)集群,并將每個(gè)集群分類(lèi)為一個(gè)城市級(jí)的位置類(lèi)來(lái)解決此問(wèn)題,但此類(lèi)方法顯然無(wú)法滿足細(xì)粒度預(yù)測(cè)位置的需求. 另外,也有學(xué)者通過(guò)預(yù)測(cè)地理位置屬性來(lái)解決稀疏性,如文獻(xiàn)[38]描述和分析了Facebook 的大規(guī)模公共頁(yè)面的位置屬性之后,提出了一個(gè)基于廣度優(yōu)先搜索(breadthfirst search, BFS)的框架,利用頁(yè)面圖的連通性來(lái)預(yù)測(cè)缺失的地理位置信息.
除了稀疏性影響,另一個(gè)問(wèn)題是帶有地理標(biāo)簽的帖子的可用性也會(huì)受到區(qū)域內(nèi)用戶分布差異的阻礙[39-40]. 由于城市地區(qū)的人口密度遠(yuǎn)高于農(nóng)村地區(qū),如果不進(jìn)行相應(yīng)的處理,使用地理標(biāo)簽帖子的方法往往傾向于將人口密集的地區(qū)作為某些事情發(fā)生的地點(diǎn). 為了最小化這種偏差,文獻(xiàn)[40]根據(jù)隨機(jī)選擇的OSN 用戶分布重新計(jì)算了算法中的權(quán)重來(lái)反映感興趣區(qū)域的人口分布. 文獻(xiàn)[41]將用戶可能的位置定義為聚類(lèi)坐標(biāo)區(qū)域,從而處理人口分布中異質(zhì)性的影響. 聚類(lèi)的結(jié)果顯示,人口密集的地區(qū)被小的細(xì)顆粒區(qū)域所代表,而人口稀少的地區(qū)被更大的區(qū)域定義所覆蓋.
3.1.2 社交關(guān)系網(wǎng)絡(luò)
除了個(gè)體發(fā)布文本內(nèi)容這種行為以外,用戶也會(huì)在OSN 平臺(tái)上與他人建立多種聯(lián)系,例如關(guān)注、轉(zhuǎn)發(fā)帖子和回復(fù)社交動(dòng)態(tài)等,這些社交關(guān)系構(gòu)成了用戶的社交關(guān)系網(wǎng)絡(luò).
用戶社交關(guān)系網(wǎng)絡(luò)是OSN 的重要屬性之一,研究表明有社交關(guān)系的朋友比陌生人更有可能在同一區(qū)域[42],在研究用戶個(gè)體發(fā)布的信息的同時(shí),發(fā)現(xiàn)用戶之間的社交網(wǎng)絡(luò)關(guān)系能提供額外的信息,此種關(guān)系亦被廣泛用于用戶位置預(yù)測(cè)[43]. 例如,文獻(xiàn)[44]研究了Facebook 平臺(tái)上用戶在線朋友關(guān)系與用戶地理位置的關(guān)系,結(jié)果發(fā)現(xiàn),任何一對(duì)用戶存在線下朋友關(guān)系的可能性會(huì)隨著地理距離的增加而單調(diào)下降.文獻(xiàn)[45?46]也表明,如果2 個(gè)用戶居住在同一個(gè)城市,那么他們很可能經(jīng)常通信,反之亦然.
除了直接的好友關(guān)系,社交平臺(tái)上用戶之間的間接好友關(guān)系在用戶住址預(yù)測(cè)中也很有價(jià)值. 文獻(xiàn)[47]發(fā)現(xiàn),如果用戶A和用戶B經(jīng)常與多個(gè)相同的第三方用戶聯(lián)系,那么用戶A和用戶B極有可能也存在好友關(guān)系. 更具體來(lái)說(shuō),文獻(xiàn)[48]證實(shí),如果2 位用戶間的共同好友都超過(guò)了他們各自全部好友數(shù)目的一半,那么這2 位用戶在現(xiàn)實(shí)生活中地理位置距離在10 km 以內(nèi)的可能性為83%,但當(dāng)共同好友占比小于10%時(shí),其概率就下降到2.4%.
社交網(wǎng)絡(luò)上的朋友關(guān)系無(wú)論是單向關(guān)注還是雙向關(guān)注,與現(xiàn)實(shí)生活中是否具有朋友關(guān)系沒(méi)有必然聯(lián)系. 例如OSN 上的明星并不關(guān)注他/她們的絕大多數(shù)粉絲,即粉絲單向關(guān)注明星. 但是,研究者也發(fā)現(xiàn)生活中的朋友會(huì)經(jīng)常在網(wǎng)上提到彼此[23,45-46,48],并且2個(gè)相距遙遠(yuǎn)的陌生人也可能成為朋友. 在探究用戶網(wǎng)絡(luò)上的關(guān)聯(lián)關(guān)系對(duì)位置預(yù)測(cè)問(wèn)題的影響時(shí),本文對(duì)社交網(wǎng)絡(luò)用戶之間的關(guān)注和提及行為不進(jìn)行區(qū)分,并將該網(wǎng)絡(luò)稱為社交關(guān)系網(wǎng)絡(luò). 一個(gè)典型的OSN 如圖1 所示,網(wǎng)絡(luò)中沒(méi)有邊的用戶被稱為孤立節(jié)點(diǎn),其中沒(méi)有定位標(biāo)識(shí)的用戶表明不知道其地理信息. 圖2中只有單向箭頭的表示關(guān)注了箭頭指向的用戶,例如用戶10 關(guān)注了用戶1,雙向箭頭表示這些用戶之間是相互關(guān)注的關(guān)系,例如用戶8 和用戶9.
Fig. 1 Illustration of OSN圖1 OSN 示意圖
Fig. 2 Illustration of user profiles containing geo-information圖2 用戶資料中包含地理信息示意圖
3.1.3 個(gè)人資料
在注冊(cè)O(shè)SN 平臺(tái)賬戶時(shí),用戶個(gè)人資料屬性中一般會(huì)有其所在位置的選填項(xiàng),文獻(xiàn)[49] 的調(diào)查稱66%的個(gè)人資料包含有效的地理信息. 這些個(gè)人資料中的地理信息能夠幫助廣告商準(zhǔn)確定位其目標(biāo)用戶,還可以幫助應(yīng)急救援人員尋找被救助者,或幫助追蹤網(wǎng)絡(luò)犯罪嫌疑人. 用戶個(gè)人資料中的位置屬性允許用戶在自由文本字段中指定他們的位置. 與消息文本不同的是,一些OSN 屬性有字符數(shù)的限制,如Twitter 最多包含30 個(gè)字符,大眾點(diǎn)評(píng)最多包含50 個(gè)字符. 由于用戶被要求在這個(gè)字段中輸入一個(gè)位置名稱,且只提供了有限的空間,所以大多數(shù)情況下都不會(huì)使用復(fù)雜的短語(yǔ).
OSN 平臺(tái)個(gè)人資料中的地理信息屬性的一個(gè)特征是地理位置字段并未對(duì)用戶輸入提出約束,可以是自由文本. 部分用戶在這個(gè)文本里輸入非地理位置信息,增加了獲取其位置信息的難度. 圖2 以Twitter為例展示了用戶在OSN 平臺(tái)的個(gè)人簡(jiǎn)介以及資料編輯時(shí)可以選擇性添加地理標(biāo)簽的情形. 另一個(gè)特征是地理位置大多為粗粒度位置[35,50-51],如省級(jí)或者市1 級(jí). 這樣會(huì)導(dǎo)致個(gè)人資料中的地理標(biāo)簽缺乏細(xì)粒度信息,如街道名稱,在某些事件,如建筑火災(zāi)或交通事故中需要對(duì)用戶進(jìn)行定位時(shí),可能無(wú)法得到滿意的預(yù)測(cè)結(jié)果.
除了直接的地理信息外,用戶的個(gè)人主頁(yè)或相關(guān)網(wǎng)頁(yè)也可以列在個(gè)人資料中,這些數(shù)據(jù)可以為地理位置預(yù)測(cè)提供輔助支撐. 例如用戶列出的網(wǎng)站由居住在其本國(guó)的提供商托管,則可能提供國(guó)家級(jí)別的信息. 但是實(shí)際上,由于信息技術(shù)全球化帶來(lái)的影響,用戶也有可能在一個(gè)地點(diǎn)托管他們的網(wǎng)站,而住在另一地點(diǎn),這就導(dǎo)致此類(lèi)信息在地理位置預(yù)測(cè)中的輔助效果不佳.
此外,如將OSN 應(yīng)用程序接口(application programming interface,API),捕獲信息中的時(shí)間戳、時(shí)區(qū)和個(gè)人資料等一起作為數(shù)據(jù)源進(jìn)行位置預(yù)測(cè),可以使預(yù)測(cè)至少達(dá)到國(guó)家級(jí)別的粒度[52],從而縮小預(yù)測(cè)范圍,為下一步更精確地進(jìn)行預(yù)測(cè)提供支持. 文獻(xiàn)[53]在進(jìn)行國(guó)家層次的預(yù)測(cè)后,能進(jìn)一步用國(guó)家層次的預(yù)測(cè)指導(dǎo)城市級(jí)的預(yù)測(cè).
隨著多功能社交網(wǎng)站的普及,用戶跨越多個(gè)社交網(wǎng)絡(luò)擁有賬號(hào)的現(xiàn)象越來(lái)越普遍[54],例如大眾點(diǎn)評(píng)允許使用新浪微博、QQ 或微信等進(jìn)行連接登錄,F(xiàn)oursquare 允許用戶將他們的Twitter,Instagram 等賬戶與Foursquare 貼子連接,這些貼子通常帶有地理標(biāo)簽,因此即使用戶沒(méi)有在Twitter[55]上透露自己的位置信息,也可以從Foursquare 的貼子中推斷出用戶位置. 使用這種方式獲得的位置信息可以被認(rèn)為是個(gè)人資料中的一種.
3.1.4 語(yǔ)義信息
OSN 平臺(tái)中發(fā)布的帖子的語(yǔ)義信息被定義為能夠涉及地理位置的信息和反映用戶情緒的信息. 由于帖子相比個(gè)人資料會(huì)包含更多的信息,因此帖子文本的語(yǔ)義信息構(gòu)成了位置預(yù)測(cè)領(lǐng)域中大多數(shù)研究的主要對(duì)象. 使用自然語(yǔ)言處理的方法理解語(yǔ)義,提取其中的用戶地理信息,就可以作為地理信息預(yù)測(cè)的數(shù)據(jù)來(lái)源. 但是實(shí)際情況卻并非如此簡(jiǎn)單. 由于用戶習(xí)慣和OSN 平臺(tái)的限制,給語(yǔ)義識(shí)別帶來(lái)了很多挑戰(zhàn).
首先,OSN 平臺(tái)上沒(méi)有明確的寫(xiě)作規(guī)則,因此帖子中會(huì)包含很多的非標(biāo)準(zhǔn)文本,并且大多數(shù)的帖子含有錯(cuò)別字、長(zhǎng)度過(guò)短等現(xiàn)象,這些都會(huì)干擾對(duì)用戶位置的預(yù)測(cè). 另外,即使在帖子文本中確定了位置,也不能直接推斷其為用戶住所位置或是發(fā)帖的位置[56].如一條帖子包含了城市的名字“上海”,但這并不一定意味著用戶來(lái)自上海,或者這條推帖子就是在上海發(fā)出的.
另外,另一種與文本中地名相關(guān)的干擾是地理歧義,這是由若干具有相同名稱的不同地點(diǎn)造成的,如“巴黎”(Paris)有140 種不同的可能性[57]. 為了確定用戶的帖子中所指的位置,文獻(xiàn)[58]使用了發(fā)帖距離、個(gè)人資料中的地理距離和文本中提到的位置之間的層次包容. 文獻(xiàn)[57]利用某個(gè)主題,聚類(lèi)所有的推文,根據(jù)該聚類(lèi)中地名之間的可能解釋的關(guān)系(如地理包容、發(fā)帖距離和地理距離)來(lái)解決歧義. 在其他研究中,文獻(xiàn)[35]將用戶個(gè)人資料中的粗粒度位置信息與帖子中的細(xì)粒度位置名稱結(jié)合起來(lái),以解決細(xì)粒度定義中的歧義.
除了對(duì)語(yǔ)義中的地理信息進(jìn)行挖掘以外,對(duì)OSN平臺(tái)上的帖子語(yǔ)義進(jìn)行情緒分析,也可以對(duì)位置預(yù)測(cè)產(chǎn)生積極的幫助. 情緒信息通常嵌入在用戶所發(fā)布的帖子中. 如果用戶對(duì)某地使用積極的語(yǔ)言表達(dá),相應(yīng)地,該地理位置重要程度就越高;否則,重要性則越低[32]. 例如在文獻(xiàn)[59]中假設(shè)用戶的帖子也可以作為預(yù)測(cè)其訪問(wèn)地點(diǎn)的依據(jù),通過(guò)分析情緒的變化趨勢(shì),能夠捕捉到用戶的意圖和心情,并進(jìn)一步確定用戶下一次最有可能訪問(wèn)的地點(diǎn)類(lèi)型. 文獻(xiàn)[60]只使用用戶個(gè)人資料中的積極評(píng)價(jià)來(lái)衡量用戶的地點(diǎn)偏好,因?yàn)榉e極評(píng)級(jí)比中性或負(fù)面評(píng)級(jí)更具有預(yù)測(cè)能力. 由于當(dāng)前的研究集中在從帖子中的向量化詞匯和句法特征中獲取情緒特征,而沒(méi)有進(jìn)一步的上下文,因此文獻(xiàn)[61]設(shè)計(jì)了矢量化位置信息與詞嵌入相結(jié)合以產(chǎn)生混合表示,從而改進(jìn)了情感分類(lèi)任務(wù),即使情感分析能夠?qū)Φ乩砦恢妙A(yù)測(cè)起到積極的作用.
總體而言,集成語(yǔ)義信息可以有效地緩解數(shù)據(jù)稀疏性問(wèn)題并了解用戶偏好,但是無(wú)法單獨(dú)通過(guò)情感分析去預(yù)測(cè)用戶的地理位置,大多數(shù)情況下還是作為其他方法的輔助手段存在,以便提高預(yù)測(cè)效果.現(xiàn)有的研究大多只考慮文本中涉及的地理位置,情感信息的影響仍有待探討.
對(duì)在線社交平臺(tái)數(shù)據(jù)的信息特征分析顯示,并不總是能從數(shù)據(jù)中獲取高質(zhì)量和可靠的信息. 這意味著,應(yīng)該將信息缺失和不同信息源之間的差異性考慮在內(nèi). 數(shù)據(jù)的信息特征可以根據(jù)需求和期望以不同的方式被選擇和使用.
根據(jù)位置預(yù)測(cè)算法中對(duì)特征的使用情況,本文將OSN 數(shù)據(jù)的信息特征分為“主要(primary)”和“次要(secondary)”2 種類(lèi)型. 主要信息特征是首先在帖子中被檢查,并在位置預(yù)測(cè)算法中使用的特征. 實(shí)際應(yīng)用中,應(yīng)用程序可以選擇使用單個(gè)主要特征或多個(gè)主要特征的組合. 次要特征可以對(duì)缺乏預(yù)期效果的主要屬性的帖子起到補(bǔ)充作用. 例如一個(gè)應(yīng)用程序可以主要使用帖子的GPS 地理標(biāo)簽,對(duì)于沒(méi)有地理標(biāo)簽的帖子,可以利用用戶配置文件作為次要功能來(lái)推斷用戶的位置[40]. 本文對(duì)現(xiàn)有文獻(xiàn)按照使用單一主要特征、次要特征來(lái)處理缺失的特征;使用多個(gè)特征的組合作為主要來(lái)源進(jìn)行分類(lèi)回顧.
1) 使用單一主要特征. 基于單一主要特征的標(biāo)準(zhǔn)確定帖子中的信息特征作為來(lái)源,并僅使用該特征進(jìn)行位置估計(jì). 例如文獻(xiàn)[5]僅使用帖子中的位置名稱來(lái)確定事件位置. 文獻(xiàn)[26]僅利用Twitter 帖子中的GPS 坐標(biāo)對(duì)其進(jìn)行時(shí)空聚類(lèi). 類(lèi)似地,文獻(xiàn)[62]利用事件相關(guān)推文的GPS 坐標(biāo)來(lái)研究突發(fā)關(guān)鍵詞的空間分布,以檢測(cè)事件并預(yù)測(cè)其位置. 一般來(lái)說(shuō),選作主要特征的數(shù)據(jù),都能較容易地提取出地理位置信息,其選用的提取或預(yù)測(cè)技術(shù)往往也較少,整個(gè)預(yù)測(cè)應(yīng)用設(shè)計(jì)架構(gòu)相對(duì)簡(jiǎn)單. 但采用單一的主要特征,對(duì)數(shù)據(jù)集要求較高,整個(gè)模型會(huì)受到社交網(wǎng)絡(luò)數(shù)據(jù)特性的影響,例如數(shù)據(jù)稀疏、縮寫(xiě)簡(jiǎn)寫(xiě)等問(wèn)題.
2) 使用次要特征. 由于位置預(yù)測(cè)方法可以從多個(gè)特征中獲益,如果選擇的主要特征在一個(gè)帖子中不可用(缺少數(shù)據(jù)或者存在不可用數(shù)據(jù)),其他次要特征可以用來(lái)提取帖子的位置信息. 使用次要特征的一種常見(jiàn)做法是利用用戶個(gè)人資料中的位置屬性來(lái)代替無(wú)地理標(biāo)簽帖子的GPS 數(shù)據(jù)[63]. 這意味著,無(wú)地理標(biāo)簽帖子的坐標(biāo)可以從用戶個(gè)人資料中特定的位置信息推斷得出. 雖然次要特征可以在主要特征不可用時(shí)起到很好的補(bǔ)充作用,但作為次要特征的數(shù)據(jù)常常無(wú)法提供有效的信息,一定程度上降低了其可用性. 例如,用戶在個(gè)人資料中常常不填寫(xiě)自己的準(zhǔn)確地址.
3) 使用多種特征. 第3 種選擇是利用多個(gè)特征作為主要的信息來(lái)源. 這種方法不考慮特征之間的相互替代,相反地將它們組合在一個(gè)模型中. 例如文獻(xiàn)[64?65]基于GPS 地理標(biāo)記、消息文本和用戶個(gè)人資料,首先為可能發(fā)生事件的位置分配基本概率,然后根據(jù)dempster-shafer 理論中的組合規(guī)則將這些概率分配到單個(gè)解決方案中. 在另一項(xiàng)使用多個(gè)特征的研究中,文獻(xiàn)[39]同時(shí)利用了微博的GPS 地理標(biāo)簽、微博文本中的參考位置和用戶資料,對(duì)新浪微博檢測(cè)到的事件進(jìn)行了本地化,從而提取用戶坐標(biāo). 使用多種特征既能很好地緩解單一主特征面臨的數(shù)據(jù)稀疏等問(wèn)題,又能避免使用次要特征效率不高的缺陷,但這種情況下,往往需要更為復(fù)雜的模型或框架來(lái)實(shí)現(xiàn)預(yù)測(cè)功能,帶來(lái)更大的計(jì)算壓力.
用戶位置預(yù)測(cè)領(lǐng)域已經(jīng)有多種方法和技術(shù)被提出,近年來(lái)也持續(xù)不斷地對(duì)已知方法改進(jìn)和提出新的方法,例如,機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、概率學(xué)和深度學(xué)習(xí)等,取得了一定成果. 在自然語(yǔ)言處理領(lǐng)域,有一類(lèi)重要的任務(wù):命名實(shí)體識(shí)別(named entity recognition,NER)[66],該任務(wù)用于從給定的文本中識(shí)別出實(shí)體的邊界、類(lèi)型(通常為人為預(yù)先確定)等內(nèi)容,地理位置的識(shí)別也是其中一類(lèi)重要的目標(biāo). 實(shí)際上很多研究者也將NER 技術(shù)用于帖子中地理位置的提取. 與NER 對(duì)其技術(shù)進(jìn)行分類(lèi)的標(biāo)準(zhǔn)類(lèi)似,本文將地理位置預(yù)測(cè)的算法/模型分為3 類(lèi):使用字典的方法、使用傳統(tǒng)機(jī)器學(xué)習(xí)的方法和使用深度學(xué)習(xí)的方法.本文在介紹當(dāng)前對(duì)應(yīng)的NER,尤其是其中與地理位置預(yù)測(cè)相關(guān)內(nèi)容的基礎(chǔ)上,還介紹了地理消歧等任務(wù)的研究現(xiàn)狀. 本節(jié)所總結(jié)的算法類(lèi)別如圖3 所示.
Fig. 3 Illustration of basic algorithms and models圖3 基礎(chǔ)算法及模型示意圖
地名詞典是收錄特定范圍內(nèi)地理實(shí)體的專有名詞的詞典. 一般提供自然、經(jīng)濟(jì)、人文和歷史這些方面的信息,并對(duì)其進(jìn)行說(shuō)明. 地理數(shù)據(jù)庫(kù)類(lèi)似地名詞典,也能很好地應(yīng)用于這項(xiàng)研究,使用的一些數(shù)據(jù)庫(kù)工具包括GeoNames,GeoNet,OpenStreetMap,WikiMapia 等,這些工具允許以任何數(shù)據(jù)格式下載許多國(guó)家的空間定義[67],如城市、城鎮(zhèn)、街道、建筑、山脈、河流等. 基于地名詞典的方法,其基本思路是提取帖子中的地點(diǎn)與地名詞典中的地點(diǎn)進(jìn)行匹配. 因此,此類(lèi)方法的重點(diǎn)是地點(diǎn)(實(shí)體)提取.
許多研究者采用NER 的方法來(lái)識(shí)別各個(gè)地點(diǎn)實(shí)體,該實(shí)體可以是基于段的表示,也可以是基于詞的表示[55]. 前者在識(shí)別帖子中的地點(diǎn)方面表現(xiàn)出更高的效率,這種技術(shù)廣泛使用的工具是Standford NER.但文獻(xiàn)[68] 發(fā)現(xiàn),在OSN 平臺(tái)的帖子中使用Stanford NER 并不能準(zhǔn)確地檢測(cè)出包括地名在內(nèi)的實(shí)體,特別是實(shí)體被縮寫(xiě)時(shí),會(huì)有更高的概率識(shí)別錯(cuò)誤. 因此,文獻(xiàn)[69]重新訓(xùn)練了Stanford NER,OpenNLP,Twitter-NLP 等工具對(duì)2 878 條與災(zāi)難相關(guān)的推文進(jìn)行了10倍交叉驗(yàn)證,發(fā)現(xiàn)經(jīng)過(guò)再次訓(xùn)練的Stanford NER 的表現(xiàn)優(yōu)于其他之前的方法. 文獻(xiàn)[70]采用了一種混合方法,位置實(shí)體被提取并解析成地名詞典,以準(zhǔn)確地對(duì)推文中提到的地名進(jìn)行地理編碼.
基于字典的NER 方法雖然在小數(shù)據(jù)集上可達(dá)到較高的準(zhǔn)確率,但面對(duì)大量的數(shù)據(jù)集以及未知地點(diǎn)(不在字典內(nèi)的地點(diǎn)),這種方式變得不再適用. 因此,文獻(xiàn)[71?72]使用GeoNames,用地名詞典來(lái)替代傳統(tǒng)的基于字典的NER 的方法,并認(rèn)為地名詞典更適合于有噪聲的消息文本. 文獻(xiàn)[55]也采用基于地名詞典的方法,利用OSN 帖子中的各種元數(shù)據(jù)信息來(lái)推斷地理位置.
由于文本表達(dá)的信息的多樣性,會(huì)產(chǎn)生“歧義”現(xiàn)象,即在帖子中發(fā)現(xiàn)的地理信息文本,通過(guò)聯(lián)系該文本的上下文也可能表示其他非地理意義. 例如“England”既可以指代英國(guó),也可以表示英國(guó)人[65]. 為了解決這種地理/非地理的歧義,文獻(xiàn)[73]探索了在有歧義的術(shù)語(yǔ)之前是否存在一個(gè)空間指標(biāo),如“在”“位于”等,使用PipePOS 標(biāo)記器和USGS 位置數(shù)據(jù)庫(kù)推斷用戶的當(dāng)前位置,從而解析不明確的位置名稱.文獻(xiàn)[65]開(kāi)發(fā)了一種啟發(fā)式方法,該方法在其他消息文本中尋找與本事件相關(guān)的位置名稱,以消除這種歧義.
雖然地名詞典很容易實(shí)現(xiàn),且無(wú)需訓(xùn)練數(shù)據(jù),但此類(lèi)方法面臨著諸多質(zhì)疑:1)其處理速度慢[21],無(wú)法簡(jiǎn)單通過(guò)縮小數(shù)據(jù)集的方法來(lái)提升其速度. 文獻(xiàn)[43]發(fā)現(xiàn),通過(guò)增加好友/粉絲關(guān)系的深度來(lái)改變OSN 數(shù)據(jù)集的大小,并不會(huì)影響使用地名詞典方法計(jì)算和檢測(cè)用戶位置所花費(fèi)的時(shí)間.2)盡管基于地名詞典的方法將語(yǔ)言依賴性最小化,但對(duì)語(yǔ)法的完全忽視可能會(huì)限制地名解析的性能. 例如使用諸如“A 在北京,B 在距A 約100 km 的城市”這樣的短語(yǔ),要得到準(zhǔn)確可用的預(yù)測(cè)地點(diǎn),需要分析完整的句子結(jié)構(gòu),不能通過(guò)簡(jiǎn)單地在數(shù)據(jù)庫(kù)中查找地名來(lái)確定地點(diǎn).3)由于這類(lèi)句子在OSN 平臺(tái)上很少被觀察到[74],是否值得對(duì)這些短語(yǔ)進(jìn)行深入分析也很有爭(zhēng)議.
隨著機(jī)器學(xué)習(xí)研究的興起,數(shù)據(jù)挖掘和傳統(tǒng)機(jī)器學(xué)習(xí)方法同樣被應(yīng)用于檢測(cè)OSN 平臺(tái)的用戶位置預(yù)測(cè)中,并且已經(jīng)被證明是一類(lèi)很有效的用戶位置預(yù)測(cè)方法[75],如k-鄰近分類(lèi)、模糊匹配[43]、樸素貝葉斯模型[76-77]、條件隨機(jī)場(chǎng)(CRF)、矩陣分解以及馬爾可夫模型等.
4.2.1 概率方法
概率方法的目的是根據(jù)觀察,以概率來(lái)確定預(yù)測(cè)地點(diǎn)最可能的位置. 在本節(jié)中,將解釋概率方法的4 種主要實(shí)現(xiàn):第1 種方法采用最大似然估計(jì)(maximum likelihood estimation,MLE);第2 種方法采用期望最大化(expectation maximiation,EM)[78];第3種方法基于貝葉斯濾波器給出2 種實(shí)現(xiàn),即卡爾曼濾波器(Kalman filters)和粒子濾波器(particle filters);第4 種是使用較為廣泛的馬爾可夫模型.
1) 最大似然估計(jì)
這種概率技術(shù)是基于學(xué)習(xí)帖子中的單詞在一系列地點(diǎn)X上的概率分布. 例如一個(gè)國(guó)家的城市,使用與地點(diǎn)相關(guān)帖子中的單詞計(jì)算某地點(diǎn)屬于城市x∈X的后驗(yàn)概率. 然后,選擇后驗(yàn)概率最大的城市作為預(yù)測(cè)地點(diǎn)位置.
在文獻(xiàn)[78]中,最大似然估計(jì)是作為地點(diǎn)定位的基準(zhǔn)方法. 文獻(xiàn)[65]中也提出了一種類(lèi)似的方法作為監(jiān)督的基準(zhǔn)方法. 文獻(xiàn)[79]提出了一個(gè)半監(jiān)督框架,使用最大似然估計(jì)來(lái)估計(jì)用戶的位置. 文獻(xiàn)[80]用最大似然估計(jì)算法識(shí)別城市的本地居民. 極大似然估計(jì)要求定義一組表示可能的地點(diǎn)位置和這些位置上的注釋已進(jìn)行訓(xùn)練的選擇. 因此,準(zhǔn)確性可能會(huì)隨訓(xùn)練數(shù)據(jù)的質(zhì)量而改變. 雖然基于最大似然估計(jì)的方法具有簡(jiǎn)單易實(shí)現(xiàn)的特點(diǎn),但其求解參數(shù)的方式?jīng)Q定了在面對(duì)參數(shù)較多的情況下難以求解.
2) EM 算法
EM 算法是一種迭代算法,用于含有隱變量的概率參數(shù)模型的最大似然估計(jì)或極大后驗(yàn)概率的參數(shù)估計(jì). 該算法在面臨參數(shù)多、一次性求解計(jì)算開(kāi)銷(xiāo)大的情況下具有優(yōu)勢(shì). 但EM 算法對(duì)需要初始化的參數(shù)初始值敏感,即參數(shù)的選擇直接影響收斂效率以及是否能夠的到全局最優(yōu)解.
部分研究者基于熱點(diǎn)話題和位置的不同組合作為潛在變量,提出了不同的概率模型,并使用基于EM 等變分推理方法來(lái)預(yù)測(cè)位置. 文獻(xiàn)[81]在整個(gè)美國(guó)的Twitter 數(shù)據(jù)集上用用MeanED 和MedianED 報(bào)告了494 km 的預(yù)測(cè)結(jié)果. 文獻(xiàn)[82]通過(guò)考慮用戶的話題傾向性,對(duì)文獻(xiàn)[81]的方法進(jìn)行了擴(kuò)展,并通過(guò)假設(shè)每個(gè)用戶有多個(gè)位置開(kāi)發(fā)了一個(gè)概率模型. 文獻(xiàn)[43]使用了額外的地理編碼過(guò)程,對(duì)檢測(cè)到的命名實(shí)體提取其位置引用. 該方法首先對(duì)事件在開(kāi)始處近似局部化;其次采用基于EM 的預(yù)測(cè)技術(shù),利用模型中實(shí)體的位置關(guān)系密切度來(lái)更新和增強(qiáng)這些初始預(yù)測(cè);最后,對(duì)位置層次結(jié)構(gòu)中的每個(gè)層次,如國(guó)家、州、城市和街道級(jí)別分別執(zhí)行預(yù)測(cè). 這些解決方案在其預(yù)測(cè)模型中將位置視為一個(gè)連續(xù)變量. 因此,當(dāng)涉及到更大的地理區(qū)域,如國(guó)家或大洲時(shí),它們就會(huì)表現(xiàn)出擴(kuò)展性問(wèn)題.
3) 濾波器
除了上述方法外,濾波器也常用于位置預(yù)測(cè)任務(wù)中. 其中貝葉斯濾波雖然可以有效濾除噪聲,得到比較精準(zhǔn)的狀態(tài)估計(jì),但是在計(jì)算期望的時(shí)候,需要做無(wú)窮積分,大多數(shù)情況下沒(méi)有解析解(精確解). 使用較多的方法是卡爾曼濾波器和粒子濾波器.
①卡爾曼濾波器. 卡爾曼濾波器[83-84]是以最小均方誤差為估計(jì)的最佳準(zhǔn)則來(lái)尋求一套遞推估計(jì)的模型,其基本思想是:采用信號(hào)與噪聲的狀態(tài)空間模型,基于先前的估計(jì)和最近觀察的位置更新來(lái)預(yù)測(cè)對(duì)象的位置,它表示坐標(biāo)分布的均值和協(xié)方差值的不確定性. 卡爾曼濾波器包含2 種更新規(guī)則:用于預(yù)測(cè)的時(shí)間更新和用于校正的測(cè)量更新. 卡爾曼濾波器適合于實(shí)時(shí)處理和計(jì)算機(jī)運(yùn)算. 文獻(xiàn)[85]使用卡爾曼濾波器在Twitter 中檢測(cè)地震震中. 在估計(jì)檢測(cè)值時(shí),假設(shè)沒(méi)有出現(xiàn)時(shí)間轉(zhuǎn)換的誤差,因此只使用了測(cè)量更新規(guī)則. 文獻(xiàn)[85]指出:卡爾曼濾波器在線性高斯環(huán)境中工作得更好,由于Twitter 帖子或微博動(dòng)態(tài)不一定是線性的,并且從遙遠(yuǎn)的位置發(fā)布的消息文本可能會(huì)對(duì)方差產(chǎn)生負(fù)面影響,因此在預(yù)測(cè)地點(diǎn)時(shí)使用卡爾曼濾波器的可能性能不佳. 在這種情況下,粒子濾波器被認(rèn)為比卡爾曼濾波器更合適.
②粒子濾波器. 通過(guò)尋找一組在狀態(tài)空間中傳播的隨機(jī)樣本來(lái)近似表示概率密度函數(shù),用樣本均值代替積分運(yùn)算,進(jìn)而獲得系統(tǒng)狀態(tài)的最小方差估計(jì)的過(guò)程. 這些樣本被形象地稱為“粒子”,故而叫粒子濾波. 為了預(yù)測(cè)OSN 中的位置,文獻(xiàn)[86]描述了一種使用順序重要性采樣方法的粒子濾波器實(shí)現(xiàn). 在實(shí)現(xiàn)中,隨機(jī)分布在感興趣區(qū)域的粒子是在初始生成階段產(chǎn)生的. 提供與預(yù)測(cè)地點(diǎn)相關(guān)的消息文本中的經(jīng)緯度值,算法迭代地重新采樣粒子,通過(guò)更新它們的位置、速度和加速度來(lái)預(yù)測(cè)粒子的下一個(gè)狀態(tài),并根據(jù)它們與最近觀察的距離為粒子分配權(quán)重. 最終確定事件的估計(jì)位置為粒子坐標(biāo)的平均值. 文獻(xiàn)[61]認(rèn)為,為了提高位置估計(jì)方法的準(zhǔn)確率,發(fā)布事件相關(guān)消息文本的用戶應(yīng)該是獨(dú)立同分布的,即關(guān)于事件的信息不應(yīng)該在Twitter 中傳播太多. 該文獻(xiàn)解決了OSN 用戶地理分布差異帶來(lái)的偏差問(wèn)題,并提出了一種粒子濾波器的改進(jìn)方法. 該方法基于隨機(jī)抽樣的消息文本集,考慮傳感器分布,為粒子分配權(quán)重. 文獻(xiàn)[65]中還采用了卡爾曼濾波和粒子濾波的實(shí)現(xiàn)作為基準(zhǔn)的位置預(yù)測(cè)方法.
雖然實(shí)驗(yàn)證明了粒子濾波器在事件地點(diǎn)預(yù)測(cè)方面的估計(jì)精度優(yōu)于卡爾曼濾波器,由于使用的粒子數(shù)量具有不確定性,所以粒子濾波器的執(zhí)行時(shí)間并不一定適合對(duì)實(shí)時(shí)性有要求的任務(wù).
4) 馬爾可夫模型
在OSN 最初的位置預(yù)測(cè)中,許多研究者選擇研究基于馬爾可夫模型的各種地點(diǎn)預(yù)測(cè)情況,如住所位置預(yù)測(cè)、Text 位置預(yù)測(cè)、下一個(gè)位置的預(yù)測(cè)等. 文獻(xiàn)[87]提出了一種基于馬爾可夫鏈的預(yù)測(cè)模型. 文獻(xiàn)[55]使用隱馬爾可夫模型(hidden Markov model,HMM)來(lái)建立用戶在給定時(shí)間段內(nèi)訪問(wèn)的不同地點(diǎn)之間的關(guān)系,并預(yù)測(cè)用戶訪問(wèn)的下一個(gè)位置. 在文本的位置預(yù)測(cè)中,文獻(xiàn)[88]提出了一個(gè)馬爾可夫隨機(jī)場(chǎng)概率模型,根據(jù)用戶的消息文本內(nèi)容和他們的社交網(wǎng)絡(luò)來(lái)推斷用戶的位置.
由于馬爾可夫鏈(additive Markov chain)在序列數(shù)據(jù)建模方面具有天然的優(yōu)勢(shì),有研究者將基于馬爾可夫鏈的方法應(yīng)用于用戶地理位置軌跡,如GSN中用戶歷史軌跡具有明顯的序列特性的預(yù)測(cè)中. 此類(lèi)算法的基本思想是:根據(jù)用戶過(guò)去的連續(xù)行為預(yù)測(cè)用戶的下一個(gè)行為. 文獻(xiàn)[89?91]基于過(guò)去的行為建立一個(gè)估計(jì)的轉(zhuǎn)移矩陣來(lái)表示一個(gè)行為的概率,并使用馬爾可夫鏈框架來(lái)建模POI 之間的順序影響.文獻(xiàn)[91]利用了只考慮用戶訪問(wèn)序列中最后一個(gè)位置的1 階馬爾可夫鏈來(lái)預(yù)測(cè)對(duì)序列的影響.
由于n階馬爾可夫鏈的復(fù)雜度隨n的增加呈指數(shù)級(jí)增長(zhǎng),而經(jīng)驗(yàn)實(shí)驗(yàn)表明1 階馬爾可夫鏈的有效性,因此大多數(shù)文獻(xiàn)都假設(shè)下一次訪問(wèn)的概率僅依賴于當(dāng)前訪問(wèn)的概率[92]. 然而,在現(xiàn)實(shí)中,用戶簽到行為可能不僅依賴于最新的地點(diǎn),還依賴于用戶最早訪問(wèn)的地點(diǎn). 部分研究者也將用戶過(guò)去訪問(wèn)地點(diǎn)的影響考慮到地理位置預(yù)測(cè)中. 文獻(xiàn)[89]通過(guò)添加馬爾可夫鏈來(lái)預(yù)測(cè)用戶下一次訪問(wèn)的地點(diǎn). 由于最近簽入時(shí)間戳的位置通常比包含舊時(shí)間戳的位置具有更大的影響力,它們根據(jù)具有最近簽入時(shí)間戳的位置,為以前的位置手動(dòng)設(shè)置衰減率參數(shù). 文獻(xiàn)[90]結(jié)合馬爾可夫鏈和人類(lèi)活動(dòng)的規(guī)律性進(jìn)行了更復(fù)雜的研究. 該文獻(xiàn)將移動(dòng)規(guī)律和馬爾可夫模型無(wú)縫地結(jié)合到一個(gè)用于位置預(yù)測(cè)的隱馬爾可夫模型框架中,在該框架中,登記場(chǎng)所作為隱藏狀態(tài),其他信息作為觀察. 文獻(xiàn)[93]提出MDC-MCM 的模型,該模型將簽到周期、空間距離和其他影響位置預(yù)測(cè)的因素進(jìn)行線性加權(quán),并與n階馬爾可夫鏈預(yù)測(cè)結(jié)果相融合,使用Brightkite 數(shù)據(jù)集的驗(yàn)證實(shí)驗(yàn)表明該模型有更好的預(yù)測(cè)結(jié)果.
有研究者使用基于馬爾可夫模型的方法進(jìn)行地理位置消歧,提高預(yù)測(cè)精度. 文獻(xiàn)[94] 使用最大熵馬爾可夫模型(maximum mentropy Markov models,MEMM)來(lái)查找位置和一組規(guī)則來(lái)消除地理位置的歧義. 據(jù)報(bào)道,該模型在多個(gè)新聞報(bào)道數(shù)據(jù)集上的總體精度為93.8%.
作為傳統(tǒng)馬爾可夫鏈的擴(kuò)展,F(xiàn)PMC(factorizing personalized Markov chain)[95]結(jié)合通用馬爾可夫鏈模型成功地應(yīng)用于用戶位置預(yù)測(cè). 然而FPMC 假設(shè)所有的序列行為都是線性組合的,因素間存在很強(qiáng)的獨(dú)立性,并且FPMC 不能用于建模多個(gè)組件之間的關(guān)系(例如給定a→b,b→c,由于a和c都與b有密切的關(guān)系,因此可以直觀地認(rèn)為存在a→c的轉(zhuǎn)移,但由于FPMC 具有很強(qiáng)的獨(dú)立性假設(shè),無(wú)法捕捉到這種轉(zhuǎn)移).
文獻(xiàn)[96]提出了ComPredict 的方法,該方法集成了動(dòng)態(tài)馬爾可夫模型(dynamic Markov model,DMM)和從社交網(wǎng)絡(luò)用戶評(píng)論中挖掘的移動(dòng)意圖,用于實(shí)現(xiàn)用戶位置預(yù)測(cè). 該方法首先使用基于滑動(dòng)時(shí)間窗口的PrefixSpan 算法,對(duì)打卡軌跡中的頻繁模式進(jìn)行挖掘,同時(shí)通過(guò)多階馬爾可夫模型在軌跡前綴樹(shù)中確定模型的正確的階數(shù);其次為了提升方法的效率,基于用戶語(yǔ)義相似性和簽到頻率將用戶聚類(lèi)為不同的組,用鄰接簇的信息避免直接降階,根據(jù)用戶當(dāng)前軌跡序列和其歷史軌跡模式,可以得到語(yǔ)義位置預(yù)測(cè)軌跡集合(semantic location prediction trajectory set,SLPset);最后,將用戶訪問(wèn)過(guò)的地點(diǎn)的SLPset 映射到位置類(lèi)別層次語(yǔ)義軌跡前綴樹(shù),算法在SLPset 的用戶評(píng)論信息和群組位置中進(jìn)行挖掘,進(jìn)而將其細(xì)分為不同類(lèi)別.
除了上述4 類(lèi)方法以外,還有綜合采用多種概率模型用于位置預(yù)測(cè)的研究. 文獻(xiàn)[81]采用多種概率模型,將用戶使用的地點(diǎn)詞合并在一起,利用其朋友的地點(diǎn)詞解決未提及足夠地點(diǎn)詞的用戶的位置推斷問(wèn)題.
4.2.2 聚類(lèi)技術(shù)
聚類(lèi)方法的目的是將具有相似空間屬性的對(duì)象分組成簇[97]. 在本節(jié)中,將基于聚類(lèi)對(duì)OSN 中實(shí)現(xiàn)位置預(yù)測(cè)聚的技術(shù)分為3 類(lèi):1)空間聚類(lèi);2)具有噪聲的基于密度的聚類(lèi)算法DBSCAN (density-based spatial clustering of applications with noise);3)概率密度函數(shù).
1) 空間聚類(lèi)
空間聚類(lèi),是對(duì)消息文本中的關(guān)鍵詞生成空間簽名,通過(guò)計(jì)算向量相似度[62]對(duì)關(guān)鍵詞進(jìn)行增量聚類(lèi)的方法. 在對(duì)OSN 位置進(jìn)行預(yù)測(cè)的方法中,多種聚類(lèi)算法都有使用.
文獻(xiàn)[62]中將感興趣區(qū)域建模為具有預(yù)定帶寬的網(wǎng)格,消息文本在基于時(shí)間的滑動(dòng)窗口中處理,地理標(biāo)記的消息文本根據(jù)它們的坐標(biāo)分配給網(wǎng)格單元.根據(jù)歷史使用值識(shí)別當(dāng)前時(shí)間窗口中的突發(fā)關(guān)鍵字,生成該關(guān)鍵字的空間簽名. 該文獻(xiàn)指出,與同一事件相關(guān)的關(guān)鍵字應(yīng)該具有相似的空間簽名[62]. 基于此,文獻(xiàn)[97]采用了一種類(lèi)似于BIRCH 的單程聚類(lèi)算法,可以增量地維護(hù)和更新在先前時(shí)間窗口中檢測(cè)到的聚類(lèi),而無(wú)需提前獲取整個(gè)數(shù)據(jù)集. 為了將事件集群與事件無(wú)關(guān)的事件集群區(qū)分開(kāi)來(lái),還應(yīng)用了集群評(píng)分方案,并在單元大小等于體育場(chǎng)大小的網(wǎng)格系統(tǒng)在足球比賽的定位上驗(yàn)證其算法.
在另一項(xiàng)采用類(lèi)似方法的研究中,文獻(xiàn)[26]根據(jù)城市的GPS 坐標(biāo)將推文分配給網(wǎng)格單元,并使用內(nèi)容中的網(wǎng)格、事件位置術(shù)語(yǔ)以及發(fā)布時(shí)間為每條推文定義特征向量. 然后根據(jù)空間、時(shí)間和主題一致性對(duì)這些特征向量進(jìn)行聚類(lèi).
另外,文獻(xiàn)[98] 采用與POI 相關(guān)的語(yǔ)義連貫的軟聚類(lèi)來(lái)預(yù)測(cè)用戶未來(lái)的簽到位置. 文獻(xiàn)[99]開(kāi)發(fā)了一個(gè)基于社交關(guān)系強(qiáng)度的解決方案,使用局部聚類(lèi)系數(shù)(共同朋友的數(shù)量)加權(quán)關(guān)系. 文獻(xiàn)[100]的方法首先聚類(lèi)地理標(biāo)簽,帖子數(shù)量最多的組被認(rèn)為是“住所集群”,并以集群中各點(diǎn)的幾何中值作為住所坐標(biāo). 采用幾何中值的方法避免了簡(jiǎn)單采用中位數(shù)作為居住地點(diǎn)而忽略了用戶多個(gè)活躍區(qū)域的問(wèn)題. 文獻(xiàn)[101]采用k-means 聚類(lèi)算法對(duì)相關(guān)帖子進(jìn)行信息特征的分組,考慮用戶文本內(nèi)容等多種因素,但更重要的是考慮其時(shí)空細(xì)節(jié). 文獻(xiàn)[102]提出了一種基于模糊C-均值聚類(lèi)算法和自組織映射方法的地理位置預(yù)測(cè)方法PredicTour,該方法可以依據(jù)一定時(shí)間間隔下的用戶打卡歷史記錄及其個(gè)人檔案信息形成的用戶行為模式,對(duì)用戶未來(lái)可能訪問(wèn)的國(guó)家進(jìn)行預(yù)測(cè).
2) DBSCAN
DBSCAN 可以將空間項(xiàng)分組成任意形狀的聚類(lèi)以找到高密度區(qū)域[30,103].DBSCAN 根據(jù)它們彼此之間的距離對(duì)條目進(jìn)行聚類(lèi)[104]. 文獻(xiàn)[105]利用DBSCAN對(duì)Twitter 帖子的地理距離進(jìn)行聚類(lèi),并檢測(cè)帖子密度較高的區(qū)域的聚類(lèi). 給出了Twitter 帖子流中檢索到的帖子列表,通過(guò)分析,確認(rèn)包含相同單詞的帖子是否在空間上彼此接近. 由此產(chǎn)生的帖子集群包含特定的一組單詞,并在一個(gè)地區(qū)具有高密度. 在識(shí)別出空間集群作為潛在的地點(diǎn)區(qū)域之后,該文獻(xiàn)選擇了與某一地點(diǎn)事件相關(guān)的區(qū)域和詞匯,這些區(qū)域和詞匯在一定時(shí)間內(nèi)始終保持活躍狀態(tài).
文獻(xiàn)[106]提出了基于DBSCAN 的擴(kuò)展,稱為基于密度的時(shí)空聚類(lèi),該算法可以識(shí)別消息文本以時(shí)間劃分的簇和以空間劃分的簇,如果2 條消息文本的地理距離(從GPS 坐標(biāo)中獲得)和發(fā)布時(shí)間的差值在指定的閾值范圍內(nèi),則認(rèn)為它們?cè)谝?guī)定的鄰域內(nèi),從而從大量的地理參考文檔中提取熱點(diǎn)區(qū)域. 文獻(xiàn)[107]關(guān)注帶有地理標(biāo)簽的Twitter 帖子,進(jìn)一步擴(kuò)展了基于密度的時(shí)空聚類(lèi)算法,以支持增量和實(shí)時(shí)執(zhí)行. 當(dāng)接收到新的消息文本時(shí),并不是從頭開(kāi)始執(zhí)行整個(gè)聚類(lèi)算法,而是通過(guò)部分重新聚類(lèi)和合并的過(guò)程來(lái)更新受影響的集群. 其算法可以提取熱點(diǎn)區(qū)域和觀測(cè)緊急事件的話題.
3) 概率密度函數(shù)
概率密度函數(shù)是基于過(guò)去的觀測(cè)結(jié)果,用來(lái)估計(jì)給定點(diǎn)的連續(xù)隨機(jī)變量的概率密度[108-109]. 此類(lèi)方法在文本和離散的預(yù)定義的區(qū)域之間建立映射,即可通過(guò)特定的文本去預(yù)測(cè)其地理位置,但此類(lèi)方法一般只能將預(yù)測(cè)精確到訓(xùn)練前指定的范圍較大的區(qū)域,例如國(guó)家或城市. 高斯混合模型(Gaussian mixture model,GMM)和核密度估計(jì)(kernel density estimation,KDE)是2 種成熟而廣泛應(yīng)用的概率密度估計(jì)技術(shù).
GMM 是用高斯概率密度函數(shù)(正態(tài)分布曲線)精確地量化事物,它是一個(gè)將事物分解為若干的基于高斯概率密度函數(shù)(正態(tài)分布曲線)形成的模型.
文獻(xiàn)[21] 提出了統(tǒng)一的判別影響模型,該模型基于社交關(guān)系的概率算法,使用高斯分布來(lái)捕捉節(jié)點(diǎn)的影響. 文獻(xiàn)[110]根據(jù)用戶的興趣對(duì)不同的地理位置進(jìn)行表征并通過(guò)在地理坐標(biāo)上應(yīng)用雙變量高斯分布來(lái)模擬Twitter 數(shù)據(jù),文中提出當(dāng)文本信息與位置信息結(jié)合時(shí)可以提供有價(jià)值的模式. 文獻(xiàn)[111]將用戶的影響建模為以用戶所在位置為中心的高斯分布,將分布的方差解釋為用戶的影響范圍,并將家庭位置預(yù)測(cè)擴(kuò)展到多個(gè)位置分析. 文獻(xiàn)[84]在預(yù)測(cè)用戶的家庭位置問(wèn)題上使用GMM 來(lái)適應(yīng)空間單詞的使用,該模型為了緩解以詞為中心的家庭預(yù)測(cè)方法的數(shù)據(jù)稀疏性,使用高斯或GMM 實(shí)現(xiàn)單詞使用分布的平滑. 同樣,文獻(xiàn)[112]也采用了GMM 進(jìn)行Twitter帖子的位置預(yù)測(cè). 文獻(xiàn)[24]也利用高斯模型對(duì)空間NGram 進(jìn)行建模. 最近,文獻(xiàn)[113]提出了一種結(jié)合文本特征和網(wǎng)絡(luò)特征的GMM 定位預(yù)測(cè)混合方法. 文獻(xiàn)[1]先使用基于GCN 和注意力機(jī)制的方法對(duì)推文中的命名實(shí)體進(jìn)行平滑嵌入,之后采用基于GMM 的模型對(duì)用戶發(fā)布Twitter 帖子的位置進(jìn)行預(yù)測(cè),與其他工作不同,其輸出一個(gè)二元高斯分布的混合,并非以前工作的坐標(biāo).
由于高斯分量的數(shù)量可能在不同的數(shù)據(jù)集上有很大的差異,確定高斯分量的數(shù)量和調(diào)整高斯分量的混合權(quán)重可能會(huì)帶來(lái)額外的挑戰(zhàn). 因此,在估計(jì)概率密度時(shí),KDE 通常被認(rèn)為是GMM 的有力替代.
KDE 是一種統(tǒng)計(jì)分析工具,用于生成非參數(shù)概率密度函數(shù)估計(jì). KDE 是局部核密度估計(jì)的線性組合,其中內(nèi)核的平滑度由以緯度/經(jīng)度為單位的帶寬參數(shù)集 θ控制. 核密度估計(jì)[109,114]是OSN 在地點(diǎn)預(yù)測(cè)過(guò)程中廣泛使用的密度估計(jì)技術(shù)之一.
KDE 對(duì)觀測(cè)數(shù)據(jù)的分布做了不嚴(yán)格的假設(shè),這使得它更適合于任意的數(shù)據(jù)分布[109]. 文獻(xiàn)[115?116]廣泛討論了KDE 相對(duì)于GMM 的優(yōu)點(diǎn). 文獻(xiàn)[115]開(kāi)發(fā)了一種混合KDE 方法,根據(jù)活動(dòng)歷史預(yù)測(cè)個(gè)體的位置. 該文獻(xiàn)計(jì)算了個(gè)體水平、區(qū)域水平和人口水平3 種密度分布的加權(quán)組合,并使用驗(yàn)證數(shù)據(jù)集調(diào)整方法中的參數(shù),為所有用戶應(yīng)用所選值. 文獻(xiàn)[116]利用KDE 建模用戶訪問(wèn)地點(diǎn)的地理分布,以便在基于位置的社交網(wǎng)絡(luò)中提出建議. 文獻(xiàn)[109]解決了基于網(wǎng)格的文本定位模型中的數(shù)據(jù)稀疏性問(wèn)題,并應(yīng)用KDE 平滑區(qū)域內(nèi)的文檔和單詞計(jì)數(shù),以提高估計(jì)的準(zhǔn)確性. 文獻(xiàn)[28] 提出了一種利用KDE 對(duì)Flickr 照片和維基百科文章進(jìn)行地理標(biāo)記的特征選擇技術(shù),該技術(shù)使用核KDE 將每個(gè)術(shù)語(yǔ)建模為地球表面上的2 維概率分布,并在文獻(xiàn)[117]中描述的魯棒擴(kuò)散KDE 方法上進(jìn)行了擴(kuò)展. 在文獻(xiàn)[114] 將KDE 用在地圖上生成可視化圖形. 文獻(xiàn)[28]在基于內(nèi)容的微博定位問(wèn)題中,提出了一個(gè)本地化KDE,它使用信息理論度量,并且不需要對(duì)這些設(shè)置進(jìn)行任何參數(shù)調(diào)優(yōu),此方法會(huì)根據(jù)每個(gè)詞的局部強(qiáng)度分別自動(dòng)確定核帶寬和權(quán)值. 文獻(xiàn)[118]提出了一種基于KDE 的混合框架用于完成社交網(wǎng)絡(luò)用戶賬戶連接任務(wù),并通過(guò)對(duì)該框架的擴(kuò)展,實(shí)現(xiàn)了對(duì)用戶地理位置的預(yù)測(cè).文獻(xiàn)[119]提出了一種基于加權(quán)距離KDE 和張量分解的2 階段從粗到精的POI 推薦算法,第1 階段同時(shí)考慮序列上下文的長(zhǎng)期偏好和人群的偏好來(lái)估計(jì)粗粒度的用戶類(lèi)別興趣,第2 階段設(shè)計(jì)一個(gè)考慮空間距離的加權(quán)KDE 來(lái)確定細(xì)粒度的用戶位置興趣.
4.2.3 矩陣分解
矩陣分解是用戶位置預(yù)測(cè)任務(wù)的一種常用技術(shù),其基本思路是將1 個(gè)用戶位置矩陣分解成2 個(gè)低秩矩陣,分別代表用戶或位置的潛在因素,然后利用2個(gè)向量的內(nèi)積擬合用戶對(duì)候選位置的偏好,從而實(shí)現(xiàn)位置預(yù)測(cè).
已有研究者提出了基于矩陣因子分解,利用用戶的明確反饋(例如評(píng)級(jí))來(lái)建模用戶的偏好,從而有效地預(yù)測(cè)用戶未來(lái)訪問(wèn)地點(diǎn)的方法. 文獻(xiàn)[120]從2 維核密度估計(jì)的角度捕捉空間聚類(lèi)現(xiàn)象,并將空間聚類(lèi)現(xiàn)象無(wú)縫地融合到加權(quán)矩陣分解框架中,這樣用戶對(duì)POI 的偏好就被建模為在向量空間中的內(nèi)積.在此基礎(chǔ)上,文獻(xiàn)[121] 進(jìn)一步提出了一個(gè)可擴(kuò)展、靈活的聯(lián)合地理建模和基于隱式反饋的矩陣分解框架. 文獻(xiàn)[60,122]充分利用用戶文本評(píng)論,提出了一種新的基于矩陣分解的方法來(lái)聯(lián)合建模用戶偏好和場(chǎng)地特征. 在文獻(xiàn)[123]將地理影響量化為用戶和場(chǎng)所之間的簽到概率,然后運(yùn)用矩陣分解模型得到用戶和場(chǎng)所的向量表示. 文獻(xiàn)[124]在早期地理貝葉斯非負(fù)矩陣分解(geographical Bayesian non-negative matrix factorization,Geo-BNMF)構(gòu)想[125]的基礎(chǔ)上,進(jìn)一步開(kāi)發(fā)了Geo-PFM 框架,以捕捉地理對(duì)用戶簽到行為的影響,并有效地模擬用戶移動(dòng)模式,文中證明,當(dāng)用戶簽到數(shù)據(jù)有偏差時(shí)其方法依然有效.
矩陣分解模型聯(lián)合建模多個(gè)實(shí)體方面也被證明是有效的. 文獻(xiàn)[126]聯(lián)合對(duì)用戶內(nèi)容偏好矩陣、用戶空間偏好矩陣和POI 特征矩陣進(jìn)行矩陣分解,提取用戶和POI 影響中的層次結(jié)構(gòu),以實(shí)現(xiàn)細(xì)粒度用戶位置預(yù)測(cè).
近年來(lái),也有研究人員對(duì)矩陣分解模型擴(kuò)展了其適用場(chǎng)景. 其中文獻(xiàn)[127?128]中的3 階張量分解模型和文獻(xiàn)[129]中的跨區(qū)域矩陣分解模型具有代表性.
基于矩陣分解的模型可以獲得最好的預(yù)測(cè)精度.然而,基于矩陣分解的模型通常難以處理訓(xùn)練數(shù)據(jù)中的新用戶或新位置,換言之,它們?cè)诶鋯?dòng)(coldstart)場(chǎng)景[130]中不夠靈活.
近年來(lái),人工智能技術(shù)和計(jì)算機(jī)硬件水平不斷發(fā)展:一方面,隨著自然語(yǔ)言處理方法的不斷改進(jìn)(如詞嵌入),給OSN 位置預(yù)測(cè)問(wèn)題帶來(lái)了新的工具;另一方面,隨著硬件能力的提升,使深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間大大縮短,其實(shí)用性大大增強(qiáng). 因此,越來(lái)越多的研究者嘗試使用深度神經(jīng)網(wǎng)絡(luò)模型來(lái)解決OSN 的位置預(yù)測(cè)問(wèn)題. 本節(jié)將分別介紹傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、典型詞嵌入以及深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)模型和基于圖神經(jīng)網(wǎng)絡(luò)等模型在OSN 用戶位置預(yù)測(cè)上的應(yīng)用.
通常用于從文本中提取地名的文本挖掘技術(shù)是NER 的任務(wù)之一. 此類(lèi)方法基于詞性標(biāo)注對(duì)文本進(jìn)行分析,將某一組詞語(yǔ)標(biāo)注為人、組織或位置等實(shí)體類(lèi)別. 深度學(xué)習(xí)的出現(xiàn)同時(shí)也使NER 的研究重點(diǎn)轉(zhuǎn)向DNN.
4.3.1 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是網(wǎng)絡(luò)層數(shù)量少,往往只有輸入輸出層以及中間的幾個(gè)全連接層,導(dǎo)致模型的擬合度低. 文獻(xiàn)[131]使用了一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其包含完全連接的層和平均池化過(guò)程,將一個(gè)帖子或一個(gè)用戶分類(lèi)到一個(gè)城市. 文獻(xiàn)[132]使用帶有一個(gè)隱含層的多層感知器(multilayer perceptron,MLP)來(lái)分類(lèi)用戶的家庭位置. 文獻(xiàn)[133]利用神經(jīng)網(wǎng)絡(luò)模型和混合密度網(wǎng)絡(luò)將2 維地理標(biāo)簽轉(zhuǎn)換為連續(xù)向量空間輸入. 文獻(xiàn)[134]將用戶友誼信息編碼成神經(jīng)網(wǎng)絡(luò)模型. 與其他研究不同的是,該文獻(xiàn)將聯(lián)網(wǎng)的用戶和他們所在的城市分開(kāi),分別分配用戶嵌入和城市嵌入. 采用注意力機(jī)制添加用戶和城市嵌入信息,以獲得對(duì)家庭位置預(yù)測(cè)的有用信息. 文獻(xiàn)[135]提出基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法,該方法在大量未標(biāo)記的訓(xùn)練數(shù)據(jù)上學(xué)習(xí)內(nèi)部表示,同時(shí)該方法中每個(gè)單詞具有固定大小的窗口,但沒(méi)有考慮長(zhǎng)距離單詞之間的有效信息.
還有研究者將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型與其他技術(shù)相結(jié)合對(duì)用戶位置進(jìn)行預(yù)測(cè). 文獻(xiàn)[136]采用神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)文本的位置,結(jié)合GMM,利用由消息文本內(nèi)容提供的卷積混合密度網(wǎng)絡(luò)來(lái)估計(jì)GMM 的參數(shù),并將估計(jì)的密度的模態(tài)值作為文本位置的預(yù)測(cè)坐標(biāo),文中還指出不同的損失函數(shù)確實(shí)會(huì)影響模型的性能.
4.3.2 典型詞嵌入模型
詞嵌入(word embedding)就是將詞匯表示嵌入到一個(gè)低維空間中,便于計(jì)算機(jī)理解和處理. 其優(yōu)勢(shì)之一是它在識(shí)別非常規(guī)詞匯方面的靈活性(這在OSN上很常見(jiàn)),因?yàn)閱卧~之間的相似性檢查可以用來(lái)識(shí)別關(guān)鍵詞列表中列出的實(shí)體[56]. 目前的研究表明,詞嵌入技術(shù),特別是Word2Vec[136]和Doc2Vec[137]等詞嵌入技術(shù)被證明能夠有效地捕捉到項(xiàng)目,如句子中的詞、軌跡序列中的軌跡點(diǎn)等之間相互作用的語(yǔ)言規(guī)律. 受最近自然語(yǔ)言處理和文本挖掘中詞匯嵌入的成功案例的啟發(fā),許多研究嘗試應(yīng)用詞嵌入模型來(lái)推斷位置嵌入,即OSN 中位置的向量表示[132,138].
文獻(xiàn)[132]采用對(duì)給定用戶的推文內(nèi)容的l2標(biāo)準(zhǔn)化詞袋(bag of words)表示作為輸入,輸出是由k-d 樹(shù)或k-means 生成的預(yù)定義離散化區(qū)域. 文獻(xiàn)[139]采用基于自然語(yǔ)言處理的混合詞嵌入模型進(jìn)行語(yǔ)義理解,并結(jié)合余弦相似度和Jaccard 相似度度量進(jìn)行特征向量提取和降維. 文獻(xiàn)[140]介紹了用于分析任何語(yǔ)言文本的Unicode 卷積神經(jīng)網(wǎng)絡(luò),并在字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)中加入了一種新的字符嵌入和語(yǔ)言估計(jì)器.文獻(xiàn)[141]采用Word2Vec 技術(shù)中流行的Skip-gram 模型,通過(guò)將采樣序列中的每個(gè)地點(diǎn)作為一個(gè)單詞來(lái)學(xué)習(xí)低維向量空間中的位置嵌入. 文獻(xiàn)[53]采用字符感知的詞嵌入層處理噪聲文本并捕獲詞匯表外的詞,并利用變分器編碼器,學(xué)習(xí)了不同特征字段之間的相關(guān)性. 文獻(xiàn)[138]測(cè)試了單詞嵌入、字符嵌入等特征對(duì)分類(lèi)結(jié)果的影響,提出了一種帶有條件隨機(jī)場(chǎng)(conditional random fields,CRF)層的雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別社交媒體信息中的地理實(shí)體,特別是很少知道的局部位置,并探索了使用正字法、語(yǔ)義和句法特征來(lái)獲得最佳性能的方法. 文獻(xiàn)[20]提出了一個(gè)新的隱含表示模型POI2Vec,該方法能夠結(jié)合地理影響,并聯(lián)合建模用戶偏好和POI 順序轉(zhuǎn)移影響的方法,以預(yù)測(cè)特定POI 的潛在訪問(wèn)者.
典型詞嵌入模型雖然被廣泛研究,但也存在一定的缺陷. 現(xiàn)有的詞嵌入模型不能很好地對(duì)本地時(shí)間上下文進(jìn)行建模;另外,由于典型詞嵌入模型中的參數(shù)數(shù)量通常非常大,框架通常是不可分割的,即使采用隨機(jī)梯度下降(stochastic gradient descent,SGD)優(yōu)化,依然存在計(jì)算成本較高的問(wèn)題.
4.3.3 深度神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)的機(jī)器學(xué)習(xí)模型的輸出和輸入之間只能學(xué)習(xí)到一個(gè)線性關(guān)系,因此只能用于2 元分類(lèi),且無(wú)法學(xué)習(xí)比較復(fù)雜的非線性模型,因此在實(shí)際應(yīng)用中可用性不強(qiáng). 而深度神經(jīng)網(wǎng)絡(luò)模型則在感知機(jī)的基礎(chǔ)上做了擴(kuò)展,加入了隱藏層,多層的好處是可以用較少的參數(shù)表示復(fù)雜的函數(shù),同時(shí)輸出層的神經(jīng)元也可以有多個(gè)輸出. 近幾年,在OSN 用戶位置預(yù)測(cè)領(lǐng)域,深度學(xué)習(xí)取得了有效的發(fā)展. 文獻(xiàn)[142]使用深層回歸神經(jīng)網(wǎng)絡(luò)(deep neural network for regression,DNN-R),負(fù)責(zé)從多個(gè)位置記錄中選擇一個(gè)用戶家庭位置軌跡;深層神經(jīng)網(wǎng)絡(luò)分類(lèi)(deep neural network for classification,DNN-C),用于選擇批準(zhǔn)或拒絕選擇記錄,從而控制預(yù)測(cè)家庭位置的數(shù)據(jù)子集.
1) 基于RNN 及其變體的方法
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)是一種適合序列分類(lèi)的方法,能夠?qū)⒁粋€(gè)節(jié)點(diǎn)的輸出傳遞給它的后繼節(jié)點(diǎn),這可以理解為一個(gè)單詞對(duì)后續(xù)單詞的影響. 與傳統(tǒng)方法相比,RNN 在自然語(yǔ)言處理中表現(xiàn)出了更好的性能,一些研究成功地將基于RNN 的模型應(yīng)用于用戶位置預(yù)測(cè)[134,138]. 文獻(xiàn)[134]擴(kuò)展了文獻(xiàn)[131]中的方法,按時(shí)間順序?qū)τ脩舻南⑦M(jìn)行排序,并應(yīng)用序列RNN 模型對(duì)內(nèi)容進(jìn)行編碼.
RNN 中的過(guò)去輸入與當(dāng)前輸入一起處理,以產(chǎn)生一種臨時(shí)記憶形式,這種形式在處理順序信息時(shí)有效. 然而RNN 由于短時(shí)記憶難以處理長(zhǎng)序列、反向傳播過(guò)程中的梯度消失等缺點(diǎn),研究人員開(kāi)發(fā)了更多的RNN 變體,其中就包括LSTM.自然地,研究者也在進(jìn)行將LSTM 應(yīng)用于用戶地理位置預(yù)測(cè)的任務(wù)中.
LSTM 是一種特殊的RNN,它在長(zhǎng)序列上表現(xiàn)得更好. LSTM 采用一種門(mén)機(jī)制來(lái)控制神經(jīng)網(wǎng)絡(luò)中的信息流. 因此,文獻(xiàn)[138]提出了一種帶有條件隨機(jī)場(chǎng)層的雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型(bidirectional -long short-term memory,BiLSTM)來(lái)識(shí)別社交媒體信息中的地理實(shí)體,特別是很少被人知道的局部位置.文獻(xiàn)[53]利用BiLSTM 模型學(xué)習(xí)了不同特征字段之間的相關(guān)性,并輸出了2 種分類(lèi)表示,分別用于國(guó)家和城市的預(yù)測(cè). 該模型首先計(jì)算國(guó)家層面的預(yù)測(cè),并進(jìn)一步用于指導(dǎo)城市層面的預(yù)測(cè). 文獻(xiàn)[37]使用卷積LSTM 模型將用戶生成的內(nèi)容及其相關(guān)位置視為序列,采用雙向LSTM 和卷積運(yùn)算進(jìn)行位置推斷. 文獻(xiàn)[143]采用了帶有條件隨機(jī)場(chǎng)輸出層的雙向長(zhǎng)短時(shí)記憶(BiLSTM-CRF)訓(xùn)練POI 識(shí)別器,用于微博中的細(xì)粒度位置識(shí)別和鏈接. 文獻(xiàn)[144] 首先使用了HiSpatialCluster 算法從打卡地點(diǎn)中識(shí)別出CA(clustering areas),再使用LINE(large-scale information network embedding)取得CA 的向量表示,最后使用BiLSTMCNN(convolutional neural network)進(jìn)行地理位置預(yù)測(cè).文獻(xiàn)[145]提出了基于LSTM 的人類(lèi)地理位置預(yù)測(cè)模型,該模型在社交網(wǎng)絡(luò)中,依據(jù)社交關(guān)系預(yù)測(cè)其位置,并將結(jié)果用于移動(dòng)城市傳感器網(wǎng)絡(luò)的路由協(xié)議設(shè)計(jì)中. 文獻(xiàn)[146]提出了一種基于BiLSTM-CNN 的架構(gòu),可以自動(dòng)檢測(cè)單詞和字符級(jí)別的特征. 該技術(shù)在結(jié)構(gòu)化良好的句子和知名地點(diǎn)上表現(xiàn)良好,但OSN 中帖子的文本通常以非正式或隨機(jī)的格式寫(xiě)入,產(chǎn)生地理或非地理歧義,從而導(dǎo)致NER 的方法在從社交媒體中提取地理實(shí)體上表現(xiàn)不佳.
2) 基于CNN 的方法
由于RNN 適用于順序或長(zhǎng)文本數(shù)據(jù). 而OSN 的消息文本中有短句,這有利于使用CNN 而不是RNN.使用CNN 的原因是卷積層可以自動(dòng)學(xué)習(xí)輸入數(shù)據(jù)的更好表示,然后全連接層可以利用這些輸入表示來(lái)識(shí)別位置.
文獻(xiàn)[147]訓(xùn)練了一個(gè)基于CNN 的系統(tǒng),將消息文本表示為正常的句子,并突出顯示包含位置信息的單詞并將之提取. 文獻(xiàn)[148]使用CNN 將文本和用戶資料信息元數(shù)據(jù)集成到單個(gè)模型中,實(shí)驗(yàn)顯示其優(yōu)于堆疊樸素貝葉斯分類(lèi)器的性能. 字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)目前已經(jīng)成功應(yīng)用于只包含英語(yǔ)或有限數(shù)量的歐洲語(yǔ)言的文本語(yǔ)料中,但不能直接應(yīng)用于可能出現(xiàn)多種語(yǔ)言的OSN 平臺(tái)文字分析中.
統(tǒng)一字符編碼標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)(Unicode-CNN)用于分析多語(yǔ)言社交媒體的文本. 該模型直接從輸入文本中的Unicode 字符生成特性,不需要標(biāo)記、詞干提取或其他預(yù)處理. 文獻(xiàn)[140] 探索了Unicode-CNN 在Twitter 帖子內(nèi)容的地理定位任務(wù)中的有效性,提出的UnicodeCNN 可以將任何Unicode 字符串作為輸入,理論上能用于所有語(yǔ)言.
3) 注意力機(jī)制
基于CNN 方法的主要思想是通過(guò)使用許多不同長(zhǎng)度的過(guò)濾器來(lái)捕獲一些特定的的文本. 但由于卷積核濾波器的長(zhǎng)度限制,CNN 只善于處理局部信息建模. 為了捕獲更全面的信息,一些研究者們開(kāi)始采用注意力機(jī)制[149]來(lái)實(shí)現(xiàn)OSN 的用戶位置預(yù)測(cè). 注意力機(jī)制同時(shí)擁有RNN 和CNN 的優(yōu)點(diǎn),可以對(duì)所有文本進(jìn)行并行計(jì)算.
文獻(xiàn)[103] 在文獻(xiàn)[150] 的基礎(chǔ)上,將注意力機(jī)制改為變分注意力,同時(shí)使用軌跡CNN 來(lái)學(xué)習(xí)歷史移動(dòng)性,與經(jīng)常使用的RNN 相比,效率得到了更多的提升. 文獻(xiàn)[53]從文本嵌入向量中提取位置特征之后,使用單詞級(jí)的注意層來(lái)生成這些文本字段的表示向量. 文獻(xiàn)[151]提出了一個(gè)用于文本表示的多頭自注意力模型,為了進(jìn)一步提高對(duì)非正式語(yǔ)言的識(shí)別效果,其將子詞(subword)作為模型的一個(gè)特征.然后,該模型將城市和鄉(xiāng)村數(shù)據(jù)聯(lián)合用于訓(xùn)練,以整合來(lái)自不同標(biāo)簽的信息. 文獻(xiàn)[152]提出了一種基于注意力機(jī)制的聯(lián)合深度學(xué)習(xí)算法,該算法可在用戶及與其有交互的節(jié)點(diǎn)組成的異構(gòu)網(wǎng)絡(luò)中捕捉語(yǔ)義元路徑,以進(jìn)行細(xì)粒度的位置信息預(yù)測(cè),特別地,文中還采用了Pairwise Learning 的方法對(duì)預(yù)測(cè)過(guò)程進(jìn)行了優(yōu)化. 文獻(xiàn)[153]設(shè)計(jì)了一種時(shí)空自注意力網(wǎng)絡(luò),基于自注意力機(jī)制,結(jié)合用戶軌跡的時(shí)空信息實(shí)現(xiàn)對(duì)用戶的動(dòng)態(tài)軌跡進(jìn)行預(yù)測(cè). 該模塊由3 個(gè)部分構(gòu)成:地點(diǎn)注意力模塊,通過(guò)自注意力機(jī)制捕捉位置序列遷移;空間注意力模塊,捕捉用戶對(duì)地理位置的偏好;時(shí)間注意力模塊,捕獲用戶活動(dòng)時(shí)間偏好. 最終通過(guò)真實(shí)世界的社交網(wǎng)絡(luò)打卡數(shù)據(jù)集,驗(yàn)證了時(shí)空信息確實(shí)能夠顯著提升模型的性能. 文獻(xiàn)[154]提出了一種基于注意力機(jī)制的雙向門(mén)控循環(huán)單元模型,該模型可以用于預(yù)測(cè)POI 種類(lèi)而非預(yù)測(cè)精確的POI,文中提出模糊的POI 種類(lèi)比精確的POI 更能反映用戶的興趣,實(shí)驗(yàn)證明該模型能夠減輕數(shù)據(jù)系數(shù)問(wèn)題并保護(hù)用戶的位置隱私. 另外,由于引入了注意力機(jī)制有選擇地關(guān)注歷史打卡記錄,也使得模型的可解釋性得到了改進(jìn).
4.3.4 圖神經(jīng)網(wǎng)絡(luò)
真實(shí)生活中,非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)普遍存在,例如,社交網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、化學(xué)分子結(jié)構(gòu)和知識(shí)圖譜等. 語(yǔ)言文本的內(nèi)部實(shí)際上是復(fù)雜的樹(shù)狀結(jié)構(gòu),它也是一種圖結(jié)構(gòu),而RNN 和CNN 很難有效處理此類(lèi)型的數(shù)據(jù). 最近2 年,隨著圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)日益發(fā)展,用GNN 來(lái)處理位置預(yù)測(cè)的方法也逐漸顯露頭角[155-156]. 基于GNN 的熱度與重要性,本節(jié)將基于GNN 的方法單獨(dú)進(jìn)行介紹.
文獻(xiàn)[157]提出了一種新的基于GNN 并使用多方注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)(multiple-aspect attention graph neural network, MAGNN). MAGNN 是一個(gè)多視圖的用戶地理位置(user geolocation,UG)模型,為可解釋的地理定位捕獲語(yǔ)言和交互信息. 該模型將文本內(nèi)容和社交網(wǎng)絡(luò)統(tǒng)一起來(lái),其注意機(jī)制能夠從多個(gè)來(lái)源的數(shù)據(jù)中獲取多方面的信息,這使得MAGNN易于歸納,適應(yīng)少數(shù)標(biāo)簽的場(chǎng)景. 為了解決過(guò)去方法進(jìn)行地理位置檢測(cè)時(shí)的網(wǎng)絡(luò)表示學(xué)習(xí)中的位置不可知以及使用平面圖嵌入時(shí)的噪聲和不穩(wěn)定的用戶關(guān)系融合問(wèn)題,文獻(xiàn)[158]提出了一種層次化圖神經(jīng)網(wǎng)絡(luò)方法HGNN. 該方法將結(jié)構(gòu)和區(qū)域特征使用層次圖學(xué)習(xí)進(jìn)行編碼,結(jié)合了用戶的地理位置信息和區(qū)域聚集效應(yīng),并且在保持其相對(duì)位置的同時(shí)捕捉了拓?fù)潢P(guān)系;不僅利用了以前方法中無(wú)用的孤立節(jié)點(diǎn)的信息,而且還捕獲了未標(biāo)記節(jié)點(diǎn)和標(biāo)記子圖之間的關(guān)系;還提出了一種魯棒的統(tǒng)計(jì)方法,使其模型的行為和輸出具有可解釋性,克服了以往的模型將用戶地理定位看成一個(gè)“黑盒子”而無(wú)法解釋的缺陷.
文獻(xiàn)[159] 提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)[155]的模型,并同時(shí)使用了文本特征和網(wǎng)絡(luò)特征用于預(yù)測(cè),提升了預(yù)測(cè)精度. 文獻(xiàn)[6]采用了圖卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)用戶在一段時(shí)間內(nèi)關(guān)于用戶已知和未知地理位置的模型,從而預(yù)測(cè)其位置. 文獻(xiàn)[39]利用GCN 中的卷積和池化操作來(lái)學(xué)習(xí)社交網(wǎng)絡(luò)的結(jié)構(gòu)表示,從而實(shí)現(xiàn)了最佳的地理定位性能. 興趣相似的異地用戶也可以互相提及或關(guān)注,大多數(shù)現(xiàn)有的方法都沒(méi)有完全過(guò)濾與用戶地理屬性無(wú)關(guān)的用戶關(guān)系,而這些關(guān)系可能會(huì)影響位置推斷的準(zhǔn)確性. 因此,文獻(xiàn)[160]提出了一種基于表示學(xué)習(xí)和標(biāo)簽傳播的Twitter 用戶位置預(yù)測(cè)方法. 該方法充分結(jié)合了異構(gòu)關(guān)系,有效過(guò)濾了與用戶地理屬性無(wú)關(guān)的關(guān)系,并學(xué)習(xí)了準(zhǔn)確表示用戶地理屬性特征的向量. 文獻(xiàn)[1]提出了一種對(duì)Twitter用戶地理位置進(jìn)行預(yù)測(cè)的框架EDGE,該框架對(duì)推文中提及的命名實(shí)體,提出了一種基于GCN 的實(shí)體擴(kuò)散機(jī)制(entity diffusion mechanism),對(duì)從用戶自我中心網(wǎng)絡(luò)上提取的稱之為entity2vec 的實(shí)體嵌入進(jìn)行了平滑處理,從而輸出準(zhǔn)確性高且可解釋的預(yù)測(cè)結(jié)果.文獻(xiàn)[161] 提出了一種在聯(lián)合模型中兼顧個(gè)體偏好和群體決策的新方法預(yù)測(cè)模型. 該模型利用GCN 和注意力機(jī)制構(gòu)建了一個(gè)混合深度架構(gòu),提取群體偏好和個(gè)人偏好之間的聯(lián)系,然后分別捕捉每個(gè)用戶對(duì)群體決策的影響.
文獻(xiàn)[162]提出了一種基于層次結(jié)構(gòu)化的Transformer 網(wǎng)絡(luò),用來(lái)進(jìn)行細(xì)粒度的空間事件預(yù)測(cè),有研究者認(rèn)為T(mén)ransformer 是一種圖神經(jīng)網(wǎng)絡(luò)模型[163],可克服傳統(tǒng)方法帶來(lái)的性能低問(wèn)題.
總的來(lái)說(shuō),采用深度學(xué)習(xí)的方法,特別是神經(jīng)嵌入的方法,由于非線性轉(zhuǎn)換和注意機(jī)制,該方法提供了相對(duì)更好的性能. 雖然研究者可以定量地衡量各種模型的預(yù)測(cè)能力,甚至可以根據(jù)預(yù)測(cè)性能對(duì)模型進(jìn)行定性的排序,但這些模型之間的數(shù)值差異不是很大. 另外,并不是所有的深度學(xué)習(xí)模型都能實(shí)現(xiàn)比傳統(tǒng)方法更有效的預(yù)測(cè)結(jié)果.
為了與前述章節(jié)在邏輯上保持一致,本節(jié)分別從論文對(duì)應(yīng)的預(yù)測(cè)粒度、輸入數(shù)據(jù)類(lèi)型、任務(wù)類(lèi)型、數(shù)據(jù)集、數(shù)學(xué)模型和評(píng)價(jià)指標(biāo)6 個(gè)方面對(duì)每篇文獻(xiàn)進(jìn)行闡述. 對(duì)于預(yù)測(cè)粒度,本文使用POI、坐標(biāo)或城市等來(lái)表示文獻(xiàn)所針對(duì)的粒度.
與文獻(xiàn)[12]中的分類(lèi)方法不同,本文將OSN 用戶位置預(yù)測(cè)劃分為地名詞典方法、傳統(tǒng)機(jī)器學(xué)習(xí)的方法以及現(xiàn)在基于深度神經(jīng)網(wǎng)絡(luò)的方法,并且本文加入了最近幾年新興的模型和訓(xùn)練思路,例如,圖卷積神經(jīng)網(wǎng)絡(luò)、多頭注意力機(jī)制以及自然語(yǔ)言中最新的嵌入處理等.
在使用的模型中,最早使用的是基于地名詞典的方法,使用地名詞典的方法對(duì)語(yǔ)法的完全忽視可能會(huì)限制地理解析的性能. 隨后興起的是傳統(tǒng)機(jī)器學(xué)習(xí)方法,其利用一系列概率方法和聚類(lèi)技術(shù)在位置預(yù)測(cè)中取得了良好的結(jié)果.
在使用概率的方法中,第1 種是最大似然估計(jì),通過(guò)利用訓(xùn)練數(shù)據(jù)計(jì)算后驗(yàn)概率來(lái)選擇一組選項(xiàng)中的一個(gè)位置,該算法依賴于文本處理技術(shù)來(lái)識(shí)別推文中提到的位置名稱. 第2 種是基于EM 的位置預(yù)測(cè)技術(shù),該方法額外利用事件、用戶和地標(biāo)之間的密切關(guān)系來(lái)抵抗信息擴(kuò)散和人口異質(zhì)性的影響. 第3 種是基于濾波器的預(yù)測(cè)方法,該方法使用推文中的經(jīng)緯度信息并將位置預(yù)測(cè)為一個(gè)點(diǎn). 這種方法不需要訓(xùn)練、人工監(jiān)督、文本分析或有關(guān)該區(qū)域的先驗(yàn)信息.第4 種是基于馬爾可夫模型進(jìn)行位置預(yù)測(cè).FPMC 作為馬爾可夫鏈的延伸,假設(shè)因素間存在很強(qiáng)的獨(dú)立性,且FPMC 不能用于建模多個(gè)組件之間的關(guān)系,所以難以捕捉到因素之間的聯(lián)系.
在聚類(lèi)技術(shù)中,信息特征的聚類(lèi)是將區(qū)域建模為網(wǎng)格,預(yù)測(cè)結(jié)果表示為網(wǎng)格中的一個(gè)單元格. 該技術(shù)使用帖子與在一段時(shí)間內(nèi)收集的坐標(biāo)來(lái)生成空間特征,因此可以認(rèn)為它對(duì)在線執(zhí)行有一定的支持能力;另外,該技術(shù)還需要適度的監(jiān)督來(lái)確定算法中的閾值,它不需要關(guān)于位置的廣泛知識(shí)庫(kù),但應(yīng)該事先知道感興趣的區(qū)域并將其建模為網(wǎng)格. 另一種空間聚類(lèi)技術(shù)DBSCAN 需要適度的監(jiān)督來(lái)設(shè)置閾值. 每次從在線的推文流中收到新推文時(shí),運(yùn)行DBSCAN可能不切實(shí)際,但DBSCAN 可能會(huì)定期執(zhí)行以實(shí)現(xiàn)最近實(shí)時(shí)的位置預(yù)測(cè). 核密度估計(jì)通常是對(duì)帖子進(jìn)行回顧性地分析,以獲得推文在感興趣區(qū)域分布的平滑可視化,根據(jù)興趣區(qū)域和目標(biāo)事件類(lèi)型定義帶寬 θ和核函數(shù)H.
近年來(lái),基于地名詞典的方法仍然被使用,如文獻(xiàn)[3]使用基于地名詞典的方法來(lái)推斷2019 年出現(xiàn)冠狀病毒(COVID-19)的地理位置,從而可以統(tǒng)計(jì)各個(gè)地方疫情的嚴(yán)重程度,同時(shí)減少人們?nèi)ヒ咔楸┌l(fā)地區(qū)的風(fēng)險(xiǎn). 隨著深度學(xué)習(xí)的流行,命名實(shí)體識(shí)別從最初的基于字典到方法到現(xiàn)在基于深度學(xué)習(xí)的方法得到了全新的發(fā)展,例如文獻(xiàn)[164] 使用BiLSTMCNN 的架構(gòu)對(duì)實(shí)體進(jìn)行提取,使命名實(shí)體識(shí)別的效果得到了很大的提升,BiLSTM-CNN 提取了地名實(shí)體之后首先要解決的是地理實(shí)體消歧,因?yàn)橛械拿~指代的可能是人名,也有可能是地名. 文獻(xiàn)[165]利用SVM 來(lái)聯(lián)合優(yōu)化提及地理位置的識(shí)別和歧義消除,識(shí)別特征(例如大小寫(xiě))和消歧特征(例如實(shí)體流行度)都被集成來(lái)訓(xùn)練SVM.另外,用戶之間的友誼、上下文信息以及時(shí)間戳也可以用來(lái)消除歧義,文獻(xiàn)[166]采用了一種增量消歧的方法,該方法以文獻(xiàn)[167]為基礎(chǔ)系統(tǒng)地對(duì)大量推文進(jìn)行預(yù)處理,這種預(yù)處理能夠預(yù)測(cè)基于OSN 的用戶感興趣的實(shí)體. 文獻(xiàn)[72]在研究中利用時(shí)間戳來(lái)消除歧義,并觀察到工作日的凌晨2 點(diǎn)至凌晨5 點(diǎn)之間的Twitter 帖子流量最低,當(dāng)有多個(gè)候選位置(如悉尼、東京)時(shí),會(huì)仔細(xì)選擇一個(gè)地點(diǎn)以避免將時(shí)間戳放在低流量窗口中的時(shí)區(qū). 同時(shí)對(duì)獲取到的數(shù)據(jù)采用詞嵌入的方式進(jìn)行降維處理,能更好地提取到詞與詞之間不同的特征.
在深度學(xué)習(xí)的方法中,早期方法使用基于RNN的模型來(lái)預(yù)測(cè)地理位置[168-169],但RNN 由于短時(shí)記憶的特點(diǎn)而難以處理長(zhǎng)序列信息,且存在消失梯度問(wèn)題,因此研究人員開(kāi)發(fā)了RNN 變體,如GRU,BRNN,LSTM,并取得了一定的效果. 在實(shí)際情況下,OSN 帖子中文本有短句的特點(diǎn),而這3 個(gè)RNN 模型適用于順序或長(zhǎng)文本數(shù)據(jù),因此有的學(xué)者利用CNN 來(lái)學(xué)習(xí)輸入數(shù)據(jù)的表示,因?yàn)楹玫谋硎緦W(xué)習(xí)對(duì)后續(xù)的位置預(yù)測(cè)更有利. 但由于卷積核濾波器的長(zhǎng)度限制,CNN在全局信息建模方面效果不佳. 為了捕獲更全面的信息,一些研究者們開(kāi)始采用注意力機(jī)制[149]來(lái)實(shí)現(xiàn)用戶的位置預(yù)測(cè). 同時(shí),社交媒體數(shù)據(jù)中的非結(jié)構(gòu)化特點(diǎn)以及GNN 對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理的優(yōu)勢(shì)促使研究者基于GNN 解決OSN 中的位置預(yù)測(cè)問(wèn)題. GNN也有很多經(jīng)過(guò)改進(jìn)的模型,例如,簡(jiǎn)化的圖神經(jīng)網(wǎng)絡(luò)(simplifying graph convolutional networks,SGC)、GCN和MAGNN 等被應(yīng)用于位置預(yù)測(cè)研究中.
從模型算法的應(yīng)用角度,本文所綜述的文章可以分為5 個(gè)主要的應(yīng)用領(lǐng)域:
1) 基于位置的推薦及個(gè)性化廣告推送
通過(guò)預(yù)測(cè)用戶發(fā)出的帖子的位置,估計(jì)其喜好,從而對(duì)其進(jìn)行個(gè)性化廣告推送以及地點(diǎn)的推送,例如推薦的餐館等. 文獻(xiàn)[32]基于LBSNs 上的用戶發(fā)布的內(nèi)容對(duì)其進(jìn)行POIs 推薦. 文獻(xiàn)[37] 提出對(duì)Tweeter 時(shí)間線上的非地理標(biāo)記推文進(jìn)行位置推理,其結(jié)果可以為諸如位置感知推薦系統(tǒng)和本地具有影響力的用戶搜索提供支持. 文獻(xiàn)[170]中指出通過(guò)準(zhǔn)確預(yù)測(cè)用戶的精確場(chǎng)所,可提升基于位置廣告推薦的準(zhǔn)確程度. 文獻(xiàn)[171]指出,在LBSNs 中對(duì)用戶的下一步位置進(jìn)行預(yù)測(cè)可以提升定向營(yíng)銷(xiāo)的效果,例如用戶下一步可能去電影院,那么向其推薦電影票將大概率會(huì)取得效果. 此類(lèi)應(yīng)用也是位置預(yù)測(cè)的主要應(yīng)用場(chǎng)景.
2) 事件動(dòng)力學(xué)分析
通過(guò)對(duì)特定關(guān)鍵詞或標(biāo)記過(guò)的帖子信息進(jìn)行研究,推斷與之相關(guān)的位置來(lái)研究特定事件的傳播過(guò)程,可為有效控制事件傳播提供支持. 基于社交媒體內(nèi)容的位置預(yù)測(cè),是人類(lèi)動(dòng)力學(xué)分析研究的重要部分[133]. 文獻(xiàn)[1] 提出EDGE 模型,并根據(jù)特定沒(méi)有地理位置標(biāo)簽的推文(Twitter 用戶發(fā)布的帖子)的混合概率分布預(yù)測(cè)其位置;通過(guò)預(yù)測(cè)一組不含地理位置標(biāo)簽的特定推文的可能位置,從而以實(shí)時(shí)的方式研究事件發(fā)展的動(dòng)態(tài)性.
3) 災(zāi)難應(yīng)急響應(yīng)的資源調(diào)度
通過(guò)對(duì)社交網(wǎng)絡(luò)上的實(shí)時(shí)事件信息,如對(duì)地震、傳染病流行[132]進(jìn)行監(jiān)測(cè)[88,134],對(duì)推文相關(guān)的地理位置進(jìn)行預(yù)測(cè),管理機(jī)構(gòu)可以在第一時(shí)間得知發(fā)生自然災(zāi)害或?yàn)?zāi)難事件的地理位置,從而在第一時(shí)間有目的性地對(duì)救災(zāi)資源進(jìn)行調(diào)配[172-173]. 在這種情況下,往往不需要細(xì)粒度的預(yù)測(cè)方法. 文獻(xiàn)[174]提出通過(guò)一個(gè)用戶的多條推文的文本內(nèi)容對(duì)用戶進(jìn)行城市級(jí)的位置預(yù)測(cè),其預(yù)測(cè)結(jié)果可為災(zāi)難應(yīng)急響應(yīng)的物資調(diào)度提供幫助.
4) 人類(lèi)移動(dòng)模式研究
文獻(xiàn)[150]提出的DeepMove 模型可以對(duì)長(zhǎng)而稀疏的移動(dòng)軌跡進(jìn)行預(yù)測(cè)并提供了直觀解釋,有助于可解釋地理解人類(lèi)的移動(dòng)模式預(yù)測(cè),并提出其預(yù)測(cè)結(jié)果是智能交通、城市規(guī)劃和資源管理等下游應(yīng)用的重要基礎(chǔ). 文獻(xiàn)[128]對(duì)社交網(wǎng)絡(luò)的用戶時(shí)空特性進(jìn)行建模,達(dá)到理解個(gè)人或特定用戶群組行為特征的目的,最終可以應(yīng)用于基于POI 的推薦系統(tǒng)中. 文獻(xiàn)[175]提出,通過(guò)對(duì)一系列位置感知服務(wù)產(chǎn)生的數(shù)據(jù)(GPS 軌跡、WiFi 記錄、移動(dòng)電話日志等數(shù)據(jù))進(jìn)行挖掘,從而對(duì)用戶行為預(yù)測(cè),為研究人類(lèi)移動(dòng)行為帶來(lái)了“前所未有”的可能. 文獻(xiàn)[96]指出移動(dòng)位置預(yù)測(cè)隨著LBSNs 的普及,成為了研究人類(lèi)移動(dòng)模式的重要手段;而這些人類(lèi)行為模式,亦可應(yīng)用于好友推薦、基于位置的廣告、城市規(guī)劃、公共交通系統(tǒng)規(guī)劃管理和通用導(dǎo)航服務(wù)等領(lǐng)域.
5) 本地化搜索及事件檢測(cè)
文獻(xiàn)[27]提出了在基于圖片的社交媒體中對(duì)用戶的地理位置進(jìn)行預(yù)測(cè),并指出此類(lèi)任務(wù)對(duì)社交系統(tǒng)上“感知位置的圖片搜索”(location-aware image search)至關(guān)重要. 文獻(xiàn)[176]中提到地理位置預(yù)測(cè)是支持本地化搜索及本地化事件檢測(cè)的重要應(yīng)用,并提出了基于地點(diǎn)標(biāo)識(shí)詞檢測(cè)的方法.
在本節(jié)中,對(duì)基于OSN 數(shù)據(jù)的用戶位置預(yù)測(cè)的現(xiàn)有方法進(jìn)行了歸納整理,如表1 所示.
表1(續(xù))
本文回顧了目前提出的用于OSN 用戶位置預(yù)測(cè)技術(shù)的最新進(jìn)展. 這些技術(shù)可以應(yīng)用于許多領(lǐng)域,包括市場(chǎng)營(yíng)銷(xiāo)、消費(fèi)者用戶分析和廣告定位等. 雖然現(xiàn)有的方法取得了一定的成果,但并未解決所有的問(wèn)題. 未來(lái)可以在數(shù)據(jù)融合挖掘、復(fù)合模型、因果推斷的結(jié)合3 個(gè)方向進(jìn)行改進(jìn).
目前大多數(shù)的預(yù)測(cè)方法主要側(cè)重于挖掘單一平臺(tái)的單一類(lèi)型數(shù)據(jù),如只在Twitter 上進(jìn)行數(shù)據(jù)挖掘,或只針對(duì)文本數(shù)據(jù)或簽到數(shù)據(jù)進(jìn)行數(shù)據(jù)分析等. 而在真實(shí)世界中,LBSN 中的數(shù)據(jù)面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,導(dǎo)致位置預(yù)測(cè)效果不佳. 此外,基于位置的在線社交網(wǎng)絡(luò)的用戶生成數(shù)據(jù)是一種隱式反饋,這意味著在實(shí)踐中可能只有正樣本可用. 比如:用戶在某些位置沒(méi)有記錄并不一定意味著他/她不喜歡這些位置,有可能是用戶不知道該位置,這對(duì)從隱式數(shù)據(jù)中進(jìn)行學(xué)習(xí)提出了挑戰(zhàn). 在最近的研究中,已有研究者對(duì)不同社交平臺(tái)的同一用戶數(shù)據(jù)或使用同一社交平臺(tái)中進(jìn)行同一用戶的不同類(lèi)型數(shù)據(jù)進(jìn)行挖掘. 實(shí)驗(yàn)結(jié)果表明這種數(shù)據(jù)融合能緩解數(shù)據(jù)稀疏問(wèn)題,而進(jìn)一步挖掘隱式數(shù)據(jù)能提升預(yù)測(cè)性能.
1)跨平臺(tái)數(shù)據(jù)融合
大多數(shù)研究只使用單一數(shù)據(jù)源(如Twitter,F(xiàn)oursquare,Gowalla,Yelp 等)來(lái)挖掘用戶行為模式. 不過(guò)隨著多功能異構(gòu)社交網(wǎng)站的普及,用戶跨越多個(gè)社交網(wǎng)絡(luò)[54]擁有賬號(hào)的現(xiàn)象越來(lái)越普遍. 一般相同的用戶在不同的社交平臺(tái)上會(huì)展現(xiàn)出一致的行為模式,因此如果能夠整合同一用戶不同平臺(tái)的多源數(shù)據(jù),便可以很好地緩解數(shù)據(jù)稀疏性問(wèn)題,并提升預(yù)測(cè)的準(zhǔn)確度. 目前,越來(lái)越多的研究開(kāi)始對(duì)跨平臺(tái)的多源數(shù)據(jù)進(jìn)行挖掘. 在文獻(xiàn)[186]中,F(xiàn)oursquare 的簽到數(shù)據(jù)和Twitter 的每日狀態(tài)被集合在一起,以增強(qiáng)用戶生成內(nèi)容的可用性.
2) 同平臺(tái)多類(lèi)型數(shù)據(jù)融合
由于地理標(biāo)記過(guò)的OSN 數(shù)據(jù)只占所有數(shù)據(jù)的一小部分,除了利用跨平臺(tái)的不同數(shù)據(jù)源以外,在同一社交網(wǎng)絡(luò)內(nèi)不同類(lèi)型的數(shù)據(jù)(例如用戶屬性信息、所在時(shí)區(qū)、個(gè)人檔案甚至圖片等)也可以進(jìn)行聯(lián)合分析,補(bǔ)償由于地理標(biāo)記OSN 數(shù)據(jù)稀疏性而導(dǎo)致的數(shù)據(jù)缺失,利用DNN 來(lái)融合分析用戶發(fā)布的內(nèi)容,更精確地進(jìn)行位置預(yù)測(cè). 例如文獻(xiàn)[168]利用Node2Vec[83]來(lái)學(xué)習(xí)用戶表示,并結(jié)合 Doc2Vec 學(xué)習(xí)到的文本表示來(lái)預(yù)測(cè)用戶的位置. 文獻(xiàn)[187]利用GCN 中的卷積和池化操作來(lái)學(xué)習(xí)社交網(wǎng)絡(luò)結(jié)構(gòu)的表示,實(shí)現(xiàn)了當(dāng)時(shí)最佳的地理定位性能.
在大數(shù)據(jù)時(shí)代,通過(guò)分析多源數(shù)據(jù),可以很好地分析跨多個(gè)社交網(wǎng)站的用戶屬性,有效地揭示社交網(wǎng)絡(luò)數(shù)據(jù)的潛在價(jià)值,研究者通過(guò)設(shè)計(jì)更具可解釋性的模型,進(jìn)一步提高用戶位置預(yù)測(cè)的性能.
目前的大多數(shù)方法假設(shè)數(shù)據(jù)是獨(dú)立的特征,并將這些數(shù)據(jù)以線性方式組合,但沒(méi)有將數(shù)據(jù)聯(lián)合起來(lái)學(xué)習(xí)更有效的表示. 在實(shí)際的應(yīng)用中,為了提高對(duì)用戶位置預(yù)測(cè)的精確度與模型的實(shí)用性,很多預(yù)測(cè)方法都聯(lián)合使用了多種模型. 已經(jīng)有研究者進(jìn)行多種方法相結(jié)合的嘗試. 例如,一些學(xué)者結(jié)合用戶歷史軌跡與最近移動(dòng)狀態(tài)來(lái)研究用戶位置預(yù)測(cè)問(wèn)題,文獻(xiàn)[150]使用RNN 和注意力機(jī)制來(lái)共同對(duì)軌跡隱含的特征進(jìn)行提取. 文獻(xiàn)[30] 在原始生成模型(包含GRU、CNN 和注意力機(jī)制等模塊)的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),利用自監(jiān)督的方式訓(xùn)練模型來(lái)預(yù)測(cè)用戶的下一個(gè)可能被訪問(wèn)的POI.
在現(xiàn)有的研究中,已經(jīng)證明數(shù)據(jù)集之間存在著關(guān)聯(lián)關(guān)系,通過(guò)對(duì)這種關(guān)聯(lián)關(guān)系進(jìn)行挖掘及利用,可以進(jìn)一步提升位置預(yù)測(cè)的準(zhǔn)確性. 而因果關(guān)系作為一種比關(guān)聯(lián)更強(qiáng)的關(guān)系,普遍存在于社交網(wǎng)絡(luò)的數(shù)據(jù)中. 例如,用戶在社交網(wǎng)絡(luò)上發(fā)布帖子,表示自己“餓了”,那么其下一步很有可能前往餐廳就餐;用戶歷史訪問(wèn)地點(diǎn)的位置序列(軌跡)的先后順序也包含了一定的因果關(guān)系,未來(lái)訪問(wèn)的地點(diǎn)就可以利用這種因果關(guān)系進(jìn)行推斷. 如果能挖掘并利用這種因果關(guān)系,勢(shì)必能彌補(bǔ)現(xiàn)有方法的不足,顯著提升位置預(yù)測(cè)的準(zhǔn)確度.
作者貢獻(xiàn)聲明:劉樂(lè)源設(shè)計(jì)論文框架,撰寫(xiě)及修訂論文;代雨柔調(diào)研、整理文獻(xiàn),撰寫(xiě)論文;曹亞男對(duì)論文的組織結(jié)構(gòu)和部分內(nèi)容提供了重要的指導(dǎo)意見(jiàn);周帆對(duì)本文選題、組織結(jié)構(gòu)和文章寫(xiě)作提供了關(guān)鍵性的指導(dǎo)意見(jiàn).