摘 要:目前微博已經(jīng)成為人們獲取信息和發(fā)布信息的主要平臺,現(xiàn)有微博平臺的檢索功能只能依靠關(guān)鍵詞匹配返回檢索結(jié)果,檢索結(jié)果無法滿足用戶需求。為解決該問題,微博語義檢索正逐步成為微博信息資源檢索的主要研究內(nèi)容。該文主要介紹了近年來微博語義檢索的相關(guān)研究,最后總結(jié)微博語義檢索實(shí)現(xiàn)所涉及的相關(guān)問題并進(jìn)行了探討。
關(guān)鍵詞:微博檢索 語義檢索 語義擴(kuò)展
一 引言
隨著Web2.0時代的到來,“人人參與、信息共享”逐步成為當(dāng)今網(wǎng)絡(luò)的主流,其中極具代表性的應(yīng)用之一便是微博。微博(Microblog),即微型博客,Wiki上給出的定義是“微博是一種允許用戶及時更新簡短文本(通常少于140字)并可以公開發(fā)布的微型博客形式”微博作為一種新型的信息交流平臺,它集合各類信息交流媒體的優(yōu)點(diǎn),信息傳播更加及時,內(nèi)容更加簡潔,與傳統(tǒng)信息交流媒體相比,已逐漸成為人們傳播和檢索信息的重要平臺之一。
CNNIC發(fā)布的最新報(bào)告指出,截至2017年12月,,微博作為社交媒體,其月活躍用戶達(dá)到3.76億,用戶使用率持續(xù)增長達(dá)到40.9%,較2016年12月上升3.8個百分點(diǎn),微博平臺每日新增微博數(shù)量已遠(yuǎn)超過1億條,微博用戶每日的主動搜索量已突破2億。[1]可見,微博平臺上聚集有大量的文本信息資源和龐大的用戶群體。用戶如何從海量的微博信息資源中準(zhǔn)確、全面、高效地獲取滿足自身需求的信息,是目前亟待解決的問題。
傳統(tǒng)的微博檢索方式大多是基于關(guān)鍵詞的檢索,其結(jié)果基本是字面意義上的匹配,這樣嚴(yán)重割裂了字詞之間的語義關(guān)聯(lián),查準(zhǔn)率和查全率兩方面的檢索結(jié)果都不太理想,很難滿足各類用戶的多樣化需求。微博語義檢索是解決這個矛盾的主要方法之一。語義檢索能從語義角度理解用戶查詢與微博信息資源,實(shí)現(xiàn)概念上的匹配,以得到用戶真正想要的信息。
二、微博語義檢索研究現(xiàn)狀
現(xiàn)階段有關(guān)微博信息檢索方面的研究逐步開始獲得越來越多的人的關(guān)注,但在微博語義方面的檢索研究大體還處于初步階段。
(一)語義查詢擴(kuò)展的微博檢索
針對傳統(tǒng)基于關(guān)鍵詞匹配搜索方法的局限性,提出了基于語義查詢擴(kuò)展的微博檢索策略,利用潛在語義分析和TF-IDF兩個指標(biāo)判定詞語的主題相關(guān)性、描述能力和辨別能力,運(yùn)用KL距離獲取候選詞與查詢詞之間的相似程度,進(jìn)而進(jìn)行查詢擴(kuò)展;最后根據(jù)詞語的權(quán)重向量,運(yùn)用余弦公式對檢索得到的文檔進(jìn)行相關(guān)性排序。[2]
此方法較基于傳統(tǒng)關(guān)鍵詞匹配的方法得到了較大改善,但語義僅停留在淺層的語義層面,對于深層次推理層面的語義研究并未涉及,可看作為從關(guān)鍵詞搜索到語義網(wǎng)搜索的過渡方法。
(二) RDF/XML的微博知識表達(dá)與語義檢索
通過對新浪微博數(shù)據(jù)進(jìn)行分析,設(shè)計(jì)合適的資源描述框架(Resource Description Framework,RDF)結(jié)構(gòu),將其轉(zhuǎn)換為富含語義關(guān)系的RDF格式,構(gòu)建合適的RDF結(jié)構(gòu)圖。將其存儲在Virtuoso數(shù)據(jù)庫中并通過SPARQL查詢語言實(shí)現(xiàn)對微博數(shù)據(jù)的語義查詢。[3]
此方法為微博數(shù)據(jù)的語義轉(zhuǎn)換與檢索提供了借鑒,在網(wǎng)絡(luò)輿情監(jiān)控方面也具有重要的實(shí)用意義。但是在建構(gòu)微博RDF結(jié)構(gòu)圖時選用的信息具有一定程度上的主觀性,需進(jìn)一步對微博自身內(nèi)容進(jìn)行自然語言處理和語義標(biāo)識,以豐富語義查詢的內(nèi)容。
(三) HowNet的微博文本語義檢索
知網(wǎng)(HowNet)被定義為:以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。[4]基于HowNet將用戶輸入的檢索詞與微博短文本進(jìn)行語義相關(guān)度計(jì)算,以此來實(shí)現(xiàn)微博語義檢索。
此方法能夠從高級語義和知識庫系統(tǒng)角度對用戶的查詢意圖和微博文本進(jìn)行匹配,檢索效果較好,但在大數(shù)據(jù)背景下,其計(jì)算效率還有待進(jìn)一步提升。此外,目前微博平臺已不再是單純的文字信息,同時可發(fā)布圖像、音樂和視頻等多媒體信息,這就為微博的語義檢索帶來了更大的挑戰(zhàn)。
(四)潛在語義與圖結(jié)構(gòu)的微博語義檢索
降低微博語義檢索效率的原因主要有微博文本短小、特征稀疏、存在與用戶查詢之間的語義鴻溝。通過引入Wikipedia語料庫和DBpedia知識庫為短文提供豐富、準(zhǔn)確的語義知識,從Hashtag、普通文本背后隱藏的主題以及實(shí)體三方面出發(fā),提出一個基于特征、主題模型和圖結(jié)構(gòu)的綜合語義檢索模型。[5]
此檢索模型具有較好檢索性能,但由于實(shí)體的比較對微博語義搜索的結(jié)果具有很大的影響,且DBpedia的關(guān)系復(fù)雜多樣,此模型只簡單地利用實(shí)體之間的關(guān)系,未考慮屬性傳遞、權(quán)重等因素。
(五)通用本體構(gòu)建的微博語義檢索
本體是共享概念模型的明確的形式化規(guī)范說明。頂級本體又稱通用本體,是描述最普遍的概念及概念之間的關(guān)系,不同領(lǐng)域之間可以共享的概念和知識。由于微博語義檢索是檢索不同領(lǐng)域、不同教育水平的所有微博用戶發(fā)布的微博文本信息,故選用頂級本體作為知識庫。用戶輸入檢索條件后,與本體庫中的概念進(jìn)行映射,對檢索條件進(jìn)行查詢擴(kuò)展;利用本體庫中概念之間的語義關(guān)系,對微博短文本的特征進(jìn)行擴(kuò)展與選擇;微博短文本通過倒排索引構(gòu)建索引庫與查詢擴(kuò)展后的索引條件進(jìn)行匹配實(shí)現(xiàn)微博語義檢索。[6]
此方法將通用本體引入微博信息檢索中,既可對用戶的查詢進(jìn)行有效擴(kuò)展,又可以解決微博短文本特征稀疏性問題對微博短文本特征進(jìn)行擴(kuò)展與選擇,提高了微博檢索效率。
三 微博語義檢索實(shí)現(xiàn)要解決的相關(guān)問題
(一)微博短文本特征選擇問題
為了降低微博短文本特征稀疏性的問題,現(xiàn)階段大多采用短文本特征擴(kuò)展方法,與此同時將會為微博短文帶來很多冗余信息與噪聲[7]。
(二)字?jǐn)?shù)擴(kuò)展問題
2016年11月微博將用戶發(fā)布的字?jǐn)?shù)限制擴(kuò)大到2000字以內(nèi),這樣使得微博不僅存在短文本還有長文本,微博短文本的預(yù)處理方法將不再完全適用。
(三)實(shí)時檢索與跨媒體檢索問題
現(xiàn)如今微博信息生產(chǎn)數(shù)量巨大、更新速度飛快,且信息類型多種多樣,如圖像、視頻、音頻等,用戶對檢索信息時效性和多樣化提出了更高的要求。
四 總結(jié)
在信息化社會大背景下,微博信息資源呈爆炸式增長,用戶對微博信息檢索結(jié)果的要求也越來越高。本文通過對現(xiàn)階段有關(guān)微博語義檢索的研究情況進(jìn)行梳理,總結(jié)出了微博語義檢索需要解決的若干問題。
參考文獻(xiàn):
[1]中國互聯(lián)網(wǎng)絡(luò)信息中心. 第41次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].[2018-1-31]. http://cnnic.cn/gywm/xwzx/rdxw/201801/t20180131_ 70188.html
[2]唐曉波,房小可. 基于語義查詢擴(kuò)展的微博檢索[J].情報(bào)資料工作,2014(2):34-38
[3]羅凌云,史淼,陽小華,等. 基于RDF/XML的微博知識表達(dá)與語義檢索系統(tǒng)[J].南華大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(4):56-60
[4]王李冬,張慧熙. 基于HowNet的微博文本語義檢索研究[J]. 情報(bào)科學(xué),2016(9):134-137
[5]肖寶,李璞,胡嬌嬌,等. 基于潛在語義與圖結(jié)構(gòu)的微博語義檢索[J]. 計(jì)算機(jī)工程,2017(6):183-188
[6]許彤陽,尹凱. 大數(shù)據(jù)背景下微博語義檢索[J]. 情報(bào)雜志,2017(12):174-179
[7]Liu Zitao,Yuwenchao,Chen Wei,et al. Short text feature selection and classification for microblog mining[C]//Proceedings of Internatinal Conference on Computational Intelligence and Software Engineering.Wuhan:ACM,2010:1-4.
作者簡介:
李玲(1998-) 女 漢 河北省南宮市 本科 河北大學(xué)管理學(xué)院
主要研究方向:圖書情報(bào)