收稿日期:2023-07-14
摘? 要:
隨著數(shù)字化時(shí)代的到來(lái),傳統(tǒng)的關(guān)鍵詞匹配檢索方式已經(jīng)無(wú)法滿足用戶個(gè)性化的信息需求。因此,構(gòu)建用戶檢索意圖庫(kù)成為了解決這一問(wèn)題的關(guān)鍵。通過(guò)收集和分析用戶查詢數(shù)據(jù)和目標(biāo)數(shù)據(jù),分析提取用戶意圖特征,并作為構(gòu)建用戶檢索意圖庫(kù)的基本要素,利用自然語(yǔ)言處理技術(shù)理解和識(shí)別用戶檢索意圖,同時(shí)探析了用戶檢索意圖構(gòu)建過(guò)程中的三大關(guān)鍵技術(shù),探討了用戶檢索意圖庫(kù)在公共圖書(shū)館中的應(yīng)用。
關(guān)鍵詞:
公共圖書(shū)館;用戶檢索意圖庫(kù);自然語(yǔ)言處理;特征提取
中圖分類號(hào):G258.2??? 文獻(xiàn)標(biāo)識(shí)碼:A??? 文章編號(hào):1003-7136(2024)03-0054-09
Sharing Wisdom,Unveiling Desires:Analysis of the Key Technology and Application of the Construction of User Retrieval Intention Library in Public Libraries
ZHANG Ning
Abstract:
With the advent of the digital age,the traditional keyword matching retrieval method has been unable to meet the user′s personalized information needs.Therefore,the construction of user retrieval intention library has become the key to solve this problem.By collecting and analyzing the user query data and target data,the user intention features are analyzed and extracted,as the basic elements of constructing the user retrieval intention library,as well as the natural language processing technology is used to understand and identify the user retrieval intention.This paper analyzes the three key technologies in the process of user retrieval intention construction,and discusses the application of users retrieval intention library in public libraries.
Keywords:
public library;user retrieval intention library;natural language processing;feature extraction
0? 引言
在當(dāng)今信息爆炸的時(shí)代,公共圖書(shū)館作為知識(shí)共享的重要場(chǎng)所,承擔(dān)著為用戶提供豐富、準(zhǔn)確信息的責(zé)任和使命[1]。然而,隨著用戶需求的多樣化,傳統(tǒng)的圖書(shū)館檢索系統(tǒng)往往無(wú)法準(zhǔn)確理解用戶的真實(shí)信息需求。因此,如何準(zhǔn)確地理解和識(shí)別用戶檢索意圖,解決公共圖書(shū)館用戶的信息檢索問(wèn)題已經(jīng)成為迫切需要解決的問(wèn)題。
在這種背景下,借鑒其他行業(yè)目前已經(jīng)比較成熟的方法,構(gòu)建用戶檢索意圖庫(kù)成為一種比較有效的解決方案。在深入分析用戶的檢索行為、理解用戶的搜索意圖和需求的基礎(chǔ)上,公共圖書(shū)館可以利用自身優(yōu)勢(shì)提供個(gè)性化、精準(zhǔn)的信息推薦和導(dǎo)航服務(wù),從而提升用戶的信息獲取率和利用效率。然而,與此相關(guān)的問(wèn)題也隨之而來(lái):如何準(zhǔn)確地捕捉和解讀用戶的檢索意圖?如何構(gòu)建一個(gè)有效的檢索意圖庫(kù)?如何將檢索意圖庫(kù)應(yīng)用到公共圖書(shū)館的信息檢索系統(tǒng)中?這些問(wèn)題都需要我們進(jìn)行深入的研究和探索。
本文旨在回答上述問(wèn)題,提出共享智慧、解讀用戶心愿的解決方案,以構(gòu)建和應(yīng)用公共圖書(shū)館的檢索意圖庫(kù)。利用機(jī)器學(xué)習(xí)、自然語(yǔ)言處理和數(shù)據(jù)挖掘等相關(guān)技術(shù),結(jié)合圖書(shū)館領(lǐng)域的實(shí)際需求,研究如何從用戶的搜索關(guān)鍵詞、瀏覽下載的資源中提取有用信息,從而識(shí)別用戶的檢索意圖,并以此為基礎(chǔ),構(gòu)建一個(gè)具有豐富語(yǔ)義信息的公共圖書(shū)館檢索意圖庫(kù),從而更準(zhǔn)確地理解用戶的真實(shí)需求,為用戶提供個(gè)性化、精準(zhǔn)的信息服務(wù)。
1? 研究綜述
1.1? 用戶檢索意圖庫(kù)及意義
所謂用戶檢索意圖庫(kù),從數(shù)據(jù)層面上來(lái)說(shuō),其實(shí)質(zhì)就是指一個(gè)預(yù)先構(gòu)建好的、包含了用戶常見(jiàn)檢索意圖的數(shù)據(jù)庫(kù);從系統(tǒng)層面上來(lái)說(shuō),它就是一個(gè)集合了常見(jiàn)用戶意圖的庫(kù)或分類系統(tǒng)。它包含了用戶在與系統(tǒng)進(jìn)行交互時(shí)可能表達(dá)的各種意圖,如獲取信息、執(zhí)行操作、提出問(wèn)題等。對(duì)于公共圖書(shū)館來(lái)說(shuō),用戶檢索意圖庫(kù)主要根據(jù)用戶的檢索信息,通過(guò)自然語(yǔ)言識(shí)別的方式從中抽取用戶的檢索主題和檢索目的,以及檢索需求中所包含的時(shí)間范圍、地域范圍和目標(biāo)人物等。
無(wú)論是從公共圖書(shū)館角度還是從用戶角度,建立用戶檢索意圖庫(kù)都是一件具有重要意義的工作。從公共圖書(shū)館的角度來(lái)說(shuō),建立公共圖書(shū)館用戶檢索意圖庫(kù),可以幫助圖書(shū)館或其他信息機(jī)構(gòu)更準(zhǔn)確地理解用戶的檢索需求,從而提供更精確的檢索結(jié)果;從用戶角度來(lái)說(shuō),用戶的查詢可能涉及不同的主題、領(lǐng)域和意圖,通過(guò)建立一個(gè)用戶檢索意圖庫(kù),可以收集和整理常見(jiàn)的用戶查詢意圖,并為每個(gè)意圖提供相應(yīng)的處理邏輯和響應(yīng)策略。此外,用戶檢索意圖庫(kù)也具有極為重要的應(yīng)用意義,具體包括:
①提升用戶體驗(yàn)。公共圖書(shū)館是廣大讀者獲取信息和閱讀資源的重要場(chǎng)所。建立用戶檢索意圖庫(kù)可以幫助圖書(shū)館系統(tǒng)更準(zhǔn)確地理解讀者的查詢意圖,從而能夠更快速、精準(zhǔn)地提供符合讀者需求的資源和服務(wù),提升用戶的檢索體驗(yàn)。
②提高搜索效果。通過(guò)建立用戶檢索意圖庫(kù),公共圖書(shū)館可以建立豐富的查詢意圖和相關(guān)資源的映射關(guān)系。當(dāng)讀者進(jìn)行查詢時(shí),系統(tǒng)可以根據(jù)意圖庫(kù)中的信息迅速匹配合適的資源,從而提高搜索結(jié)果的質(zhì)量和相關(guān)性。
③個(gè)性化服務(wù)。通過(guò)分析和理解讀者的查詢意圖,公共圖書(shū)館可以提供更加個(gè)性化的服務(wù)。根據(jù)讀者的喜好、需求和查詢意圖,圖書(shū)館系統(tǒng)可以推薦相關(guān)的圖書(shū)、文章、活動(dòng)或其他資源,更好地滿足讀者的閱讀需求。
④指導(dǎo)讀者。用戶檢索意圖庫(kù)還可以幫助圖書(shū)館系統(tǒng)提供更準(zhǔn)確的查詢建議和指導(dǎo)。當(dāng)讀者輸入查詢時(shí),系統(tǒng)可以根據(jù)意圖庫(kù)中的信息給出相關(guān)的建議或指導(dǎo),幫助讀者更好地組織查詢、選擇合適的資源或深入探索特定領(lǐng)域。
⑤數(shù)據(jù)分析與優(yōu)化。通過(guò)對(duì)用戶檢索意圖庫(kù)的使用情況進(jìn)行分析,公共圖書(shū)館可以獲取有關(guān)讀者檢索習(xí)慣、偏好和需求的寶貴信息。這些數(shù)據(jù)可以用于圖書(shū)館的服務(wù)優(yōu)化、資源采購(gòu)決策和用戶行為分析,進(jìn)一步提升圖書(shū)館的運(yùn)營(yíng)效率和服務(wù)質(zhì)量。
1.2? 研究進(jìn)展
用戶檢索意圖是信息檢索領(lǐng)域的重要研究方向,指用戶在檢索信息時(shí),所表達(dá)的需求和目的[2],即通過(guò)對(duì)用戶檢索意圖的識(shí)別和理解,幫助用戶縮小檢索范圍,明確檢索目的。早期的用戶檢索意圖研究主要基于關(guān)鍵詞檢索,通過(guò)對(duì)用戶檢索關(guān)鍵詞的分析,研究用戶的檢索意圖,包括基于關(guān)鍵詞集合進(jìn)行共現(xiàn)分析[3],利用聚類算法對(duì)檢索詞進(jìn)行聚類分析等[4]。隨著信息檢索技術(shù)的不斷發(fā)展,研究者開(kāi)始采用自然語(yǔ)言處理技術(shù)和機(jī)器學(xué)習(xí)技術(shù),從文本中提取和分析用戶的檢索意圖。如今,隨著大數(shù)據(jù)技術(shù)和人工智能技術(shù)的應(yīng)用,用戶檢索意圖的研究進(jìn)入了一個(gè)新的階段。目前,用戶檢索意圖的研究和應(yīng)用主要集中在以下幾個(gè)方向。
(1)檢索意圖分類。研究者致力于開(kāi)發(fā)算法和模型,將用戶的查詢意圖進(jìn)行分類和歸納。常見(jiàn)的方法包括基于標(biāo)簽分類[5-6]、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的分類算法[7],通過(guò)訓(xùn)練模型從用戶查詢中識(shí)別出不同的檢索意圖,如信息獲取、問(wèn)題解答、產(chǎn)品比較等。
(2)檢索意圖理解。研究者關(guān)注如何更好地理解用戶的檢索意圖。這涉及自然語(yǔ)言處理、語(yǔ)義理解[8]、語(yǔ)義表示、知識(shí)圖譜[9]和情感分析[10]等技術(shù)。通過(guò)構(gòu)建語(yǔ)義模型和語(yǔ)義表示方法,系統(tǒng)可以更好地理解用戶的查詢意圖,進(jìn)而提供更加準(zhǔn)確和相關(guān)的搜索結(jié)果。
(3)個(gè)性化檢索意圖。研究者探索如何根據(jù)用戶的個(gè)性化需求和偏好定制檢索意圖模型。這包括用戶模型的構(gòu)建[11]、個(gè)性化推薦和查詢擴(kuò)展等技術(shù)。通過(guò)分析用戶的興趣[12]、上下文和歷史行為[13],系統(tǒng)可以更好地適應(yīng)用戶的個(gè)性化需求,提供個(gè)性化的檢索意圖服務(wù)。
(4)多模態(tài)檢索意圖。隨著多模態(tài)數(shù)據(jù)的廣泛應(yīng)用,研究者開(kāi)始關(guān)注多模態(tài)檢索意圖的研究。這包括文本、圖像、語(yǔ)音和視頻等多種模態(tài)信息的融合和理解[14-15]。通過(guò)融合不同模態(tài)的信息,系統(tǒng)可以更全面地理解用戶的檢索意圖,提供更豐富和準(zhǔn)確的搜索結(jié)果。
總體而言,用戶檢索意圖研究在算法、模型和應(yīng)用方面都取得了一定的進(jìn)展。通過(guò)深入研究用戶檢索意圖,能夠更好地理解用戶需求,提供個(gè)性化、精準(zhǔn)和高效的信息檢索服務(wù),從而提升用戶的搜索體驗(yàn)滿意度。隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的拓展,用戶檢索意圖研究仍然是一個(gè)具有挑戰(zhàn)和潛力的領(lǐng)域。
2? 需求場(chǎng)景與技術(shù)路線
構(gòu)建公共圖書(shū)館用戶檢索意圖庫(kù),其目的在于完整地捕捉用戶自然語(yǔ)言中所蘊(yùn)含的檢索意圖,使圖書(shū)館現(xiàn)有的檢索系統(tǒng)能夠更加智能化地理解用戶的檢索意圖和需求。從整體上來(lái)說(shuō),包括檢索需求分析及構(gòu)建場(chǎng)景、設(shè)計(jì)技術(shù)路線兩個(gè)部分。
2.1? 檢索需求場(chǎng)景分析
本文從用戶視角出發(fā),設(shè)計(jì)了以用戶檢索內(nèi)容為特征的場(chǎng)景樹(shù),如圖1所示。以查詢語(yǔ)句“我想看一本近5年以來(lái)美國(guó)哈佛大學(xué)推薦的如何高效地提取文本信息的關(guān)于自然語(yǔ)言處理的書(shū)”為例,其檢索語(yǔ)句中包含了主題、行為意圖、時(shí)間、地域、機(jī)構(gòu)等多種信息要素,并通過(guò)“關(guān)于”“推薦”等顯式謂詞或隱含關(guān)系指示實(shí)體與數(shù)據(jù)屬性之間的從屬、并列等關(guān)系。在智慧圖書(shū)館條件下,公共圖書(shū)館的搜索引擎需要支持此類自然語(yǔ)言的響應(yīng),能夠分析和識(shí)別出用戶期望的需求和給定的各種限定條件,并返回正確的檢索結(jié)果。
公共圖書(shū)館用戶檢索意圖庫(kù)設(shè)計(jì)要充分結(jié)合用戶的實(shí)際檢索需求和落地的可行性,需要遵循以下幾個(gè)基本原則。
(1)全面性。意圖庫(kù)應(yīng)該覆蓋用戶可能的多樣化檢索意圖。收集和整理不同類型、不同領(lǐng)域的檢索意圖樣本,包括常見(jiàn)的查詢目的、問(wèn)題類型、需求表達(dá)方式等。
(2)智能性。利用機(jī)器學(xué)習(xí)和自動(dòng)化技術(shù)對(duì)用戶檢索意圖進(jìn)行建模和識(shí)別。通過(guò)訓(xùn)練算法和模型,讓系統(tǒng)能夠自動(dòng)學(xué)習(xí)和識(shí)別用戶的意圖,減少人工標(biāo)注的工作量,提高效率和準(zhǔn)確性。
(3)可擴(kuò)展性。意圖庫(kù)的設(shè)計(jì)應(yīng)具備可擴(kuò)展性,以便隨著用戶需求的變化和增長(zhǎng)不斷更新和擴(kuò)展。新的檢索意圖樣本可以根據(jù)用戶反饋、數(shù)據(jù)分析結(jié)果和領(lǐng)域知識(shí)變化進(jìn)行持續(xù)補(bǔ)充和更新。
(4)組織性。意圖庫(kù)應(yīng)該有良好的組織結(jié)構(gòu),便于快速準(zhǔn)確地匹配用戶的檢索意圖??梢愿鶕?jù)意圖的主題、目的、領(lǐng)域等屬性對(duì)樣本進(jìn)行分類和標(biāo)注,方便后續(xù)的意圖匹配和處理。
(5)實(shí)時(shí)性。意圖庫(kù)需要保持實(shí)時(shí)更新,及時(shí)反映用戶的新興檢索需求和趨勢(shì)。隨著時(shí)間的推移,一些檢索意圖可能會(huì)變得不再流行或過(guò)時(shí),因此需要定期審查和更新意圖庫(kù)中的樣本。
2.2? 總體技術(shù)方案設(shè)計(jì)
在明確需求場(chǎng)景和設(shè)計(jì)原則后,本文提出相應(yīng)的技術(shù)方案,從總體上來(lái)說(shuō),總共分為四大步驟,具體如圖2所示。
(1)數(shù)據(jù)采集與處理。收集用戶的查詢數(shù)據(jù)和相關(guān)上下文信息,如搜索日志、用戶反饋等。對(duì)收集到的數(shù)據(jù)進(jìn)行預(yù)處理,將清洗、去噪之后的數(shù)據(jù)制作成標(biāo)準(zhǔn)格式統(tǒng)一組合和存儲(chǔ),以提高后續(xù)處理的質(zhì)量和準(zhǔn)確性。
(2)特征提取與表示。特征提取是機(jī)器學(xué)習(xí)和數(shù)據(jù)分析中的關(guān)鍵概念,指從原始數(shù)據(jù)中選擇和提取最相關(guān)、最具有代表性的特征,以捕捉數(shù)據(jù)的重要信息[16],其目標(biāo)是減少數(shù)據(jù)的維度,同時(shí)保留盡可能多的有用信息,以便于后續(xù)的模型訓(xùn)練和分析。在表示方式上,特征表示是將提取到的特征以一種可操作的方式呈現(xiàn)出來(lái),便于機(jī)器學(xué)習(xí)算法的處理和分析,即需要將自然語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)可以理解的文本表示方法[17]。從用戶的角度考慮,提取最能表達(dá)用戶意愿的信息作為本文特征能夠更加準(zhǔn)確地理解和識(shí)別檢索意圖,縮小檢索范圍,如主題信息、行為信息、時(shí)間信息等。
(3)意圖匹配與識(shí)別。利用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法,建立意圖匹配模型或分類模型,對(duì)用戶查詢進(jìn)行意圖匹配和識(shí)別。可以使用傳統(tǒng)的機(jī)器學(xué)習(xí)算法如支持向量機(jī)、決策樹(shù)等,或者使用深度學(xué)習(xí)算法如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。訓(xùn)練模型時(shí),可以使用已標(biāo)注的數(shù)據(jù)集進(jìn)行監(jiān)督學(xué)習(xí),也可以利用無(wú)監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)的方法。由于用戶檢索意圖是大量無(wú)標(biāo)記的數(shù)據(jù),比較適用于采用無(wú)監(jiān)督的分類方案對(duì)數(shù)據(jù)進(jìn)行聚類,因此本文將采用無(wú)監(jiān)督分類的方法對(duì)數(shù)據(jù)進(jìn)行聚類。(4)意圖庫(kù)構(gòu)建與維護(hù)。根據(jù)用戶查詢數(shù)據(jù)和已有的標(biāo)注數(shù)據(jù),在特征提取的基礎(chǔ)上,構(gòu)建用戶檢索意圖庫(kù),提取的特征包括主題詞、行為意圖、情感、時(shí)間信息、地域信息、人物信息、機(jī)構(gòu)名稱、其他專名、作者等信息,并將這些信息以標(biāo)準(zhǔn)數(shù)據(jù)的形式進(jìn)行表達(dá)和存儲(chǔ),作為檢索意圖的統(tǒng)一描述,能夠滿足檢索引擎在開(kāi)發(fā)時(shí)所面對(duì)的功能需求,形成可復(fù)用的框架產(chǎn)出[18]。此外,定期維護(hù)意圖庫(kù),更新和擴(kuò)充其中的意圖樣本,從而保持其準(zhǔn)確性和覆蓋范圍。
3? 流程構(gòu)建與關(guān)鍵技術(shù)
在明確了公共圖書(shū)館用戶檢索意圖庫(kù)的總體設(shè)計(jì)與實(shí)現(xiàn)思路后,本節(jié)重點(diǎn)關(guān)注用戶檢索意圖庫(kù)實(shí)現(xiàn)流程及所需的關(guān)鍵技術(shù),就其目標(biāo)與任務(wù)等進(jìn)行闡述,并探討原型系統(tǒng)的設(shè)計(jì)與構(gòu)建。
按照總體技術(shù)方案設(shè)計(jì),本文將公共圖書(shū)館用戶檢索意圖庫(kù)的構(gòu)建工作流程分為三個(gè)主要部分。
3.1? 文本處理與特征提取
文本處理和特征提取是自然語(yǔ)言處理中的重要技術(shù),主要是指在對(duì)文本數(shù)據(jù)進(jìn)行清洗、分詞、詞性標(biāo)注、句法分析、實(shí)體識(shí)別和文本分類等操作[19]的基礎(chǔ)上,按照實(shí)際的需求提取能夠反映文本主要內(nèi)容特征的詞項(xiàng),并附有權(quán)重,包括文本特征選擇和特征權(quán)重計(jì)算兩個(gè)主要環(huán)節(jié)[20]。在特征提取內(nèi)容上,特征提取分為句法分析特征、文本語(yǔ)義特征、文本結(jié)構(gòu)特征和文本分類特征等。在公共圖書(shū)館日常的用戶信息檢索中,常常會(huì)使用查詢語(yǔ)句來(lái)表達(dá)自己的信息需求[21],因此在實(shí)際對(duì)用戶檢索意圖進(jìn)行識(shí)別和理解之前,需要對(duì)其進(jìn)行檢索信息處理和文本特征提取,并且從檢索信息中提取有用的信息。
通過(guò)對(duì)國(guó)家圖書(shū)館用戶檢索數(shù)據(jù)
檢索數(shù)據(jù)來(lái)源于國(guó)家圖書(shū)館文津搜索系統(tǒng)。進(jìn)行分析,發(fā)現(xiàn)用戶常用的檢索語(yǔ)句中一般會(huì)包括檢索主題、檢索行為意圖、情感、時(shí)間范圍、地域范圍、人物、機(jī)構(gòu)和其他專名等要素,其中大約有70%的檢索信息為檢索主題和行為意圖[22],詞性多為名詞和動(dòng)詞,其余要素多數(shù)以定狀補(bǔ)的形式出現(xiàn),詞性以形容詞為主,少數(shù)為時(shí)間詞、地點(diǎn)詞或?qū)S忻~,具體如表1所示。因此,在建立公共圖書(shū)館用戶檢索意圖庫(kù)時(shí),需要將這些關(guān)鍵信息作為文本語(yǔ)義特征進(jìn)行提取,作為用戶檢索意圖庫(kù)的基本信息要素。當(dāng)然,隨著對(duì)建立用戶檢索意圖庫(kù)需求和文本處理能力的不斷提高,基本信息要素也會(huì)隨之不斷地修改和完善,這里僅以表1列出的文本特征作為本文用戶檢索意圖庫(kù)建設(shè)的基本信息要素。
3.2? 檢索意圖理解與識(shí)別
檢索意圖理解與識(shí)別是自然語(yǔ)言處理和信息檢索領(lǐng)域的關(guān)鍵任務(wù)和熱點(diǎn)之一[23],指對(duì)用戶輸入的搜索查詢或問(wèn)題進(jìn)行分析和理解,以確定用戶的搜索意圖或需求,同時(shí)按照一定的標(biāo)準(zhǔn)或規(guī)則進(jìn)行分類和組織,以方便用戶進(jìn)行有效的信息檢索和瀏覽[24],本文所考慮的檢索意圖理解與識(shí)別主要包括實(shí)體識(shí)別、分詞權(quán)重和依存關(guān)系分析三個(gè)方面。
實(shí)體識(shí)別是自然語(yǔ)言處理中的一項(xiàng)任務(wù),旨在從文本中識(shí)別和提取具有特定意義的命名實(shí)體,在本文中,實(shí)體識(shí)別主要的識(shí)別內(nèi)容為用戶檢索的基本特征要素,即檢索主題、檢索行為意圖、情感、時(shí)間范圍、地域范圍、人物、機(jī)構(gòu)和其他專名等,利用分詞工具進(jìn)行分詞、詞性標(biāo)注、關(guān)鍵詞提取等處理,根據(jù)處理和識(shí)別結(jié)果抽取主要信息。
分詞權(quán)重是指對(duì)文本中的每個(gè)詞語(yǔ)進(jìn)行權(quán)重計(jì)算或賦值的過(guò)程,在智能檢索系統(tǒng)中,語(yǔ)義分詞的權(quán)重會(huì)對(duì)語(yǔ)義檢索產(chǎn)生影響[25],通過(guò)計(jì)算關(guān)鍵詞的權(quán)重,可以確定文本中哪些詞語(yǔ)是重要的關(guān)鍵詞,有助于用戶快速理解文本的主題和內(nèi)容,同時(shí),分詞權(quán)重可以用來(lái)計(jì)算文檔與用戶查詢之間的相關(guān)性,從而對(duì)檢索結(jié)果進(jìn)行排序。因此,用戶檢索意圖庫(kù)的建設(shè)除了需要對(duì)實(shí)體進(jìn)行識(shí)別外,還需要利用分詞權(quán)重技術(shù)計(jì)算實(shí)體的權(quán)重值。
依存關(guān)系分析是自然語(yǔ)言處理中的一項(xiàng)重要任務(wù),旨在識(shí)別句子中單詞之間的語(yǔ)法依存關(guān)系,并以此表示句子中單詞之間的關(guān)聯(lián)性和句子的結(jié)構(gòu)。依存關(guān)系分析可以深入理解句子的語(yǔ)法結(jié)構(gòu),從而幫助解析句子的含義、進(jìn)行文本理解和其他自然語(yǔ)言處理任務(wù)。在具體操作上,通過(guò)分析用戶檢索語(yǔ)言的各個(gè)成分之間的依存關(guān)系來(lái)揭示相互之間的語(yǔ)義修飾關(guān)系[26],即分析出一個(gè)句子的主、謂、賓、定、狀、補(bǔ)結(jié)構(gòu),從而幫助判斷特征要素。本文采用DDParser
DDParser是一個(gè)基于深度學(xué)習(xí)的依存句法分析器,在句法分析任務(wù)中具有較高的準(zhǔn)確性和魯棒性。它使用神經(jīng)網(wǎng)絡(luò)模型來(lái)自動(dòng)分析句子中詞語(yǔ)之間的依存關(guān)系,并預(yù)測(cè)每個(gè)詞語(yǔ)在句子結(jié)構(gòu)中的角色和語(yǔ)法功能。來(lái)分析語(yǔ)句之間的依存關(guān)系,并根據(jù)需要生成相應(yīng)依存關(guān)系圖,如查詢語(yǔ)句 “我想了解一下美國(guó)學(xué)者德里克·賈里尼克寫的關(guān)于自然語(yǔ)言處理方面的書(shū)”,其依存關(guān)系如圖3所示。
此外,在檢索意圖表達(dá)形式方面,戚越、陳博立等分別在各自的研究中提出了較為一致的想法,即采用標(biāo)準(zhǔn)的結(jié)構(gòu)化形式進(jìn)行表達(dá)[18,27]。為了便于下游任務(wù)的使用和調(diào)取,本文采用了基于json格式的方式表示和存儲(chǔ)用戶檢索意圖理解和識(shí)別,以及各關(guān)鍵詞的權(quán)重結(jié)果,示例如圖4所示。
3.3? 自定義詞庫(kù)構(gòu)建
在實(shí)際的用戶檢索意圖庫(kù)建設(shè)過(guò)程中,為了提高自然語(yǔ)言處理系統(tǒng)在特定領(lǐng)域或任務(wù)中的準(zhǔn)確性和增強(qiáng)效果,同時(shí)為了解決在檢索語(yǔ)句中存在的歧義問(wèn)題,需要根據(jù)實(shí)際需要構(gòu)建自定義詞庫(kù)。如當(dāng)用戶檢索“鋼鐵是怎樣煉成的”時(shí),其本意大概率并不是想了解鋼鐵的煉制過(guò)程,而是希望檢索蘇聯(lián)作家尼古拉·奧斯特洛夫斯基所著的一部長(zhǎng)篇小說(shuō)《鋼鐵是怎樣煉成的》。因此,本文除了常用的停用詞庫(kù)之外,還構(gòu)建了自定義詞庫(kù),具體包含別稱庫(kù)、特殊名稱庫(kù)和敏感詞庫(kù)三部分,具體見(jiàn)表2。其中:①別稱庫(kù)是為了解決中文中經(jīng)常出現(xiàn)的別稱、簡(jiǎn)稱問(wèn)題而建立的詞庫(kù),目的是建立同一種實(shí)體的全稱與別稱或簡(jiǎn)稱之間的關(guān)聯(lián)關(guān)系,這種關(guān)聯(lián)關(guān)系包括同義詞、習(xí)慣用語(yǔ)、多義詞等。當(dāng)用戶輸入一個(gè)別稱時(shí),系統(tǒng)可以將其映射到對(duì)應(yīng)的實(shí)體或概念,從而擴(kuò)展搜索范圍,提高搜索結(jié)果的準(zhǔn)確性。②特殊名稱庫(kù)用于存儲(chǔ)特定領(lǐng)域中的專有名詞、實(shí)體或術(shù)語(yǔ)。這些包括人名、地名、組織機(jī)構(gòu)名、產(chǎn)品名等。特殊名稱庫(kù)可以幫助系統(tǒng)正確識(shí)別和標(biāo)注文本中的命名實(shí)體,提高命名實(shí)體識(shí)別的準(zhǔn)確性。③敏感詞庫(kù)用于存儲(chǔ)敏感或不良的詞匯,如不雅詞匯、侮辱性詞匯、歧視性詞匯等。這樣的詞匯通常需要在應(yīng)用中進(jìn)行過(guò)濾或?qū)彶椋宰袷叵嚓P(guān)規(guī)定或維護(hù)良好的用戶體驗(yàn)。
3.4? 原型驗(yàn)證和分析
本文以國(guó)家圖書(shū)館2022年文津搜索系統(tǒng)用戶檢索數(shù)據(jù)為原型,按照用戶檢索意圖庫(kù)構(gòu)建思路和方法構(gòu)建相應(yīng)的處理流程,并以此驗(yàn)證技術(shù)的可行性和流程的實(shí)用性。
數(shù)據(jù)預(yù)處理和清洗方面,本文共計(jì)采集了文津搜索系統(tǒng)2022年用戶檢索記錄共計(jì)1,132,340條。由于這些數(shù)據(jù)均以日志形式保存,因此在進(jìn)行數(shù)據(jù)清洗時(shí),采用了基于awk技術(shù)的處理方式對(duì)原始數(shù)據(jù)進(jìn)行處理,包括去重、刪除無(wú)效或低質(zhì)量數(shù)據(jù),提取基本要素信息等,從而實(shí)現(xiàn)高效便捷的數(shù)據(jù)處理過(guò)程[28]。
在檢索意圖理解和識(shí)別方面,除檢索語(yǔ)句外,由于用戶的查詢目標(biāo)即是用戶查詢意圖[29],因此本文以圖書(shū)檢索為例,從已采集的數(shù)據(jù)中分離了668,633條有效的圖書(shū)檢索記錄,并提取記錄中的關(guān)鍵信息,包括時(shí)間、用戶IP、檢索詞、檢索目標(biāo)圖書(shū)的摘要信息等,作為本文驗(yàn)證原型的原始數(shù)據(jù)使用。在具體操作中,由于中文切詞是中文自然語(yǔ)言處理工作的基礎(chǔ),對(duì)于文本理解、信息提取、機(jī)器翻譯等任務(wù)具有重要作用[30],因此我們首先選取jieba工具
jieba是一個(gè)基于Python的中文分詞工具,它具有簡(jiǎn)單易用、高效準(zhǔn)確的特點(diǎn)。jieba使用了基于字典的分詞算法,可以將中文文本切分成一個(gè)個(gè)獨(dú)立的詞語(yǔ)。對(duì)用戶檢索信息和圖書(shū)的摘要信息進(jìn)行切詞,按照詞語(yǔ)的劃分規(guī)則將連續(xù)的漢字序列切分成有意義的詞語(yǔ)單元,同時(shí)為了保證結(jié)果的簡(jiǎn)潔性,本文只保留長(zhǎng)度大于1的詞語(yǔ)單元;其次在詞性標(biāo)注方面,由于中文詞語(yǔ)含義的復(fù)雜性,本文選取了thulac工具
thulac是由清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室開(kāi)發(fā)的一款中文詞法分析工具,支持用戶自定義詞典,能夠高效、準(zhǔn)確地對(duì)中文文本進(jìn)行分詞、詞性標(biāo)注和命名實(shí)體識(shí)別等處理。對(duì)詞性進(jìn)行標(biāo)注,從而實(shí)現(xiàn)對(duì)于中文的快速且較高速度的詞性標(biāo)注[31];最后在上述工作的基礎(chǔ)上,根據(jù)前文制定的檢索意圖庫(kù)基本要素提取相應(yīng)的關(guān)鍵詞,并計(jì)算權(quán)重,形成基于json格式表達(dá)的具有422,809條數(shù)據(jù)的用戶檢索意圖庫(kù)。其中有420,274條記錄含有主題詞,404,447條記錄含有行為意圖信息,252,188條記錄用戶情感數(shù)據(jù),59,505條記錄含有時(shí)間數(shù)據(jù),121,297條記錄含有地域信息,36,703條記錄含有專有名稱。
4? 應(yīng)用前景
用戶檢索意圖庫(kù)的應(yīng)用范圍主要集中在自然語(yǔ)言處理和對(duì)話系統(tǒng)領(lǐng)域,主要包括信息檢索、智能客服、問(wèn)答系統(tǒng)、信息推薦等多個(gè)應(yīng)用場(chǎng)景,本文以檢索意圖細(xì)化分析和意圖預(yù)測(cè)為例,探討了用戶檢索意圖庫(kù)在公共圖書(shū)館的應(yīng)用。
(1)用戶檢索意圖的細(xì)化分析。在以往的研究成果中,公共圖書(shū)館領(lǐng)域的用戶檢索意圖往往僅集中在主題分類上,并沒(méi)有針對(duì)某個(gè)主題進(jìn)行深入分析并反饋用戶可能會(huì)搜索的方面和角度。因此,本文在構(gòu)建用戶檢索意圖庫(kù)的基礎(chǔ)上,對(duì)已有的用戶檢索記錄進(jìn)行統(tǒng)計(jì)分類,分析同類檢索主題下不同的檢索角度和各種方面,實(shí)現(xiàn)對(duì)用戶檢索意圖的細(xì)化分析。以檢索詞“自然語(yǔ)言”為例,雖然檢索主題詞都屬于自然語(yǔ)言大類,但用戶意圖和搜索的角度卻有所不同。在利用用戶檢索意圖庫(kù)進(jìn)行細(xì)化分析過(guò)程中,采用dbscan算法對(duì)自然語(yǔ)言主題的檢索數(shù)據(jù)以主題詞和行為意圖進(jìn)行無(wú)監(jiān)督分類,統(tǒng)計(jì)分析用戶檢索意圖和興趣點(diǎn)。
(2)用戶檢索意圖預(yù)測(cè)。在對(duì)用戶檢索意圖細(xì)化分類和分析的基礎(chǔ)上,利用檢索意圖庫(kù)可以展示與關(guān)鍵詞相關(guān)的常見(jiàn)問(wèn)題、關(guān)聯(lián)詞匯、預(yù)測(cè)性搜索以及各種相關(guān)主題,幫助用戶發(fā)現(xiàn)與特定關(guān)鍵詞相關(guān)的問(wèn)題、主題和內(nèi)容,提供相應(yīng)的檢索建議,形成一個(gè)類似于AnswerThePublic
AnswerThePublic 是一個(gè)與關(guān)鍵詞相關(guān)問(wèn)題和內(nèi)容的探索工具,它提供了廣泛的問(wèn)題和關(guān)鍵詞聯(lián)想,以幫助用戶了解與特定主題相關(guān)的問(wèn)題、疑慮、需求等。的檢索意圖探索工具。如當(dāng)用戶輸入“自然語(yǔ)言”時(shí),約有67%的用戶選擇如分詞、詞性標(biāo)注文本提取等與自然語(yǔ)言基本處理相關(guān)的內(nèi)容,19%的用戶選擇如文法分析、邏輯時(shí)態(tài)、句子依存關(guān)系等與自然語(yǔ)言高級(jí)處理的內(nèi)容。
5? 結(jié)論與展望
隨著信息處理技術(shù)的不斷發(fā)展和公共文化服務(wù)水平的不斷提高,公共圖書(shū)館構(gòu)建檢索意圖庫(kù)在信息服務(wù)和用戶體驗(yàn)方面將發(fā)揮更重要的作用,未來(lái)可能會(huì)有以下發(fā)展方向。
(1)深化語(yǔ)義理解。當(dāng)前的檢索意圖庫(kù)主要基于關(guān)鍵詞匹配和規(guī)則匹配的方式,對(duì)用戶的意圖進(jìn)行簡(jiǎn)單的識(shí)別。未來(lái)的發(fā)展方向是進(jìn)一步深化語(yǔ)義理解,將自然語(yǔ)言處理和人工智能技術(shù)應(yīng)用于檢索意圖庫(kù)的構(gòu)建,實(shí)現(xiàn)對(duì)用戶意圖更準(zhǔn)確、細(xì)致地理解和分析。
(2)跨領(lǐng)域知識(shí)整合。隨著知識(shí)的日益增長(zhǎng)和學(xué)科的不斷拓展,公共圖書(shū)館需要構(gòu)建一個(gè)跨領(lǐng)域的檢索意圖庫(kù),以滿足用戶跨學(xué)科、綜合性的信息需求。這需要整合各個(gè)學(xué)科領(lǐng)域的知識(shí)資源,并建立相應(yīng)的檢索意圖庫(kù),為用戶提供全面、多樣化的信息服務(wù)。
(3)強(qiáng)化個(gè)性化推薦。個(gè)性化推薦是公共圖書(shū)館構(gòu)建檢索意圖庫(kù)的重要應(yīng)用之一。未來(lái)的發(fā)展方向是通過(guò)用戶行為分析、機(jī)器學(xué)習(xí)和推薦算法等技術(shù)手段,進(jìn)一步提升個(gè)性化推薦的精度和效果,實(shí)現(xiàn)更精準(zhǔn)、個(gè)性化的信息推薦服務(wù)。
(4)引入用戶反饋機(jī)制。用戶反饋是改進(jìn)和優(yōu)化檢索意圖庫(kù)的重要依據(jù)。未來(lái)的發(fā)展方向是引入用戶反饋機(jī)制,通過(guò)用戶評(píng)價(jià)、評(píng)論和推薦等方式,收集用戶對(duì)檢索結(jié)果和服務(wù)質(zhì)量的反饋信息,不斷優(yōu)化和改進(jìn)檢索意圖庫(kù)的性能和準(zhǔn)確度。
(5)融合社交媒體數(shù)據(jù)。社交媒體已成為用戶獲取信息和交流的重要渠道。未來(lái)的發(fā)展方向是融合社交媒體數(shù)據(jù),將社交媒體平臺(tái)的數(shù)據(jù)納入檢索意圖庫(kù)的構(gòu)建和分析中,以更好地理解用戶的興趣和需求,提供與社交媒體相關(guān)的信息服務(wù)。
(6)優(yōu)化用戶界面和體驗(yàn)。用戶界面和體驗(yàn)對(duì)于公共圖書(shū)館的信息檢索服務(wù)至關(guān)重要。未來(lái)的發(fā)展方向是不斷優(yōu)化用戶界面設(shè)計(jì),提供更直觀、簡(jiǎn)潔和易用的檢索界面,同時(shí)考慮多樣化的用戶需求和特點(diǎn),提供個(gè)性化的用戶體驗(yàn)。
(7)加強(qiáng)安全與隱私保護(hù)。隨著信息技術(shù)的快速發(fā)展,安全與隱私保護(hù)越來(lái)越受到關(guān)注。未來(lái)的發(fā)展方向是加強(qiáng)公共圖書(shū)館的安全防護(hù)機(jī)制,保護(hù)用戶的個(gè)人信息和隱私,建立健全的信息安全管理體系,確保用戶的信息安全和權(quán)益。
參考文獻(xiàn):
[1]王錚,張珺敏,黃靜.公共型知識(shí)服務(wù)的時(shí)代使命、價(jià)值定位與完善路徑[J].文獻(xiàn)與數(shù)據(jù)學(xué)報(bào),2023,5(1):16-26.
[2]田蒂.基于用戶檢索意圖的元搜索引擎研究[D].長(zhǎng)春:吉林大學(xué),2016.
[3]亢麗蕓,王效岳,白如江.國(guó)內(nèi)語(yǔ)義檢索研究計(jì)量分析[J].現(xiàn)代情報(bào),2012,32(5):104-109.
[4]楊宇.搜索詞的意圖分析與應(yīng)用[D].北京:北京郵電大學(xué),2010.
[5]沈思,吳璽煜.基于多標(biāo)簽分類的學(xué)術(shù)文獻(xiàn)潛在時(shí)間意圖識(shí)別研究[J].湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,44(10):158-164.
[6]張曉娟.查詢意圖自動(dòng)分類與分析[D].武漢:武漢大學(xué),2014.
[7]鐘世敏.基于信息抽取的英文問(wèn)句意圖分類[D].成都:西華大學(xué),2018.
[8]孫佳寶.基于用戶意圖理解的空間關(guān)鍵字查詢研究[D].蘇州:蘇州大學(xué),2020.
[9]楊峰宇.基于知識(shí)圖譜的用戶意圖理解研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2016.
[10]李沁桐.基于情感增強(qiáng)的用戶意圖理解的文本生成研究[D].濟(jì)南:山東大學(xué),2021.
[11]許舸.基于語(yǔ)言模型的個(gè)性化檢索方法研究[D].武漢:華中師范大學(xué),2018.
[12]王曉春,李生,楊沐昀,等.一種長(zhǎng)短期興趣結(jié)合的個(gè)性化檢索模型[J].中文信息學(xué)報(bào),2016,30(3):172-177.
[13]王威.基于上下文的個(gè)性化信息檢索技術(shù)研究[D].廈門:廈門大學(xué),2009.
[14]溫皓琨.基于多模態(tài)查詢的圖像檢索研究:以時(shí)尚領(lǐng)域?yàn)槔跠].濟(jì)南:山東大學(xué),2022.
[15]張龍濤.基于社交感知的跨模態(tài)檢索研究[D].北京:北京郵電大學(xué),2018.
[16]徐冠華,趙景秀,楊紅亞,等.文本特征提取方法研究綜述[J].軟件導(dǎo)刊,2018,17(5):13-18.
[17]韓旭.基于神經(jīng)網(wǎng)絡(luò)的文本特征表示關(guān)鍵技術(shù)研究[D].北京:北京郵電大學(xué),2019.
[18]戚越.面向自動(dòng)問(wèn)答的學(xué)術(shù)搜索通用查詢語(yǔ)言設(shè)計(jì)與實(shí)現(xiàn)[D].武漢:武漢大學(xué),2020.
[19]趙京勝,宋夢(mèng)雪,高祥,等.自然語(yǔ)言處理中的文本表示研究[J].軟件學(xué)報(bào),2022,33(1):102-128.
[20]商憲麗,王學(xué)東.微博話題識(shí)別中基于動(dòng)態(tài)共詞網(wǎng)絡(luò)的文本特征提取方法[J].圖書(shū)情報(bào)知識(shí),2016(3):80-88.
[21]徐博.面向查詢理解的擴(kuò)展詞排序模型研究與應(yīng)用[D].大連:大連理工大學(xué),2018.
[22]丁俊,戴岳,周佳威,等.基于實(shí)體行為間語(yǔ)義關(guān)聯(lián)的用戶行為意圖挖掘方法[J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(9):343-349.
[23]杜思佳.基于深度神經(jīng)網(wǎng)絡(luò)的法律咨詢用戶意圖理解研究與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2019.
[24]孫悅民.信息分類檢索的技術(shù)演進(jìn)及模式[J].情報(bào)資料工作,2009(6):49-52.
[25]顏小平,嚴(yán)長(zhǎng)春,馬順,等.智能檢索系統(tǒng)中生成語(yǔ)義分詞的原理及調(diào)整策略[J].中國(guó)發(fā)明與專利,2022,19(9):42-51.
[26]甘麗新,萬(wàn)常選,劉德喜,等.基于句法語(yǔ)義特征的中文實(shí)體關(guān)系抽?。跩].計(jì)算機(jī)研究與發(fā)展,2016,53(2):284-302.
[27]陳博立,鮮國(guó)建,趙瑞雪,等.科技文獻(xiàn)問(wèn)答式智能檢索總體設(shè)計(jì)與關(guān)鍵技術(shù)探析[J].中國(guó)圖書(shū)館學(xué)報(bào),2023,49(3):92-106.
[28]姜莉.基于網(wǎng)絡(luò)背景流量的監(jiān)控信息的模擬與分析[D].長(zhǎng)春:吉林大學(xué),2008.
[29]陸偉,周紅霞,張曉娟.查詢意圖研究綜述[J].中國(guó)圖書(shū)館學(xué)報(bào),2013,39(1):100-111.
[30]黎佳.淺談中文切詞算法[J].軟件,2013,34(7):75-76,120.
[31]陶德彬.基于領(lǐng)域文本大數(shù)據(jù)的快速分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].南京:南京大學(xué),2019.
作者簡(jiǎn)介:
張寧(1982— ),男,碩士,副研究館員,任職于國(guó)家圖書(shū)館。研究方向:數(shù)字圖書(shū)館、大數(shù)據(jù)分析、數(shù)據(jù)科學(xué)。