何 勝,熊太純,吳智勤
(1.江蘇理工學(xué)院計算機工程學(xué)院,江蘇 常州 213001;2.江蘇理工學(xué)院圖書館,江蘇 常州 213001)
基于高校圖書館(以下簡稱高校館)用戶行為數(shù)據(jù),開展學(xué)者畫像和知識推薦研究,以助力知識創(chuàng)新,全面促進人工智能技術(shù)在高校館應(yīng)用的落地,對于高校館提升知識服務(wù)能力、踐行新時代圖書館人的知識服務(wù)使命具有重要意義[1]7。
作為用戶畫像領(lǐng)域的分支,高校館學(xué)者畫像研究主要面向高校學(xué)者群體,依托高校館基礎(chǔ)數(shù)據(jù)庫,應(yīng)用語義計算等信息技術(shù)抽取學(xué)者人口和行為等特征標(biāo)簽,構(gòu)建學(xué)者畫像標(biāo)簽?zāi)P停诖嘶A(chǔ)上開展個性化知識推薦、群體行為分析和科研趨勢預(yù)測等服務(wù)[2]2。
大數(shù)據(jù)背景下,有關(guān)學(xué)者特征建模、學(xué)者興趣標(biāo)簽庫合理構(gòu)建以及知識推薦過程中異構(gòu)模型有效融合成為學(xué)者畫像研究的熱點和難點[3]1903。學(xué)者畫像的主要任務(wù)是畫像標(biāo)簽體系構(gòu)建,即應(yīng)用語義計算技術(shù)開展標(biāo)簽提取、分類和對齊,構(gòu)建規(guī)范、統(tǒng)一的標(biāo)簽庫;知識推薦面臨的挑戰(zhàn)是異構(gòu)模型融合,即需要將學(xué)者畫像模型的興趣特征與知識畫像模型中的關(guān)鍵詞進行準確匹配,從而在學(xué)者興趣與知識關(guān)鍵詞兩種異構(gòu)標(biāo)簽之間搭建起有效的溝通橋梁,為精準知識推薦提供堅實的支撐。
針對上述問題,本文提出貫穿畫像建模、標(biāo)簽庫構(gòu)建、異構(gòu)模型融合和畫像應(yīng)用等過程的高校館學(xué)者畫像構(gòu)建及知識推薦模式,在此基礎(chǔ)上依托高校館學(xué)者借閱數(shù)據(jù)和互聯(lián)網(wǎng)著名平臺“知乎”知識庫(https://www.zhihu.com/)進行案例分析,著力解決標(biāo)簽庫構(gòu)建和異構(gòu)模型融合難點,探索構(gòu)建高校館學(xué)者畫像的有效途徑。
現(xiàn)階段學(xué)界用戶畫像研究聚焦于畫像模型構(gòu)建和標(biāo)簽技術(shù)應(yīng)用兩個方面,以下密切結(jié)合圖情領(lǐng)域分析這兩部分研究現(xiàn)狀,總結(jié)近年來高校館學(xué)者畫像研究所取得的成果。
國內(nèi)外學(xué)界在不同領(lǐng)域的用戶畫像建模和應(yīng)用方面的研究非常踴躍,相關(guān)文獻及綜述較為豐富[1]13,[4]95。例如Son等[5]采用啟發(fā)式的分類模型構(gòu)建Twitter 用戶畫像,并分析用戶轉(zhuǎn)發(fā)決策機制;Sun 等[6]對網(wǎng)絡(luò)學(xué)習(xí)平臺中用戶的學(xué)習(xí)數(shù)據(jù)進行統(tǒng)計分析后,構(gòu)建學(xué)習(xí)者畫像模型,為在線學(xué)習(xí)平臺內(nèi)容開發(fā)提供指導(dǎo);在高校館用戶畫像建模方面也取得進展,如Andres 等[7]將用戶畫像特征庫和專家知識相融合,開發(fā)學(xué)習(xí)管理系統(tǒng)OntoSakai;于興尚等[8]面向用戶認知需求構(gòu)建圖書館用戶畫像模型,開展需求預(yù)測、個性化推薦分析應(yīng)用;馮齡萱等[9]應(yīng)用扎根理論構(gòu)建高校館流失用戶畫像模型,并分析高校館用戶流失形成機制,提出相關(guān)對策;彭程程等[2]4介紹了一種“智慧校園”學(xué)者畫像系統(tǒng),其數(shù)據(jù)源為某高校的碩博論文數(shù)據(jù)集,致力于分析學(xué)者的學(xué)術(shù)譜系和研究脈絡(luò)。
用戶畫像核心任務(wù)是用戶標(biāo)簽體系構(gòu)建,即應(yīng)用標(biāo)簽計算等語義分析技術(shù)開展標(biāo)簽提取、標(biāo)簽庫構(gòu)建和異構(gòu)模型融合等研究,其中標(biāo)簽庫的規(guī)范性有益于提升畫像的精準度,異構(gòu)模型融合是溝通學(xué)者畫像建模和資源畫像的橋梁,能助力領(lǐng)域應(yīng)用落地。Middleton等[10]在研究學(xué)術(shù)論文推薦時,采用將論文內(nèi)容轉(zhuǎn)化為對應(yīng)的詞向量標(biāo)簽的語義計算方法,以準確匹配用戶畫像和推薦內(nèi)容;Calegari 等[11]融合YAGO 本體庫提取標(biāo)簽,標(biāo)記用戶特征,以提高用戶個性化檢索的精準度;唐杰等[12]應(yīng)用分類方法從搜索引擎中檢索學(xué)者主頁,抽取文本信息開展用戶特征標(biāo)注;宋雪雁等[13]以在線網(wǎng)站用戶消費行為為基礎(chǔ),構(gòu)建用戶畫像標(biāo)簽體系,提出一種在線網(wǎng)站用戶畫像模型;唐曉波等[14]將主題模型與用戶興趣相融合,構(gòu)建用戶畫像,實現(xiàn)社區(qū)主題畫像的動態(tài)更新;王仁武等[15]在學(xué)術(shù)社區(qū)中抽取用戶的行為特征與興趣關(guān)聯(lián)關(guān)系,提出一種融合用戶行為與興趣傾向的標(biāo)簽構(gòu)建方法。
國內(nèi)外學(xué)界在研究用戶畫像的過程中,以用戶個體或群體特征分析、個性化推薦為目標(biāo),采用語義計算方法構(gòu)建用戶畫像并開展應(yīng)用研究,取得很大的進展,但也存在如下問題:(1)用戶畫像建模角度,主要集中在理論層面,有關(guān)高校館用戶畫像技術(shù)及系統(tǒng)實踐方面研究較少[4]99,尤其缺乏針對學(xué)者畫像的案例研究;(2)用戶畫像標(biāo)簽技術(shù)方面,學(xué)界注重研究標(biāo)簽抽取技術(shù),并提出各具特點的標(biāo)簽構(gòu)建方案,但是在如何構(gòu)建規(guī)范統(tǒng)一的標(biāo)簽庫,以及如何有效融合畫像異構(gòu)模型方面鮮有案例[3]1916。
作為著名UGC 平臺(User Generated Content,即用戶生成內(nèi)容),“知乎”社區(qū)由于知識質(zhì)量高、互動性強,對專家學(xué)者產(chǎn)生越來越強的黏附力,該平臺開發(fā)了規(guī)范統(tǒng)一的標(biāo)簽庫,方便異構(gòu)畫像模型的融合。
綜上所述,本文提出了一種新的學(xué)者畫像及知識推薦模式,并以高校館學(xué)者行為數(shù)據(jù)和互聯(lián)網(wǎng)“知乎”平臺的知識資源為例,充分利用“知乎”平臺的規(guī)范統(tǒng)一的標(biāo)簽庫,融合學(xué)者興趣特征和知識特征,開發(fā)了基于標(biāo)簽計算的高校館學(xué)者畫像及知識推薦系統(tǒng)。
高校館學(xué)者畫像及知識推薦模式包括“畫像建?!薄皹?biāo)簽庫構(gòu)建”“異構(gòu)模型融合”和“畫像應(yīng)用”四個部分,如圖1所示。
圖1 基于標(biāo)簽計算的高校館學(xué)者畫像及知識推薦模式
在描述學(xué)者和知識資源一般性特征的基礎(chǔ)上,以知識推薦為目標(biāo),畫像建模須突出展現(xiàn)“學(xué)者興趣”特征和“知識關(guān)鍵詞”特征,本文分別以“學(xué)者興趣”標(biāo)簽和“關(guān)鍵詞”標(biāo)簽作為兩類模型關(guān)聯(lián)的橋梁。
3.1.1 “學(xué)者畫像”建模
“學(xué)者畫像”是指對學(xué)者個性特征建模。以高校館學(xué)者行為數(shù)據(jù)庫為基礎(chǔ)庫,抽取學(xué)者個性特征,元數(shù)據(jù)包括“學(xué)者ID”“所屬單位”“學(xué)者專業(yè)”和“學(xué)者興趣”四個部分,其中“學(xué)者ID”“所屬單位”和“學(xué)者專業(yè)”從高校館學(xué)者行為數(shù)據(jù)庫直接抽取,而“學(xué)者興趣”則從學(xué)者所借閱或瀏覽的書籍(或資料)的題名或分類號中應(yīng)用語義計算方法抽取。高校館借閱系統(tǒng)存儲了學(xué)者的個性化數(shù)據(jù)以及借閱行為數(shù)據(jù),包括“讀者證件號”“書名”“索書號”等,從中能夠方便地提取和解析學(xué)者的人口信息和興趣特征。
3.1.2 “知識畫像”建模
“知識畫像”是指對知識內(nèi)容建模。以互聯(lián)網(wǎng)知識資源為基礎(chǔ)庫,抽取知識特征,元數(shù)據(jù)包括“知識ID”“關(guān)鍵詞”“知識主題”和“知識創(chuàng)建者”4個部分,需要結(jié)合互聯(lián)網(wǎng)資源數(shù)據(jù)庫應(yīng)用語義計算的方法抽取。作為知識的不竭源泉,來自互聯(lián)網(wǎng)的大量資源為學(xué)者提供了海量的數(shù)據(jù):專業(yè)科研文獻數(shù)據(jù)庫如萬方、知網(wǎng)、國際ScienceDirect 等平臺上的結(jié)構(gòu)化數(shù)據(jù);搜索引擎如百度、谷歌,以及學(xué)者們常用的微博、微信朋友圈、知乎、科學(xué)網(wǎng)等社交平臺產(chǎn)生的半結(jié)構(gòu)化數(shù)據(jù)等,這些數(shù)據(jù)能夠直接購買或利用開發(fā)爬蟲軟件獲取。
標(biāo)簽庫構(gòu)建是用戶畫像的主要內(nèi)容。標(biāo)簽庫是指用層次化且精煉的詞匯描述客體,對學(xué)科知識這一客體而言,標(biāo)簽庫須完整準確地體現(xiàn)該學(xué)科的知識組織架構(gòu)。由于標(biāo)簽的專業(yè)性強,一般可以利用規(guī)范成熟的標(biāo)簽庫(如權(quán)威機構(gòu)開發(fā)或經(jīng)領(lǐng)域?qū)<覍徍说臉?biāo)簽體系),或者基于海量的互聯(lián)網(wǎng)語料應(yīng)用語義計算方法(如實體抽取、分類和對齊等)構(gòu)建新標(biāo)簽庫,后者的靈活性好,但也存在技術(shù)難度高、工作量大的問題。
異構(gòu)模型融合是溝通學(xué)者畫像和知識資源畫像的關(guān)鍵環(huán)節(jié)。以底層的同一“畫像標(biāo)簽庫”為基礎(chǔ),對“學(xué)者畫像”與“知識畫像”異構(gòu)模型進行標(biāo)注,實現(xiàn)異構(gòu)標(biāo)簽融合。
一是結(jié)合學(xué)者畫像模型,對“學(xué)者興趣”元數(shù)據(jù)進行標(biāo)注,將每個學(xué)者的興趣用“畫像標(biāo)簽庫”的術(shù)語進行標(biāo)記,構(gòu)建“學(xué)者興趣標(biāo)簽庫”。二是結(jié)合知識畫像模型,對“知識關(guān)鍵詞”進行標(biāo)注,將每一條知識的內(nèi)容用“畫像標(biāo)簽庫”的術(shù)語進行標(biāo)記,構(gòu)建“知識關(guān)鍵詞標(biāo)簽庫”。由于“學(xué)者興趣標(biāo)簽庫”和“知識關(guān)鍵詞標(biāo)簽庫”擁有共同的“畫像標(biāo)簽庫”,二者的深度融合使得后續(xù)“知識推薦”應(yīng)用中的“相似度計算”具備技術(shù)可行性。
利用標(biāo)簽相似度計算方法,對上述構(gòu)建的“學(xué)者興趣標(biāo)簽庫”和“知識關(guān)鍵詞標(biāo)簽庫”,計算“學(xué)者興趣標(biāo)簽”和“知識關(guān)鍵詞標(biāo)簽”的兩兩相似度,并依據(jù)相似度從高到低排序,開發(fā)知識推薦系統(tǒng)以展示推薦結(jié)果。
知識推薦系統(tǒng)包括以下4 個模塊:(1)畫像標(biāo)簽管理,根據(jù)知識資源語義計算和分析結(jié)果存儲和更新畫像標(biāo)簽庫;(2)學(xué)者畫像管理,結(jié)合畫像標(biāo)簽庫,依托高校館系統(tǒng)數(shù)據(jù)庫的抽取結(jié)果和學(xué)者興趣的分類結(jié)果,自動標(biāo)注并更新學(xué)者畫像標(biāo)簽;(3)知識畫像管理,結(jié)合畫像標(biāo)簽庫,依托知識資源庫自動標(biāo)注并更新知識畫像標(biāo)簽;(4)知識推薦模塊,計算“學(xué)者興趣”和“知識關(guān)鍵詞”的兩兩相似度,對其排序并存儲,以便將與學(xué)者興趣高相似度的知識展現(xiàn)給學(xué)者用戶。
密切結(jié)合所提出的高校館學(xué)者畫像和知識推薦模式,應(yīng)用標(biāo)簽計算技術(shù)開展案例研究。
4.1.1 高校館學(xué)者數(shù)據(jù)收集
利用某高校館2019年1月1日—2021年12月31 日共114 597 條借閱數(shù)據(jù),去除學(xué)生借閱數(shù)據(jù),得23 092 條借閱記錄,涉及1 017 位教師,作為學(xué)者畫像建模原始數(shù)據(jù)。
4.1.2 互聯(lián)網(wǎng)知識資源收集
通過自行開發(fā)的爬蟲軟件,選取“知乎”平臺一級話題“社會科學(xué)”中的所有子話題,爬取精華問答?!吧鐣茖W(xué)”的話題包含情報學(xué)、歷史學(xué)、哲學(xué)、法律、金融學(xué)、心理學(xué)、政治學(xué)等32個二級子話題。對獲取的精華問答清洗并去重后得到522 943 條記錄,保存于Execl 表格,相關(guān)字段有“作者昵稱”“作者ID”“問題主題”“問題ID”“問題描述”“問題標(biāo)簽”“具體內(nèi)容”“回答數(shù)”“發(fā)表時間”“點贊數(shù)”“評論人數(shù)”“回答鏈接”等,作為知識畫像模型的原始數(shù)據(jù)。
4.1.3 畫像標(biāo)簽庫構(gòu)建
通過Python函數(shù)對“知乎”平臺上獲取的原始數(shù)據(jù)中的“知識關(guān)鍵詞”分類整理,形成本研究的畫像標(biāo)簽庫?!爸酢逼脚_及其標(biāo)簽庫具有以下特點:(1)擁有海量且專業(yè)的知識內(nèi)容?!爸酢逼脚_以問題提出和互動問答為主要方式,積聚了海量知識。由于其產(chǎn)生的知識質(zhì)量高、更新快、專業(yè)性強,受到國內(nèi)學(xué)者的青睞。(2)開發(fā)了成熟且規(guī)范的話題主題詞庫,即本研究中“畫像標(biāo)簽庫”。經(jīng)過“知乎”平臺專家整體規(guī)劃、合理分類并嚴格遴選,主題詞庫能夠完整地呈現(xiàn)各領(lǐng)域知識的層次結(jié)構(gòu)和專業(yè)術(shù)語分類,經(jīng)過10多年的發(fā)展,“知乎”平臺已經(jīng)形成了較完備的“畫像標(biāo)簽庫”,每一標(biāo)簽都分配唯一的ID,如圖2所示。
圖2中以“競爭情報”“信息資源”和“數(shù)據(jù)科學(xué)”話題為例,列舉了部分畫像關(guān)鍵詞標(biāo)簽。如對于“競爭情報”話題,對應(yīng)關(guān)鍵詞有“競爭情報(20052199)”“情報機構(gòu)(19643868)”“情報學(xué)(19626490)”等,括號中的數(shù)字為該標(biāo)簽的ID。
圖2 畫像標(biāo)簽庫構(gòu)建
由于學(xué)者畫像模型與知識畫像模型異構(gòu)性,基于同一畫像標(biāo)簽庫分別對“學(xué)者興趣”和“知識關(guān)鍵詞”進行標(biāo)注,完成異構(gòu)模型融合。
4.2.1 學(xué)者興趣標(biāo)注
如圖3所示,從高校館借閱數(shù)據(jù)庫中抽取相關(guān)數(shù)據(jù),包括“證件號”“專業(yè)”“借閱書籍題名”等字段數(shù)據(jù)(見“學(xué)者原始數(shù)據(jù)”部分),對學(xué)者畫像模型的四個標(biāo)簽字段進行標(biāo)注。其中:“學(xué)者ID”直接來源于“證件號”元數(shù)據(jù);“學(xué)者單位”是依據(jù)“證件號”的命名規(guī)則(第5~8位為學(xué)者單位編碼),抽取其中的第5~8 位匹配單位名稱;“學(xué)者專業(yè)”直接來源“專業(yè)”元數(shù)據(jù)。這三部分由Python函數(shù)自動完成;“學(xué)者興趣”根據(jù)“借閱書籍題名”的書籍所在的類別,自動匹配畫像標(biāo)簽庫的話題標(biāo)簽的類別。如學(xué)者ID 為“1998xxxx32”的用戶,其借閱的“競爭情報與企業(yè)競爭力”書籍,系統(tǒng)自動分類為“競爭情報”話題,因而將“畫像標(biāo)簽庫”中的“競爭情報”“市場情報收集與分析”和“情報學(xué)”等標(biāo)簽標(biāo)注為該學(xué)者的“學(xué)者興趣”特征。
圖3 學(xué)者興趣標(biāo)注
4.2.2 知識關(guān)鍵詞抽取
如圖4 所示,從“知乎”爬取的原始數(shù)據(jù)中,對知識畫像模型的4 個標(biāo)簽字段進行標(biāo)注。其中:“知識ID”和“知識主題”分別直接來源于“問題ID”和“問題主題”元數(shù)據(jù);將“知識創(chuàng)建者”元數(shù)據(jù)標(biāo)注為“作者昵稱(作者ID)”的值;“知識關(guān)鍵詞”直接來源于“問題標(biāo)簽”元數(shù)據(jù)的值。因為相關(guān)標(biāo)簽已經(jīng)嚴格遴選,可以直接用于標(biāo)注,這也體現(xiàn)了“知乎”平臺標(biāo)簽庫所特有的應(yīng)用價值。一般而言,對某個知識體系進行全面概括地描述(如構(gòu)建本體)非常費時費力,而利用“知乎”平臺標(biāo)簽庫的關(guān)鍵詞體系,既節(jié)省人力成本,又兼?zhèn)漭^高的可靠性和規(guī)范性。
圖4 知識關(guān)鍵詞標(biāo)注
采用簡明的余弦相似度方法計算“學(xué)者興趣標(biāo)簽庫”和“知識關(guān)鍵詞標(biāo)簽庫”的兩兩相似度,標(biāo)簽相似度計算方法見公式(1)。設(shè)有標(biāo)簽集合A1、A2,式中l(wèi) 為標(biāo)簽集合中對應(yīng)的標(biāo)簽列表長度,ti1、ti2分別為集合A1、A2中相關(guān)標(biāo)簽的權(quán)重,計算結(jié)果S(A1,A2)即為A1、A2相似度。
計算流程如圖5 所示。 以學(xué)者ID 為1998xxxx32 的“學(xué)者興趣”標(biāo)簽和知識ID 為359261682的“知識關(guān)鍵詞”標(biāo)簽為例,計算二者相似度。首先,將二者標(biāo)簽集合元素唯一化,得到5個標(biāo)簽列表。其次,統(tǒng)計每類標(biāo)簽在原來集合中出現(xiàn)的次數(shù)(即詞頻)并寫出標(biāo)簽向量。最后,根據(jù)余弦相似度公式計算,結(jié)果顯示二者的相似度為0.577。系統(tǒng)對余弦相似度的值從大到小排序以后,存入數(shù)據(jù)庫。
圖5 計算標(biāo)簽相似度
知識推薦系統(tǒng)如圖6所示。當(dāng)用戶登錄后,系統(tǒng)將與該用戶興趣具有高相似度的知識(問題)推薦給用戶,如ID 為“1998500032”的用戶登錄后將與其情報學(xué)領(lǐng)域感興趣的4個“知乎”問題的鏈接進行推薦。由于該用戶標(biāo)簽涉及“競爭情報”“情報學(xué)”等,知識推薦系統(tǒng)將“知乎”平臺上與情報學(xué)密切相關(guān)且標(biāo)簽相似度高的知識推薦給該用戶。
圖6 知識推薦系統(tǒng)
在圖情領(lǐng)域的學(xué)者畫像和知識推薦研究中,畫像標(biāo)簽庫的規(guī)范性及學(xué)者畫像和知識資源畫像的異構(gòu)模型融合一直困擾著學(xué)界。本文抽取互聯(lián)網(wǎng)“知乎”平臺自行開發(fā)的標(biāo)簽庫,對學(xué)者興趣進行標(biāo)注,從而搭建起高校館學(xué)者畫像和互聯(lián)網(wǎng)資源畫像模型融合的橋梁,借助“知乎”平臺標(biāo)簽規(guī)范性的優(yōu)勢,以及利用標(biāo)簽相似度計算等技術(shù)實現(xiàn)知識推薦,為高校館大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的交叉融合及實施提供應(yīng)用案例。
本文的不足之處及未來工作:(1)在實踐過程中,學(xué)者畫像的“學(xué)者興趣”存在多個主題現(xiàn)象。一種可行的解決方案是擴充“學(xué)者興趣”標(biāo)簽,并對標(biāo)簽設(shè)置動態(tài)權(quán)重,擴充時考慮學(xué)者興趣多樣、興趣遷移、專業(yè)變化等因素。另外,通過動態(tài)統(tǒng)計分析學(xué)者所借閱的書籍題名和借閱時間等數(shù)據(jù)確定標(biāo)簽權(quán)重,借此影響相似度計算結(jié)果,使得其他興趣主題進入Top排序,從而在知識推薦中體現(xiàn)關(guān)聯(lián)多個興趣主題的推薦結(jié)果。(2)用戶數(shù)據(jù)的實時更新對知識推薦也將產(chǎn)生影響。這需要及時更新學(xué)者借閱和知識資源數(shù)據(jù),并對增量數(shù)據(jù)開展實時相似度計算,以實現(xiàn)知識資源的動態(tài)精準推薦,這些是本文下一步研究的方向。