国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶行為數(shù)據(jù)的學(xué)術(shù)用戶畫(huà)像構(gòu)建方法研究

2024-10-22 00:00:00張良肖銀濤
現(xiàn)代信息科技 2024年15期

摘 要:闡述了一種基于用戶行為數(shù)據(jù)的學(xué)術(shù)用戶畫(huà)像構(gòu)建方法,包括標(biāo)記用戶行為數(shù)據(jù)并按照三個(gè)維度標(biāo)記用戶身份;收集、清洗用戶行為數(shù)據(jù)、用戶訪問(wèn)過(guò)的學(xué)術(shù)資源的特征信息;構(gòu)建用戶興趣領(lǐng)域和每個(gè)興趣領(lǐng)域的關(guān)鍵詞向量表達(dá);結(jié)合用戶賬號(hào)相關(guān)信息構(gòu)建學(xué)術(shù)用戶畫(huà)像。能夠基于用戶IP、賬號(hào)、終端標(biāo)識(shí)三個(gè)維度的歷史行為數(shù)據(jù),通過(guò)挖掘分析相關(guān)學(xué)術(shù)資源特征信息,構(gòu)建學(xué)術(shù)用戶畫(huà)像。其中基于終端的學(xué)術(shù)用戶畫(huà)像不依賴于用戶賬號(hào)體系,為后續(xù)的機(jī)構(gòu)讀者個(gè)性化知識(shí)推薦服務(wù)提供支撐。

關(guān)鍵詞:用戶畫(huà)像;個(gè)性化推薦;知識(shí)服務(wù);學(xué)術(shù)資源;用戶行為

中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)15-0119-05

Research on the Construction Method of Academic User Profile Based on

User Behavior Data

ZHANG Liang, XIAO Yintao

(Tongfang Knowledge Network Digital Publishing Technology Co., Ltd., Beijing 100192, China)

Abstract: This paper elaborates a method for constructing academic user profiles based on user behavior data, including labeling user behavior data and labeling user identity according to three dimensions. It collects and clean user behavior data and characteristic information of academic resources accessed by users, constructs vector representations of user interest domains and key words of each interest domain, and constructs an academic user profile based on user account related information. Based on historical behavioral data from three dimensions of user IP, account, and terminal identification, academic user profiles can be constructed by mining and analyzing relevant academic resource characteristic information. The academic user profile based on terminals does not rely on the user account system, providing support for personalized knowledge recommendation services for institutional readers in the future.

Keywords: user profile; personalized recommendation; knowledge service; academic resource; user behavior

0 引 言

20世紀(jì)90年代,庫(kù)帕[1]提出用戶畫(huà)像的概念,用戶畫(huà)像是對(duì)用戶各種行為、特征的總結(jié),是建立在用戶數(shù)據(jù)基礎(chǔ)之上的模型,通過(guò)收集用戶的社會(huì)屬性、消費(fèi)習(xí)慣、偏好特征等各個(gè)維度的數(shù)據(jù),對(duì)用戶或產(chǎn)品特征屬性進(jìn)行刻畫(huà),并對(duì)這些特征進(jìn)行分析、統(tǒng)計(jì),挖掘潛在價(jià)值信息,從而抽象出用戶的信息全貌[2]。用戶畫(huà)像技術(shù)的本質(zhì)工作就是用戶信息標(biāo)簽化[3]。

用戶畫(huà)像可看作應(yīng)用大數(shù)據(jù)的根基,是個(gè)性化推薦的前置條件,為數(shù)據(jù)驅(qū)動(dòng)運(yùn)營(yíng)奠定了基礎(chǔ)[2]。國(guó)內(nèi)學(xué)者引入用戶畫(huà)像的思想或方法[4-5],廣泛應(yīng)用于電子商務(wù)、公共圖書(shū)館和衛(wèi)生健康等領(lǐng)域[6-8]。在用戶畫(huà)像的設(shè)計(jì)與構(gòu)建方法上,陳晶等[9]提出了基于聯(lián)邦學(xué)習(xí)的多源數(shù)據(jù)用戶畫(huà)像設(shè)計(jì)方案,利用聯(lián)邦學(xué)習(xí)的計(jì)算機(jī)制和隱私求交算法實(shí)現(xiàn)了多源數(shù)據(jù)共享。房志明等[10]利用用戶的靜態(tài)屬性和動(dòng)態(tài)屬性進(jìn)行評(píng)審專(zhuān)家畫(huà)像建模。吳迪等[11]提出一種微博用戶行為影響力計(jì)算方法,構(gòu)建熱點(diǎn)話題下的用戶畫(huà)像。李帥等[12]提出一種基于實(shí)時(shí)用戶畫(huà)像的軍事情報(bào)推薦技術(shù)。該技術(shù)通過(guò)收集用戶的自然標(biāo)簽和行為標(biāo)簽等信息,并結(jié)合時(shí)間上下文,生成動(dòng)態(tài)實(shí)時(shí)用戶畫(huà)像。

用戶畫(huà)像已得到部分學(xué)者的關(guān)注,但鮮少有針對(duì)學(xué)術(shù)用戶畫(huà)像的領(lǐng)域細(xì)分研究。如何構(gòu)建學(xué)術(shù)用戶畫(huà)像,動(dòng)態(tài)地將個(gè)體讀者多個(gè)興趣領(lǐng)域與學(xué)術(shù)資源分類(lèi)體系深度結(jié)合并表達(dá)出來(lái),是學(xué)術(shù)類(lèi)數(shù)字資源提供者為讀者提供精準(zhǔn)個(gè)性化知識(shí)服務(wù)的前提。本文所述數(shù)據(jù)來(lái)源于知網(wǎng)學(xué)術(shù)資源和用戶行為數(shù)據(jù),提出一種基于用戶行為數(shù)據(jù)的學(xué)術(shù)用戶畫(huà)像構(gòu)建方案,能夠基于用戶IP、賬號(hào)、終端標(biāo)識(shí)三個(gè)維度的歷史行為數(shù)據(jù),通過(guò)挖掘分析相關(guān)學(xué)術(shù)資源特征信息,構(gòu)建學(xué)術(shù)用戶畫(huà)像。

1 學(xué)術(shù)畫(huà)像構(gòu)建總體流程

學(xué)術(shù)畫(huà)像構(gòu)建方案總體分為數(shù)據(jù)預(yù)處理、畫(huà)像建模與向量表達(dá)、畫(huà)像輸出三個(gè)模塊。其中,數(shù)據(jù)預(yù)處理模塊負(fù)責(zé)標(biāo)記用戶身份,收集、清洗用戶行為數(shù)據(jù)和用戶訪問(wèn)過(guò)的學(xué)術(shù)資源,輸出規(guī)范化的用戶行為數(shù)據(jù)和學(xué)術(shù)資源特征信息。畫(huà)像建模與向量表達(dá)模塊利用數(shù)據(jù)預(yù)處理模塊產(chǎn)生的數(shù)據(jù)構(gòu)建用戶興趣領(lǐng)域和每個(gè)興趣領(lǐng)域的關(guān)鍵詞向量表達(dá),需綜合考慮用戶行為類(lèi)型、行為時(shí)間、資源特征等多個(gè)因素。畫(huà)像數(shù)據(jù)模塊結(jié)合用戶單位、學(xué)歷、研究領(lǐng)域等基本信息,以JSON格式描述用戶畫(huà)像??傮w流程如圖1所示。

2 學(xué)術(shù)畫(huà)像構(gòu)建數(shù)據(jù)預(yù)處理

2.1 標(biāo)記用戶行為數(shù)據(jù)并從三個(gè)維度標(biāo)記用戶身份

業(yè)務(wù)系統(tǒng)記錄用戶登錄、檢索、瀏覽、收藏、關(guān)注、在線閱讀及下載的行為日志,內(nèi)容包括用戶IP、賬號(hào)、終端標(biāo)識(shí)、操作時(shí)間、檢索詞、瀏覽或下載的文獻(xiàn)等字段信息,如表1所示。其中,IP是用戶產(chǎn)生行為時(shí)的終端設(shè)備IP;賬號(hào)是用戶產(chǎn)生行為時(shí)使用的賬號(hào),匿名操作時(shí)記錄匿名賬號(hào)標(biāo)識(shí);終端標(biāo)識(shí)是用戶產(chǎn)生行為時(shí)的終端設(shè)備標(biāo)識(shí),是系統(tǒng)為每一個(gè)終端設(shè)備生成存儲(chǔ)在終端設(shè)備中的ID,當(dāng)新的終端訪問(wèn)系統(tǒng)時(shí),由系統(tǒng)自動(dòng)生成并存儲(chǔ)在終端設(shè)備中。

通過(guò)用戶IP、賬號(hào)、終端標(biāo)識(shí)三個(gè)維度的標(biāo)記以及行為分析對(duì)常用賬號(hào)和常用終端建立關(guān)聯(lián),可以在用戶未登錄、登錄個(gè)人賬號(hào)、登錄機(jī)構(gòu)賬號(hào)等多種使用場(chǎng)景下記錄用戶行為數(shù)據(jù)。在確保讀者數(shù)據(jù)和隱私安全的前提下,用戶行為數(shù)據(jù)成為構(gòu)建讀者學(xué)術(shù)用戶畫(huà)像的重要依據(jù)。

具體步驟包括:

1)在用戶產(chǎn)生行為時(shí)記錄用戶的IP。

2)在用戶產(chǎn)生行為時(shí),判斷用戶是否是登錄狀態(tài),如果是,記錄用戶賬號(hào);如果未登錄,記錄匿名賬號(hào)標(biāo)識(shí)。

3)在用戶產(chǎn)生行為時(shí)記錄用戶的終端標(biāo)識(shí)。從用戶終端設(shè)備中獲取用戶終端標(biāo)識(shí)時(shí),若不存在,系統(tǒng)生成終端標(biāo)識(shí)并存儲(chǔ)在終端設(shè)備中;若存在,則直接獲取使用。

4)若同一賬號(hào)在同一終端多次使用,則認(rèn)為該終端是用戶的常用設(shè)備,為用戶建立賬號(hào)和設(shè)備之間的關(guān)聯(lián)關(guān)系。在后續(xù)收集、清洗用戶行為數(shù)據(jù)時(shí),終端設(shè)備上產(chǎn)生的行為數(shù)據(jù),在匿名狀態(tài)下也能選擇性地視為關(guān)聯(lián)賬號(hào)的行為數(shù)據(jù)。

2.2 收集、清洗用戶行為數(shù)據(jù)

收集用戶行為數(shù)據(jù)的內(nèi)容包括線下定時(shí)從業(yè)務(wù)系統(tǒng)收集的用戶行為數(shù)據(jù)以及線上通過(guò)分布式消息系統(tǒng)收集的在線用戶即時(shí)產(chǎn)生的行為數(shù)據(jù)。所述用戶行為數(shù)據(jù)主要包括登錄、檢索、瀏覽、收藏、關(guān)注、在線閱讀及下載的操作日志,主要數(shù)據(jù)字段包括用戶IP、賬號(hào)、終端標(biāo)識(shí)、操作時(shí)間、檢索詞、瀏覽或下載的文獻(xiàn)ID等。為保證數(shù)據(jù)一致性、刪除重復(fù)信息、糾正存在的錯(cuò)誤,對(duì)所收集的行為數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。主要是根據(jù)每個(gè)變量的合理取值范圍和相互關(guān)系對(duì)數(shù)據(jù)進(jìn)行一致性檢查,去除有缺失或格式錯(cuò)誤的數(shù)據(jù),去除有邏輯錯(cuò)誤和不需要的數(shù)據(jù),對(duì)短時(shí)高頻行為進(jìn)行過(guò)濾或采樣(例如,按照國(guó)際在線電子資源使用統(tǒng)計(jì)標(biāo)準(zhǔn)COUNTER的規(guī)定,對(duì)同一個(gè)會(huì)話30秒內(nèi)的重復(fù)行為數(shù)據(jù)進(jìn)行去重[13]),對(duì)用戶敏感信息進(jìn)行脫敏等處理,確保數(shù)據(jù)的有效性,確保用戶隱私安全。

2.3 收集、清洗用戶訪問(wèn)過(guò)的學(xué)術(shù)資源的特征信息

用戶行為數(shù)據(jù)包含用戶瀏覽、下載、閱讀、收藏、關(guān)注的文獻(xiàn)ID。系統(tǒng)根據(jù)這些文獻(xiàn)ID從學(xué)術(shù)資源題錄庫(kù)中檢索獲取相關(guān)的資源特征信息,這些特征信息已經(jīng)過(guò)預(yù)處理,具體包括篇名、作者、單位、所屬學(xué)科、所屬刊物、關(guān)鍵詞、機(jī)標(biāo)關(guān)鍵詞、描述文獻(xiàn)的VSM向量信息、期刊指數(shù)、機(jī)構(gòu)指數(shù)、作者指數(shù)、被引量、被下載量、頁(yè)數(shù)等。其中,文獻(xiàn)的VSM向量信息是通過(guò)TF-IDF算法把一篇文章抽象成一個(gè)多維向量,每一個(gè)維度的向量由特征詞和權(quán)重組成,權(quán)重結(jié)合了詞頻TF和逆文檔頻率IDF,代表了該詞在文章中的重要程度,排在前列的即為本文的關(guān)鍵詞。

3 學(xué)術(shù)畫(huà)像建模與向量表達(dá)

3.1 構(gòu)建用戶興趣領(lǐng)域的向量表達(dá)

從用戶IP、賬號(hào)、終端標(biāo)識(shí)三個(gè)維度分析如何構(gòu)建用戶興趣領(lǐng)域的向量表達(dá)。該向量表達(dá)兼顧用戶的長(zhǎng)期興趣和短期興趣,具備明顯的學(xué)術(shù)化特征。綜合考慮用戶行為類(lèi)型、行為時(shí)間、資源特征等多個(gè)因素,對(duì)不同特征賦予不同權(quán)重,通過(guò)聚類(lèi)分析或分類(lèi)算法分析,對(duì)用戶興趣進(jìn)行動(dòng)態(tài)、多領(lǐng)域、定量的描述。

具體步驟包括:

1)收集該用戶近期的行為數(shù)據(jù)以及相關(guān)文獻(xiàn)的資源特征信息。獲取該用戶最近N天瀏覽、下載、閱讀、收藏、關(guān)注的行為數(shù)據(jù),根據(jù)行為數(shù)據(jù)涉及的文獻(xiàn)信息,獲取相關(guān)的資源特征信息。

2)構(gòu)建該用戶使用文獻(xiàn)與興趣領(lǐng)域的關(guān)系列表。用戶最終的興趣領(lǐng)域使用學(xué)術(shù)文獻(xiàn)的學(xué)科分類(lèi)體系表達(dá)。分類(lèi)體系可以是中圖分類(lèi)法,也可以是其他學(xué)科分類(lèi)體系。收集、清洗文獻(xiàn)與所屬學(xué)科的關(guān)系數(shù)據(jù),針對(duì)用戶使用文獻(xiàn)所屬學(xué)科數(shù)據(jù)可能存在重復(fù)或錯(cuò)誤的“臟數(shù)據(jù)”情況,進(jìn)行去重和數(shù)據(jù)一致性檢查。文獻(xiàn)對(duì)興趣領(lǐng)域的貢獻(xiàn)值與該文獻(xiàn)的被引量、被下載量、期刊指數(shù)、機(jī)構(gòu)指數(shù)、作者指數(shù)以及文獻(xiàn)的頁(yè)數(shù)有關(guān)系。計(jì)算式如下:

其中,C(i)表示第i篇文獻(xiàn)對(duì)所屬學(xué)科的貢獻(xiàn)值;K1、K2表示調(diào)節(jié)參數(shù),一般K1 = 0.9,K2 = 0,n表示文獻(xiàn)所屬學(xué)科的數(shù)量;文獻(xiàn)屬于多個(gè)學(xué)科分類(lèi)時(shí),文獻(xiàn)的貢獻(xiàn)值要平均分配到各個(gè)所屬學(xué)科分類(lèi)中。M表示影響貢獻(xiàn)值因素的數(shù)量,這里包括被引量、被下載量、期刊指數(shù)、機(jī)構(gòu)指數(shù)、作者指數(shù)以及文獻(xiàn)的頁(yè)數(shù),因此m = 6。α表示各因素的影響系數(shù),可結(jié)合具體的影響因素和資源類(lèi)型進(jìn)行設(shè)定。F(i, j)表示第i篇文獻(xiàn)從學(xué)術(shù)資源題錄庫(kù)中獲取的被引量、被下載量、期刊指數(shù)、機(jī)構(gòu)指數(shù)、作者指數(shù)以及文獻(xiàn)頁(yè)數(shù)中的第j個(gè)影響因素。

構(gòu)建完的用戶使用文獻(xiàn)與興趣領(lǐng)域的關(guān)系列表包含行為類(lèi)型、文獻(xiàn)、所屬學(xué)科、貢獻(xiàn)值、行為時(shí)間。其中,行為類(lèi)型就是瀏覽、下載、閱讀、收藏、關(guān)注;文獻(xiàn)有多個(gè)所屬學(xué)科時(shí),應(yīng)存儲(chǔ)多行,確保每行記錄的所屬學(xué)科只有一個(gè)值。

3)計(jì)算該用戶使用過(guò)的文獻(xiàn)在興趣領(lǐng)域中的權(quán)重,構(gòu)建用戶興趣領(lǐng)域文獻(xiàn)權(quán)重列表。在用戶使用文獻(xiàn)與興趣領(lǐng)域的關(guān)系列表中,影響權(quán)重的因素包括行為類(lèi)型、行為時(shí)間、貢獻(xiàn)值。根據(jù)用戶的行為時(shí)間和操作類(lèi)型進(jìn)行時(shí)間衰減和行為加權(quán)。時(shí)間衰減規(guī)則是,越早的行為權(quán)重越低,越新的行為權(quán)重越高。行為加權(quán)的規(guī)則是下載、關(guān)注、收藏、瀏覽。計(jì)算式如下:

其中,F(xiàn)W(i)表示列表第i條記錄中的文獻(xiàn)在對(duì)應(yīng)興趣領(lǐng)域中的權(quán)重;T(i)表示第i條記錄的行為時(shí)間;T1表示列表中的最早行為時(shí)間;T2表示列表中的最新行為時(shí)間;S(i)表示行為類(lèi)型的評(píng)分值,按照下載、關(guān)注、收藏、瀏覽設(shè)定;C(i)表示文獻(xiàn)對(duì)所屬學(xué)科的貢獻(xiàn)值。計(jì)算后,用戶使用文獻(xiàn)與興趣領(lǐng)域的關(guān)系列表增加了文獻(xiàn)權(quán)重一列,構(gòu)成用戶興趣領(lǐng)域文獻(xiàn)權(quán)重列表,包括行為類(lèi)型、文獻(xiàn)、所屬學(xué)科、貢獻(xiàn)值、行為時(shí)間、文獻(xiàn)權(quán)重。

4)計(jì)算該用戶各興趣領(lǐng)域權(quán)重。對(duì)用戶興趣領(lǐng)域文獻(xiàn)權(quán)重列表進(jìn)行分析,使用所屬學(xué)科維度進(jìn)行聚類(lèi),得到每個(gè)所屬學(xué)科的權(quán)重匯總:

其中,DW( j)表示該用戶第j個(gè)興趣領(lǐng)域的權(quán)重匯總;FW( j)表示該用戶第j個(gè)興趣領(lǐng)域下n篇文獻(xiàn)中第i個(gè)文獻(xiàn)的權(quán)重值。

5)對(duì)該用戶所有興趣領(lǐng)域的權(quán)重進(jìn)行歸一化處理、降序排列后,得到最終的用戶興趣領(lǐng)域的向量表達(dá)。

3.2 構(gòu)建用戶每個(gè)興趣領(lǐng)域的關(guān)鍵詞向量表達(dá)

根據(jù)用戶興趣領(lǐng)域文獻(xiàn)權(quán)重列表,從學(xué)術(shù)資源題錄庫(kù)中提取相關(guān)學(xué)術(shù)資源的特征信息,構(gòu)建用戶興趣領(lǐng)域關(guān)鍵詞權(quán)重列表;從賬號(hào)信息庫(kù)中提取用戶編輯的興趣領(lǐng)域、興趣詞,從行為數(shù)據(jù)中提取用戶近期使用的檢索詞信息,補(bǔ)充完善用戶興趣領(lǐng)域關(guān)鍵詞權(quán)重列表;根據(jù)業(yè)務(wù)處理關(guān)鍵詞重復(fù)的記錄,最終得到用戶該興趣領(lǐng)域的關(guān)鍵詞向量表達(dá)。

具體步驟包括:

1)根據(jù)用戶興趣領(lǐng)域文獻(xiàn)權(quán)重列表,提取相關(guān)文獻(xiàn)的資源特征信息。提取后的數(shù)據(jù)包含行為類(lèi)型、文獻(xiàn)、所屬學(xué)科、貢獻(xiàn)值、行為時(shí)間、文獻(xiàn)權(quán)重、所屬刊物、關(guān)鍵詞、機(jī)標(biāo)關(guān)鍵詞、描述文獻(xiàn)的VSM向量信息、期刊指數(shù)、機(jī)構(gòu)指數(shù)及作者指數(shù)。

2)構(gòu)建用戶興趣領(lǐng)域關(guān)鍵詞權(quán)重列表。根據(jù)用戶興趣領(lǐng)域涉及的文獻(xiàn),提取關(guān)鍵詞信息并計(jì)算權(quán)重值,構(gòu)建用戶興趣領(lǐng)域關(guān)鍵詞權(quán)重列表。關(guān)鍵詞主要來(lái)源于描述文獻(xiàn)的VSM向量信息,沒(méi)有該字段的文獻(xiàn)則使用關(guān)鍵詞或機(jī)標(biāo)關(guān)鍵詞來(lái)替代。為了描述關(guān)鍵詞在用戶興趣領(lǐng)域的重要程度,每個(gè)關(guān)鍵詞需要設(shè)置一個(gè)權(quán)重值。因?yàn)閂SM向量中關(guān)鍵詞的權(quán)重值指的是該詞在這篇文獻(xiàn)中的重要程度,不能直接拿來(lái)描述關(guān)鍵詞在用戶興趣領(lǐng)域中的權(quán)重。此處,我們將用戶興趣領(lǐng)域文獻(xiàn)權(quán)重列表中文獻(xiàn)的權(quán)重值按照VSM向量中關(guān)鍵詞權(quán)重的比例進(jìn)行分配。這樣既考慮了單篇文獻(xiàn)對(duì)用戶興趣領(lǐng)域影響的最大值,又兼顧了文獻(xiàn)中關(guān)鍵詞重要程度的區(qū)分。用戶興趣領(lǐng)域關(guān)鍵詞的權(quán)重值計(jì)算式如下:

其中,DWW(i)表示用戶某個(gè)興趣領(lǐng)域第i個(gè)關(guān)鍵詞的權(quán)重;FWW(j)表示用戶某個(gè)興趣領(lǐng)域n篇文獻(xiàn)中第j篇文獻(xiàn)的VSM向量中對(duì)應(yīng)關(guān)鍵詞的權(quán)重值; 表示用戶某個(gè)興趣領(lǐng)域中第j篇文獻(xiàn)VSM向量中所有m個(gè)詞權(quán)重的累加值;FW(j)表示用戶某個(gè)興趣領(lǐng)域中第j篇文獻(xiàn)的權(quán)重。

經(jīng)過(guò)該步驟處理后,將得到用戶興趣領(lǐng)域關(guān)鍵詞列表,包含用戶興趣領(lǐng)域、興趣領(lǐng)域權(quán)重、關(guān)鍵詞、關(guān)鍵詞權(quán)重。

3)補(bǔ)充完善用戶興趣領(lǐng)域關(guān)鍵詞權(quán)重列表。補(bǔ)充關(guān)鍵詞是為了更準(zhǔn)確地描述用戶的興趣領(lǐng)域。主要是通過(guò)用戶輸入的檢索詞或主動(dòng)編輯興趣詞來(lái)實(shí)現(xiàn)。用戶輸入的檢索詞,可根據(jù)用戶檢索后訪問(wèn)的文獻(xiàn)所屬分類(lèi)確定檢索詞所屬的用戶興趣領(lǐng)域;權(quán)重值可參考該興趣領(lǐng)域關(guān)鍵詞的權(quán)重值進(jìn)行設(shè)置,無(wú)論與已有關(guān)鍵詞重復(fù)與否,均應(yīng)將該檢索詞賦以較高的權(quán)重值,比如前5位。系統(tǒng)提2sMtV5UWqc+SfDCCtXzBHSyh7RXScdp3/MNz1DAUFJ4=供用戶主動(dòng)編輯興趣詞的功能,用戶輸入的興趣詞將取代原興趣詞,權(quán)重值不變。刪除權(quán)重值較低的重復(fù)詞。

4)處理用戶興趣領(lǐng)域關(guān)鍵詞權(quán)重列表中重復(fù)的關(guān)鍵詞。從學(xué)術(shù)用戶畫(huà)像整體描述考慮,重復(fù)的關(guān)鍵詞是冗余的,應(yīng)該進(jìn)行排重處理;但從用戶興趣領(lǐng)域描述來(lái)考慮,則不應(yīng)進(jìn)行排重處理。因此,該步驟可根據(jù)應(yīng)用場(chǎng)景做選擇性處理。處理方法是根據(jù)用戶興趣領(lǐng)域的關(guān)鍵詞權(quán)重列表,對(duì)于重復(fù)的關(guān)鍵詞信息,保留關(guān)鍵詞權(quán)重高的記錄;權(quán)重值相同時(shí)保留興趣領(lǐng)域權(quán)重較高的記錄。

5)對(duì)用戶每個(gè)興趣領(lǐng)域的關(guān)鍵詞權(quán)重進(jìn)行歸一化處理、降序排列后得到用戶該興趣領(lǐng)域的關(guān)鍵詞向量表達(dá)。

4 學(xué)術(shù)畫(huà)像輸出

學(xué)術(shù)畫(huà)像輸出以JSON格式描述,可直接應(yīng)用于產(chǎn)品或?yàn)橥扑]系統(tǒng)提供基礎(chǔ)數(shù)據(jù)支撐。學(xué)術(shù)畫(huà)像主要是對(duì)用戶興趣領(lǐng)域及權(quán)重、興趣詞及權(quán)重的描述,另外也對(duì)用戶基本信息(如用戶標(biāo)識(shí)、研究領(lǐng)域、我的興趣詞等)的描述做了定義,形成一個(gè)完整的學(xué)術(shù)用戶畫(huà)像體系。其中,用戶基本信息數(shù)據(jù)來(lái)源于用戶在知網(wǎng)“我的賬戶”產(chǎn)品中自填的信息,如圖2所示。學(xué)術(shù)畫(huà)像的JSON格式表達(dá)如圖3所示。

學(xué)術(shù)畫(huà)像已應(yīng)用于知網(wǎng)“我的CNKI”產(chǎn)品,為讀者提供個(gè)性化知識(shí)推薦服務(wù),如圖4所示。

5 結(jié) 論

針對(duì)基于用戶行為的學(xué)術(shù)用戶畫(huà)像構(gòu)建問(wèn)題,本文提出從用戶IP、賬號(hào)、終端標(biāo)識(shí)三個(gè)維度對(duì)歷史行為數(shù)據(jù)進(jìn)行標(biāo)識(shí)的方法,并通過(guò)學(xué)術(shù)畫(huà)像建模對(duì)用戶的興趣領(lǐng)域及每個(gè)興趣領(lǐng)域的興趣詞進(jìn)行向量表達(dá)。最后,結(jié)合賬號(hào)其他信息一起構(gòu)建學(xué)術(shù)用戶畫(huà)像,并以JSON格式進(jìn)行完整描述,為后續(xù)個(gè)性化知識(shí)推薦服務(wù)提供支撐。

參考文獻(xiàn):

[1] 庫(kù)帕.交互設(shè)計(jì)之路 [M].北京:電子工業(yè)出版社,2006.

[2] 趙宏田.用戶畫(huà)像:方法論與工程化解決方案 [M].北京:機(jī)械工業(yè)出版社,2020.

[3] 黃志楊.基于K-means++的大學(xué)生就業(yè)畫(huà)像構(gòu)建 [J].現(xiàn)代信息科技,2023,7(10):109-112.

[4] 刁雪樺,朱學(xué)芳.基于用戶群體畫(huà)像分析的慕課平臺(tái)知識(shí)服務(wù)策略研究 [J].數(shù)字圖書(shū)館論壇,2023,19(12):11-20.

[5] 王世奇,劉智鋒,王繼民.學(xué)者畫(huà)像研究綜述 [J].圖書(shū)情報(bào)工作,2022,66(20):73-81.

[6] 李松,王磊,王千羽.基于評(píng)論信息的網(wǎng)絡(luò)購(gòu)物用戶興趣畫(huà)像研究 [J].情報(bào)科學(xué),2023,41(11):128-133.

[7] 劉一鳴,徐春霞.基于用戶畫(huà)像的公共圖書(shū)館健康信息精準(zhǔn)服務(wù)路徑研究 [J].圖書(shū)館,2023(9):53-59.

[8] 劉樂(lè)洋,劉維維.用戶畫(huà)像在衛(wèi)生健康領(lǐng)域應(yīng)用中的研究進(jìn)展 [J].中國(guó)健康教育,2023,39(9):826-831.

[9] 陳晶,彭長(zhǎng)根,譚偉杰.基于聯(lián)邦學(xué)習(xí)的多源數(shù)據(jù)用戶畫(huà)像設(shè)計(jì)方案 [J].南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2023,43(5):83-91.

[10] 房志明,吳鑫卓,林原,等.基于用戶畫(huà)像的高校采購(gòu)評(píng)審專(zhuān)家推薦算法 [J].實(shí)驗(yàn)技術(shù)與管理,2024,41(4):228-237.

[11] 吳迪,馬文莉,楊利君.遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫(huà)像 [J].計(jì)算機(jī)工程與設(shè)計(jì),2023,44(12):3800-3808.

[12] 李帥,李海霞,金山,等.基于用戶畫(huà)像的軍事情報(bào)推薦技術(shù) [J].火力與指揮控制,2023,48(4):122-129.

[13] 楊巍,葉仁杰,吳元業(yè),等.COUNTER Release 5的新特征及其應(yīng)用研究 [J].大學(xué)圖書(shū)館學(xué)報(bào),2020,38(1):18-25+41.

作者簡(jiǎn)介:張良(1977—),男,漢族,山東濟(jì)寧人,高級(jí)工程師,碩士,研究方向:信息系統(tǒng)研發(fā)與管理;肖銀濤(1985—),男,漢族,河北保定人,項(xiàng)目經(jīng)理,碩士,研究方向:用戶畫(huà)像與推薦系統(tǒng)。

华亭县| 淄博市| 枞阳县| 石首市| 淳安县| 广宗县| 安仁县| 买车| 信宜市| 广河县| 娄烦县| 永安市| 德格县| 娱乐| 庆元县| 罗田县| 长武县| 彭山县| 眉山市| 大冶市| 枣阳市| 黄浦区| 泽州县| 墨玉县| 铜川市| 芦溪县| 秦皇岛市| 阳东县| 呼玛县| 九龙城区| 慈利县| 喀什市| 安徽省| 离岛区| 东明县| 正宁县| 广宗县| 桓台县| 南汇区| 武汉市| 余姚市|