国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶畫像的課程學(xué)習(xí)視頻推薦系統(tǒng)研究與設(shè)計

2023-06-21 09:28陳玉帛項慨王順馳何希李婭琴鄒正李玉婷
現(xiàn)代信息科技 2023年9期
關(guān)鍵詞:用戶畫像個性化推薦推薦系統(tǒng)

陳玉帛 項慨 王順馳 何希 李婭琴 鄒正 李玉婷

摘? 要:文章面向在線教育,研究并設(shè)計一種課程學(xué)習(xí)視頻的推薦系統(tǒng)。由于線上學(xué)習(xí)資源冗雜繁多,且缺乏規(guī)范化構(gòu)建和系統(tǒng)化管理,學(xué)習(xí)者難以精準(zhǔn)獲取滿足其個性化需求的課程學(xué)習(xí)視頻。文章通過數(shù)據(jù)挖掘技術(shù)獲取用戶數(shù)據(jù)后構(gòu)建用戶畫像并進行相似用戶群體識別,再利用推薦算法實現(xiàn)課程學(xué)習(xí)視頻與用戶之間的精準(zhǔn)匹配。實驗結(jié)果表明,該文推薦系統(tǒng)可以有效解決人們在選擇學(xué)習(xí)資源時產(chǎn)生的“信息迷航”和“信息過載”等問題,能夠有效滿足用戶個性化學(xué)習(xí)需求并為用戶提供個性化學(xué)習(xí)路線。

關(guān)鍵詞:課程學(xué)習(xí)視頻;用戶畫像;個性化推薦;推薦系統(tǒng)

中圖分類號:TP311? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)09-0001-08

Abstract: This paper studies and designs a course learning video recommendation system for online education. As online learning resources are numerous, and lack of standardized construction and systematic management, it's hard for online learners to catch accurately course learning videos that meet their personalized needs. This paper obtains user data through data mining technology, constructs user profiles, identifies similar user groups, and then uses recommendation algorithms to achieve precise matching between course learning videos and users. The experimental results indicate that, the recommendation system proposed in this paper can effectively solve the problems of “information confusion” and “information overload” that people encounter when choosing learning resources, and can effectively meet users' personalized learning needs and provide personalized learning routes for users.

Keywords: course learning video; user portrait; personalized recommendation; recommendation system

0? 引? 言

CNNIC發(fā)布的2021年度中國互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展情況調(diào)查報告顯示:截至2021年6月,全國互聯(lián)網(wǎng)用戶總數(shù)在2021年新增2 175萬,用戶總規(guī)模約10.11億,互聯(lián)網(wǎng)普及率達(dá)到71.6%。我國在線教育在數(shù)字化時代到來和互聯(lián)網(wǎng)普及率提高的背景下有了明顯起色?!督逃?022年工作要點》中也提出“實施教育數(shù)字化戰(zhàn)略行動”,以此來推進教育數(shù)字轉(zhuǎn)型與智能升級。這體現(xiàn)出數(shù)字化對于教育行業(yè)發(fā)展的重要意義,在線學(xué)習(xí)教育已經(jīng)發(fā)展成為新的教育模式。

在線教育領(lǐng)域也因此產(chǎn)生了海量的課程學(xué)習(xí)視頻資源,從管理到教學(xué),從職業(yè)培訓(xùn)到專業(yè)培訓(xùn),從基礎(chǔ)教育到素質(zhì)教學(xué),科技持續(xù)縱深?!皩W(xué)習(xí)迷航”“認(rèn)知過載”等問題導(dǎo)致學(xué)習(xí)者在學(xué)習(xí)的過程中效果不佳[1],對感興趣的學(xué)習(xí)資源的獲取效率降低。

如何更好地進行個性化推薦成為一個關(guān)鍵性問題。現(xiàn)有學(xué)習(xí)資源推薦的研究主要針對單一課程的在線學(xué)習(xí)活動進行認(rèn)知能力分析,而缺乏根據(jù)用戶個性化特征進行精準(zhǔn)推薦的研究,不能很好地滿足學(xué)習(xí)者的個性化需求。

本文在“數(shù)字化教育”大力發(fā)展的趨勢下,采取用戶畫像技術(shù)進行用戶畫像建模,以此精準(zhǔn)地定位用戶需求。并對課程學(xué)習(xí)視頻的個性化推薦系統(tǒng)進行研究,將智能推薦算法進行深度運用。針對不同用戶需求,為其智能推薦個性化的課程學(xué)習(xí)視頻,以此達(dá)到優(yōu)化課程學(xué)習(xí)視頻的推薦、節(jié)省用戶挑選課程學(xué)習(xí)視頻時間的目的。

1? 用戶畫像和推薦系統(tǒng)

1.1? 用戶畫像

此概念最先產(chǎn)生于交互設(shè)計領(lǐng)域,由AlanCooper提出。其指出用戶畫像是真實的目標(biāo)用戶的虛擬代表,是建立在真實數(shù)據(jù)之上的目標(biāo)用戶模型[2]。

用戶畫像如今主要是指在某一確定的研究領(lǐng)域收集用戶各類相關(guān)的真實數(shù)據(jù),根據(jù)用戶的個人屬性、興趣偏好、生活習(xí)慣和行為等數(shù)據(jù)信息抽象出來的標(biāo)簽化的用戶模型。其通過特殊場景下的用戶行為信息最終生成用來描述用戶屬性及行為的標(biāo)簽集合,有利于更精確、多角度、更具時效性的分析目標(biāo)用戶。

構(gòu)建用戶畫像的方法總體分為以下四種:基于用戶興趣偏好、基于用戶行為、基于主題或話題、基于本體或概念[3]。構(gòu)建過程從流程上可大致分為三個主要步驟:全面收集用戶數(shù)據(jù);研究并分析用戶信息、細(xì)分構(gòu)建用戶標(biāo)簽;完善和豐富用戶畫像的具體描述?;诖?,在強調(diào)用戶為主體的前提下形成用戶畫像模型,顯現(xiàn)用戶特征,為個性化推薦打下基礎(chǔ)。

1.2? 推薦系統(tǒng)

互聯(lián)網(wǎng)的快速發(fā)展導(dǎo)致信息規(guī)模的大幅擴張,使得用戶在面對超載的信息時難以迅速尋找出自己需要的信息,而推薦系統(tǒng)則是信息超載問題的一種有效解決方法。推薦系統(tǒng)是建立在大量數(shù)據(jù)挖掘基礎(chǔ)上,為用戶提供滿足其需求的個性化內(nèi)容的一種篩選信息的工具[4]。推薦系統(tǒng)根據(jù)一些策略規(guī)則預(yù)測用戶可能喜歡的物品,并對其進行排序后依次推薦給目標(biāo)用戶,這些策略規(guī)則就是推薦算法。

1.2.1? 基于協(xié)同過濾的推薦

此算法最先由Goldberg等[5]在1992年介紹用于分類篩選電子郵件和解決資訊超載難題的推薦系統(tǒng)Tapestry時提出。此算法通過分析興趣相投的群體的反饋和評價,預(yù)測出用戶可能感興趣的信息并將其推薦給用戶。協(xié)同過濾算法可以分為基于用戶的和基于物品的。前者根據(jù)目標(biāo)用戶對物品的評分計算其與其他用戶的相似度,預(yù)測目標(biāo)用戶對其他用戶感興趣物品的評分。后者則通過計算目標(biāo)用戶已有偏好的目標(biāo)物品和同樣對目標(biāo)物品存在偏好的其他用戶喜歡的其他物品的相似度,預(yù)測目標(biāo)用戶對其他物品的偏好。

1.2.2? 基于內(nèi)容的推薦

基于內(nèi)容的推薦的基礎(chǔ)是項目內(nèi)容信息,而非用戶對項目本身的評價意見,更多地需要采用機器學(xué)習(xí)的方法,從關(guān)于內(nèi)容的特征刻畫的事例中獲取用戶的興趣資料。該算法的關(guān)鍵是發(fā)現(xiàn)內(nèi)容之間的關(guān)聯(lián)性,根據(jù)用戶以往的瀏覽記錄推薦給用戶相似的內(nèi)容。

該算法的重點是推薦項目內(nèi)容上相似的物品,與用戶之間無關(guān)系,對目標(biāo)用戶的推薦結(jié)果不受其他用戶的影響。與協(xié)同過濾算法相比,該算法不受冷啟動問題的局限,當(dāng)引入一個新的項目時,可以將新項目的信息和用戶歷史偏好進行比對,而不必考慮用戶和新項目之間是否存在交互[6]。因此可以有效解決在個性化推薦過程中需要大量收集用戶歷史數(shù)據(jù)的問題。

基于內(nèi)容的推薦步驟:首先對產(chǎn)品或項目內(nèi)容特征進行提取,然后進行用戶偏好計算,并依據(jù)算法規(guī)則進行內(nèi)容召回,最后將物品進行排序后依次推薦給用戶。

1.2.3? 混合推薦算法

基于內(nèi)容的推薦具有“過于個性化缺乏驚喜度”的弊端,基于協(xié)同過濾的推薦具有“項目冷啟動”的弊端。混合推薦算法通過多種推薦算法的組合彌補了單種推薦算法的缺點,對提升個性化推薦的準(zhǔn)確率、召回率及覆蓋率具有極大幫助[7-9]。目前常用的混合推薦算法有以下幾種:

特征組合法:輸入來自多個推薦算法的數(shù)據(jù)源特征組合,輸出將其中一個算法作為主算法的推薦結(jié)果。

特征增強法:將前一種推薦算法的輸出作為后一種推薦算法的輸入。

交叉法:在用戶交互界面上將不同算法的結(jié)果按相應(yīng)比例組合起來。

加權(quán)法:將多個推薦算法結(jié)果分?jǐn)?shù)的加權(quán)和組合在一起。

串聯(lián)法:將一組推薦算法按順序排列,后面的推薦算法優(yōu)化前面的推薦結(jié)果。

分級法:利用一種算法構(gòu)建的模型生成主算法的結(jié)果。

2? 系統(tǒng)設(shè)計

2.1? 系統(tǒng)總體結(jié)構(gòu)

首先系統(tǒng)將通過對用戶個人屬性和活動痕跡等數(shù)據(jù)信息的分類、綜合、聚類等操作,全面掌握用戶的個人數(shù)據(jù)信息。然后設(shè)置關(guān)聯(lián)規(guī)則并完成數(shù)據(jù)清洗,以獲得有效信息,再通過合并、聚類等方法,全面收集所有用戶的數(shù)據(jù)信息。其次設(shè)置關(guān)聯(lián)規(guī)則并實施數(shù)據(jù)清理,以獲得有效信息,最后綜合、統(tǒng)一地使用所有個人和群體的數(shù)據(jù)信息。構(gòu)建多維用戶標(biāo)簽體系,實現(xiàn)用戶畫像的核心步驟,并把用戶圖像存放到教學(xué)應(yīng)用庫中。最后再結(jié)合推薦算法,在課程學(xué)習(xí)視頻資源庫中提取與應(yīng)用匹配率最高的課程學(xué)習(xí)視頻,以此實現(xiàn)課堂學(xué)習(xí)視頻資源和應(yīng)用之間的最精確匹配?;谟脩舢嬒竦恼n程學(xué)習(xí)視頻個性化推薦系統(tǒng)整體框架如圖1所示。

2.2? 業(yè)務(wù)運作流程

用戶在注冊登錄時,需填寫“我的信息”,如性別、年齡、行業(yè)和受教育程度等,并選擇興趣標(biāo)簽。系統(tǒng)會利用用戶畫像技術(shù)綜合用戶特征,構(gòu)建用戶畫像模型,形成個性化標(biāo)簽。

一方面,推薦系統(tǒng)會根據(jù)個性化標(biāo)簽智能選擇課程學(xué)習(xí)視頻推薦范圍,設(shè)計用戶首頁推薦視頻列表。用戶也可選擇進入二級分類視頻區(qū)域,選擇貼近自己偏好和實際情況的課程學(xué)習(xí)視頻,實現(xiàn)課程學(xué)習(xí)視頻的精確推薦。

另一方面,形成的個性化標(biāo)簽可以生成用戶初步的學(xué)習(xí)路線,后續(xù)用戶可以自定義修改學(xué)習(xí)路線。根據(jù)系統(tǒng)總體需求分析,本學(xué)習(xí)課程視頻個性化推薦系統(tǒng)的業(yè)務(wù)結(jié)構(gòu)流程如圖2所示。

2.3? 功能設(shè)計

2.3.1? 用戶管理

用戶管理功能分為“賬號設(shè)置”“社區(qū)”和“客服”三個板塊。用戶在進入登錄頁面完成登錄后,即開始使用本系統(tǒng)。用戶首先需完成賬號設(shè)置,進入“我的信息”界面填寫年齡、愛好和地域等信息。系統(tǒng)里內(nèi)設(shè)置有“社區(qū)”板塊,用戶既可以進入主頁的特定社區(qū),又可以選擇自主創(chuàng)建社區(qū)?!翱头卑鍓K能夠幫助用戶解決在使用系統(tǒng)的過程中遇到的問題,完善用戶使用體驗。系統(tǒng)用戶管理功能結(jié)構(gòu)如圖3所示。

2.3.2? 視頻推薦

視頻推薦功能是系統(tǒng)的核心功能。推薦方式有兩種:一是用戶點擊首頁推薦視頻或者下滑刷新,二是進入二級分類視頻區(qū)域。二級分類視頻區(qū)域?qū)⑾到y(tǒng)獲取的各種學(xué)習(xí)視頻依據(jù)授課方式不同分為線上課、錄播課和線下課三類,用戶可以根據(jù)自身情況和學(xué)習(xí)需求選擇不同的授課方式,其中線上課指用戶需在系統(tǒng)上完成課程報名,并在特定時間觀看網(wǎng)絡(luò)課程;線下課同樣需要用戶在系統(tǒng)上完成課程報名,但后續(xù)用戶需按時去特定地點上課。系統(tǒng)視頻推薦功能結(jié)構(gòu)如圖4所示。

2.3.3? 學(xué)習(xí)路線

學(xué)習(xí)路線功能的依據(jù)是用戶在賬號設(shè)置中填寫的“我的信息”,系統(tǒng)會根據(jù)用戶的性別、年齡、行業(yè)和受教育程度等信息生成初步的學(xué)習(xí)路線,同時用戶可以自定義修改自己的學(xué)習(xí)路線。系統(tǒng)學(xué)習(xí)路線功能結(jié)構(gòu)如圖5所示。

2.3.4? 管理端功能設(shè)計

管理端權(quán)限最高,依據(jù)管理對象分為對視頻和對用戶兩種。對視頻,管理端可以行使查詢、審核、增加和刪除四類管理權(quán)限;對用戶,管理端則可行使增加、刪除、查詢用戶和發(fā)布公告四類管理權(quán)限。管理端還需不定時對系統(tǒng)進行維護。管理端功能設(shè)計如圖6所示。

3? 系統(tǒng)實施

3.1? 系統(tǒng)層次結(jié)構(gòu)

本系統(tǒng)自下而上可劃分為數(shù)據(jù)層、數(shù)據(jù)分析層、推薦計算層和交互界面。系統(tǒng)結(jié)構(gòu)層次如圖7所示。

3.2? 系統(tǒng)功能模塊

基于用戶畫像的課程學(xué)習(xí)視頻推薦系統(tǒng)總體上分為三個功能模塊,系統(tǒng)總體結(jié)構(gòu)如圖8所示。

3.2.1? 數(shù)據(jù)采集儲存模塊

這一功能模塊主要包含課程學(xué)習(xí)視頻的數(shù)據(jù)采集與儲存功能。系統(tǒng)抽取互聯(lián)網(wǎng)用戶在網(wǎng)絡(luò)端留下的日志記錄以及從各個學(xué)習(xí)視頻網(wǎng)站獲取的非結(jié)構(gòu)化數(shù)據(jù),將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,并在后臺數(shù)據(jù)庫中以結(jié)構(gòu)化的形式存儲。數(shù)據(jù)庫設(shè)計為視頻信息庫、用戶畫像數(shù)據(jù)庫、用戶興趣數(shù)據(jù)庫和用戶社交數(shù)據(jù)庫四類。

視頻信息庫由視頻名稱、up主名稱、網(wǎng)頁鏈接、圖像鏈接、適用標(biāo)簽和類型六種屬性構(gòu)成,其中網(wǎng)頁鏈接為該視頻的主鍵。其關(guān)鍵代碼如下:

# 視頻信息庫 根據(jù)爬取視頻信息的設(shè)計

createtablevideoLibraryifisnotexist

(videoName? ? ? ? ? varchar(50),? ? ? ? ? —視頻名稱

blogger? ? ? ? ? ? ? ? ? varchar(50),? ? ? ? ? —up主

webPageLink? ? ? ? ?varchar(200),? ? ? ? —網(wǎng)頁鏈接

imageLink? ? ? ? ? ? ? varchar(200),? ? ? ? —圖像鏈接

applicationLable? ? ?varchar(200),? ? ? ?—適用標(biāo)簽

type? ? ? ? ? ? ? ? ? ? ? ? ?varchar(20)? ? ? ? ? —類型

)charsetutf8;

用戶畫像數(shù)據(jù)庫由性別、年齡、行業(yè)和受教育程度四種屬性構(gòu)成,其中行業(yè)為該視頻的主鍵。其關(guān)鍵代碼如下:

# 用戶畫像 根據(jù)用戶屬性設(shè)計

createtableuserInformationifisnotexist

(sex? ? ? ? ? ? ? ? ? ? ? ? ?varchar(2),? ? ? ? ? —性別

age? ? ? ? ? ? ? ? ? ? ? ? ? ?int,? ? ? ? ? ? ? ? ? ? ? —年齡

industry? ? ? ? ? ? ? ? ? ?varchar(10),? ? ? ? —行業(yè)

eduactionLevel? ? ? ? varchar(10)? ? ? ? —受教育程度

)charsetutf8;

用戶興趣數(shù)據(jù)庫由大學(xué)基礎(chǔ)課程類、大學(xué)擇業(yè)類和興趣技能類三種屬性構(gòu)成。其關(guān)鍵代碼如下:

# 用戶興趣信息

createtableuserInternetInformationifisnotexist

(collegeBasicCourses? ? ?varchar(50),? ? ?—大學(xué)基礎(chǔ)課程類

studyAndCareerSelection? ? ?varchar(50),? ? ? —升學(xué)擇業(yè)類

interestsAndSkills? ? ? ? ? ?varchar(200)? ? ? ? ? ?—興趣技能類

)charsetutf8;

用戶社交數(shù)據(jù)庫由關(guān)注的其他人數(shù)量、自己的粉絲數(shù)和訪問信息三類屬性構(gòu)成。其關(guān)鍵代碼如下:

# 用戶社交信息

createtableuserSocialInformationifisnotexist

(numberOfFollowUsers? ? ? ?int,? ? ? ? —關(guān)注的其他人數(shù)量

numberOfFans? ? ? ? ? ? ? int,? ? ? ? ? ? ? ?—自己的粉絲數(shù)

accessInformation? ? ? ? ?TEXT? ? ? ? ? —訪問信息

)charsetutf8;

3.2.2? 用戶畫像構(gòu)建模塊

系統(tǒng)調(diào)取數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),基于其中的用戶基本信息和用戶行為信息設(shè)計標(biāo)簽并確定權(quán)重、進行量化分析,由此構(gòu)建用戶畫像。然后通過K-means聚類分析進行相似的群體識別,反映各自的用戶特征。用戶在登錄前端界面填寫的個人信息和進行瀏覽、評論和收藏等產(chǎn)生的行為信息會錄入后臺數(shù)據(jù)庫,用于構(gòu)建用戶畫像。最后系統(tǒng)會根據(jù)用戶畫像和課程學(xué)習(xí)視頻的時效性形成課程學(xué)習(xí)視頻推薦列表。

3.2.3? 學(xué)習(xí)視頻推薦模塊

該模塊針對新用戶和老用戶具有兩種不同的推薦機制。對于新用戶:登錄系統(tǒng)后,需填寫個人信息和選擇興趣標(biāo)簽,系統(tǒng)通過聚類分析識別用戶特征構(gòu)建新用戶的用戶畫像。推薦算法依據(jù)用戶對不同課程學(xué)習(xí)視頻的喜好差異,掌握用戶對不同課程學(xué)習(xí)視頻的興趣度,將用戶可能感興趣的課程學(xué)習(xí)視頻經(jīng)過時效處理后推薦給用戶。學(xué)習(xí)路線算法結(jié)合用戶填寫的興趣標(biāo)簽與其以往的行為數(shù)據(jù),對貼近用戶偏好的視頻進行去重處理,通過拓?fù)渑判虼_定各項視頻的先后學(xué)習(xí)順序并生成學(xué)習(xí)路線。對于老用戶:填寫個人信息和興趣偏好的環(huán)節(jié)被用戶訪問所產(chǎn)生的社交信息產(chǎn)生所替代,此后進行機制相同但更高效的循環(huán),推薦列表的準(zhǔn)確性和時效性會越來越強。

3.3? 基于用戶畫像的課程學(xué)習(xí)視頻推薦系統(tǒng)實現(xiàn)

3.3.1? 多屬性用戶畫像建模

3.3.1.1? 收集數(shù)據(jù)

以嗶哩嗶哩(英文名稱:bilibili,簡稱B站;網(wǎng)站地址:https://www.bilibili.com/)注冊用戶為研究樣本,爬取公開IP代理池收集B站返回的數(shù)據(jù)。首先進行一系列數(shù)據(jù)清洗,然后篩選出少量用戶數(shù)據(jù)存儲于用戶數(shù)據(jù)庫中。處理后的用戶數(shù)據(jù)信息包括用戶ID、姓名、性別、行業(yè)、受教育程度、關(guān)注用戶數(shù)、粉絲數(shù)等。

3.3.1.2? 設(shè)計用戶標(biāo)簽體系

設(shè)計的用戶標(biāo)簽體系分為三部分:一是基本信息,包含用戶性別、年齡、行業(yè)、受教育程度等。完整的基礎(chǔ)信息對畫像的精準(zhǔn)度產(chǎn)生正向影響,而譬如性別特征這類基本信息對于用戶行為偏好也具有一定的影響作用。二是用戶的行為信息,涵蓋用戶選擇課程視頻的類型如大學(xué)基礎(chǔ)課程類、升學(xué)擇業(yè)類等體現(xiàn)用戶興趣的信息,以及關(guān)注用戶、粉絲等體現(xiàn)用戶社交屬性的信息。構(gòu)建的課程視頻個性化推薦平臺用戶標(biāo)簽體系如圖9所示。

基本信息屬性下的指標(biāo)往往可直接從用戶注冊時填寫的信息中提取出來,其量化相對穩(wěn)定。對其指標(biāo)進行量化表示,能夠更好地表示結(jié)構(gòu)范式。研究采樣樣本用戶群體的年齡是18~35歲,可將其年齡可分為兩個階段,18~22為大學(xué)生群體,22~35歲為青年就業(yè)者群體,并分別由0和1表示。行業(yè)可分為計算機、會計從業(yè)者、金融從業(yè)者、土木工程、材料化學(xué)、數(shù)學(xué)學(xué)者、物理學(xué)者、歷史學(xué)者、教師和醫(yī)生這十大行業(yè),并分別由1、2、3、4、5、6、7、8、9、10表示。

基于上述用戶畫像標(biāo)簽體系,對每一特征進行量化表示,從而展示各層次之間的差異化程度,最后將課程學(xué)習(xí)視頻用戶畫像模型表示成一個向量的形式,即如式(1)所示:

MUP={B, A, P}? ? ? ? ? ? ? ? ? ? ? ? ?; ? ? (1)

其中,MUP表示用戶畫像模型;B表示用戶基本屬性;A表示用戶社交屬性;P表示用戶興趣屬性。每一屬性的量化值以及其權(quán)重的確定方法如表1所示。

用戶興趣信息通過TF-IDF算法區(qū)分用戶關(guān)注的主要特征,得到各指標(biāo)特征權(quán)重值,計算關(guān)鍵詞權(quán)重值的大小并將權(quán)重值較大的關(guān)鍵詞作為權(quán)重詞。該詞較準(zhǔn)確地反映了用戶對于每一條視頻的關(guān)注方面,顯示差異化程度。由于用戶語言習(xí)慣存在差異,雖然一些詞語的表達(dá)形式不同,但表達(dá)的含義卻是相同的。因此對同義詞進行替換就能達(dá)到降低提取的關(guān)鍵詞維度的目的。

用戶社交信息選擇關(guān)注用戶、粉絲、訪問數(shù)三個指標(biāo),其在一定層面上體現(xiàn)社交性的高低情況。采用熵權(quán)法對收集到的指標(biāo)數(shù)據(jù)熵值進行計算,獲得指標(biāo)數(shù)據(jù)的整體互動值A(chǔ)。具體計算公式為:

通過此方法得到用戶的社交屬性值,該值的大小可反映出用戶互動性的強弱,后期使用中可依據(jù)該值對用戶進行分類操作,將用戶分為強、中和弱三類,從而分別對不同類型的用戶提供針對性服務(wù),有效提高服務(wù)質(zhì)量。

3.3.1.3? 基于K-means的相似用戶群體識別

通過多屬性用戶畫像模型MUP,可以得到單個用戶的畫像模型,但由于用戶基數(shù)大,計算過程較為繁雜,本文選用K-means聚類算法對相似度比較高的用戶信息進行分類,進一步縮小推薦課程學(xué)習(xí)視頻的候選集,簡化推薦過程,提高推薦效率。

用戶畫像模型MUP集成了用戶基本屬性信息、用戶興趣信息和用戶社交信息,用戶畫像模型信息如表2所示。

由于需要對比用戶之間的相似程度,故在針對用戶興趣屬性的計算中直接使用每個用戶發(fā)表的評論文本并計算其TF-IDF值。但這會造成每個用戶的興趣指標(biāo)不同,故此處需要對其進行統(tǒng)一。利用用戶畫像技術(shù)計算出特征前TOP10并作為興趣特征,用該特征對應(yīng)的TF-IDF值作為其權(quán)重值。而由于量綱的不同,需要對其進行歸一化處理,此處主要針對基本屬性和訪問屬性值。歸一化后的用戶畫像模型信息如表3所示。

得到歸一化后的用戶畫像模型信息,便能進行K-means聚類,獲得類似的用戶群體。

3.3.1.4? 基于用戶畫像的課程學(xué)習(xí)視頻個性化推薦算法

不同的課程學(xué)習(xí)視頻具有不同的關(guān)鍵詞,故可通過關(guān)鍵詞來識別對應(yīng)的課程學(xué)習(xí)視頻,首先需提取課程學(xué)習(xí)視頻的部分關(guān)鍵詞,然后計算其權(quán)重,并根據(jù)權(quán)重計算課程學(xué)習(xí)視頻的相似度,最后根據(jù)相似度進行課程學(xué)習(xí)視頻推薦。

3.3.1.5? 用戶的課程學(xué)習(xí)視頻推薦規(guī)則

設(shè)課程學(xué)習(xí)視頻集合為:P ={ P1,P2,…,Pm},事務(wù)記錄集合為T ={ t1,t2,…,tn},根據(jù)匹配樹機制得到支持度和置信度為式(7)、式(8):

采用K-means聚類算法將課程學(xué)習(xí)視頻進行分析,劃分為K個類型,然后根據(jù)匹配樹機制建立各類匹配規(guī)則,計算最小支持度和最小置信度,最后根據(jù)最小支持度和最小置信度給用戶推薦課程學(xué)習(xí)視頻。

3.3.1.6? 混合推薦算法部分代碼實現(xiàn)

# -*- coding: utf-8 -*-

importmath

importpandasaspd

importnumpyasnp

importos

os.chdir('E:/視頻數(shù)據(jù)庫')

# 創(chuàng)建視頻畫像

# 參數(shù)說明:

# items_profiles = {item1:{'label1':1, 'label2': 0, 'label3': 0, ...}, item2:{...}...}

defcreateItemsProfiles(data_array, labels_names, items_names):

items_profiles = {}

foriinrange(len(items_names)):

items_profiles[items_names[i]] = {}

forjinrange(len(labels_names)):

items_profiles[items_names[i]][labels_names[j]] = data_array[i][j]

returnitems_profiles

# 創(chuàng)建用戶畫像

# 參數(shù)說明:

# data_array: 所有用戶對于其所看過的視頻的評分矩陣 data_array = [[2, 0, 0, 1.1, ...], [0, 0, 1.1, ...], ...]

# users_profiles = {user1:{'label1':1.1, 'label2': 0.5, 'label3': 0.0, ...}, user2:{...}...}

defcreateUsersProfiles(data_array, users_names, items_names, labels_names, items_profiles):

users_profiles = {}

# 計算每個用戶對所看過的所有視頻的平均隱性評分

# users_average_scores_list = [1.2, 2.2, 4.3,...]

users_average_scores_list = []

# 統(tǒng)計每個用戶所看過的視頻(不加入隱性評分信息)

# items_users_saw = {user1:[item1, item3, item5], user2:[...],...}

items_users_saw = {}

# 統(tǒng)計每個用戶所看過的視頻及評分

# items_users_saw_scores = {user1:[[item1, 1.1], [item2, 4.1]], user2:...}

items_users_saw_scores = {}

foriinrange(len(users_names)):

items_users_saw_scores[users_names[i]] = []

items_users_saw[users_names[i]] = []

count = 0

sum = 0.0

forjinrange(len(items_names)):

# 用戶對該視頻隱性評分為正,表示真正看過該視頻

ifdata_array[i][j] >0:

items_users_saw[users_names[i]].append(items_names[j])

items_users_saw_scores[users_names[i]].append([items_names[j], data_array[i][j]])

count += 1

sum += data_array[i][j]

ifcount == 0:

users_average_scores_list.append(0)

else:

users_average_scores_list.append(sum / count)

foriinrange(len(users_names)):

users_profiles[users_names[i]] = {}

forjinrange(len(labels_names)):

count = 0

score = 0.0

foriteminitems_users_saw_scores[users_names[i]]:

# 參數(shù):

# 用戶user1對類型label1的隱性評分: user1_score_to_label1

# 用戶user1對其看過的含有類型label1的視頻itemi 的評分: score_to_itemi

# 用戶user1對其看過的所有視頻的平均評分: user1_average_score

# 用戶user1看過的視頻總數(shù): items_count

# 公式: user1_score_to_label1 = Sigma(score_to_itemi - user1_average_score)/items_count

# 該視頻含有特定標(biāo)簽labels_names[j]

ifitems_profiles[item[0]][labels_names[j]] >0:

score += (item[1] - users_average_scores_list[i])

count += 1

# 如果求出的值太小,直接置0

ifabs(score) <1e-6:

score = 0.0

ifcount == 0:

result = 0.0

else:

result = score / count

users_profiles[users_names[i]][labels_names[j]] = result

return (users_profiles, items_users_saw)

3.4? 主要功能展示

3.4.1? 開發(fā)環(huán)境搭建

系統(tǒng)環(huán)境搭建及其關(guān)鍵技術(shù)如表4所示。

3.4.2? 系統(tǒng)主要功能展示

3.4.2.1? 注冊登錄界面

新用戶在系統(tǒng)登錄頁面在進行賬號注冊登錄后,還需進行興趣愛好的選擇,為后續(xù)系統(tǒng)推薦更感興趣的內(nèi)容提供信息。用戶注冊登錄頁面如圖10所示。

3.4.2.2? ?個性化視頻推薦頁面

系統(tǒng)首頁會隨機為用戶推薦視頻,用于獲取用戶的愛好需求,隨著后續(xù)用戶使用的深入,推薦的視頻將更貼合用戶的需求。個性化視頻推薦頁面如圖11所示。

3.4.2.3? 課程搜索

在系統(tǒng)課程搜索頁面內(nèi)使用搜索功能會出現(xiàn)與用戶專業(yè)相關(guān)的標(biāo)簽,為用戶搜索提供參考。隨著用戶使用數(shù)據(jù)的增多和推薦系統(tǒng)的優(yōu)化,搜索功能會更加精準(zhǔn)。課程搜索界面如圖12所示。

3.4.2.4? 個人空間

個人空間中可以看見正在學(xué)習(xí)的課程,也可以作為作者發(fā)布課程。個人空間中的課程按照直播課、線下課等進行分類。系統(tǒng)通過用戶個人空間顯示的關(guān)注人數(shù)、粉絲數(shù)、訪問信息以及喜歡、收藏的課程、發(fā)布的動態(tài)完善用戶畫像模型,為用戶提供更精準(zhǔn)的課程學(xué)習(xí)視頻推薦。個人空間頁面如圖13所示。

3.4.2.5? 學(xué)習(xí)路線

系統(tǒng)根據(jù)用戶需求、個性化推薦算法和學(xué)習(xí)路線算法,設(shè)計出符合用戶需求的學(xué)習(xí)路線,向用戶展示學(xué)習(xí)計劃、已購課程和待學(xué)習(xí)課程,并提醒用戶按時完成自己的學(xué)習(xí)計劃。點擊右上角的學(xué)習(xí)成長圖標(biāo)會顯示用戶的學(xué)習(xí)統(tǒng)計數(shù)據(jù),如總學(xué)習(xí)時長、各課學(xué)習(xí)時長等,系統(tǒng)對用戶學(xué)習(xí)過程進行監(jiān)測,便于用戶實時了解自身學(xué)習(xí)情況。學(xué)習(xí)路線頁面如圖14所示。

4? 結(jié)? 論

在“互聯(lián)網(wǎng)+”的環(huán)境下,用戶畫像作為資源信息推薦服務(wù)的設(shè)計工具,為課程學(xué)習(xí)視頻個性化推薦服務(wù)提供了新的研究思路。本文利用用戶畫像技術(shù)對用戶個人基礎(chǔ)信息和其在網(wǎng)絡(luò)交互系統(tǒng)內(nèi)產(chǎn)生的行為記錄信息進行數(shù)據(jù)挖掘,通過數(shù)據(jù)信息的發(fā)現(xiàn)與數(shù)據(jù)的提煉,結(jié)合基于內(nèi)容和基于協(xié)同過濾的混合推薦算法,預(yù)測用戶的資源需求,最終為用戶推薦其可能感興趣的課程學(xué)習(xí)視頻。但目前就用戶畫像技術(shù)在課程學(xué)習(xí)視頻個性化推薦領(lǐng)域的發(fā)展現(xiàn)狀而言,仍面臨諸多難題與挑戰(zhàn),例如如何科學(xué)、全面地描述學(xué)習(xí)者群體相似性與差異性以及網(wǎng)絡(luò)爬蟲限制導(dǎo)致數(shù)據(jù)局限性等具體問題。因此,在后續(xù)的研究中,仍需深入研究學(xué)習(xí)者群體對課程學(xué)習(xí)視頻資源需求的發(fā)展趨勢,仍需繼續(xù)挖掘用戶畫像各屬性之間的關(guān)聯(lián)關(guān)系,并降低算法的時間復(fù)雜度,以更精準(zhǔn)的方式進行個性化推薦。

參考文獻(xiàn):

[1] 馬震.基于學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)資源個性化推薦研究 [J].中國教育信息化,2021(23):77-80.

[2] 徐芳,應(yīng)潔茹.國內(nèi)外用戶畫像研究綜述 [J].圖書館學(xué)研究,2020(12):7-16.

[3] 高廣尚.用戶畫像構(gòu)建方法研究綜述 [J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(3):25-35.

[4] 周萬珍,曹迪,許云峰,等.推薦系統(tǒng)研究綜述 [J].河北科技大學(xué)學(xué)報,2020,41(1):76-87.

[5] GOLDBERG D,NICHOLS D,OKI B M,et al. Using collaborative filtering to weavean information tapestry [J].Communications of the ACM,1992,35(12):61-70.

[6] 沈丹陽.基于在線學(xué)習(xí)平臺的學(xué)習(xí)分析和個性化推薦的研究 [D].北京:北京郵電大學(xué),2021.

[7] 李雪婷,楊抒,賽亞熱·迪力夏提,等.融合內(nèi)容與協(xié)同過濾的混合推薦算法應(yīng)用研究 [J].計算機技術(shù)與發(fā)展,2021,31(10):24-29+37.

[8] 李鄉(xiāng)儒,梁惠雯,馮雋怡,等.在線教育平臺中個性化學(xué)習(xí)資源推薦系統(tǒng)設(shè)計 [J].計算機技術(shù)與發(fā)展,2021,31(2):143-149.

[9] 魏玲,郭新悅.融合用戶畫像與協(xié)同過濾的知識付費平臺個性化推薦模型 [J].情報理論與實踐,2021,44(3):188-193.

作者簡介:陳玉帛(2002.03—),男,漢族,湖北襄陽人,本科在讀,研究方向:電子商務(wù);通訊作者:項慨(1977.10—),男,漢族,湖北武漢人,副教授,博士,研究方向:商務(wù)智能、移動計算;王順馳(2002.06—),男,土家族,湖北恩施人,本科在讀,研究方向:軟件工程;何希(2002.02—),女,土家族,湖北恩施人,本科在讀,研究方向:電子商務(wù);李婭琴(2002.08—),女,漢族,湖北黃岡人,本科在讀,研究方向:電子商務(wù);鄒正(2002.08—),男,漢族,湖北孝感人,本科在讀,研究方向:計算機科學(xué)與技術(shù);李玉婷(2002.07—),女,漢族,湖北黃岡人,本科在讀,研究方向:電子商務(wù)。

猜你喜歡
用戶畫像個性化推薦推薦系統(tǒng)
把聲音的魅力發(fā)揮到極致
基于用戶偏好的信任網(wǎng)絡(luò)隨機游走推薦模型
基于鏈?zhǔn)酱鎯Y(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計與實現(xiàn)
基于個性化的協(xié)同過濾圖書推薦算法研究
個性化推薦系統(tǒng)關(guān)鍵算法探討
基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)研究
移動用戶畫像構(gòu)建研究
淺談Mahout在個性化推薦系統(tǒng)中的應(yīng)用
基于微博的大數(shù)據(jù)用戶畫像與精準(zhǔn)營銷
移動互聯(lián)網(wǎng)下手機用戶使用行為特征的研究