李恒
(陜西省圖書館, 網(wǎng)絡(luò)技術(shù)部, 陜西, 西安 710006)
工信部2020年居民移動互聯(lián)網(wǎng)使用習(xí)慣報告書中指出,2019年國內(nèi)手機閱讀功能的總服務(wù)時間占到手機使用時間的26.7%,較2018年提升3.6%,且近5年來一直保持較大增幅,成為僅次于手機新聞(31.4%)的第二大手機服務(wù)功能[1]。該占比高于手機游戲、手機購物等功能耗時。移動互聯(lián)網(wǎng)2.0時代,公共圖書館改變以往借閱模式,將海量圖書進行數(shù)字化轉(zhuǎn)化,供用戶在線借閱。該服務(wù)成為手機閱讀內(nèi)容供應(yīng)的重要構(gòu)成部分[2]。
公共圖書館在線借閱功能在手機閱讀服務(wù)中的最大競爭對手是互聯(lián)網(wǎng)小說功能,在邏輯上,公共圖書館的圖書質(zhì)量,特別是文學(xué)紀(jì)實類圖書的質(zhì)量,遠高于互聯(lián)網(wǎng)小說[3]。但互聯(lián)網(wǎng)小說服務(wù)方采用了成熟的閱讀推廣算法,使得每個用戶打開App后的推薦內(nèi)容均可基本符合用戶喜好,這讓互聯(lián)網(wǎng)小說App在圖書質(zhì)量遠不如公共圖書館在線借閱App的前提下,獲得更高的用戶黏性[4]。
所以,該研究擬開發(fā)一種算法簡單、可操作性強的圖書館App閱讀推廣算法模型[5],以提升公共圖書館在線借閱App的用戶使用體驗,使圖書館公共資源可以發(fā)揮更為有效的社會價值[6]。
圖書管理學(xué)傳統(tǒng)理論下,圖書檢索信息卡主要包括書名、作者、出版社、出版時間、中圖分類號、文獻識別碼、圖書內(nèi)容摘要、關(guān)鍵詞等。通過該檢索模式可以根據(jù)圖書中的部分關(guān)鍵詞或作者姓名快速檢索圖書,但該模型在基于用戶畫像的App推薦過程中難以有效使用[7]。
閱讀推廣算法的核心數(shù)據(jù)需求,是對每冊圖書提供人工智能算法可以識別的檢索信息卡數(shù)字化畫像,即面向人工智能的數(shù)字化圖書檢索卡,以及用戶閱讀習(xí)慣大數(shù)據(jù)畫像。將用戶閱讀習(xí)慣畫像與圖書檢索信息卡數(shù)字化畫像進行匹配,可以篩選出有針對性的圖書[8]。圖1為上述算法模型的數(shù)據(jù)關(guān)系。
圖1中,該模型共使用3個基于神經(jīng)網(wǎng)絡(luò)的算法架構(gòu)。其中:11詞頻陣列算法的統(tǒng)計學(xué)意義是根據(jù)圖書文本詞頻提取后的50個非助詞高頻詞和20個非助詞低頻詞形成一個32字符的內(nèi)容標(biāo)識碼,該標(biāo)識碼肉眼觀察下并無任何統(tǒng)計學(xué)意義,但可以幫助計算機人工智能系統(tǒng)通觀了解該書的內(nèi)容;22用戶畫像算法是將用戶瀏覽或收藏的圖書關(guān)聯(lián)的32字符內(nèi)容識別碼與用戶特征畫像的32字符用戶識別碼通過神經(jīng)網(wǎng)絡(luò)算法進行合并,形成新的32字符用戶識別碼,即用戶識別碼的更新過程;33匹配算法是比較所有圖書的32字符內(nèi)容識別碼和訪問用戶的32字符用戶識別碼,給出一個在[0,1]區(qū)間上的評價值,通過該評價值對所有圖書進行排序,可以提取出新算法體系下的推薦圖書[9]。傳統(tǒng)推薦算法是根據(jù)用戶提交的圖書關(guān)鍵詞與圖書入庫時標(biāo)記的固定關(guān)鍵詞進行比對,從而計算其關(guān)聯(lián)度,其對用戶畫像的影響也是登記用戶瀏覽圖書中包含的用戶未提交的關(guān)鍵詞。
圖1 圖書館App2.0系統(tǒng)的閱讀推廣算法模型數(shù)據(jù)流圖
詞頻陣列算法的應(yīng)用場景,是在每本書入庫時對其內(nèi)容進行一次分析,主要包含書名、固定關(guān)鍵詞、全書詞頻分析結(jié)果等。該算法模型無須經(jīng)常運行,所以可以投入更大的算力,對響應(yīng)時間要求也不高,可以適當(dāng)增加算法模塊的節(jié)點量,使挖掘過程更為深入[10]。包括神經(jīng)網(wǎng)絡(luò)模塊節(jié)點在內(nèi),其挖掘數(shù)據(jù)流節(jié)點架構(gòu)設(shè)計如圖2所示。
圖2中,神經(jīng)網(wǎng)絡(luò)部分共分為2段。前段根據(jù)書名、固定關(guān)鍵詞和圖書文本得到的170個輸入節(jié)點進行卷積處理,輸出結(jié)果形成32列多列神經(jīng)網(wǎng)絡(luò),每列神經(jīng)網(wǎng)絡(luò)輸出1個目標(biāo)字符,將該32列字符連接成字符串,即成為圖書識別碼字符串。該字符串包含了書名、固定關(guān)鍵詞和圖書文本的信息,雖然肉眼無法分辨其實際意義,但可以用作后續(xù)的人工智能介入推薦過程。
圖2 詞頻陣列算法模塊邏輯圖
上述170個輸入層節(jié)點的生成過程需要將文本字符進行數(shù)字化,以中文為例,部分節(jié)點包含單字信息,僅需要通過CtoD函數(shù)將文本型變量轉(zhuǎn)化為四字節(jié)長整型變量即可實現(xiàn)該數(shù)字化過程,但部分節(jié)點為多字中文詞語,此時需要將每個單字使用CtoD函數(shù)轉(zhuǎn)化后進行累加,形成一個四字節(jié)長整型變量。多列神經(jīng)網(wǎng)絡(luò)模塊輸出的雙精度浮點型變量,使用反向的CtoD函數(shù)將數(shù)值型變量轉(zhuǎn)化為文本型變量。
綜合上述數(shù)據(jù)輸入數(shù)字化模式,上述2段神經(jīng)網(wǎng)絡(luò)中,卷積神經(jīng)網(wǎng)絡(luò)的輸入層為170個四字節(jié)長整型變量,經(jīng)過第1層151節(jié)點,第2層113節(jié)點,第3層87節(jié)點,第4層53節(jié)點,第5層31節(jié)點,第6層13節(jié)點,第7層5節(jié)點,第8層3節(jié)點,共設(shè)計8層隱藏層。將數(shù)據(jù)通過多項式節(jié)點函數(shù)設(shè)計的卷積節(jié)點進行卷積,形成一個可供多列神經(jīng)網(wǎng)絡(luò)適應(yīng)的輸入變量。多項式節(jié)點函數(shù)可寫作式(1):
(1)
式中,Xi為上一層輸入的第i個節(jié)點變量值,Y為節(jié)點輸出值,j為多項式階數(shù),Aj為第j階多項式的待回歸變量。
多列神經(jīng)網(wǎng)絡(luò)共32列,每一列的結(jié)構(gòu)相同,根據(jù)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需求進行獨立訓(xùn)練并使其按需收斂。每一列多列神經(jīng)網(wǎng)絡(luò)均為1個輸入節(jié)點和1個輸出節(jié)點,采用5層隱藏層設(shè)計,分別為第1層3節(jié)點,第2層11節(jié)點,第3層23節(jié)點,第4層13節(jié)點,第5層3節(jié)點。其節(jié)點函數(shù)選擇數(shù)據(jù)特征放大效果較佳的對數(shù)節(jié)點函數(shù)進行節(jié)點設(shè)計。對數(shù)節(jié)點函數(shù)可寫作式(2):
Y=∑[A·logeXi+B]
(2)
式中,Xi為上一層輸入的第i個節(jié)點變量值,Y為節(jié)點輸出值,e為自然常數(shù),A、B為節(jié)點待回歸系數(shù)。
用戶每次點擊瀏覽或每次收藏圖書時,均會觸發(fā)該算法,所以該算法模型必須在一般圖書館在線借閱系統(tǒng)中有較高的響應(yīng)效率,這就要求其神經(jīng)網(wǎng)絡(luò)算法的算力需求必須足夠小,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也應(yīng)充分簡化。
該模型的統(tǒng)計學(xué)意義是根據(jù)用戶的點擊行為或收藏行為,根據(jù)其點擊或收藏的圖書識別碼對其用戶識別碼產(chǎn)生影響,在用戶瀏覽行為中逐漸優(yōu)化其用戶識別碼。該算法模型的數(shù)據(jù)流節(jié)點架構(gòu)如圖3所示。
圖3 用戶畫像算法模型
圖3中,字符數(shù)據(jù)的數(shù)字化模型依然采用CtoD強制轉(zhuǎn)化函數(shù),多列神經(jīng)網(wǎng)絡(luò)輸出的雙精度浮點型變量轉(zhuǎn)化為字符串的過程依然采用DtoC強制轉(zhuǎn)化函數(shù)。神經(jīng)網(wǎng)絡(luò)核心架構(gòu)是32列多列神經(jīng)網(wǎng)絡(luò),每一列神經(jīng)網(wǎng)絡(luò)分列架構(gòu)均為對應(yīng)的用戶識別碼字符串1個輸入變量,整合用戶行為碼變量(用戶單純點擊瀏覽時為1,用戶收藏圖書時為10),以及圖書識別碼對應(yīng)的32個輸入變量,所以每個多列神經(jīng)網(wǎng)絡(luò)模塊共34個輸入變量,1個輸出變量,隱藏層2層,分別為第1層17節(jié)點,第2層5節(jié)點。此種設(shè)計會大幅度壓縮神經(jīng)網(wǎng)絡(luò)的總節(jié)點量以減少其對算力的需求,加快網(wǎng)頁響應(yīng)效率。神經(jīng)網(wǎng)絡(luò)的節(jié)點函數(shù)使用對數(shù)函數(shù),如前文式(2)。
匹配算法模型在用戶每次刷新圖書推薦目錄時被調(diào)用,且即便根據(jù)用戶設(shè)定關(guān)鍵詞對圖書進行初步檢索,其也需要在每次刷新圖書推薦目錄時被多次調(diào)用以形成圖書查詢列表的匹配度賦值,所以該算法的算力優(yōu)化更為苛刻,需要更小的神經(jīng)網(wǎng)絡(luò)節(jié)點架構(gòu)。該算法采用單一神經(jīng)網(wǎng)絡(luò)模塊進行數(shù)據(jù)分析,且確保其總節(jié)點量得到最小化優(yōu)化,詳見圖4。
圖4 圖書匹配算法模型
圖4中,識別碼字符的數(shù)字化過程采用CtoD函數(shù)進行強制轉(zhuǎn)化,共形成64個輸入節(jié)點,系統(tǒng)需求1個輸出節(jié)點,該算法的統(tǒng)計學(xué)意義是實現(xiàn)數(shù)據(jù)卷積,形成一個[0,1]區(qū)間上的雙精度浮點變量評價結(jié)果,用于圖書查詢結(jié)果的排序(ORDER函數(shù))和頭部截取(TOP函數(shù))。采用前文式(1)的多項式函數(shù)進行節(jié)點設(shè)計,采用多項式函數(shù)的最大卷積比進行數(shù)據(jù)卷積,即后一層節(jié)點量為前一層節(jié)點量的35%,其隱藏層第1層23節(jié)點,第2層8節(jié)點,第3層3節(jié)點,共3層隱藏層結(jié)構(gòu)。該算法模型節(jié)點結(jié)構(gòu)可以在最小算力需求下提供最高的數(shù)據(jù)挖掘響應(yīng)效率。
該算法的核心目的是分析用戶的實際閱讀需求并推薦相關(guān)圖書,避免用戶在圖書館海量藏書中自行查找,以提升用戶體驗。判斷該算法的實際效能主要有2個指標(biāo):一是使用該算法后用戶的平均閱讀時長、黏性用戶比及用戶增長速度;二是用戶對App的主觀評價。
平均閱讀時長和用戶增長速度算法較為簡單,無須展開論事,但用戶黏性比計算過程略顯復(fù)雜,其核心計算思路是將每天使用時間超過4小時用戶(高黏性用戶)占比、每天保持登錄但使用時間低于4小時用戶(A型用戶)占比、無法保證每天登錄但可保證每周登錄的用戶(B型用戶)占比、無法保證每周登錄但在之前半年內(nèi)曾登錄用戶(C型用戶)占比、超過半年未登錄用戶(D型用戶)占比等進行加權(quán)累加,其計算公式如式(3):
N=10·NA+6·NB+3·NC+1·ND
(3)
式中,NA、NB、NC、ND分別為上述A、B、C、D四型用戶的占比,均為百分比格式轉(zhuǎn)為[0,1]區(qū)間上的小數(shù)表示,N為用戶黏性總評價值。
使用該模型算法的圖書推薦頁面已經(jīng)在3個月前投入公測,分析公測期間投入該系統(tǒng)前及投入該系統(tǒng)90天戶的上述3個評價指標(biāo)的變化量,可以得到表1。
表1中,數(shù)據(jù)比較方法為SPSS下雙變量t校驗方法,當(dāng)t<10.000時認為存在統(tǒng)計學(xué)差異,當(dāng)P<0.05時認為結(jié)果處于置信空間內(nèi),當(dāng)P<0.01時認為結(jié)果有顯著的統(tǒng)計學(xué)意義。分析中,應(yīng)用該系統(tǒng)后3個月,所有用戶的日均閱讀時長增長4.54倍,A型用戶(日均閱讀超過4小時用戶)占比增長2.38倍,用戶黏性評價結(jié)果增長5.53倍,日用戶增長率增長4.61倍。實際用戶數(shù)據(jù)表現(xiàn)證明,該算法對用戶體驗有顯著促進作用(P<0.01)。
表1 用戶表現(xiàn)結(jié)果對比表
2020年12月1日~10日(應(yīng)用前),2021年4月1日~10日(應(yīng)用后),分2次在App內(nèi)推送調(diào)查問卷,第一次回收有效問卷1 135份(推送時注冊用戶量26.54萬人,成功推送問卷9.17萬份)第二次回收有效問卷1 861份(推送時注冊用戶量30.93萬人,成功推送問卷12.69萬份),要求用戶給出1~5星評價。評價分數(shù)折算中,5星評價計10分,4星評價計7分,3星評價即3分,2星評價計1分,1星評價計0分。整體評價結(jié)果如表2所示。
表2 用戶滿意度調(diào)查結(jié)果表
表2中,t值與P值計算方法如前文表1,可以看到,問卷回收量在問卷推送量中的占比提升18.55%,4星及5星評價人數(shù)提升1.64倍,綜合評價得分提升1.42倍。發(fā)現(xiàn)用戶參與軟件的積極性得到一定程度提升(0.01
針對圖書館App2.0的閱讀推廣算法模型,充分提升了對特定用戶推薦滿足其閱讀期望圖書的人工智能應(yīng)用效果,進而提升了用戶黏性和用戶滿意度,加速了平臺注冊用戶的增長速度,進而使得公共圖書館社會資源可以在移動互聯(lián)網(wǎng)時代發(fā)揮更大的社會效益。該算法仍然存在一定不足,即其只能對文本型圖書進行推薦(文史類、小說類、紀(jì)實傳記類及部分教輔書和工具書),畫冊、圖冊等圖書并不能在該算法支持的范圍內(nèi)。所以該算法仍需要之前基于關(guān)鍵詞檢索排序的傳統(tǒng)算法進行輔助支持才可以滿足系統(tǒng)運行需求。未來研究中將研究用戶對圖畫類內(nèi)容的閱讀傾向,使該算法效能得到更大程度提升。