張勁松
(山東管理學院圖書館 濟南 250357)
大數(shù)據(jù)背景下,海量用戶文本為數(shù)據(jù)分析與知識發(fā)現(xiàn)提供了豐富的語料來源。用戶圍繞圖書、影視等網(wǎng)絡(luò)資源,進行標簽標注、在線評論、社會交往等活動,逐漸形成各類在線用戶社區(qū)(Online User Community)[1]。研究如何從在線用戶社區(qū)中,識別用戶的動態(tài)興趣特征,刻畫其情感傾向,對實現(xiàn)用戶個性化推薦,完善商品營銷策略等具有重要的研究價值。
當前,推薦算法可分為基于用戶的協(xié)同過濾(Collaborative Filtering)[2]以及基于文本的內(nèi)容發(fā)現(xiàn)方法(Context-Based Recommendation)[3]?;谟脩舻膮f(xié)同過濾方法通過識別用戶對興趣項目的評分,獲取最小近鄰偏好矩陣,并以此為基礎(chǔ)計算用戶之間、用戶與項目之間的相似度。如汪圳[4]等提出一種基于用戶情景感知的圖書協(xié)同過濾方法,該方法通過構(gòu)建包含用戶屬性要素特征、圖書使用行為、圖書需求場景等的多維特征矩陣,實現(xiàn)用戶圖書需求的多項目協(xié)同過濾推薦。胡代平[5]等將用戶借閱行為與圖書標簽相融合,提出一種基于動態(tài)用戶閱讀偏好的高校圖書推薦方法,該方法通過識別讀者偏好屬性,實現(xiàn)平滑時間維下偏好特征的在線計算。基于用戶的協(xié)同過濾方法適合數(shù)據(jù)規(guī)模較少且特征區(qū)分度較高的圖書項目,缺點是在用戶數(shù)據(jù)稀疏時用戶標簽屬性建模存在冷啟動問題。基于文本的內(nèi)容發(fā)現(xiàn)方法通過分析用戶的文本信息,以用戶畫像、興趣標簽標注等形式識別用戶的興趣特征,最終實現(xiàn)用戶與項目資源間的語義匹配。如李曉敏[6]等提出一種基于用戶畫像的圖書推薦方法,該方法通過抽取用戶的多維屬性特征,實現(xiàn)用戶綜合畫像,并通過相似度計算推薦相似讀者與相似圖書。張彬[7]等提出一種基于多源標簽的興趣融合方法,該方法首先將讀者與項目劃分成不同的層次,并對相鄰域進行標簽權(quán)重計算,最終得到讀者的綜合興趣標簽集。
隨著社交網(wǎng)絡(luò)技術(shù)的快速發(fā)展,包含大量用戶行為、興趣、主題等的用戶生成文本(User Generated Content)越來越受到關(guān)注[8-9]。面向用戶生成文本的圖書推薦發(fā)現(xiàn),能夠識別讀者的興趣熱點,實現(xiàn)讀者與圖書間的內(nèi)在關(guān)聯(lián)挖掘,從而精準定位讀者需求?;谟脩羯晌谋镜耐扑]方法與基于文本的內(nèi)容發(fā)現(xiàn)方法相類似,不同之處在于,前者突出與用戶評論相關(guān)的文本感知與情感描述,通過概率計算、主題分析等方法,刻畫讀者的內(nèi)在圖書需求。如顏端武[10]提出面向知識服務(wù)的推薦方法,該方法以用戶生成文本為數(shù)據(jù)來源,通過挖掘用戶的興趣特征,建立用戶興趣方法,再從興趣資源建模的角度,構(gòu)建基于領(lǐng)域本體的圖書可視化平臺,最終利用文本相似性刻畫用戶與資源間的關(guān)聯(lián)關(guān)系。武雅利[11]基于情感詞典提出面向用戶生成內(nèi)容的個性化情感分析方法,該方法通過定量分析用戶對文本的情感值,實現(xiàn)了用戶對商品資源的有效推薦。此外,考慮到用戶生成文本的文法隨意、結(jié)構(gòu)不規(guī)范等特點,其質(zhì)量會影響對用戶的興趣偏好識別以及標簽標注,因而也有學者針對面向推薦的用戶生成文本質(zhì)量進行研究,如鐘將等提出一種基于主題特征格的用戶生成文本質(zhì)量評估方法[12],該方法通過定義文本質(zhì)量評估函數(shù),基于主題模型構(gòu)建商品分類體系,最終以概念格的形式生成具有強關(guān)聯(lián)關(guān)系的評論特征格。多數(shù)基于用戶生成文本的圖書推薦方法無法有效融合讀者的情感特征與圖書資源的主題特征,缺乏對用戶間聚類關(guān)系的概念級多粒度表示能力。
針對以上問題,本文通過挖掘用戶標簽隱藏的主題依賴關(guān)系,將模糊關(guān)聯(lián)規(guī)則引入圖書標簽挖掘方法中,提出一種基于用戶生成文本的模糊關(guān)聯(lián)規(guī)則識別方法,該方法首先通過識別用戶書評文本的主題特征,建立圖書標簽特征矩陣,實現(xiàn)圖書的主題聚類。其次,通過計算不同用戶間的主題相似度,獲取候選用戶集,再利用文本情感分析,得到用戶對標簽的情感評分,并以此為基礎(chǔ),建立標簽?zāi):问奖尘?。最后,基于標簽?zāi):拍罡瘢x模糊關(guān)聯(lián)規(guī)則,利用隸屬度置信閾值、隸屬度期望等參數(shù)刻畫圖書標簽間的模糊依賴關(guān)系,獲取圖書資源間的蘊含依賴關(guān)系,最終實現(xiàn)圖書標簽關(guān)聯(lián)規(guī)則識別。
RFAR方法首先將用戶對圖書的評論數(shù)據(jù)作為目標數(shù)據(jù)集,經(jīng)過預處理等操作后,通過識別圖書標簽的主題特征,建立圖書-主題分布矩陣;其次,通過計算不同用戶的圖書標簽特征矩陣的余弦相似度,構(gòu)建目標用戶對象集,同時采用基于情感詞典的文本情感分析,計算用戶對不同標簽屬性的情感評分,據(jù)此建立用戶對象與標簽屬性間的模糊關(guān)系映射,得到標簽?zāi):问奖尘?;最后,依?jù)模糊概念格生成算法,構(gòu)建標簽?zāi):拍罡?,并結(jié)合定義的模糊關(guān)聯(lián)規(guī)則,從模糊概念層面挖掘主題特征間的模糊依賴關(guān)系。
1.1研究框架本研究框架如圖1所示。
圖1 研究框架
標簽?zāi):问奖尘皩⒂脩魳俗⒌臉撕灱硎境梢唤M內(nèi)涵模糊屬性集,便于從標簽的文本信息中獲取用戶對圖書的情感傾向,從而實現(xiàn)基于情感分析的多粒度關(guān)聯(lián)分析。
定義2 (標簽?zāi):拍?:對標簽?zāi):问奖尘癒f=(O,A,I)上的二元組(U,V),對任意子集U∈O,V∈A,均存在公式(1)、公式(2)映射關(guān)系,則稱該二元組是滿足隸屬度置信閾值λ下的一組標簽?zāi):拍?,記為Cf(U,V)。
(1)
(2)
通過調(diào)節(jié)隸屬度置信閾值λ,能夠調(diào)整標簽?zāi):拍钪袑ο蟮臄?shù)量,根據(jù)需要構(gòu)建具有實際意義的內(nèi)涵模糊概念,從而將對象與屬性間的模糊二元關(guān)系轉(zhuǎn)化成標簽?zāi):拍畹牧6缺硎尽?/p>
(3)
1.3標簽主題建模RFAR方法主要針對在線圖書社區(qū)的用戶文檔進行主題建模,多數(shù)用戶通常是以書評的形式發(fā)表包含創(chuàng)作、學術(shù)以及情感評價等短文本。本文通過分詞、去停用詞等文本清洗操作后,采集到的有效用戶評論文本的平均長度為120。但由于LDA主題模型通常不適合挖掘短文本數(shù)據(jù)[13],同時無法有效解決高頻無效詞對主題概率分布的影響,因此,首先引入TF-IDF算法獲取文本特征詞的統(tǒng)計信息,提高文檔主題分析的可解釋性,然后采用BTM(Biterm Topic Model)短文本主題模型實現(xiàn)主題聚類,改善數(shù)據(jù)稀疏文檔的主題識別能力。
1.3.1 圖書標簽提取 TF-IDF(Term Frequency-Inverse Document Frequency)算法是一種計算文本詞頻的統(tǒng)計方法,可用于評估語料庫中具體詞匯在所有文檔中的重要程度[14]。因此,本文基于TF-IDF計算文檔評估短語的詞頻特征,具體計算過程如下:首先統(tǒng)計文本中每個詞匯的出現(xiàn)頻率(TF值),同時計算相應(yīng)詞匯的逆向文檔詞頻(IDF值),再通過計算TF與IDF的乘積,得到文檔詞匯的TF-IDF詞頻。其計算方法如公式(4)所示。
(4)
1.3.2 BTM主題聚類 BTM主題模型是一種面向短文本的主題學習模型[15],該模型基于離散詞共現(xiàn)的基本思想,將文檔表示成若干話題的概率集合,將話題表示成若干詞匯的概率集合,并通過構(gòu)建“文檔-主題-詞匯”的三層Bayes概率模型,實現(xiàn)文本的主題聚類。
本文將BTM主題模型的文檔視為圖書標簽集合,文檔詞匯視為用戶標簽,識別標簽的主題信息,具體計算流程如下:
1.4標簽情感挖掘
1.4.1 主題相似度計算 以用戶-主題概率矩陣為基礎(chǔ),計算不同用戶間的主題相關(guān)性。采用余弦相似度計算用戶間的主題相似距離,得到候選目標用戶集U(u1,u2,…,un),計算如公式(5)所示。
(5)
式(5)中,pmj與pnj分別表示用戶u1,u2對主題的標注概率;m,n分別表示用戶u1,u2標注的主題數(shù);r=max(m,n)。
1.4.2 文本情感分析 用戶通過描述型、情感型書評表達與原創(chuàng)作者在情感上的共鳴或差異,從而顯露出對不同標簽的情感傾向[18]。挖掘用戶間的相似情感,能夠最大限度地還原用戶對不同標簽主題的情感評價,從而在標簽主題聚類的基礎(chǔ)上,增加對標簽情感的程度刻畫。本文基于WordNet情感字典[19]識別隱含在用戶標簽中的正負情感傾向,并將其量化成用戶對標簽屬性的情感評分,實現(xiàn)用戶與標簽間的模糊關(guān)系映射。具體實現(xiàn)過程如下:首先從用戶文本中抽取標簽及其評論文本,分別建立標簽-評論文本矩陣,再從評論文本中抽取情感詞,計算用戶對標簽的情感值,計算如公式(6)所示。
(6)
式(6)中,|D|表示用戶文本中標簽數(shù)量;d表示D中所含的標簽;sd(u)表示文本d中用戶的情感值,計算如公式(7)所示。
(7)
式(7)中,m,n分別表示情感字典中正、負情感詞數(shù);pwi,nwj分別表示情感字典中的正、負情感詞;SimPos(w,pwi),SimNeg(w,nwj)分別表示正、負情感相似度。
1.4.3 標簽?zāi):问奖尘皹?gòu)建 通過識別用戶對標簽的情感傾向,經(jīng)過歸一化處理后,得到用戶-標簽情感評分矩陣,以此作為用戶與標注標簽間的模糊關(guān)系,從而構(gòu)建標簽?zāi):问奖尘?,具體流程描述如下:a.對于給定的用戶ui,帶入公式(4)計算主題相似度,得到目標用戶對象集U(u1,u2,…,un);b.遍歷用戶對象集,從用戶-標簽矩陣Mu,l(i,j)中選取標簽l的TF-IDF詞頻排名靠前的top-n,并分別將其映射到屬性集A(a1,a2,…,am);c.抽取包含標簽l的四元組<句子,屬性,情感詞,情感評分>,其中情感評分由公式(5)和公式(6)計算得到;d.整合用戶關(guān)于標簽l的所有句子評價信息,得到用戶對標簽屬性的綜合情感評分,并以此作為用戶u關(guān)于標簽l的模糊關(guān)系值。重復上述步驟,最終實現(xiàn)標簽?zāi):问奖尘暗臉?gòu)建。
1.5模糊關(guān)聯(lián)規(guī)則分析基于模糊概念格的關(guān)聯(lián)規(guī)則分析,通過將模糊概念的內(nèi)涵屬性映射到模糊關(guān)系集中,挖掘滿足支持度和置信度的頻繁項集,從而發(fā)現(xiàn)概念節(jié)點之間的強關(guān)聯(lián)關(guān)系,并通過調(diào)整支持度與可信度閾值參數(shù),從模糊依賴關(guān)系角度強化了標簽?zāi):拍畹牧6刃畔ⅰ楸阌谧R別模糊關(guān)聯(lián)規(guī)則,參考文獻[20]在模糊概念的數(shù)據(jù)結(jié)構(gòu)中添加屬性的統(tǒng)計特征,利用概念節(jié)點間的偏序關(guān)系,實現(xiàn)頻繁項集的動態(tài)提取。相關(guān)定義如下:
通過構(gòu)造標簽統(tǒng)計模糊概念,并基于定義5提取頻繁概念節(jié)點及其偏序關(guān)系,構(gòu)造滿足模糊依賴關(guān)系的模糊關(guān)聯(lián)規(guī)則格[22]。本文首先更新標簽?zāi):拍?,添加用戶對標簽的隸屬度,構(gòu)建標簽?zāi):拍罡瘢辉購母窠Y(jié)構(gòu)約束中,提取模糊關(guān)聯(lián)規(guī)則。限于篇幅,關(guān)于模糊概念格的構(gòu)造過程,可參見文獻[23]。模糊關(guān)聯(lián)規(guī)則的提取過程算法如下:
Input:(FC(Kf),≤),隸屬度置信閾值λ,隸屬度期望閾值δ,隸屬度方差閾值ω,支持度閾值ψ,置信度閾值ζ。Output:頻繁概念節(jié)點集F,模糊關(guān)聯(lián)規(guī)則集AR,二元概念組BR,支持度Sup(R),可信度Con(R)。GetFC(Kf) from (FC(Kf),≤) //抽取標簽?zāi):拍罴?For i=1 toN // ComputeE(Vi), σ(Vi) UpdateC'i=(Ui,Vi,E(Vi),σ(Vi),parent,children) //更新模糊概念節(jié)點 AddC'i to FC'(Kf) For j=1 toM IfE(Vi)>δ and σ(Vi)<ω For eachC'i≥C'j?Vi?VjSup(R)=E(Vj) //計算支持度Con(R)=Normalized(σ(Vj)) //計算可信度F=F∪C'i Endfor IfC'i.parent or C'i.children∈ F BR= BR∪{C'i.parent∪C'i.children} //遍歷頻繁概念節(jié)點父類與子類節(jié)點信息 Endif Endif Endfor If λ≤C'1.μv1u1≤C'2.μv2u2 //利用置信閾值抽取模糊概念Choose R:V1?V2-V1 from BR //提取模糊關(guān)聯(lián)規(guī)則 IfSupR >ψ and ConR >ζ //調(diào)整閾值,得到強關(guān)聯(lián)規(guī)則 GetAR= AR ∪{R, Sup(R), Con(R)} Endif EndifEndfor
2.1實驗來源實驗數(shù)據(jù)來源于知乎讀書會社區(qū),選取2021年3月10日-5月10日內(nèi)評論數(shù)排名靠前的1 000本圖書,涵蓋讀者46 732人,有效書評文本數(shù)123 062份。首先使用中科院的ICTCLAS軟件對書評文本進行分詞,得到(用戶,詞匯)矩陣,再基于TF-IDF模型計算用戶文檔詞的詞頻數(shù)值,選取用戶文本中的高頻詞作為圖書的標簽集,建立(用戶,標簽)關(guān)系矩陣,其中矩陣元素表示用戶標簽的tf-idf值,表1是部分用戶標簽的tf-idf值。
表1 用戶-標簽的tf-idf值(部分)
2.2實驗結(jié)果
2.2.1 標簽主題建模 將用戶的標簽矩陣作為子文檔集,對標簽進行編碼表示。使用Pathon編寫程序進行BTM模型訓練。其中,文檔在不同主題數(shù)下的困惑度,如圖2所示。由圖2可知,在主題數(shù)K=40時,困惑度取到最小值(0.934),此時方法性能最佳,因此設(shè)置主題數(shù)為40,經(jīng)過1000次抽樣迭代后得到不同用戶的標簽-主題概率矩陣,如表2所示。將用戶-標簽矩陣與標簽-主題概率矩陣進行內(nèi)積計算,構(gòu)建用戶-主題概率矩陣,如表3所示。
圖2 不同主題數(shù)下的困惑度取值
表2 用戶的標簽-主題概率矩陣(部分)
表3 用戶-主題概率矩陣(部分)
2.2.2 標簽情感挖掘 通過分析用戶在主題上的相關(guān)性,得到其在不同主題上的相似度距離。RFAR方法采用余弦相似度計算用戶間的主題相似度。以用戶“彼得潘飛俠”為例,得到與其存在主題相似性的候選目標用戶集。相似度較高的Top10用戶如表4所示。
表4 “彼得潘飛俠”的主題相似用戶
通過計算用戶間的主題相似性,構(gòu)建用戶對象集合?;谇楦凶值渥R別標簽所屬文本的情感詞,分析隱含在用戶標簽中的情感傾向,利用公式(6)和公式(7)計算用戶對標簽屬性的情感評分,并以此作為標簽?zāi):问奖尘爸袑ο笈c屬性間的模糊關(guān)系。然后依據(jù)1.4.3節(jié)的描述過程,構(gòu)建標簽?zāi):问奖尘?,結(jié)果如表5所示,表中數(shù)值表示用戶對標簽的情感評分,其中負值表示用戶對該標簽具有負向情感。
表5 標簽?zāi):问奖尘?部分)
2.2.3 參數(shù)分析 本文通過融合讀者標簽的主題特征與情感評分,建立標簽?zāi):拍罡?,誘導出圖書標簽的模糊關(guān)聯(lián)規(guī)則,實現(xiàn)圖書標簽的語義發(fā)現(xiàn)。參數(shù)閾值對標簽關(guān)聯(lián)規(guī)則的影響,分析如下:
a.隸屬度置信閾值通過調(diào)整滿足用戶對象與標簽屬性的概念數(shù),達到影響標簽?zāi):拍钌梢?guī)模的目的。為了得到具有實際意義的標簽?zāi):拍?,實驗選取不同的隸屬度置信閾值λ,觀測實際獲取的標簽?zāi):拍顢?shù),結(jié)果如圖3所示。由圖3可知,伴隨著λ取值的逐漸增大,獲得的有效標簽?zāi):拍顢?shù)逐漸減少。在λ取值0.32時,標簽?zāi):拍顢?shù)取到均值865。
圖3 隸屬度置信閾值對標簽?zāi):拍畹挠绊?/p>
b.隸屬度期望表示標簽統(tǒng)計模糊概念所含有的平均屬性數(shù),體現(xiàn)了概念本身的屬性模糊度。通過調(diào)整閾值δ,能夠控制標簽統(tǒng)計模糊概念所含的屬性規(guī)模。在λ=0.32時,通過計算每個概念的內(nèi)涵標簽屬性數(shù),取其均值0.36作為隸屬度期望閾值δ的取值。隸屬度方差則反映了用戶對象對標簽屬性的情感評價偏離程度。閾值ω設(shè)置為所有標簽統(tǒng)計模糊概念中隸屬度方差的均值,取值0.0126。
c.通過調(diào)整支持度閾值與置信度閾值,能夠控制模糊關(guān)聯(lián)規(guī)則的數(shù)量。RFAR方法按照步長0.2分別對ψ,ζ賦值,提取到的關(guān)聯(lián)規(guī)則數(shù)如表6所示。分析表6可知,當ψ=0.4,ζ=0.8時,獲得的關(guān)聯(lián)規(guī)則數(shù)最接近平均值。
表6 支持度與置信度閾值對生成關(guān)聯(lián)規(guī)則數(shù)的影響
2.2.4 模糊關(guān)聯(lián)規(guī)則挖掘 首先采用Godin[24]漸進式算法,基于標簽?zāi):问奖尘皹?gòu)造模糊概念格(λ=0.32)。然后依據(jù)定義3計算模糊概念屬性的統(tǒng)計特征,并將結(jié)果加入候選頻繁概念節(jié)點集,將標簽?zāi):拍罡褶D(zhuǎn)換成標簽?zāi):P(guān)聯(lián)規(guī)則格,結(jié)果如圖4所示。統(tǒng)計模糊概念信息如表7所示。
圖4中的標簽?zāi):P(guān)聯(lián)規(guī)則格共包括26個統(tǒng)計模糊概念節(jié)點,依據(jù)模糊概念節(jié)點間的上下位關(guān)系,可以分成7個層級。節(jié)點所在層級越高,其包含的對象就越多,內(nèi)涵模糊屬性則越少,如表7中節(jié)點2-節(jié)點4,含有5個對象,1個屬性。隨著層級的不斷增加,節(jié)點所含的對象逐漸較少,最終縮減成僅含有一個對象的概念節(jié)點,如圖4中灰色節(jié)點表示僅含有1個用戶的統(tǒng)計模糊概念節(jié)點。針對此類節(jié)點展開分析,能夠?qū)崿F(xiàn)用戶的個性化閱讀興趣分析。
圖4 標簽?zāi):P(guān)聯(lián)規(guī)則格
表7 統(tǒng)計模糊概念信息
此外,分析表7可知,統(tǒng)計模糊概念的隸屬度期望并未隨著節(jié)點所含屬性的增加而增加,而是呈現(xiàn)出數(shù)值波動的變化特點,此結(jié)論表明標簽的平均模糊程度不僅取決于其概念節(jié)點所含的屬性個數(shù),還與讀者對其的情感評價有關(guān)。另一方面,數(shù)值較大的隸屬度方差主要集中在標簽?zāi):P(guān)聯(lián)規(guī)則格的較低層級(L4,L5),體現(xiàn)出讀者對標簽的評價偏差較大。
采用定義5的方法標記頻繁概念節(jié)點及其偏序關(guān)系,分別計算其支持度與可信度;再從格結(jié)構(gòu)中檢索出滿足參數(shù)閾值的統(tǒng)計模糊概念及其父子關(guān)系節(jié)點,提取模糊關(guān)聯(lián)規(guī)則。依據(jù)2.2.3節(jié)的閾值參數(shù)設(shè)置方法,由表7生成的部分模糊關(guān)聯(lián)規(guī)則如表8所示,為便于說明,將表7中標簽屬性還原成具體的標簽內(nèi)容。
表8 模糊關(guān)聯(lián)規(guī)則
2.2.5 圖書標簽推薦 a.基于模糊概念的用戶發(fā)現(xiàn)。由于標簽?zāi):P(guān)聯(lián)規(guī)則格中,模糊概念體現(xiàn)了外延對象與內(nèi)涵屬性間的模糊伽羅瓦連接,所以在一定程度上,表達了不同用戶群對圖書標簽的情感評價程度。如表7中的概念15,體現(xiàn)了用戶u3,u6對標簽l4,l5,l6的情感評價程度。
此外,在滿足閾值的條件下,模糊概念格的概念節(jié)點之間具有偏序關(guān)系,層級越高,其聚類的用戶對象越少,相應(yīng)地標簽屬性的數(shù)量則越多,反之亦然。利用模糊概念格的上述特性,可以從兩個方面進行用戶或標簽推薦:一方面,若想推薦與用戶u1具有類似興趣的用戶群,可以先定位到僅含有對象u1的概念節(jié)點(編號24),再向上檢索其父類節(jié)點(編號16,17,20)及其感興趣的標簽屬性(l1,l3,l4,l5,l6),實現(xiàn)“以書會友,以文化人”的朋友圈推薦。另一方面,通過查詢模糊概念格中層級較高的概念節(jié)點,如檢索僅含有l(wèi)1標簽的概念節(jié)點(編號4),通過關(guān)聯(lián)與其相關(guān)的圖書信息,可以實現(xiàn)滿足用戶多樣化需求的圖書推薦。
b.基于模糊關(guān)聯(lián)規(guī)則的標簽發(fā)現(xiàn)。由于模糊關(guān)聯(lián)規(guī)則格是在標簽主題聚類的基礎(chǔ)上,增加用戶對標簽情感的程度刻畫。由此生成的模糊關(guān)聯(lián)規(guī)則不僅僅能夠反映標簽間的主題相關(guān)度,更能夠體現(xiàn)用戶對不同標簽的情感關(guān)聯(lián)度,從而在標簽的情感維度上建立起可以量化的關(guān)聯(lián)關(guān)系,如規(guī)則1反映出在置信度為0.95811,支持度為0.51342時,批判類作品與包含力量,啟示及思考內(nèi)容的作品間的模糊關(guān)聯(lián)關(guān)系。
另外,考慮到用戶生成文本的語言特點,大量的用戶評價是以信息缺省的方式存在,利用模糊關(guān)聯(lián)規(guī)則能夠?qū)崿F(xiàn)一定程度的知識推理,從而實現(xiàn)非完備形式背景的知識填充。如用戶“就是希望”發(fā)表的評論:“挺喜歡看當代題材的,但有時往往讀起來比較傷感”。此時基于規(guī)則8,可知該用戶也可能不喜歡情節(jié)類與批判類的書籍,從而有選擇性地推薦其感興趣的圖書資源。
本文通過識別用戶生成文本的主題特征與情感特征,提出一種基于用戶生成文本的模糊關(guān)聯(lián)規(guī)則識別方法,該方法通過計算不同用戶間的主題相似度,實現(xiàn)用戶間興趣的主題聚類,再利用文本情感分析,建立用戶對標簽的情感模糊關(guān)系映射?;跇撕?zāi):问奖尘?,?gòu)建標簽?zāi):拍罡瘛W詈髮撕瀸傩缘慕y(tǒng)計特征引入模糊關(guān)聯(lián)規(guī)則的定義中,量化標簽間的蘊含依賴關(guān)系,實現(xiàn)多粒度的模糊關(guān)聯(lián)規(guī)則識別。未來的研究可以將文本主題識別與粗糙概念格[25]、三支概念格[26]等理論相結(jié)合,提升方法在模糊知識建模上的魯棒性。