国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于科研在線文檔庫平臺的標(biāo)簽推薦系統(tǒng)

2014-08-05 04:28:45芳,沈一,南
計算機(jī)工程 2014年5期
關(guān)鍵詞:頁面文檔標(biāo)簽

蔡 芳,沈 一,南 凱

(1. 中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心,北京100190;2. 中國科學(xué)院大學(xué),北京 100049)

基于科研在線文檔庫平臺的標(biāo)簽推薦系統(tǒng)

蔡 芳1,2,沈 一1,2,南 凱1

(1. 中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心,北京100190;2. 中國科學(xué)院大學(xué),北京 100049)

科研在線文檔庫是一個面向團(tuán)隊的文檔協(xié)同與管理工具,為虛擬團(tuán)隊提供合作平臺。它采用標(biāo)簽系統(tǒng)的方式組織其中的所有文檔。在文檔庫的使用過程中,出現(xiàn)了無標(biāo)簽文檔數(shù)量的累積以及用戶為文檔添加的標(biāo)簽質(zhì)量偏低問題,影響文檔的分類和共享。針對該問題,采用適用于科研在線文檔庫平臺的標(biāo)簽推薦方法,包括協(xié)同過濾以及關(guān)鍵詞抽取2個部分,促使用戶為文檔添加合格的標(biāo)簽,提高文檔系統(tǒng)的使用效率。協(xié)同過濾推薦部分的實驗采用準(zhǔn)確率和召回率衡量標(biāo)準(zhǔn),關(guān)鍵詞抽取部分采用用戶調(diào)查的實驗方式,實驗證明為每個文檔提供3個候選標(biāo)簽?zāi)軌虻玫嚼硐胄ЧT趯嶋H使用環(huán)境中,該系統(tǒng)具有較高的精確度和可靠性,簡單易于實現(xiàn)。

標(biāo)簽推薦;標(biāo)簽系統(tǒng);協(xié)同過濾;關(guān)鍵詞抽??;冷啟動;文檔協(xié)同

1 概述

Web2.0下,用戶行為由Web1.0中獲取信息轉(zhuǎn)變?yōu)橐越换橹鞯姆绞?,信息發(fā)布的來源轉(zhuǎn)向Web用戶。相對于傳統(tǒng)的基于網(wǎng)站預(yù)先設(shè)定的分類體系的信息分類方法,標(biāo)簽系統(tǒng)的開放性、簡單性、標(biāo)簽由資源共享者提供等特點[1],使得它成為Web2.0網(wǎng)站的重要信息分類和索引方式。用戶生成內(nèi)容(User Generated Content, UG C)標(biāo)簽系統(tǒng),通過讓用戶對信息打標(biāo)簽,將具有相同標(biāo)簽的信息進(jìn)行分類歸納整理,形成以標(biāo)簽為中心的信息分類系統(tǒng)[2]。2004年,標(biāo)簽系統(tǒng)領(lǐng)域的信息架構(gòu)專家,提出分眾分類法的概念,指群眾自發(fā)性定義的平面非等級標(biāo)簽分類,用于信息的分類和共享。目前比較流行的UGC標(biāo)簽系統(tǒng)有書簽類站點Delicious、論文書簽網(wǎng)站CiteULike、相片分享網(wǎng)站Flickr等。

科研在線文檔庫(Duckling D ocument L ibrary, DDL)是一個面向虛擬組織的協(xié)作式、文檔共享和管理工具[3]。系統(tǒng)利用用戶添加的標(biāo)簽對團(tuán)隊中所有的文檔進(jìn)行分類。其中未打標(biāo)簽的文檔被放置于無標(biāo)簽文檔類。一方面,隨著團(tuán)隊成員和文檔數(shù)量的增加,無標(biāo)簽文檔的數(shù)量開始累積,這些文檔處于一種平行無清晰組織結(jié)構(gòu)的狀態(tài),當(dāng)用戶需要在其中尋找某一特定類別的信息時,比較耗時,這種情況不利于DDL文檔的高效利用和管理,所以為無標(biāo)簽文檔推薦標(biāo)簽成為一種需求。另一方面,由于用戶可以任意地為文檔添加標(biāo)簽,而用戶自身對信息和詞匯的理解存在不準(zhǔn)確性,使系統(tǒng)中的標(biāo)簽存在一定程度的冗余性、不一致性和不完備性[4]。這些問題都會影響到標(biāo)簽系統(tǒng)在進(jìn)行文檔組織、分類時的性能,所以提升標(biāo)簽的質(zhì)量成為標(biāo)簽系統(tǒng)中核心的問題。當(dāng)用戶想為文檔添加標(biāo)簽時,為用戶提供高質(zhì)量的標(biāo)簽備選,可以有效地緩解上述問題。

本文基于協(xié)同推薦的方式,為無標(biāo)簽頁面提供高質(zhì)量候選標(biāo)簽。如傳統(tǒng)的協(xié)同推薦一樣,對于一個新的團(tuán)隊文檔集合,存在數(shù)據(jù)稀疏的冷啟動問題。針對這種現(xiàn)象,系統(tǒng)采用關(guān)鍵詞抽取的方式,利用文檔自身的內(nèi)容信息提取候選標(biāo)簽集合。當(dāng)系統(tǒng)中的標(biāo)簽積累到一定質(zhì)量和數(shù)量之后,再采取協(xié)同過濾的方式進(jìn)行標(biāo)簽推薦。

本文利用文檔內(nèi)容信息和文檔與標(biāo)簽之間的關(guān)系進(jìn)行標(biāo)簽的推薦,而傳統(tǒng)的標(biāo)簽推薦系統(tǒng),基本都是基于用戶、標(biāo)簽、資源3個對象之間的關(guān)系[5-6],較少考慮資源自身的內(nèi)容特征。當(dāng)用戶在DDL中對某一文檔進(jìn)行添加標(biāo)簽的操作時,系統(tǒng)會提供相關(guān)的推薦標(biāo)簽集合,此時,用戶可以直接選擇相關(guān)的標(biāo)簽進(jìn)行添加,也可以在候選標(biāo)簽的提示下,添加自己的語義層面標(biāo)簽,這樣可以有效地提升用戶打標(biāo)簽的質(zhì)量,降低打標(biāo)簽的難度。

2 標(biāo)簽推薦系統(tǒng)相關(guān)工作

標(biāo)簽推薦可以有效地提高系統(tǒng)標(biāo)簽質(zhì)量,減少用戶打標(biāo)簽的難度,近年來成為學(xué)術(shù)界和工業(yè)界關(guān)注研究的重點。在傳統(tǒng)的標(biāo)簽推薦系統(tǒng)中,比較簡單的標(biāo)簽推薦方法包括4種(統(tǒng)稱為基于最流行的推薦法):為用戶推薦整個系統(tǒng)最熱門的標(biāo)簽,為用戶推薦他自己經(jīng)常使用的標(biāo)簽,為用戶推薦資源上最熱門的標(biāo)簽。通過系數(shù)將前面2種方式的推薦結(jié)果進(jìn)行線性加權(quán)的簡單混合推薦[2]。

這4種方式不用進(jìn)行復(fù)雜的模型訓(xùn)練和計算,實現(xiàn)成本低,在商業(yè)系統(tǒng)中較常使用。例如豆瓣,用戶可以為一本書或者是一部電影添加標(biāo)簽,此時,標(biāo)簽系統(tǒng)會為用戶提供2類標(biāo)簽,一類是用戶自己的標(biāo)簽,另一類是此書籍或者電影上經(jīng)常被標(biāo)記的標(biāo)簽。對于商業(yè)產(chǎn)品,此類方法效果較好而且實現(xiàn)簡單快速。但是這些算法對于新用戶或者是不太熱門的物品,存在冷啟動問題,很難有較理想的推薦效果。

圖模型也可以用于標(biāo)簽推薦系統(tǒng)。先根據(jù)用戶對資源打標(biāo)簽這種行為,生成用戶-資源-標(biāo)簽無向圖?;诖藞D的相關(guān)算法有FolkRank算法[7],此算法認(rèn)為一個標(biāo)簽如果標(biāo)記重要資源,而且是重要的用戶進(jìn)行的標(biāo)注,那么這個標(biāo)簽就更重要。經(jīng)過迭代計算,得到標(biāo)簽的得分排名,然后為資源提供topN標(biāo)簽推薦。另外一類是采用基于隨機(jī)游走的PersonalRank算法[8],此算法基本思路是:從用戶U對應(yīng)的節(jié)點VU出發(fā)進(jìn)行隨機(jī)游走,游走到任何一個節(jié)點時,按照概率選擇繼續(xù)游走或者是返回節(jié)點VU開始重新游走,經(jīng)過迭代計算,使各個節(jié)點被訪問的概率收斂到一個值,該概率就是推薦列表中標(biāo)簽的權(quán)重。這些算法都存在要進(jìn)行模型訓(xùn)練、計算復(fù)雜、時間復(fù)雜度高等問題,在實際系統(tǒng)中應(yīng)用起來還有很多實際的困難需要解決。

本文提出了一種綜合協(xié)同過濾推薦以及關(guān)鍵詞抽取的標(biāo)簽推薦方式。在DDL平臺上,由于文檔上被標(biāo)記的標(biāo)簽都是共享的,即只存在文檔、標(biāo)簽二維空間,而不是圖模型中的三維空間,這樣前文所說的一些推薦方式并不適合DDL實際環(huán)境,在此情況下本文提出一種不考慮用戶的協(xié)同推薦方式,簡單高效,易于實現(xiàn)?,F(xiàn)在主流的標(biāo)簽推薦研究都是在Delicious、Bibsonomy等公開的數(shù)據(jù)之上進(jìn)行的[9],標(biāo)簽數(shù)據(jù)量有一定的基礎(chǔ),不用考慮冷啟動的問題。在DDL中,若成立一個新的科研團(tuán)隊,其中基本沒有標(biāo)簽,此時,采用第2種推薦方法:基于內(nèi)容的關(guān)鍵詞抽取標(biāo)簽推薦方法。

3 綜合協(xié)同過濾和關(guān)鍵詞抽取的標(biāo)簽推薦系統(tǒng)

Delicious、豆瓣等系統(tǒng)中,用戶和資源之間是多對多的關(guān)系,用戶U1和U2都可以對資源I添加標(biāo)簽,并且他們添加的標(biāo)簽集合S1、S2是獨立的。而在DDL中,由于DDL的宗旨是團(tuán)隊協(xié)作和共享,團(tuán)隊成員之間的關(guān)系是十分親密的,因此所有用戶對于一個文檔添加的標(biāo)簽都屬于一個集合S。由于不存在完整的用戶-資源-標(biāo)簽三維空間,本文第2節(jié)中提到的主流標(biāo)簽推薦方式并不適合DDL,從可用性、實用性、易于實現(xiàn)等方面考慮,提出一種綜合協(xié)同過濾和關(guān)鍵詞抽取的標(biāo)簽推薦方法。

當(dāng)團(tuán)隊中已打標(biāo)簽的文檔數(shù)目占所有文檔的比例超過一個閾值時,采用協(xié)同過濾標(biāo)簽推薦方式,當(dāng)小于這個閾值時,采用關(guān)鍵詞抽取方式。

3.1 基于內(nèi)容的協(xié)同過濾標(biāo)簽推薦

傳統(tǒng)的協(xié)同過濾中,通過用戶對資源的評分矩陣計算資源相似度或者是用戶相似度。例如電子商務(wù)網(wǎng)站中當(dāng)2個物品被同一個用戶喜歡,那么它們的相似度加一。在DDL中,文檔的協(xié)作分享面向科研團(tuán)隊,在一個團(tuán)隊中,用戶和文檔之間關(guān)系的黏度是比較強(qiáng)的,即一個用戶訪問某2個頁面的可能性很大,并不能代表這2個頁面的相似度關(guān)系,因此,使用傳統(tǒng)的相似度判斷方法并不適合DDL?;诖?,本文采用基于內(nèi)容判斷文檔相似度的方法。

3.1.1 文檔特征向量

對于DDL團(tuán)隊中的文檔,在對其文檔內(nèi)容分詞之后,利用TF-IDF模型計算文檔中每個關(guān)鍵詞的權(quán)重,然后構(gòu)建文檔特征向量:

其中,Di表示文檔i的特征向量;termij(j=1,2,…,n)表示將文檔i的特征詞按照權(quán)重由大到小排序之后的第j個特征詞;wij是其對應(yīng)的tf-idf權(quán)重。

3.1.2 相似文檔集合

目標(biāo)是計算目標(biāo)文檔的相似文檔集合。在構(gòu)建了團(tuán)隊文檔向量空間模型之后,利用余弦定理計算2個文檔特征向量之間的距離:

其中,分子代表特征向量Di和Dj中相同的特征詞對應(yīng)的權(quán)重乘積求和。

在DDL團(tuán)隊中,對于目標(biāo)頁面d,計算它與團(tuán)隊中其他文檔的相似度,選取前30個頁面形成d的相似頁面集合Nd:

其中,Ntop30表示與目標(biāo)文檔d相似度最大的前30個文檔集合;Di表示第i個文檔向量;simid表示文檔i與目標(biāo)文檔d的相似度權(quán)重。

3.1.3 推薦標(biāo)簽集合

在DDL中,對于目標(biāo)文檔d,其相似文檔集合為Nd,對于其中的每個文檔i,其上有一些已經(jīng)被標(biāo)記上的標(biāo)簽t,將對應(yīng)于i的已有標(biāo)簽集合記為Ti。對頁面d的推薦標(biāo)簽集合如下:Trec- d={(td1,wtd1),(td2,wtd2),…,(tdk,wtdk)}。其中,tdi∈T1∪T2∪…∪T30(i=1,2,…,k)是為目標(biāo)文檔d推薦的第i個標(biāo)簽;wtdi是標(biāo)簽tdi對應(yīng)的排名權(quán)重,由如下公式計算:

其中,Tk代表文檔k上已有的標(biāo)簽集合;Ntdi代表在目標(biāo)文檔d的相似文檔集合Nd中包含標(biāo)簽tdi的所有文檔的集合;Trec-d按照標(biāo)簽權(quán)重wtdi進(jìn)行排序。

3.2 關(guān)鍵詞抽取

用TF-IDF度量關(guān)鍵詞的權(quán)重。采用公式tf-idft, d= tft, d×idft,tft,d表示詞項頻率,idft表示逆文檔頻率。在詞袋模型[10]的文檔視圖下,TF-IDF模型能夠表示文檔中詞項的區(qū)分度和重要度[11]。TF-IDF被公認(rèn)為信息檢索中最重要的發(fā)明,常用于搜索引擎排名中確定網(wǎng)頁和查詢的相關(guān)性、自底向上文檔分類等問題中[12]。

對于一個全新的團(tuán)隊,系統(tǒng)中基本沒有標(biāo)簽,在協(xié)同過濾方式中會出現(xiàn)冷啟動的問題,本文采用關(guān)鍵詞抽取的方式來解決。具體做法如下:采用IKAnalyzer中文分詞器的智能切分方式對文檔分詞,將DDL中已經(jīng)存在的標(biāo)簽作為自定義的擴(kuò)展詞典,過濾單個漢字詞項和數(shù)字,然后統(tǒng)計文檔中詞項的TF-IDF值,選取topK作為推薦集合:

其中,關(guān)鍵詞按照權(quán)重由大到小排名,推薦文檔的前K個最大TF-IDF權(quán)重的關(guān)鍵詞集合。

4 實驗及結(jié)果分析

4.1 基于內(nèi)容的協(xié)同過濾標(biāo)簽推薦

4.1.1 實驗數(shù)據(jù)及度量方法

為驗證算法的性能,本系統(tǒng)采用DDL中某一團(tuán)隊的部分?jǐn)?shù)據(jù)集合。這個數(shù)據(jù)集合包含3 000個頁面。隨機(jī)選取所有頁面的20%作為測試集合,即訓(xùn)練集合頁面數(shù)目為600。

由于系統(tǒng)屬于TopN推薦,即為用戶提供一個推薦列表。TopN推薦的預(yù)測精度一般通過準(zhǔn)確率和召回率來度量。這里,采用這2種傳統(tǒng)的度量方式:

其中,p表示測試頁面集合;R(p)表示給頁面推薦的標(biāo)簽集合;T(p)表示測試集中的頁面實際被標(biāo)記上的標(biāo)簽。

通過選取不同的列表長度N,計算出一組準(zhǔn)確率和召回率,以此判斷最佳的推薦長度。為了保證測試實驗的準(zhǔn)確性,重復(fù)實驗5次,每次用于測試的600個頁面都是隨機(jī)選擇的不同頁面。

4.1.2 結(jié)果分析

選取N={3,4,5,6}進(jìn)行實驗,每次進(jìn)行5次重復(fù)實驗。圖1代表取不同的N值時的準(zhǔn)確率,圖2是對應(yīng)的召回率。

圖1 N取不同值時的準(zhǔn)確率

圖2 N取不同值時的召回率

從圖1中可以看出,準(zhǔn)確率相對于召回率處于一個較小的取值空間,因為準(zhǔn)確率代表的是頁面推薦集合和原有標(biāo)簽集合的交集C與推薦標(biāo)簽集合的總數(shù)目R的比例。當(dāng)N變大時,R增長較快,例如N為3時,推薦總數(shù)為3×600= 1 800,N為4時推薦總數(shù)為4×600=2 400,而選用的團(tuán)隊頁面集合基本上每個頁面的標(biāo)簽數(shù)目在1個~2個之間,而集合C受到原有標(biāo)簽集合的數(shù)目限制,C與R的數(shù)量差距較大,這也就解釋了精確率都在較小數(shù)據(jù)區(qū)間內(nèi)的現(xiàn)象。

而準(zhǔn)確率隨著N的增長呈現(xiàn)下降的趨勢,主要是由于N的增長導(dǎo)致R顯著增大,但是對于C的提升沒有很明顯的效果,出于實際DDL中頁面的標(biāo)簽基本上是在3個以內(nèi),此處認(rèn)為選擇N為3時,比較理想。

召回率代表了集合C與頁面原有標(biāo)簽集合T的比例。對于隨機(jī)選擇的600個測試頁面集合,T的數(shù)量基本穩(wěn)定,但是當(dāng)增大推薦數(shù)目N時,如同在分析精確度時所描述的,N對于推薦效果的提升雖然沒有很顯著的影響,但是當(dāng)推薦的候選集合增大,交集C還是會有小幅度的增加,因此,也就表現(xiàn)為召回率的小幅度增大變化,但是這個增長幅度太小,故認(rèn)為N為3時的召回率已經(jīng)是比較理想了。

綜合上述原因,采用推薦標(biāo)簽集合長度N為3較理想。

4.2 關(guān)鍵詞抽取推薦

本文是基于TF-IDF進(jìn)行關(guān)鍵詞提取,所得到的關(guān)鍵詞推薦集合是基于分詞結(jié)果。例如頁面“試用期/實習(xí)期管理”,得到的推薦集合是{實習(xí)期,試用期,轉(zhuǎn)正};頁面“考勤公示說明”,推薦集合{缺勤,考勤,公示};頁面“2010級碩士生開題答辯”,推薦集合{開題,碩士生,2010級}??梢钥闯?,內(nèi)容抽取的方式能夠得到一些比較好的代表文檔內(nèi)容的關(guān)鍵詞,這樣能夠方便用戶對文檔添加標(biāo)簽。內(nèi)容抽取方式得到的是詞粒度的標(biāo)簽。而當(dāng)DDL團(tuán)隊被使用一段時間之后,部分頁面會被添加上一些語義層面的標(biāo)簽,例如“科研與教育”、“全室共享”,這樣在基于內(nèi)容的協(xié)同推薦方式下,就會為頁面提供一些語義層面的標(biāo)簽推薦,例如上面提到的頁面“2010級碩士生開題答辯”,得到推薦集合{科研與教育,分享與研究,默認(rèn)集合 }。

對于該推薦方式采用用戶調(diào)查的方式進(jìn)行實驗。由于對于已有標(biāo)簽的頁面,其上的標(biāo)簽可能會影響用戶對推薦結(jié)果的主觀判斷。因此,隨機(jī)選擇團(tuán)隊中個300個未打標(biāo)簽頁面,選擇5個用戶參加調(diào)查,評價分為3個等級。重復(fù)實驗5次結(jié)果如表1所示。其中數(shù)據(jù)分別代表300個頁面中用戶滿意、感覺一般和不滿意頁面的數(shù)目所占的比例。

表1 用戶調(diào)查滿意度

隨著使用時間的增長,標(biāo)簽數(shù)量和質(zhì)量會逐步的積累和改善,從而標(biāo)簽推薦系統(tǒng)的效果也會穩(wěn)步上升。

5 結(jié)束語

本文綜合協(xié)同過濾方法和關(guān)鍵詞抽取方法對DDL團(tuán)隊文檔推薦標(biāo)簽。在解決標(biāo)簽推薦冷啟動問題的同時能夠為用戶提供高質(zhì)量的候選標(biāo)簽集合,方便用戶對頁面添加具有代表性的標(biāo)簽。提升了DDL的標(biāo)簽系統(tǒng),使得文檔的組織、管理和分享更加高效有序。實驗結(jié)果證明,該系統(tǒng)能夠為文檔提供較高精度的標(biāo)簽推薦,有利于DDL標(biāo)簽系統(tǒng)的有效構(gòu)建和發(fā)展。下一步工作著重于提高標(biāo)簽推薦的精度,同時在關(guān)鍵詞抽取方面,利用主題模型進(jìn)行實驗,和TF-IDF方法進(jìn)行對比。

[1] Golder S A, Huberman B A. The Structure of Collaborative Tagging System[J]. Journal of Information Science, 2006, 32(2): 198-208.

[2] 項 亮. 推薦系統(tǒng)實踐[M]. 北京: 人民郵電出版社, 2012.

[3] 南 凱, 董科軍, 謝建軍, 等. 面向云服務(wù)的科研協(xié)同平臺研究[J]. 華中科技大學(xué)學(xué)報: 自然科學(xué)版, 2010, 38(1): 14-19.

[4] Guy M, Tonkin E. Folksonomies: Tidying up Tags?[J]. D-Lib Magazine, 2006, 12(1): 1-15.

[5] 許棣華, 王志堅, 林巧民, 等. 一種基于偏好的個性化標(biāo)簽推薦系統(tǒng)[J]. 計算機(jī)應(yīng)用研究, 2011, 28(7): 2573-2575.

[6] G emmell J, Schimoler T, Mobasher B, et al. Hybrid Tag Recommendation for Social A nnotation Systems[C]//Proc. of the 19th ACM International Conf erence on Information and Knowledge Management. New York, USA: ACM Press, 2010: 829-838.

[7] Hotho A, J?schke R, Schmitz C, et al. Information Retrieval in Folksonomies: Search and Ranking[C]//Proc. of the 3rd European Sema ntic W eb Conference. Berlin, Germany: Springer-Verlag, 2006: 411-426.

[8] Haveliwala T H. T opic-sensitive PageRa nk[C]//Proc. of the 11th International Conference on World Wide Web. New York, USA: ACM Press, 2002: 517-526.

[9] 勒延安, 李玉華, 劉行軍. 不同粒度標(biāo)簽推薦算法的比較研究[J]. 計算機(jī)應(yīng)用研究, 2012, 19(2): 504-509.

[10] Lewis D D. Naive(Bayes) at Forty: The Independenc e Assumption in Information Retrieval[C]//Proc. of the 10th European Confer ence o n Mac hine Le arning. Lo ndon, UK: Springer-Verlag, 1998: 4-15.

[11] Manning C D, Rag havan P, Schütze H. 信息檢索導(dǎo)論[M]. 王 斌, 譯. 北京: 人民郵電出版社, 2010.

[12] 吳 軍. 數(shù)學(xué)之美[M]. 北京: 人民郵電出版社, 2012.

編輯 顧逸斐

Tag Recommendation System Based on Duckling Document Library Platform

CAI Fang1,2, SHEN Yi1,2, NAN Kai1

(1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China)

Duckling Document Library(DDL) is a tool for document collaboration and management among research teams. It provides a cooperation platform for virtual teams. T ag system is used to manage all the documents on it. During the use of the lib rary, the number of documents without any tags is gradually accumulating and the quality of tags labeled by users to some documents is not so good. All these troubles impede the effective control of the documents. In order to solve these problems, this paper proposes a tag recommendation method suitable for the document library of research onl ine platform, which includes collaboration filterin g recommendation and keywor ds extraction recommendation, in this way users are prompted to ad d qualified tags and improve the efficiency of the document libr ary. Precision and recall rate metrics are used in the collaboration filtering recommendation and user survey in the keyw ords extraction recommendation. Experimental results show that a recommended list of three tags can get desired effect. In production environment, this tag recommendation system has qualified accuracy, reliability and is easy to be implemented.

tag recommendation; tag system; collaborative filtering; keywords extraction; cold-start; document collaboration

10.3969/j.issn.1000-3428.2014.05.061

中國科學(xué)院十二五信息化基金資助項目“科研信息化應(yīng)用推進(jìn)工程(XXH12503)。

蔡 芳(1990-),女,碩士研究生,主研方向:網(wǎng)絡(luò)協(xié)同,推薦系統(tǒng);沈 一,博士研究生;南 凱,研究員。

2013-03-05

2013-05-03E-mail:caifangzky@sina.cn

1000-3428(2014)05-0295-04

A

TP39

猜你喜歡
頁面文檔標(biāo)簽
刷新生活的頁面
有人一聲不吭向你扔了個文檔
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
基于RI碼計算的Word復(fù)制文檔鑒別
標(biāo)簽化傷害了誰
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
不讓他人隨意下載Google文檔
電腦迷(2012年4期)2012-04-29 06:12:13
同一Word文檔 縱橫頁面并存
栖霞市| 富裕县| 泸定县| 青岛市| 清苑县| 贞丰县| 涿州市| 贡嘎县| 赤水市| 阳江市| 三原县| 湖南省| 交口县| 吐鲁番市| 鹤峰县| 青阳县| 马公市| 含山县| 唐河县| 吉林省| 确山县| 湄潭县| 甘泉县| 信阳市| 安徽省| 项城市| 瑞金市| 朝阳市| 宁安市| 门源| 乌鲁木齐县| 隆化县| 大理市| 休宁县| 芦山县| 汤原县| 永定县| 南丰县| 浮梁县| 新巴尔虎右旗| 六安市|