肖巧翔,曹步清, 2,張祥平,劉建勛,李晏新聞
?
基于Word2Vec和LDA主題模型的Web服務(wù)聚類(lèi)方法
肖巧翔1,曹步清1, 2,張祥平1,劉建勛1,李晏新聞3
(1. 湖南科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,湖南 湘潭,411201; 2. 北京郵電大學(xué) 網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京,100876; 3. 泉州師范學(xué)院 航海學(xué)院,福建 泉州,362699)
為高效地發(fā)現(xiàn)滿足用戶需求的Web服務(wù),針對(duì)Web服務(wù)的描述文本較短、缺乏足夠有效信息的問(wèn)題,提出一種基于Word2Vec和LDA主題模型的Web服務(wù)聚類(lèi)方法。該方法首先將Wikipedia語(yǔ)料庫(kù)作為擴(kuò)充源,使用word2vec對(duì)Web服務(wù)描述文檔內(nèi)容進(jìn)行擴(kuò)充,再將擴(kuò)充后的描述文檔利用主題模型進(jìn)行特征建模,將短文本主題建模轉(zhuǎn)化為長(zhǎng)文本主題建模,更準(zhǔn)確地實(shí)現(xiàn)服務(wù)內(nèi)容主題表達(dá),最后根據(jù)文檔的主題分布矩陣尋找相似的服務(wù)并完成聚類(lèi),使用從ProgrammableWeb收集的真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。研究結(jié)果表明:本文方法與TFIDF-K,LDA,WT-LDA和LDA-K方法相比,分別提高419.74%,20.11%,15.60%和27.80%,利用擴(kuò)充后的Web服務(wù)的描述文檔進(jìn)行聚類(lèi)的方法能夠有效提高Web服務(wù)聚類(lèi)的效果。
Web服務(wù);Word2Vec;LDA主題模型;K-means算法;Web服務(wù)聚類(lèi)
近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,Web服務(wù)技術(shù)作為服務(wù)計(jì)算(SOC)和面向服務(wù)架構(gòu)(SOA)的主要實(shí)現(xiàn)技術(shù)已經(jīng)得到廣泛應(yīng)用[1]。通常,單個(gè)Web服務(wù)所提供的功能并不能滿足用戶多功能的需求。開(kāi)發(fā)人員更傾向于通過(guò)以松散耦合的方式組合現(xiàn)有的基于RESTful的Web服務(wù)來(lái)創(chuàng)建多功能的Mashup服務(wù)。由于Mashup服務(wù)具有易編程和開(kāi)發(fā)周期短等特性,Mashup服務(wù)變得越來(lái)越流行[2]。然而,與傳統(tǒng)的Web服務(wù)相比,Mashup服務(wù)缺少規(guī)范的形式化描述模型,如Mashup服務(wù)的描述文本內(nèi)容過(guò)少、描述語(yǔ)言不規(guī)范等,這些都增加了Mashup服務(wù)查找與發(fā)現(xiàn)的難 度[3]。如何發(fā)現(xiàn)適合的Mashup服務(wù)是Web服務(wù)發(fā)現(xiàn)所面臨的一個(gè)重要問(wèn)題。Web服務(wù)聚類(lèi)技術(shù)是用于提高Web服務(wù)發(fā)現(xiàn)精度的一種重要技術(shù)[4],它將Web服務(wù)按照其功能屬性進(jìn)行劃分,使得劃分到相同簇中的Web服務(wù)功能相似度較高,不同簇中的Web服務(wù)功能相似度較低。通過(guò)計(jì)算Web服務(wù)功能相似度的聚類(lèi)方法,能夠有效提高Web服務(wù)搜索引擎的查找效率。目前,國(guó)內(nèi)外研究者對(duì)Web服務(wù)聚類(lèi)進(jìn)行了大量研究?,F(xiàn)有的關(guān)于Web服務(wù)聚類(lèi)的研究主要聚焦于Web服務(wù)功能屬性的聚類(lèi)研究?;诠δ艿腤eb服務(wù)聚類(lèi)主要依據(jù)的是Web服務(wù)功能的相似性而將它們聚到具有相似功能的類(lèi)簇中。例如,YU等[5]提出一種基于服務(wù)和操作聯(lián)合聚類(lèi)的服務(wù)社區(qū)學(xué)習(xí)算法,把具有相似功能的服務(wù)聚類(lèi)為同構(gòu)服務(wù)社區(qū)。文獻(xiàn)[4,6]從WSDL文檔中抽取關(guān)鍵特征,用于表示1個(gè)Web服務(wù);然后,基于這些特征,計(jì)算Web服務(wù)之間的相似性,將服務(wù)聚類(lèi)到功能相似的類(lèi)簇。也有許多方法引入許多輔助信息來(lái)改善主題模型的訓(xùn)練過(guò)程[7?9],例如,CHEN 等[7?8]使用WSDL文檔和Tag信息作為輸入信息,分別計(jì)算獲得WSDL文檔相似性和Tag相似性,并合成這2種相似性實(shí)現(xiàn)服務(wù)聚類(lèi)。黃媛等[9]也提出一種基于標(biāo)簽推薦的Web服務(wù)聚類(lèi)方法,該方法結(jié)合了描述文檔和Web服務(wù)標(biāo)簽來(lái)進(jìn)行聚類(lèi)。李征等[10]提出了一種基于概率、融合領(lǐng)域特性的服務(wù)聚類(lèi)模型。SHI 等[11]提出一種利用詞向量的增強(qiáng)LDA(Latent Dirichlet Allocation)服務(wù)聚類(lèi)方法。對(duì)Web服務(wù)描述文檔中的所有詞進(jìn)行聚類(lèi),使這些詞匯聚類(lèi)信息參與LDA模型的訓(xùn)練過(guò)程。這些方法都是通過(guò)對(duì)Web服務(wù)的描述文檔進(jìn)行建模,抽取出Web服務(wù)的關(guān)鍵特征,再對(duì)Web服務(wù)進(jìn)行聚類(lèi)。但目前大部分主題模型都無(wú)法對(duì)這類(lèi)缺乏訓(xùn)練語(yǔ)料庫(kù)的短文本進(jìn)行較好建模。由于原始描述文檔包含較少信息并且使用自然語(yǔ)言來(lái)描述,這使得主題模型提取的Web服務(wù)隱含主題信息不夠準(zhǔn)確,雖然當(dāng)前有些主題模型在訓(xùn)練過(guò)程中引入了輔助信息,如Web服務(wù)的標(biāo)簽信息、詞聚類(lèi)信息等,但相比傳統(tǒng)的LDA主題模型[12],改進(jìn)現(xiàn)有的主題模型對(duì)Web服務(wù)聚類(lèi)準(zhǔn)確率的提升并不明顯。針對(duì)這一問(wèn)題,本文提出一種基于Word2Vec和LDA主題模型的Web服務(wù)聚類(lèi)方法。利用Word2Vec對(duì)Web服務(wù)的短文本進(jìn)行擴(kuò)充,能夠獲得額外的文本信息,將短文本主題建模轉(zhuǎn)化為長(zhǎng)文本主題建模,使得主題模型能夠有效地估計(jì)出Web服務(wù)描述文本的隱含主題,提高聚類(lèi)的精度。再將這些擴(kuò)充后具有額外信息的描述文檔用于LDA主題建模,從而獲得更加準(zhǔn)確的聚類(lèi)效果。
Web服務(wù)的描述文本通常比較短,如在本文中使用的數(shù)據(jù)集,平均每一個(gè)Web服務(wù)的描述文檔僅包含24.16個(gè)詞。直接利用LDA等主題建模方法難以有效地估計(jì)出服務(wù)的隱含主題。因此,需要對(duì)Web服務(wù)的描述文本進(jìn)行擴(kuò)充。
本文利用Word2vec訓(xùn)練出維基百科(Wikipedia)英文語(yǔ)料庫(kù)的詞向量模型。本文使用的Wikipedia英文語(yǔ)料庫(kù)數(shù)據(jù)量大,共有11GB。因此,采用的是基于負(fù)采樣的CBOW(continuous bag of words)模型。假設(shè)(,C)是從訓(xùn)練數(shù)據(jù)集提取出來(lái)的詞及其上下文信息C信息對(duì)。那么通過(guò)周?chē)~來(lái)預(yù)測(cè)當(dāng)前詞的概率如下:
CBOW模型訓(xùn)練目標(biāo)的極大似然估計(jì)函數(shù),表達(dá)式如下:
通過(guò)文本擴(kuò)充,將短文本主題建模轉(zhuǎn)化成為長(zhǎng)文本主題建模,利用LDA主題模型對(duì)服務(wù)內(nèi)容進(jìn)行特征建模,實(shí)現(xiàn)Web服務(wù)內(nèi)容的主題表達(dá)。
LDA主題模型可以將每篇文檔的主題以概率分布的形式給出[14],用來(lái)識(shí)別大規(guī)模文本中的隱含主題信息,在信息檢索等都有得到了廣泛的應(yīng)用。
圖1 LDA模型圖
圖1所示為L(zhǎng)DA模型圖。圖1中,單圓環(huán)表示隱含變量,雙圓環(huán)表示可觀察值,矩形表示重復(fù)過(guò)程;大矩形表示從Dirichlet分布中為文檔集中的每個(gè)文檔反復(fù)抽取主題分布;小矩形表示從主題分布中反復(fù)抽樣產(chǎn)生文檔的詞{1,2,…,w};為主題個(gè)數(shù);為文檔總數(shù);N為第個(gè)文檔的單詞總數(shù);Z,n為第個(gè)文檔中第個(gè)詞的主題;w,n為個(gè)文檔中的第個(gè)詞;和為它們的先驗(yàn)參數(shù);隱含變量表示第個(gè)文檔下的Topic分布;表示第個(gè)主題下詞的分布。對(duì)于文檔中每個(gè)詞,可以通過(guò)公式(3)為其抽樣1個(gè)主題Z。同時(shí),通過(guò)公式(4)選擇該詞W。
將擴(kuò)充后的Mashup描述文檔作為L(zhǎng)DA模型的輸入,采用吉布斯抽樣(Gibbs Sampling)方法,和分別可被推斷出來(lái),從而得到每個(gè)描述文檔的文檔主題矩陣和詞主題矩陣。如圖2所示。
圖2 LDA詞主題與文檔主題矩陣
本文提出的方法總體框架如圖3所示。首先,對(duì)收集到的Web服務(wù)數(shù)據(jù)集進(jìn)行預(yù)處理。之后,使用Word2Vec工具對(duì)Wikipedia語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,生成詞向量模型。在詞向量模型中尋找與Web服務(wù)的描述文檔相似的詞進(jìn)行擴(kuò)充,得到不同擴(kuò)充程度的描述文檔,使原始文本有足夠的詞頻共現(xiàn),使主題模型更加有效地估計(jì)服務(wù)的隱含主題。然后,使用文本聚類(lèi)領(lǐng)域常用的工具LDA模型對(duì)擴(kuò)充后的描述文檔進(jìn)行主題建模。接著,對(duì)LDA生成的文檔主題分布矩陣使用K-means聚類(lèi)方法實(shí)現(xiàn)服務(wù)聚類(lèi)。最后,采用準(zhǔn)確率、召回率以及對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。
圖3 方法總體框架
2.1.1 Wikipedia數(shù)據(jù)集以及詞向量訓(xùn)練過(guò)程
Wikipedia是公認(rèn)的互聯(lián)網(wǎng)上最全面、最權(quán)威的網(wǎng)絡(luò)百科全書(shū),有豐富的語(yǔ)料庫(kù)。本文采用2017年4月的英文維基百科語(yǔ)料庫(kù),下載地址為:https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2,約為11 GB。其中每個(gè)文件大約為1 MB,包含了多個(gè)英文文檔。
本文使用python中的gensim模塊對(duì)Wikipedia語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,生成了Wikipedia語(yǔ)料庫(kù)的詞向量模型,具體參數(shù)設(shè)置如表1所示。
表1 Word2Vec參數(shù)設(shè)置
2.1.2 Web服務(wù)數(shù)據(jù)集及預(yù)處理
本實(shí)驗(yàn)的數(shù)據(jù)集來(lái)自于ProgrammableWeb網(wǎng)站,它是一個(gè)API資源發(fā)布和檢索的權(quán)威平臺(tái),是世界上API的新聞和信息的主要來(lái)源。截至2017?05,該網(wǎng)站上中的Mashup數(shù)量已經(jīng)超過(guò)6 300個(gè),Web API的數(shù)量突破17 000個(gè)。
本文使用從ProgrammableWeb爬取的6 347個(gè)Mashup服務(wù),包括服務(wù)名稱(chēng)、描述文本、所使用的Web API以及Tag等信息。在實(shí)驗(yàn)中挑選了數(shù)量最多的前五類(lèi)Mashup,它們的分布情況如表2所示。
為了提高文本聚類(lèi)的精確度,首先對(duì)這些Mashup的描述文檔進(jìn)行預(yù)處理。過(guò)程如下。
1) 文本令牌化(tokenize)。將每個(gè)單詞按照空格分開(kāi),且將單詞和標(biāo)點(diǎn)符號(hào)也分開(kāi),使得文本中的單詞、字符變成單獨(dú)的單元。
表2 Top5類(lèi)的Mashup服務(wù)分布圖
2) 過(guò)濾停用詞(stop words)。去除英文中一些無(wú)意義的詞以及標(biāo)點(diǎn)符號(hào),如:“a”,“and”,“or”,“to”和“@”等。
3) 詞干化處理(stemming)。在英文文本中,同一個(gè)單詞會(huì)因?yàn)槿朔Q(chēng)、時(shí)態(tài)的不同而有不同的表現(xiàn)形式,如“connection”,“connected”和“connecting”,它們實(shí)際上都是同一個(gè)單詞“connect”。若將這些單詞看作是不同的單詞,那么之后的實(shí)驗(yàn)結(jié)果的準(zhǔn)確度撿回降低。故需要進(jìn)行詞干化處理。
以上處理步驟均采用python中的自然語(yǔ)言處理工具包[15]NLTK(Natural Language Toolkit)進(jìn)行處理。在完成以上3個(gè)步驟后,便獲得了處理好的Web服務(wù)描述文檔text。
2.1.3 詞向量擴(kuò)充處理
使用Word2vec工具對(duì)Wikipedia語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,得到Wikipedia語(yǔ)料庫(kù)的詞向量模型。接著利用訓(xùn)練好的詞向量模型來(lái)進(jìn)行Web服務(wù)描述文檔的擴(kuò)充。具體方法為:在詞向量空間中尋找與原始Web服務(wù)描述文檔中的詞最相近的前個(gè)詞進(jìn)行擴(kuò)充,得到不同擴(kuò)充程度的Web服務(wù)描述文檔[16]。例如:原始單詞Earth與Google,經(jīng)過(guò)擴(kuò)充之后形成的前10個(gè)擴(kuò)充詞分別為{planet,martian,mars,venusian,planets,spaceship,universe planetary,moon,deimos}和{gmail,dropbox,evernote,app,adsense,yahoo,microsoft,flickr,hotmail}。
2.1.4 LDA主題建模
2.1.5 Web服務(wù)功能聚類(lèi)
K-means聚類(lèi)算法是Web服務(wù)聚類(lèi)中使用最為廣泛的算法之一。該算法的步驟如下[17]。
1) 在個(gè)樣本中,任選個(gè)樣本作為初始聚類(lèi)中心=(1,2,…,z)。
2) 對(duì)每個(gè)樣本x找到離它最近的聚類(lèi)中心z,并將其分配到z所標(biāo)明的類(lèi)c中。
3) 采取平均的方法計(jì)算重新分類(lèi)后的各類(lèi)的聚類(lèi)中心。
4) 計(jì)算
5) 若值收斂,則返回聚類(lèi)結(jié)果,并終止本算法,否則轉(zhuǎn)至步驟 2)。
其中,步驟4)在計(jì)算每個(gè)Mashup服務(wù)到聚類(lèi)中心的距離時(shí),采用的是余弦相似度。假設(shè)某個(gè)Mashup服務(wù)m和聚類(lèi)中心z它們的主題向量是(P1,P2,…,P)與(P1,P2,…,P),那么m與z之間的余弦距離為
將文本主題矩陣作為K-means的輸入,最小化所有Mashup與其所關(guān)聯(lián)的聚類(lèi)中心點(diǎn)之間的距離之和,將得到最終的聚類(lèi)結(jié)果。圖4所示為Web服務(wù)聚類(lèi)結(jié)果中的2個(gè)簇的示例圖。每一個(gè)簇類(lèi)的主題為該簇類(lèi)出現(xiàn)次數(shù)最多的1個(gè)主題。
圖4 Web服務(wù)聚類(lèi)示例
Fig. 4 Examples of Web service clustering
為了評(píng)價(jià)服務(wù)聚類(lèi)的性能,采用準(zhǔn)確率、召回率以及綜合評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià)[18]。其中,準(zhǔn)確率表示所有被劃分到同一簇的服務(wù)中應(yīng)被劃分到該簇的概率,召回率表示所有被聚類(lèi)到同一簇中的服務(wù)占所有應(yīng)被聚類(lèi)到該簇的比例,為準(zhǔn)確率和召回率的調(diào)和平均值,具體計(jì)算公式如下:
選取以下方法與本文所提出的方法進(jìn)行比較。
1) TFIDF-K[2]。該方法采用 K-mean 算法對(duì)服務(wù)進(jìn)行聚類(lèi),基于詞頻和逆文檔頻率進(jìn)行服務(wù)之間相似度的計(jì)算。
2) LDA。該方法基于 LDA 主題模型進(jìn)行劃分,每個(gè)服務(wù)屬于主題概率最大的類(lèi)別。具有相同主題的Web服務(wù)被劃分為1個(gè)類(lèi)。
3) WT-LDA[7]。該方法在傳統(tǒng)的LDA主題建模過(guò)程中添加了Web服務(wù)標(biāo)簽信息,每個(gè)服務(wù)屬于主題概率最大的類(lèi)別,具有相同主題的 Web服務(wù)被聚為1個(gè)類(lèi)。
4) LDA-K[2]:該方法針對(duì)原始的、未擴(kuò)充的服務(wù)文本進(jìn)行聚類(lèi)。首先,基于LDA模型的主題分布矩陣進(jìn)行Web服務(wù)之間的相似度計(jì)算;然后,使用K-means算法對(duì)Mashup服務(wù)進(jìn)行聚類(lèi)。
5) ELDA-K-i。該方法即為本文提出的方法。首先對(duì)Mashup服務(wù)描述文本進(jìn)行擴(kuò)充,使短文本擴(kuò)充成為長(zhǎng)文本,再對(duì)其進(jìn)行主題建模,得到文檔?主題矩陣。再依據(jù)主題分布進(jìn)行相似度的計(jì)算,并使用K-Means聚類(lèi)算法進(jìn)行聚類(lèi)。其中,表示擴(kuò)充的詞語(yǔ)數(shù)量。
6) ELDA-HC。該方法采用相同的文本擴(kuò)充方法、不同的聚類(lèi)算法實(shí)現(xiàn)服務(wù)聚類(lèi)。首先,對(duì)Mashup服務(wù)描述文本進(jìn)行擴(kuò)充,使短文本擴(kuò)充成為長(zhǎng)文本。使用層次聚類(lèi)算法對(duì)生成的主題分布矩陣進(jìn)行聚類(lèi)。
本文設(shè)計(jì)了一組實(shí)驗(yàn),用于考察不同擴(kuò)充情況的Web服務(wù)描述文本對(duì)實(shí)驗(yàn)效果的影響。將LDA的預(yù)先設(shè)定的主題數(shù)設(shè)置為20,40,60,80以及100。同時(shí),LDA模型中的先驗(yàn)參數(shù)和根據(jù)主題數(shù)來(lái)設(shè)定,=50/,=0.1。對(duì)LDA生成的文檔主題向量使用K-means算法進(jìn)行聚類(lèi)。實(shí)驗(yàn)結(jié)果如下:4種不同擴(kuò)充情況為分別為無(wú)擴(kuò)充、擴(kuò)充詞數(shù)為3、擴(kuò)充詞數(shù)為5、擴(kuò)充詞數(shù)為10。從圖5~7中可以看出:不擴(kuò)充時(shí)的聚類(lèi)效果最差,這是因?yàn)樵嘉谋据^短,包含的信息較少;在擴(kuò)充詞數(shù)為3時(shí),其準(zhǔn)確率、召回率以及這3個(gè)指標(biāo)均要比其余擴(kuò)充情況的高,但隨著擴(kuò)充詞數(shù)的繼續(xù)增加,聚類(lèi)的效果反而降低。這是因?yàn)閿U(kuò)充詞并不單單表示原單詞的含義,還會(huì)包含其他語(yǔ)義信息。過(guò)多的擴(kuò)充詞會(huì)使得主題模型無(wú)法準(zhǔn)確地推斷出隱含主題,使得擴(kuò)充后的Mashup描述文檔的語(yǔ)義變得模糊,導(dǎo)致LDA模型建模效果降低。
1—LDA-K;2—ELDA-K-3;3—ELDA-K-5;4—ELDA-K-10。
1—LDA-K;2—ELDA-K-3;3—ELDA-K-5;4—ELDA-K-10。
1—LDA-K;2—ELDA-K-3;3—ELDA-K-5;4—ELDA-K-10。
通過(guò)實(shí)驗(yàn)可知:當(dāng)擴(kuò)充詞數(shù)為3時(shí),本文方法具有最好的效果。因此,選擇ELDA-K-3方法與之前提到的其他方法進(jìn)行對(duì)比,結(jié)果如表3所示。本文提出的方法所得準(zhǔn)確率、召回率以及都最高。
表3 不同聚類(lèi)方法的實(shí)驗(yàn)結(jié)果比較
從表3可見(jiàn):本文提出的方法比其他方法有著明顯的優(yōu)勢(shì),與TFIDF-K,LDA,WT-LDA和LDA-K相比,本文方法所得分別提高419.74%,20.11%,15.60%和27.80%。這是因?yàn)閿U(kuò)充后的描述文檔包含更多的關(guān)于Web服務(wù)的有效信息,而這些信息有助于Web服務(wù)功能信息特征的提取,并且在同樣擴(kuò)充情況下,使用K-means聚類(lèi)方法獲得的實(shí)驗(yàn)結(jié)果要優(yōu)于層次聚類(lèi)方法所得結(jié)果。這是因?yàn)閷哟尉垲?lèi)在分類(lèi)過(guò)程中,當(dāng)1個(gè)點(diǎn)被分類(lèi)之后就無(wú)法進(jìn)行修正,聚類(lèi)質(zhì)量會(huì)受到影響。而K-means聚類(lèi)方法在聚類(lèi)過(guò)程中仍可以進(jìn)行聚類(lèi)結(jié)果的修正。
1) Web服務(wù)的數(shù)據(jù)規(guī)模越來(lái)越大,將服務(wù)進(jìn)行聚類(lèi)是一種有效提高服務(wù)發(fā)現(xiàn)的手段。基于服務(wù)描述文本通常比較短,缺乏足夠的有效信息,本文提出了一種基于Word2Vec和LDA主題模型的Web服務(wù)聚類(lèi)方法。該方法將Web服務(wù)描述文檔進(jìn)行擴(kuò)充,將服務(wù)描述短文本擴(kuò)充成長(zhǎng)文本,再對(duì)擴(kuò)充后的描述文檔進(jìn)行主題建模,最后計(jì)算各個(gè)Web服務(wù)的主題分布向量之間的距離,完成聚類(lèi)。
2) 在真實(shí)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并用3種評(píng)價(jià)指標(biāo)驗(yàn)證本文方法的有效性,結(jié)果證明利用擴(kuò)充后的Web服務(wù)的描述文檔進(jìn)行聚類(lèi)能夠有效提高Web服務(wù)聚類(lèi)的效果。
[1] IBRAHIM N M, HASSAN M F B. A survey on different interoperability frameworks of SOA systems towards seamless interoperability[C]//Information Technology. Washington D C, USA: IEEE, 2010: 1119?1123.
[2] CAO B, LIU X, LI B, et al. Mashup service clustering based on an integration of service content and network via exploiting a two-level topic model[C]//IEEE International Conference on Web Services San Francisco, USA. IEEE, 2016: 212?219.
[3] 黃興, 劉小青, 曹步清, 等. 融合K-Means與Agnes的Mashup服務(wù)聚類(lèi)方法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2015, 36(11): 2492?2497. HUANG Xing, LIU Xiaoqing, CAO Buqing, et al. MSCA:Mashup service clustering approach integrating K-Means and agnes algorithms[J]. Journal of Chinese Computer Systems, 2015, 36(11): 2492?2497.
[4] ELGAZZAR K, HASSAN A E, MARTIN P. Clustering WSDL Documents to Bootstrap the Discovery of Web Services[C]// ICWS2010. Florida, USA: IEEE Computer Society, 2010: 147?154.
[5] YU Q, REGE M. On Service community learning: A Co-clustering approach[C]//IEEE International Conference on Web Services. Washington D C, USA: IEEE Computer Society, 2010: 283?290.
[6] HASAN M H, JAAFAR J, HASSAN M F. Fuzzy-based clustering of Web services’ quality of service: A review[J]. Journal of Communications, 2014, 9(1): 81?90.
[7] CHEN L, WANG Y, YU Q. WT-LDA: User tagging augmented LDA for Web service clustering[C]//International Conference on Service-Oriented Computing. Berlin, Heidelberg: Springer, 2013: 162?176.
[8] CHEN L, HU L, ZHENG Z. WTCluster: Utilizing tags for Web services clustering[M]. Service-Oriented Computing. Berlin Heidelberg: Springer 2011: 204?218.
[9] 黃媛, 李兵, 何鵬, 等. 基于標(biāo)簽推薦的Mashup服務(wù)聚類(lèi)[J]. 計(jì)算機(jī)科學(xué), 2013, 40(2): 167?171.HUANG Yuan, LI Bing, HE Peng, et al. Mashup services clustering based on tag recommendation[J]. Computer Science, 2013, 40(2): 167?171.
[10] 李征, 王健, 張能, 等. 一種面向主題的領(lǐng)域服務(wù)聚類(lèi)方法. 計(jì)算機(jī)研究與發(fā)展, 2014, 51(2): 408?419. LI Zheng, WANG Jian, ZHANG Neng, et al. A topic-oriented clustering approach for domain services[J]. Journal of Computer Research and Development, 2014, 51(2): 408?419.
[11] SHI Min, LIU Jianxun, ZHOU Dong, et al. WE-LDA: A word embeddings augmented LDA model for Web services clustering[C]//IEEE International Conference on Web Services. Honolulu, USA: IEEE Computer Society, 2017: 9?16.
[12] 褚征, 于炯, 王佳玉, 等. 基于LDA主題模型的移動(dòng)應(yīng)用相似度構(gòu)建方法[J]. 計(jì)算機(jī)應(yīng)用, 2017, 37(4): 1075?1082. CHU Zheng, YU Jong, WANG Jayu, et al. Construction method of mobile application similarity matrix based on latent Dirichlet allocation topic model[J]. Journal of Computer Applications, 2017, 37(4): 1075?1082.
[13] 黃仁, 張衛(wèi). 基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J]. 計(jì)算機(jī)科學(xué), 2016, 43(S1): 387?389. HUANG Ren, ZHANG Wei. Study on sentiment analyzing of internet commodities review based on Word2vec[J]. Computer Science, 2016, 43(S1): 387?389.
[14] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(3): 993?1022.
[15] BIRD W W S, KLEIN E. Natural Language Processing with Python, Analyzing Text with the Natural Language Toolkit[J]. Language Resources & Evaluation, 2010, 44(4): 421?424.
[16] 魏強(qiáng), 金芝, 許焱. 基于概率主題模型的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn). 軟件學(xué)報(bào), 2014, 25(8): 1640?1658. WEI Qiang, JIN Zhi, XU Yan. Service discovery for internet of things based on probabilistic topic model[J]. Journal of Software, 2014, 25(8): 1640?1658
[17] 金建國(guó). 聚類(lèi)方法綜述[J]. 計(jì)算機(jī)科學(xué), 2014, 41(b11): 288?293. JIN Jianguo. Review of clustering method[J]. Computer Science, 2014, 41(b11): 288?293.
[18] CAO Buqing, LIU Xiaoqing, LIU Jianxun, et al. Domain-aware Mashup service clustering based on LDA topic model from multiple data sources[J]. Information & Software Technology, 2017, 90: 40?54.
Web services clustering based on Word2Vec and LDA topic model
XIAO Qiaoxiang1, CAO Buqing1, 2, ZHANG Xiangping1, LIU Jianxun1, LI Yanxinwen3
(1. Hunan University of Science & Technology, Xiangtan 411201, China; 2. State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing 100876, China; 3. College of Navigation, Quanzhou Normal University, Quanzhou 362699, China)
Considering that the description text of Web service is short and lack of enough effective information, a Web service clustering method was proposed based on Word2Vec and LDA topic model in order to find the Web service that meets user’s needs efficiently. Firstly, Wikipedia corpus was used as an extension source, and Word2Vec was used to extend the content of Web service description document, and then the expanded description document was modeled using the topic model. The short text topic modeling was transformed into a long text topic modeling, which achieved the topic of service content expression more accurately. Finally the similar service was found based on the topic distribution matrix of the document and the clustering was completed. Real data from ProgrammableWeb was used to carry out experiments. The results show that F obtained by the method increases by 419.74%, 20.11%, 15.60%, 27.80%, respectively, compared with those using TFIDF-K, LDA, WT-LDA and LDA-K. The use of extended Web service description documents clustering method can effectively improve the effectiveness of Web service clustering.
Web services; Word2Vec; LDA topic model; K-means algorithm; Web service clustering
10.11817/j.issn.1672?7207.2018.12.011
TP301
A
1672?7207(2018)12?2979?07
2018?01?12;
2018?03?21
國(guó)家自然科學(xué)基金資助項(xiàng)目(61873316, 61872139);湖南省自然科學(xué)基金資助項(xiàng)目(2017JJ2098);網(wǎng)絡(luò)與交換技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(北京郵電大學(xué))開(kāi)放課題 (SKLNST-2016-2-26)(Projects(61873316, 61872139) supported by the National Natural Science Foundation of China; Project(2017JJ2098) supported by the Natural Science Foundation of Hunan Province; Project(SKLNST-2016-2-26) supported by the Open Foundation of State Key Laboratory of Networking and Switching Technology (Beijing University of Posts and Telecommunications)
曹步清,博士,副教授,從事服務(wù)計(jì)算與云計(jì)算等方面的研究;E-mail:buqingcao@gmail.com
(編輯 陳燦華)