任秀春
(渤海大學(xué) 管理學(xué)院,遼寧 錦州 121013)
基于RDF三元組的電子商務(wù)競(jìng)爭(zhēng)者數(shù)據(jù)挖掘
任秀春
(渤海大學(xué) 管理學(xué)院,遼寧 錦州 121013)
越來(lái)越多的消費(fèi)者通過互聯(lián)網(wǎng)從事商務(wù)活動(dòng),電子商務(wù)的數(shù)據(jù)規(guī)模逐漸擴(kuò)大?;ヂ?lián)網(wǎng)上的商家希望了解競(jìng)爭(zhēng)對(duì)手及其信息,以調(diào)整經(jīng)營(yíng)策略。提出一種利用RDF三元組的語(yǔ)義特征和結(jié)構(gòu)特征來(lái)檢測(cè)具有競(jìng)爭(zhēng)關(guān)系的商家,利用淘寶網(wǎng)的商店數(shù)據(jù),使用MapReduce作為處理可擴(kuò)展性的工具。實(shí)驗(yàn)證明了基于RDF的電子商務(wù)競(jìng)爭(zhēng)者數(shù)據(jù)挖掘的有效性。
電子商務(wù);RDF;數(shù)據(jù)挖掘;MapReduce
在日常生活中,越來(lái)越多的人使用互聯(lián)網(wǎng)從事商務(wù)活動(dòng)。由于電子商務(wù)數(shù)據(jù)的飛速擴(kuò)張,網(wǎng)絡(luò)銷售商迫切希望可以找到網(wǎng)絡(luò)上競(jìng)爭(zhēng)者,獲取競(jìng)爭(zhēng)對(duì)手的經(jīng)營(yíng)數(shù)據(jù),分析商品的交叉信息,以便對(duì)經(jīng)營(yíng)策略做出調(diào)整,從而獲取較大的市場(chǎng)份額。
電子商務(wù)的數(shù)據(jù)有4個(gè)主題[1]:商品、銷售商(賣家)、消費(fèi)者(買家)、交易記錄。在電子商務(wù)領(lǐng)域,傳統(tǒng)的數(shù)據(jù)挖掘方法通常采用邏輯上的方法找出潛在和有用的模式[2],例如采用ILP模式[3],聚類分析方法[4-5],協(xié)同過濾算法[6-7]等。對(duì)電子商務(wù)競(jìng)爭(zhēng)者進(jìn)行數(shù)據(jù)挖掘,有幾種模式產(chǎn)生預(yù)先確定的競(jìng)爭(zhēng)關(guān)系,通過邏輯運(yùn)算將其結(jié)合,參照這個(gè)結(jié)果,可以很容易對(duì)新目標(biāo)檢測(cè)到競(jìng)爭(zhēng)關(guān)系[8]。文中采用RDF三元組表示網(wǎng)店里的所有商品特征和屬性。RDF是W3C規(guī)范的一部分,最初是作為元數(shù)據(jù)的數(shù)據(jù)模型設(shè)計(jì)的[9]。RDF是用于表示網(wǎng)絡(luò)信息的通用語(yǔ)言,RDF三元組可以表示網(wǎng)絡(luò)結(jié)構(gòu)、屬性、關(guān)系等[10-11]。此外,本文使用MapReduce在分布式計(jì)算中處理此類數(shù)據(jù)。MapReduce是由谷歌提出和實(shí)施的分布式存儲(chǔ)的文件系統(tǒng),作為一個(gè)開源項(xiàng)目,MapReduce是一個(gè)分布式計(jì)算框架[12]。通過采用MapReduce,我們可以做大量的計(jì)算用來(lái)減少時(shí)間成本。
1.1 數(shù)據(jù)預(yù)處理
電子商務(wù)中的基本數(shù)據(jù)包括商品、賣家、買家的交易記錄,我們?yōu)槊恳患唐贩峙湟粋€(gè)URI,通過對(duì)頁(yè)面的分析,可以將商品通過一個(gè)RDF三元組來(lái)進(jìn)行描述。
基于RDF三元組生成的商品信息如下:
1)product商品,每件商品都會(huì)給消費(fèi)者展示一些商品信息,如商品的名稱,價(jià)格,所屬類別,產(chǎn)地等基本屬性。生成的三元組如“product1 named XXX”,另外,有些商品會(huì)與其他商品放在一起查看,所以也會(huì) 產(chǎn) 生 三 元 組 如 “product1 viewed together product2”。
2)shop商店,各個(gè)商店的主要屬性是相同的,其描述如下,商店的所有者、商店的位置、買家對(duì)商店評(píng)價(jià)產(chǎn)生的商店信譽(yù)評(píng)估,由此建立如下三元組:“shop1 owner XXX”。此外,商店與商品之間存在明確的銷售關(guān)系:“shop sell product”。
3)record交易記錄,交易記錄描述了賣家與買家的活動(dòng),每條記錄都包括買家、產(chǎn)品、成交價(jià)格、交易日期等,每個(gè)項(xiàng)目及其值作為三元組的謂詞和對(duì)象,作為記錄URI的主題表達(dá)式:“record data X-X-X”。
4)subClassOf商品所屬類別。網(wǎng)站對(duì)所有銷售的商品進(jìn)行了分類,這種分類具有較好的層次性,層次信息存在于各個(gè)類別,由此提取的屬性三元組如:rdfs:subClassOf
針對(duì)以上的 RDF三元組信息,可以使用SPARQL進(jìn)行檢索,用來(lái)獲取RDF模型的特征[13-14]。獲取商品及商店的SPARQL語(yǔ)句查詢示例如下:
1.2 商品相似度
商品是電子商務(wù)交易中最重要的實(shí)體,經(jīng)過以上步驟對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,對(duì)商品相似性作如下定義:
其中:propertySet(product1),表示product1的所有屬性的集合。Size(A),表示集合A的大小。
采用SPSS 20.0進(jìn)行統(tǒng)計(jì)學(xué)處理,計(jì)量資料采用(均數(shù)±標(biāo)準(zhǔn)差)描述,組間差異比較采取t檢驗(yàn),等級(jí)資料采取Wilcoxon Mann-Whitney U檢驗(yàn),計(jì)數(shù)資料采用率或百分比表示,組間差異比較采取χ2檢驗(yàn),以P<0.05表示差異具有統(tǒng)計(jì)學(xué)意義。
目前已有研究使用向量距離來(lái)定義相似度的方法[15],通過不同的謂詞創(chuàng)建不同的向量空間,每種屬性建立一個(gè)向量。由于網(wǎng)絡(luò)上抓取的數(shù)據(jù)向量空間非常少,相似度的計(jì)算時(shí)間復(fù)雜度很高。因此,不采用向量空間的方法來(lái)定義商品相似度。
1.3 商店相似度
作為可以提供競(jìng)爭(zhēng)商品的商店,與其他商店具有很高的相似性。每件商品均與商店存在聯(lián)系,至少存在一個(gè)三元關(guān)系代表商店銷售的產(chǎn)品,有定義2和定義3。
定義2:
其中productSet(shop)表示在這個(gè)商店中銷售的商品集合,sim(product,shop)表示商品與商店相似度。
定義3:
sin(shop1,shop2)=Σx∈productSet(shop1)sim(x,shop2)
定義2和定義3表明,商品的相似度與商店的相似度存在較大的關(guān)聯(lián)性,商店之間的相似性是通過一個(gè)商品在一家商店與另一家商店的相似性來(lái)計(jì)算的。
算法 SimMapReduce
然后利用SPARQL查詢對(duì)商品的交易記錄來(lái)進(jìn)行檢測(cè),以便獲取競(jìng)爭(zhēng)商品的信息,
3.1 RDF數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)采用爬蟲程序獲取產(chǎn)品的網(wǎng)頁(yè),每個(gè)網(wǎng)頁(yè)代表一件商品的全部信息,選取了2015年3月—2016年3月之間的交易數(shù)據(jù),有51 307個(gè)商店的1 780 509件商品被收錄。
在這些數(shù)據(jù)中,對(duì)于每一個(gè)商品,屬性的數(shù)量最少4個(gè),最多17個(gè),平均9.4個(gè)。每個(gè)商店在售商品最少1個(gè),最多8 457個(gè),平均121.7個(gè)。
3.2 商品相似度
我們隨機(jī)選擇100件商品作為需要相似比較的主題,topN表示商品具有最高相似度的計(jì)算結(jié)果。采用top1,top5,top10進(jìn)行實(shí)驗(yàn),并計(jì)算每一組實(shí)驗(yàn)的準(zhǔn)確度。計(jì)算的平均相似度的結(jié)果如圖1所示。
圖1 商品相似度
為了便于分析商品相似度的關(guān)系,限定了商品至少有6個(gè)屬性。對(duì)商品數(shù)據(jù)庫(kù)進(jìn)行修改并再次實(shí)驗(yàn),兩個(gè)實(shí)驗(yàn)的對(duì)比結(jié)果見圖1,平均相似度提高了0.05。
3.3 商店相似度
隨機(jī)選擇了100家商店作為目標(biāo),其余的都視為競(jìng)爭(zhēng)對(duì)手不參與相似度計(jì)算,分別計(jì)算相似度為top1,top5,top10的返回結(jié)果。平均相似度如圖2所示。
圖2 商店相似度
從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),擁有極少量商品的商店總是返回錯(cuò)誤的競(jìng)爭(zhēng)者信息,這是由于擁有極少量商品的商店提供的資料很少,使得其結(jié)果是存在誤報(bào)。一個(gè)商店只銷售很少商品是噪音數(shù)據(jù),因此,篩選出銷售超過3個(gè)商品的商店1 512家,經(jīng)過調(diào)整后,顯示如圖2的對(duì)比圖。從圖2中可以看出,準(zhǔn)確度沒有明顯改善,原因在于,只銷售極少量產(chǎn)品的商店很難進(jìn)行正確的分類。
3.4 推薦競(jìng)爭(zhēng)者信息
數(shù)據(jù)集中有51 307個(gè)商店,給定100個(gè)目標(biāo)商店找出相似度最高的前N個(gè)競(jìng)爭(zhēng)者,分別計(jì)算準(zhǔn)確率為top1,top5,top10的返回結(jié)果。構(gòu)建一個(gè)51 307× 51 307的矩陣,每個(gè)元素代表商店i與j的相似度值,通過這個(gè)矩陣,可以獲取任意兩個(gè)商店的相似度。通過對(duì)各類數(shù)據(jù)進(jìn)行統(tǒng)計(jì),可以看出,商店主要集中在如下幾類:服裝,化妝品,數(shù)碼產(chǎn)品。各類商店的數(shù)量最多為13 764家,最少47家,平均754家。計(jì)算結(jié)果如圖3所示。
圖3 競(jìng)爭(zhēng)者信息
對(duì)計(jì)算結(jié)果進(jìn)行分析可以發(fā)現(xiàn),銷售服裝類商品的商店返回的競(jìng)爭(zhēng)者信息準(zhǔn)確度較高,因?yàn)榉b類商店具有明確和詳細(xì)描述的同類商品,具有顯而易見的特征。而其他類商店出售的商品沒有清晰的描述,它們被歸類到不相關(guān)的類和錯(cuò)誤分類的前N個(gè)商店。
文中利用RDF三元組的語(yǔ)義特征和結(jié)構(gòu)特征來(lái)檢測(cè)具有競(jìng)爭(zhēng)關(guān)系的商家,提取淘寶網(wǎng)的商店數(shù)據(jù),利用Sparql進(jìn)行交易記錄的信息查詢,使用Map Reduce作為處理可擴(kuò)展性的工具,計(jì)算商品與商店的相似性,從而進(jìn)行電子商務(wù)競(jìng)爭(zhēng)者信息推薦。實(shí)驗(yàn)證明了基于RDF的電子商務(wù)競(jìng)爭(zhēng)者數(shù)據(jù)挖掘方法的有效性。
[1]張野,于湛麟,趙宏霞.基于RDF的電子商務(wù)信息抽取技術(shù)研究[J].渤海大學(xué)學(xué)報(bào):自然科學(xué)版,2014(3):261-264,269.
[2]王旭.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)銷售中的應(yīng)用[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2015(24):87-89.
[3]Muggleton S,Raedt L D.Inductive logic programming:Theory and methods[J].Journal of Logic Programming,1994,s19-20(94):629-679.
[4]崔義童,馮志勇,王鑫,等.基于圖聚類算法的大規(guī)模RDF數(shù)據(jù)查詢方法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2015(12):2625-2628.
[5]樊同科.云環(huán)境下基于MapReduce的用戶聚類研究與實(shí)現(xiàn)[J].電子設(shè)計(jì)工程,2016(10):35-37,41.
[6]榮輝桂,火生旭,胡春華,等.基于用戶相似度的協(xié)同過濾推薦算法[J].通信學(xué)報(bào),2014(2):16-24.
[7]羅辛,歐陽(yáng)元新,熊璋,等.通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J].計(jì)算機(jī)學(xué)報(bào),2010(8):1437-1445.
[8]袁柳,張龍波.一種基于聚類模式的RDF數(shù)據(jù)聚類方法[J].計(jì)算機(jī)科學(xué),2015(10):266-270,296.
[9]熊振輝,于娟.OWL應(yīng)用接口的比較分析[J].情報(bào)探索,2015(2):72-76.
[10]Han J,Kamber M.Data Mining:Concepts and techniques [J].Data Mining Concepts Models Methods&Algorithms Second Edition,2000,5(4):1-18.
[11]杜方,陳躍國(guó),杜小勇.RDF數(shù)據(jù)查詢處理技術(shù)綜述[J].軟件學(xué)報(bào),2013(6):1222-1242.
[12]冷泳林,魯富宇.基于MapReduce的SimRank算法在圖聚類中的應(yīng)用[J].電子設(shè)計(jì)工程,2015(6):9-11,15.
[13]郭少友,魏朋爭(zhēng),洪娜,等.四種SPARQL查詢構(gòu)建器及其比較研究[J].情報(bào)科學(xué),2015(3):80-84.
[14]王海榮,馬宗民.基于相對(duì)量詞的RDF模糊查詢方法[J].東北大學(xué)學(xué)報(bào):自然科學(xué)版,2014(3):342-346.
[15]劉宏哲,須德.基于本體的語(yǔ)義相似度和相關(guān)度計(jì)算研究綜述[J].計(jì)算機(jī)科學(xué),2012(2):8-13.
[16]顧榮,王芳芳,袁春風(fēng),等.YARM:基于MapReduce的高效可擴(kuò)展的語(yǔ)義推理引擎[J].計(jì)算機(jī)學(xué)報(bào),2015(1):74-85.
E-Commerce competitor mining based on RDF triples
REN Xiu-chun
(College of Management,Bohai University,Jinzhou 121013,China)
The scale of e-commerce data on Internet has expanded day by day since consumers do business through websites more and more.Businesses on the Internet and its competitors want to know the information to adjust business strategy.Proposed to detect a competing business use of Taobao.com to deal with scalability using semantic and structural features RDF triples,MapReduce was used as a tool to deal with the scalability.The experiment show that the effectiveness of e-commerce competitors based on RDF data mining.
e-commerce;RDF triples;data mining;MapReduce
TN911
A
1674-6236(2017)10-0018-04
2016-08-11稿件編號(hào):201608079
國(guó)家自然科學(xué)基金(71502017)
任秀春(1963—),女,遼寧葫蘆島人,碩士,副教授。研究方向:電子商務(wù)技術(shù)。