汝吉東,王 穎
(齊齊哈爾大學(xué) a.輕工與紡織學(xué)院;b.網(wǎng)絡(luò)信息中心,黑龍江 齊齊哈爾 161006)
研究與技術(shù)
基于SVM女性服裝型號(hào)推薦方法研究
汝吉東a,王 穎b
(齊齊哈爾大學(xué) a.輕工與紡織學(xué)院;b.網(wǎng)絡(luò)信息中心,黑龍江 齊齊哈爾 161006)
針對(duì)網(wǎng)絡(luò)服裝銷售中由于服裝尺寸退貨問題,根據(jù)不同年齡段女性體型特征數(shù)據(jù),提出了基于機(jī)器學(xué)習(xí)方法的女性服裝型號(hào)推薦方法,并給出了女性體型判別及預(yù)測(cè)的大體流程。首先,隨機(jī)選擇300位年齡在18~50歲的女性體型數(shù)據(jù)作為研究數(shù)據(jù);其次,提取身高、背長、臂長、肩寬、頸圍、臀圍、胸圍、腰圍作為預(yù)測(cè)特征集,并對(duì)特征采用信息增益方法得到增益指數(shù);再次,采用SVM方法和RBF核函數(shù)訓(xùn)練多個(gè)模型;最后,采用投票方式選取最終所屬類,進(jìn)行服裝型號(hào)推薦。最終分類器采用測(cè)試集測(cè)試,結(jié)果表明模型預(yù)測(cè)準(zhǔn)確度達(dá)到98%以上,預(yù)測(cè)結(jié)果可靠。
SVM; 服裝型號(hào); 女性服裝; 信息增益; 體型判別
服裝銷售日益向多元化發(fā)展,除了傳統(tǒng)的商場(chǎng)銷售,網(wǎng)店的產(chǎn)生使服裝邁向電子商務(wù)時(shí)代。在服裝網(wǎng)絡(luò)銷售過程中,消費(fèi)者最大的顧慮就是服裝的合體性,發(fā)現(xiàn)其中發(fā)生的退貨多數(shù)原因是服裝不合體[1-2],所以根據(jù)個(gè)體體型特征數(shù)據(jù),判別合適的服裝尺寸成為亟待解決的問題。通過對(duì)大學(xué)生的生活方式、服裝態(tài)度與購買行為研究[3],認(rèn)為女性的網(wǎng)絡(luò)購買商品中衣服占很大比例。所以,基于女性群體的個(gè)體體型判別及預(yù)測(cè)系統(tǒng)的研發(fā)具有一定的實(shí)用價(jià)值和意義。
針對(duì)體型判別問題的研究,已有多種算法被采用來解決這個(gè)問題,如叢杉等[4]采用回歸模型方法研究了上海地區(qū)女大學(xué)生下體體型的分類判別;尹玲等[5]采用隨機(jī)森林方法,根據(jù)測(cè)試者體型特征提取重要因子,實(shí)現(xiàn)了女性體型判別模型建立,準(zhǔn)確率達(dá)到85%。尹玲等[6]采用最優(yōu)分割方法,同樣提取重要特征因子,根據(jù)貢獻(xiàn)率和測(cè)量指標(biāo)的相關(guān)程度,將女性體型劃分為三類。谷林等[7]采用聚類方法,對(duì)體型數(shù)據(jù)根據(jù)不同特征進(jìn)行聚類,然后按照反向判斷方法,實(shí)現(xiàn)其所屬的體型類別。劉詠梅等[8]采用主成分分析、樣本聚類分析和基本統(tǒng)計(jì)量分析等,計(jì)算4種常用體型指數(shù),分析出成都地區(qū)中老年女性新的體型劃分建議及控制部位參考值。機(jī)器學(xué)習(xí)方法在多領(lǐng)域預(yù)測(cè)問題中得到廣泛應(yīng)用[9-12],本文基于支持向量機(jī)(support vector machine, SVM)方法,采用女性體型相關(guān)多個(gè)特征,對(duì)女性體型建立預(yù)測(cè)模型。消費(fèi)者應(yīng)用時(shí),只要給出體型中身體局部可測(cè)特征,如胸圍、身高、腰圍等,預(yù)測(cè)模型就能給出針對(duì)個(gè)體體型的服裝型號(hào)推薦,通過預(yù)測(cè)精度提高,解決了服裝不合體問題。
SVM旨在建立兩類樣本間最優(yōu)超平面,該超平面使其與樣本間距離最大。其基本原理如下[13]:
(1)
式中:xi∈S,i=1,2...m,xj∈S,j=1,2...n代表正例和反例樣本;ai代表懲罰參數(shù)。
對(duì)于給定的訓(xùn)練參數(shù),正例xi∈S,i=1,2...m和反例xj∈S,j=1,2...n對(duì)應(yīng)的類標(biāo)為zi∈(1,-1)。k(x,xi)是高斯核函數(shù)(radial basis function, RBF),定義如下:
k(x,xi)=e-γ||x-xi||2
(2)
式中:γ為懲罰函數(shù),k(x,xi)為RBF核參數(shù)。
2.1 數(shù)據(jù)選擇
數(shù)據(jù)隨機(jī)選擇300位年齡在18~50歲的女性體型數(shù)據(jù)。根據(jù)網(wǎng)上服裝銷售女性服裝尺碼數(shù)據(jù),按照身高將數(shù)據(jù)分為四類:S(155/80A)、M(160/84A)、L(165/88A)、XL(170/92A)。每一類中隨機(jī)選取30個(gè)女性體型數(shù)據(jù)作為測(cè)試集,剩余數(shù)據(jù)作為訓(xùn)練集。對(duì)每一類數(shù)據(jù)訓(xùn)練分類器時(shí),這一類為正例,剩余類作為反例。例如:S和M類各選出30個(gè)數(shù)據(jù)作為測(cè)試集,剩余S、M數(shù)據(jù),選取屬于S類剩余數(shù)據(jù)作為訓(xùn)練集正例,則屬于M類剩余數(shù)據(jù)為訓(xùn)練集反例。
2.2 特征提取
合理的特征選擇,決定了預(yù)測(cè)分類器的準(zhǔn)確性,所以統(tǒng)計(jì)每一特征的各個(gè)參數(shù)值在不同類別中所占百分比,有利于分析特征在模型中起到的區(qū)分特性,進(jìn)而通過合適特征選擇,提高分類器的精確度。
提取的特征包括身高、背長、臂長、肩寬、頸圍、臀圍、胸圍、腰圍。每一個(gè)特征在S(155/80A)、M(160/84A)、L(165/88A)、XL(170/92A)這四類數(shù)據(jù)中,指定參數(shù)范圍內(nèi)人數(shù)百分比如圖1所示。
從圖1可見,每一柱形代表S、M、L、XL中的一類,柱形的高度表示該類中在X軸某刻度范圍內(nèi)的測(cè)試者占該類的百分比。如圖(a)S碼類別中,身高為155的人數(shù)占S碼總?cè)藬?shù)的28.40%。通過分析,所有特征在(S,L),(S,XL)類別中差異顯著;胸圍在(S,M)、(M,L)、(M,XL)、(X,XL)中差異顯著;腰圍在(S,M),(L,XL)差異顯著,(M,L)差異不顯著;其余特征在類別(S,L),(S,XL)中差異顯著,在(X,XL)類別中差異不顯著;身高在(S,M)、(M,L)、(M,XL)差異也顯著;背長、臂長在(M,L)(L,XL)差異不顯著;肩寬在在(M,L)(L,XL)、(S,M)差異不顯著;頸圍在(M,L),(M,XL),(L,XL)中差異不顯著;臀圍在(S,M)、(M,L)、(M,XL)差異也顯著。
通過對(duì)上述特征分析,為了評(píng)價(jià)每一個(gè)特征對(duì)每一個(gè)分類器提供的區(qū)分度,采用信息增益方法,對(duì)每一個(gè)特征計(jì)算了信息熵。特征評(píng)估采用信息增益方法,針對(duì)信息量化問題,香農(nóng)提出了“信息熵”的概念。令隨機(jī)變量C∈{c1,c2...cn},ci概率為P(ci)。C的信息增益定義為[14]:
ΔGI=H(C)-H(C|T)
(3)
其中H(C)為C的信息熵,定義如下:
H(C)=-p(ci)log2p(ci)
(4)
H(C|T)為C相對(duì)于隨機(jī)變量T的條件熵,定義如下:
(5)
式中:C為樣本,T為特征值,ci代表樣本類,i=1,-1;tj代表特征,j=1,2,3…;△GI代表特征的信息增益值;P(ti)代表類ti在數(shù)據(jù)集中出現(xiàn)概率;P(tj)代表數(shù)據(jù)集中包含特征tj的概率;P(ci|tj)表示特征屬于ci類的條件概率。
分析特征在體型判別及預(yù)測(cè)過程中貢獻(xiàn)率,能進(jìn)一步指導(dǎo)體型特征對(duì)服裝型號(hào)選擇的影響力,所以采用信息增益方法進(jìn)行特征分析,結(jié)果如表1所示。
圖1 4類身高在各項(xiàng)特征指定參數(shù)中所占的比例Fig.1 Proportions of four types of height in the specified parameters
表1 特征信息增益評(píng)估結(jié)果
由表1評(píng)估結(jié)果表明,在體型判別上,身高、胸圍和腰圍比較重要,為體型判別提供了更多信息,而肩寬、臀圍、臂長和頸圍依次次之。在特征分析中,身高、胸圍和腰圍在多類別區(qū)分中顯著性高,而臂長和頸圍在類別區(qū)分中不顯著,這正與信息增益方法的分析結(jié)果一致。
2.3 模型建立
將四類數(shù)據(jù)S、M、L、XL,采用(S,M)、(S,L)、(S,XL)、(M,L)、(M,XL)、(L,XL)數(shù)據(jù)分別訓(xùn)練6個(gè)分類器,測(cè)試數(shù)據(jù)在6個(gè)分類器中分別進(jìn)行預(yù)測(cè),最優(yōu)采用投票方式?jīng)Q定為哪一類。投票原則為:分別將測(cè)試數(shù)據(jù)在6個(gè)分類器中進(jìn)行分類預(yù)測(cè),然后將預(yù)測(cè)結(jié)果進(jìn)行匯總,屬于某類的票數(shù)最多,則該數(shù)據(jù)屬于票數(shù)最多類。例如,選擇xi∈maxxj(j=s,m,l,xl),以S為正類,其他類別為反類為例,將數(shù)據(jù)代入SVM模型:
K(x,xi)=K((Sx,(Mx,Lx,XLx)),(Si,(Mi,Li,XLi)))=e-γ||Sx,(Mx,Lx,XLx)),(Si,(Mi,Li,XLi))||2
(6)
模型建立在LINUX環(huán)境下采用libsvm軟件包處理,首先將數(shù)據(jù)處理為SVM輸入格式,然后采用svm-scale進(jìn)行歸一化,用軟件grid.py選取最優(yōu)參數(shù),最后選取用svm-train訓(xùn)練分類器,對(duì)候選人采用svm-predict進(jìn)行預(yù)測(cè),最后投票方式,對(duì)服裝型號(hào)進(jìn)行選碼。
2.4 評(píng)估方法
評(píng)估方法采用指標(biāo)Accuracy,定義如下:
(7)
式中:TP為預(yù)測(cè)為正的正樣本,TN為預(yù)測(cè)為負(fù)的負(fù)樣本,F(xiàn)P為預(yù)測(cè)為正的負(fù)樣本,F(xiàn)N為預(yù)測(cè)為負(fù)的正樣本。
2.5 程序大體流程
女生體型判別及預(yù)測(cè)的大體流程如圖2所示。從圖2可見,程序首先將S、M、L、XL四類分組,分別訓(xùn)練分類器,如將S、M分別作為正例和反例訓(xùn)練分類器1,得到預(yù)測(cè)模型1,該分類器對(duì)于S、M兩類進(jìn)行判別預(yù)測(cè),同理,對(duì)(S、L),(S、XL),(M,L),(M、XL)和(L、XL)分別訓(xùn)練分類器,得到訓(xùn)練模型。對(duì)于給定候選體型,采用上述六個(gè)分類器分別進(jìn)行預(yù)測(cè),預(yù)測(cè)值按照投票算法計(jì)算每種預(yù)測(cè)結(jié)果的票數(shù),票數(shù)最高者,為最后的預(yù)測(cè)結(jié)果。
圖2 體型判別及預(yù)測(cè)流程Fig.2 Body shape discrimination and forecasting process
測(cè)試集測(cè)試結(jié)果如表2所示。從表2可見,對(duì)每一類數(shù)據(jù)的預(yù)測(cè)精度都在98%以上,總精度為98.76%,預(yù)測(cè)結(jié)果可靠性高。
表2 模型測(cè)試集測(cè)試結(jié)果
基于SVM女性服裝型號(hào)推薦方法,根據(jù)隨機(jī)選取女性體型特征數(shù)據(jù)建立了預(yù)測(cè)模型,經(jīng)數(shù)據(jù)測(cè)試,該模型根據(jù)女性個(gè)體體型特征的輸入,預(yù)測(cè)模型的輸出的推薦服裝型號(hào)98%合體。模型預(yù)測(cè)結(jié)果可靠,并對(duì)身高、背長、臂長、肩寬、頸圍、臀圍、胸圍、腰圍特征進(jìn)行分析,評(píng)價(jià)了其信息增益指數(shù),分析了各項(xiàng)體型特征對(duì)服裝型號(hào)選擇的貢獻(xiàn)率,有助于服裝型號(hào)選擇。
[1]CHAPMAN K. Sizing up fit issues[J]. AATCC Review,2002,2(10):33-34.
[2]彭文芳,鐘躍崎.服裝網(wǎng)絡(luò)購物存在問題淺析[J].化纖與紡織技術(shù),2007(1):46-48. PENG Wenfang, ZHONG Yueqi. Analysis on clothing online shopping[J]. Chemical Fiber and Textile Technology,2007(1):46-48.
[3]劉國聯(lián).大學(xué)生的生活方式、服裝態(tài)度與購買行為研究[J].蘇州大學(xué)學(xué)報(bào),2002,22(3):121-125. LIU Guolian. College students’ way of life, clothes, attitudes and buying behavior research[J]. Journal of Soochow University,2002,22(3):121-125.
[4]叢杉,方方.上海地區(qū)女大學(xué)生下體體型分類判別研究[J].東華大學(xué)學(xué)報(bào):自然科學(xué)版,2007,33(5):668-672. CONG Shan, FANG Fang. Investigation of lower body anthropometry and somatotype of female students in Shanghai’s university[J]. Journal of Donghua University: Natural Science,2007,33(5):668-672.
[5]尹玲,夏蕾,徐才國.基于隨機(jī)森林的女性體型判別[J].紡織學(xué)報(bào),2014,35(5):113-117. YIN Ling, XIA Lei, XU Caiguo. Female body shape prediction based on random forest[J]. Journal of Textile Research,2014,35(5):113-117.
[6]尹玲,張文斌,徐才國.基于有序樣本最優(yōu)分割法的女性體型分類[J].紡織學(xué)報(bào),2014,35(9):114-119. YIN Ling, ZHANG Wenbin, XU Caiguo. Female body shape classification based on optimal segmentation method for orderly samples[J]. Journal of Textile Research,2014,35(9):114-119.
[7]谷林,張欣.基于聚類人體體型分類法的體型反算方法研究[J].西安工程大學(xué)學(xué)報(bào),2010,24(1):31-35. GU Lin, ZHANG Xin. The algorithm studies of human body’s shape classification based on cluster analysis[J]. Journal of Xi’an Polytechnics University,2010,24(1):31-35.
[8]劉詠梅,代虹.成都地區(qū)中老年女性體型研究[J].紡織學(xué)報(bào),2010,31(10):110-115. LIU Yongmei, DAI Hong. Research on body build of middle-and-old-aged women in Chengdu area[J]. Journal of Textile Research,2010,31(10):110-115.
[9]田慧欣,賈玉鳳.基于集成多支持向量回歸融合的上漿率在線軟測(cè)量方法[J].紡織學(xué)報(bào),2014,35(1):63-66. TIAN Huixin, JIA Yufeng. Online soft measurement of sizing percentage based on intergraded multiple SVR fusion by bagging[J]. Journal of Textile Research,2014,35(1):63-66.
[10]張秀美,孫永劍,郭亮偉.面向大批量定制的基于改進(jìn)的LS-SVM服裝需求預(yù)測(cè)模型[J].紡織學(xué)報(bào),2010,31(5):141-145. ZHANG Xiumei, SUN Yongjian, GUO Liangwei. Forecasting model for apparel demand based on improved least square support vector machine (LS-SVM)oriented to mass customization[J]. Journal of Textile Research,2010,31(5):141-145.
[11]巫靜,田彥杰,汪瀾,等.基于SVM理論的滌綸織物分散染料上染率模型研究[J].浙江理工大學(xué)學(xué)報(bào),2013,31(1):16-20. WU Jin, TIAN Yajie, WANG Lan, et al. Research on modeling of dye-up take rate for disperse dye son polyester fibers based on SVM[J]. Journal of Zhejiang Sic-Tech University,2013,31(1):16-20.
[12]鄭愛花.基于BP神經(jīng)網(wǎng)絡(luò)的服裝號(hào)型推薦方法研究[D].杭州:浙江理工大學(xué),2010:21-35. ZHENG Aihua. Study on Size Recommending of Clothing Methods Based on Back Propagation Neural Network[D]. Hangzhou: Zhejiang Sci-Tech University,2010:21-35.
[13]CORTES C, VAPNIK V. Support vector networks[J]. Machine Learning,1995,20(3):273-297.
[14]QUINLAN J R. Induction of decision tree[J]. Machine Learning,1986,1(1):81-106.
Study on SVM Based Women’s Dress Size Recommendation
RU Jidonga, WANG Yingb
(a. College of Textile Light Industry; b. Network Information Center, Qiqihar University, Qiqihar 161006, China)
In allusion to sales return problem due to clothing size in online clothing sales, this paper proposes women’s dress size recommendation method based on machine learning method in accordance with body shape features of women in different age stages and offers a rough process to distinguish and predict women’s body shape. Firstly, 300 women aged between 18 to 50 were randomly selected and their body shape data of served as the research data; secondly, the height, back length, arm length, shoulder breadth, neck circumference, hip circumference, chest circumference and waist circumferences were extracted as a predictive feature set, and the gain index was gained through adopting information gain method for the feature set; thirdly, SVM and RBF kernel function were used to train multiple models; finally, the final class was selected with voting method for clothing size recommendation. The final classifier was tested by the test set. The results show that the preduction accuracy of the model can exceed 98%, and the prediction result is reliable.
SVM; clothing size; women’s dress; information gain; body shape discrimination
doi.org/10.3969/j.issn.1001-7003.2015.06.006
2014-11-20;
2015-05-04
黑龍江省教育廳科學(xué)技術(shù)研究項(xiàng)目(12541898);齊齊哈爾大學(xué)青年教師科研啟動(dòng)支持計(jì)劃項(xiàng)目(2011k-M22、2011k-M21)
TS941.17
A
1001-7003(2015)06-0027-05 引用頁碼: 061106