黃靖越
(中國傳媒大學(xué) 動畫與數(shù)字藝術(shù)學(xué)院,北京100024)
據(jù)艾瑞咨詢 2019 電子商務(wù)行業(yè)發(fā)布的報告顯示,2019年Q2中國網(wǎng)絡(luò)購物市場的交易規(guī)模達(dá)2.4萬億元,環(huán)增長 10.9%,較去年同期增長 26.5%。[1]可見,在電商平臺進(jìn)行購物已經(jīng)成為大部分用戶的習(xí)慣,在此背景下,各個電商平臺的產(chǎn)品信息和用戶評論呈現(xiàn)爆炸增長。對電商平臺怎么能高效管理和組織產(chǎn)品、用戶評論等信息,充分挖掘信息的價值提出了挑戰(zhàn)。因此我們需要深挖信息和信息之間的關(guān)聯(lián),從海量信息中提取有效信息,滿足用戶的信息需求,推動用戶行為發(fā)生。而知識圖譜技術(shù)能很好的挖掘有效信息并建立聯(lián)系。知識圖譜的廣義內(nèi)涵可以從兩方面來說:知識圖譜作為一種語義網(wǎng)絡(luò),是大數(shù)據(jù)時代知識表示的重要方式之一,當(dāng)知識圖譜作為一種技術(shù)體系,是大數(shù)據(jù)時代知識工程的代表性進(jìn)展。概念、屬性、關(guān)系是人類認(rèn)知的基本框架是認(rèn)知的基石,而知識圖譜富含實(shí)體、概念、屬性、關(guān)系等信息,通過節(jié)點(diǎn)和邊來描述真實(shí)世界的概念、屬性、關(guān)系,并能推理發(fā)掘新的知識和觀點(diǎn),使得機(jī)器理解與解釋真實(shí)世界成為可能。
相較于傳統(tǒng)商務(wù)行業(yè),電子商務(wù)平臺的消費(fèi)者無法切身體驗(yàn)產(chǎn)品,消費(fèi)行為必須依靠網(wǎng)站上展示的信息進(jìn)行判斷,因此產(chǎn)品信息成為消費(fèi)者購物決策的重要影響因素,特別是對于美妝產(chǎn)品,直接涂抹于消費(fèi)者面部,首先,產(chǎn)品是否可靠安全,消費(fèi)者在利用產(chǎn)品信息選擇評估產(chǎn)品時會更加謹(jǐn)慎;其次,美妝產(chǎn)品屬于體驗(yàn)型產(chǎn)品,體驗(yàn)型的產(chǎn)品所包含的信息受各種因素影響較大,簡單的產(chǎn)品信息已經(jīng)無法滿足網(wǎng)購消費(fèi)者的信息需求,消費(fèi)者經(jīng)常在無法實(shí)際感受情況下需要從其他各個渠道中花費(fèi)時間搜尋信息,評估產(chǎn)品,因此利用知識圖譜技術(shù)組織各個來源的彩妝產(chǎn)品信息,挖掘信息和信息之間的關(guān)系,形成彩妝產(chǎn)品知識圖譜,將更利于用戶直觀搜索和獲取產(chǎn)品信息。
要建立美妝產(chǎn)品信息知識圖譜,按邏輯架構(gòu)的維度可以劃分為知識圖譜的模式層建立和數(shù)據(jù)層處理。[2]知識圖譜的數(shù)據(jù)層是由具體的、真實(shí)的事實(shí)組成,模式層規(guī)定了知識圖譜數(shù)據(jù)層的規(guī)則,知識圖譜模式層是整個知識圖譜的基礎(chǔ),模式層的構(gòu)建就是對知識的概念、概念和概念之間的關(guān)系進(jìn)行一系列的描述,是經(jīng)過提煉的知識。[3]知識圖譜的模式層通常由本體庫來管理。
美妝產(chǎn)品信息知識圖譜本體的構(gòu)建既可以通過人工手動構(gòu)建、通過數(shù)據(jù)驅(qū)動自動構(gòu)建以及半自動構(gòu)建。[4]自動構(gòu)建需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,對數(shù)據(jù)量的需求較大。在本體的作用下,知識圖譜在不斷地收集、整合數(shù)據(jù)庫的執(zhí)行效率更高。本文知識圖譜數(shù)據(jù)樣本小,因此更適合采用人工編輯的方式手動構(gòu)建,首先從最頂層的概念開始,然后逐步進(jìn)行細(xì)化,形成結(jié)構(gòu)良好的層次結(jié)構(gòu),定義好知識圖譜的模式層后,再將數(shù)據(jù)層中的對象一一添加。本體的構(gòu)建不是一個從零到一的過程,構(gòu)建時可以考慮復(fù)用現(xiàn)有的本體,通常信息管理專家都會對某一領(lǐng)域的知識進(jìn)行分類的分層,以便于領(lǐng)域的研究。本文通過分析淘寶電商平臺的美妝產(chǎn)品信息分類和組織方式,把美妝產(chǎn)品信息構(gòu)成要素分為四大類:美妝產(chǎn)品的固有信息、美妝產(chǎn)品物流信息、美妝產(chǎn)品店鋪信息、美妝產(chǎn)品評價信息。
本文構(gòu)建的美妝產(chǎn)品知識圖譜以口紅產(chǎn)品為例,其原因主要有兩方面,一方面口紅產(chǎn)品相比于其他美妝產(chǎn)品,例如粉底、眼影等彩妝產(chǎn)品,口紅的色號更多,消費(fèi)者需要評估的選擇更多。另一方面,口紅顏色能夠用一定的原理較為客觀、準(zhǔn)確的量化,更適合可視化。以口紅產(chǎn)品為例子,口紅產(chǎn)品的固有信息包括口紅品牌、口紅價格、口紅顏色、口紅包裝、口紅質(zhì)地、口紅產(chǎn)地、口紅銷量七個子類;口紅產(chǎn)品物流信息包括:物流價格、物流速度、物流公司三個子類;口紅產(chǎn)品店鋪信息包括:售后服務(wù)、店鋪評分、是否是熟悉的店鋪三個子類;口紅產(chǎn)品評價信息包含商品好評率、商品評價內(nèi)容、商品差評數(shù)三個子類??诩t產(chǎn)品知識圖譜模式層中的類、子類、屬性、值之間大致包含四種關(guān)系,即:包含關(guān)系:包含關(guān)系是根據(jù)區(qū)間劃分,兩個或者兩個以上的概念或者子概念在同一區(qū)間。例如:
將口紅產(chǎn)品信息知識圖譜模式層概念、關(guān)系定義好之后,需要對爬取收集的數(shù)據(jù)進(jìn)行處理,獲取數(shù)據(jù)主要有結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三種類型,將不符合知識儲存格式的數(shù)據(jù)進(jìn)行處理,把數(shù)據(jù)處理成符合知識儲存規(guī)則的格式,數(shù)據(jù)包括實(shí)體屬性的提取、相似處理包括顏色的判斷、評論內(nèi)容的分詞、去停用詞、提取關(guān)鍵詞,經(jīng)過這一步,數(shù)據(jù)才成為了知識,最后處理好的知識,用三元組<實(shí)體、關(guān)系、實(shí)體>的形式表示,以CSV和TXT格式儲存在數(shù)據(jù)庫NEO4j中,方便可視化時提取和使用。
在實(shí)際應(yīng)用中,口紅產(chǎn)品信息知識圖譜的所有概念、實(shí)體、關(guān)系并不能全部可視化出來,需要通過對口紅產(chǎn)品消費(fèi)者的研究,按照用戶需求有重點(diǎn)、有選擇地展示信息。
根據(jù)圖1所示用戶在電商平臺網(wǎng)購時行為路徑,可以看到產(chǎn)品信息對用戶的行為決策起到關(guān)鍵性的作用。對于口紅產(chǎn)品,要提供哪些產(chǎn)品信息,哪些產(chǎn)品信息對用戶的決策影響更高,需要進(jìn)行用戶研究。本研究通過調(diào)查問卷的方式調(diào)查消費(fèi)者對不同口紅產(chǎn)品信息的關(guān)注程度,截止2020年10月30日,一共收集到調(diào)查問卷259份,其中有效問卷為242份。
圖1 用戶網(wǎng)購行為路徑
本文用戶需求研究主要使用的是spss進(jìn)行數(shù)據(jù)分析,包含了兩個方面:一是信度效度的分析和因子分析。
通過KMO和巴特利特檢驗(yàn),一般認(rèn)為數(shù)值大于0.7,證明問卷具有良好的結(jié)構(gòu)效度,說明適合做因子分析,數(shù)值越接近1,各個變量之間的聯(lián)系就越強(qiáng);當(dāng)數(shù)值小于0.5時,則不符合做因子分析的標(biāo)準(zhǔn)。分析結(jié)果如表1所示。
本次KMO和巴特利特的檢驗(yàn)結(jié)果為0.648和0.733,基本符合因子分析的標(biāo)準(zhǔn),巴特利特的球形檢驗(yàn)中近似卡方值為2025.145和1875.287,自由度為105,sig值小于0.01,說明各個變量之間相關(guān)性強(qiáng)。綜上所述,說明本次研究的問卷效度良好。
由表1所示,前五個公共因子的初始特征值均大于1,累計方差貢獻(xiàn)率達(dá)74.510%,因子1的方差占總方差的22.608%,因子2的方差占總方差的20.522%,因子3的方差占總方差的13.586%,因子4的方差占總方差的9.568%,因子5的方差占總方差的8.226%說明五個公因子代表的信息基本能解釋原始信息,所以可以用前五個公因子代替原來15個影響因素。
表2 旋轉(zhuǎn)成分矩陣
續(xù)表
為了更深入的解釋各個公共因子的具體的含義,本文按照極大方差法對因子旋轉(zhuǎn),得到了旋轉(zhuǎn)成分矩陣圖。
綜合得分可反映出消費(fèi)者在進(jìn)行網(wǎng)購時哪一部分的因素對購買決策影響最大。
綜合得分計算公式:
Fi=w1Pi1+w2Pi2+w3Pi3+w4Pi4+w5Pi5
權(quán)重公式(1)中的Wj為表1中的“方差百分比”表示各主成分之間的方差貢獻(xiàn)率,各個方差貢獻(xiàn)率相加為“累計方差貢獻(xiàn)W”,根據(jù)權(quán)重公式(1),由方差貢獻(xiàn)率和累計方差貢獻(xiàn)率,可計算出五個公因子的權(quán)重,由公式(2)可計算出15個影響因素綜合得分,由表3所示。
表3 因子得分與綜合得分
根據(jù)用戶網(wǎng)購產(chǎn)品行為路徑,口紅產(chǎn)品信息知識圖譜可以為用戶提供兩大功能,一是產(chǎn)品信息展示,二是產(chǎn)品信息對比。由表3因子綜合得分所示,口紅產(chǎn)品信息中的商品好評率、口紅顏色、口紅品牌、商品評價內(nèi)容是綜合得分最高的四個因素,因此在進(jìn)行口紅產(chǎn)品信息可視化設(shè)計的時候,要著重展示口紅產(chǎn)品這四個信息中的聯(lián)系和關(guān)系。
將信息設(shè)計成能被用戶輕松理解的樣式是信息可視化的目的。針對不同量級數(shù)據(jù)的可視化設(shè)計需要考慮不同的幾個方面,對輕量級數(shù)據(jù)可視化需要關(guān)注數(shù)據(jù)的深層關(guān)系,在處理大型多變量數(shù)據(jù)集時,需要考慮有效內(nèi)容的提取和數(shù)據(jù)的降維,把大量信息精簡提煉,讓用戶能快速分析,并能迅速做出判斷。
可視化是一種用圖形表達(dá)數(shù)據(jù)的方式,可視化設(shè)計的中心流程就是信息的映射,信息的映射是指將數(shù)據(jù)轉(zhuǎn)化用圖形表示的??梢暬成湫枰匀说囊曈X認(rèn)知為基礎(chǔ),可視化映射包括三個元素:空間基質(zhì)、標(biāo)記、視覺通道。[5]Card、Mackinlay、Sheniederman在《閱讀信息可視化:用視覺思考中》種定義了這三個元素。首先,空間基質(zhì)可視化元素種的空間基質(zhì)是指設(shè)計師在可視化中需要打造的可視化空間,在早期的可視化作品種,主要都會將信息布局在二維空間中,但隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)量越來越大,數(shù)據(jù)關(guān)系越來越多,也會有三維甚至超維的表現(xiàn)方法。因此,如何在多維空間中進(jìn)行可視化布局是現(xiàn)今可視化設(shè)計的一個難點(diǎn)。[6]其次是標(biāo)記,標(biāo)記是指在空間中出現(xiàn)的一些圖形元素,例如:點(diǎn)、線、面、體等,根據(jù)數(shù)據(jù)、信息的類別、屬性也可以用別的圖形元素來表現(xiàn)。[5]最后是視覺通道,視覺通道是指用于控制數(shù)據(jù)、信息的標(biāo)記的展示特性,常見的視覺通道有標(biāo)記的位置、大小、形狀、方向、色調(diào)、飽和度、亮度等。[5]可視化設(shè)計過程中要注意數(shù)據(jù)和圖形轉(zhuǎn)換映射關(guān)系要合理,圖形要能夠準(zhǔn)確反映數(shù)據(jù)性質(zhì)和數(shù)據(jù)關(guān)系。
用戶的信息需求不是一成不變的,尤其在信息更新?lián)Q代速度越來越快的今天,在不同階段用戶對信息的復(fù)雜性、深度和形式的需求各不相同,可視化設(shè)計需要給用戶提供能夠進(jìn)行探索和交互的空間,能夠進(jìn)一步深入發(fā)現(xiàn)信息,而不是單純的信息輸出。
(1)同類色系口紅關(guān)系的建立與可視化設(shè)計:
通過軟件和手工爬取電商平臺和口紅官方網(wǎng)站,采集了7個品牌、35個系列的口紅RGB值與口紅評論。按照Card等人在《Readings in information visualization using vision to think》中提出以步驟為中心的信息可視化流程模型,對數(shù)據(jù)進(jìn)行清洗和規(guī)范。由于RGB色彩規(guī)則并不適用于人認(rèn)識色彩的規(guī)則,故這里將RGB色彩轉(zhuǎn)化為HSL,H代表色調(diào)、S代表飽和度、L代表亮度,據(jù)HSL顏色模型可得,H的取值范圍在0~360,通過整理收集的口紅顏色數(shù)據(jù),五個品牌口紅顏色H值集中在(0-65)和(295-360),呈現(xiàn)出由正紅到偏黃和正紅到偏紫,用戶可滑動色環(huán),選擇心儀的口紅色調(diào)。
一個顏色最終的準(zhǔn)確呈現(xiàn)必須由H、S、V三個參數(shù)決定,色環(huán)體現(xiàn)色相的選擇,中間的方塊呈現(xiàn)口紅的明度和飽和度變化,用戶在選擇色調(diào)后,中間的方塊呈現(xiàn)出該色調(diào)的所有口紅數(shù)據(jù)的分布,用戶可在其中了解信息。
(2)相似口紅顏色關(guān)系的建立與可視化設(shè)計:
在這部分的可視化設(shè)計中,主要展示各個品牌之間口紅顏色的相似關(guān)系,利用大小不同的原點(diǎn)表示每個品牌目前口紅數(shù)量的比例關(guān)系,在每個品牌和品牌之間有顏色相似的口紅則建立起聯(lián)系,比較兩個顏色的相似關(guān)系主要是通過計算顏色距離,HSV色彩空間模型為圓錐體,其中r為圓錐底面半徑,具體公式為:
x=r×S×cosH
Y=r×V×sinH
Z=h×(1-V)
根據(jù)公式計算出兩個顏色在HSV色彩空間中的坐標(biāo)點(diǎn)(x,y,z),再計算出兩個顏色的距離,距離小于一定數(shù)值,則兩個顏色相似,可建立相似鏈接。
遵循可視化設(shè)計中的準(zhǔn)確原則,不同的用戶色彩感知不同,每個人對色彩的相似判定也不同,將色彩相似度劃分為5-10分,按照色彩距離數(shù)值的大小,可視化呈現(xiàn)比分,由圖2可見。
圖2 口紅顏色相似關(guān)系可視化
(3)口紅評價內(nèi)容觀點(diǎn)的提取與可視化設(shè)計:
口紅評價內(nèi)容是所有數(shù)據(jù)中最難處理的部分,首先評論都是非結(jié)構(gòu)性的文本,內(nèi)容的語義、關(guān)系復(fù)雜,其次文本中存在許多噪音數(shù)據(jù),對用戶的購物決策沒有任何意義,因此要對評論內(nèi)容進(jìn)行預(yù)處理,預(yù)處理分為兩部分,一是將評論的句子進(jìn)行分詞處理,二是將評論中的停用詞去除,評論中常見的評論詞包含三類:標(biāo)點(diǎn)符號、特殊符號、無意義的虛詞。這里用的是jieba中文分詞組件對評論進(jìn)行預(yù)處理。
評論的內(nèi)容包含了用戶對口紅產(chǎn)品評價的各個維度,要遵循可視化減少用戶理解時間,直觀的原則,要將復(fù)雜維度的數(shù)據(jù)進(jìn)行降維,這里對評論中的關(guān)鍵詞進(jìn)行提取,統(tǒng)計詞頻出現(xiàn)最高的TOP30。
根據(jù)詞頻所見,將評論內(nèi)容劃分為五個維度:物流、服務(wù)、產(chǎn)品屬性、性價比、包裝。可視化由圖3所見。
圖3 口紅評論觀點(diǎn)可視化
本研究通過知識圖譜技術(shù),用戶研究等方法,將美妝產(chǎn)品信息知識圖譜進(jìn)行可視化,提出基于知識圖譜的美妝產(chǎn)品信息可視化設(shè)計方法,展示產(chǎn)品信息可視化的部分實(shí)例,對更高效、直觀的產(chǎn)品信息可視化設(shè)計進(jìn)行了實(shí)踐探索和討論。