梁震杰
摘 要:伴隨著社會(huì)經(jīng)濟(jì)持續(xù)不斷向前進(jìn)步,互聯(lián)網(wǎng)信息技術(shù)得到快速發(fā)展。與此同時(shí)電子商務(wù)網(wǎng)站也取得了巨大發(fā)展空間,關(guān)于電子商務(wù)相關(guān)行業(yè)競(jìng)爭(zhēng)也更加越來(lái)越激烈,準(zhǔn)確把控企業(yè)相關(guān)競(jìng)爭(zhēng)優(yōu)勢(shì),有效保證企業(yè)持續(xù)、穩(wěn)定發(fā)展是很多電子商務(wù)相關(guān)企業(yè)的共同發(fā)展方向。很多互聯(lián)網(wǎng)電子相關(guān)企業(yè)為了更好整合、優(yōu)化網(wǎng)站運(yùn)營(yíng)相關(guān)活動(dòng),都應(yīng)該根據(jù)實(shí)際情況。投入更多資源對(duì)網(wǎng)站用戶進(jìn)行系統(tǒng)化分析,使用文本挖掘相關(guān)技術(shù)創(chuàng)建自己相關(guān)用戶畫(huà)像,有很多經(jīng)濟(jì)實(shí)力比較強(qiáng)的商務(wù)網(wǎng)站或多或少都積累了大量用戶消費(fèi)信息資源。對(duì)此,我們文本挖掘技術(shù)支持下的用戶畫(huà)像設(shè)計(jì)研究這個(gè)作為出發(fā)點(diǎn),對(duì)其進(jìn)行探討與論述。
關(guān)鍵詞:文本挖掘 用戶畫(huà)像 用戶研究
隨著互聯(lián)網(wǎng)相關(guān)電子商務(wù)經(jīng)濟(jì)活動(dòng)持續(xù)快速發(fā)展,用戶畫(huà)像對(duì)于電子商務(wù)相關(guān)企業(yè)來(lái)說(shuō),其價(jià)值越來(lái)越大。電子商務(wù)相關(guān)網(wǎng)站涉及領(lǐng)域比較廣泛,不單指追求、關(guān)注技術(shù),還應(yīng)該全面的分析用戶需要。然而,對(duì)用戶畫(huà)像相關(guān)研究還是處于初級(jí)階段,只要?jiǎng)?chuàng)建、設(shè)計(jì)出完善的用戶模型,有關(guān)互聯(lián)網(wǎng)商務(wù)網(wǎng)站才能更好的認(rèn)識(shí)、了解客戶的真實(shí)需要。用戶畫(huà)像需要一定的挖掘技術(shù)做保障,對(duì)此,我們就詳細(xì)的討論文本挖掘技術(shù)與用戶畫(huà)像相關(guān)特征。
一、文本挖掘技術(shù)概況
文本挖掘技術(shù)一般情況下指從相關(guān)文本信息數(shù)據(jù)中來(lái)獲取可以理解、可用知識(shí),與此同時(shí)更好的把這些知識(shí)組織起來(lái),以便作為未來(lái)發(fā)展、參考的重要依據(jù)。它是一種非結(jié)構(gòu)化信息數(shù)據(jù),它的長(zhǎng)度不受任何限制,沒(méi)有固定的形狀。另外,它的結(jié)構(gòu)有比較紛繁復(fù)雜,無(wú)法從數(shù)據(jù)庫(kù)來(lái)充分表現(xiàn)出來(lái)。通常情況下,文本挖掘都是從海量的文本信息數(shù)據(jù)中,提取有規(guī)律性的知識(shí)相關(guān)過(guò)程。它是有信息數(shù)據(jù)挖掘逐步發(fā)展起來(lái),兩者既有差異也有差距,例如,信息數(shù)據(jù)挖掘使用處理的對(duì)象大多數(shù)都是關(guān)系型比較強(qiáng)的信息數(shù)據(jù)庫(kù)。然而,文本挖掘主要使用處理對(duì)象主要是,沒(méi)有任務(wù)固定模式相關(guān)數(shù)據(jù)。在文本挖局處理過(guò)程中,其品質(zhì)良好對(duì)信息相關(guān)模式的有效識(shí)別有重要影響,因此,文本預(yù)處理整個(gè)程序是非常關(guān)鍵環(huán)節(jié)。通常情況下,文本挖掘整個(gè)操作流程保護(hù)以下幾個(gè)步驟數(shù)據(jù)文本獲取、信息數(shù)據(jù)過(guò)濾、文本相關(guān)特征挑選、創(chuàng)建模型、模型評(píng)測(cè)。[1]
二、關(guān)于文本獲取分析
文本挖掘所要解決的對(duì)象大多數(shù)都是使用、文本形式進(jìn)行存儲(chǔ)相關(guān)信息內(nèi)容。從中找到潛在性的知識(shí)和規(guī)律,與結(jié)構(gòu)化相關(guān)信息數(shù)據(jù)存在很大差異。與結(jié)構(gòu)化相關(guān)信息數(shù)據(jù)可以從相關(guān)有聯(lián)系的數(shù)據(jù)庫(kù)里邊提取出來(lái)。文本型相關(guān)數(shù)據(jù)提起的方式有很多,例如,關(guān)于Web網(wǎng)頁(yè)數(shù)據(jù)需要對(duì)其展開(kāi)有效處理,在去掉html格式標(biāo)簽之后,進(jìn)行逐一分句、分詞,將他們變成結(jié)構(gòu)化形式的文本數(shù)據(jù),除此之外,還有一些文本數(shù)據(jù)經(jīng)過(guò)系統(tǒng)處理,存儲(chǔ)在數(shù)據(jù)中。[2]
三、關(guān)于文本挖掘數(shù)據(jù)清洗分析
信息數(shù)據(jù)清洗,是文本挖局中比較重要的一個(gè)關(guān)鍵環(huán)節(jié)。首次獲取的相關(guān)數(shù)據(jù)文件并不是關(guān)系型數(shù)據(jù),第一步要做的就是把該數(shù)據(jù)相關(guān)文件直接轉(zhuǎn)換成計(jì)算機(jī)可以識(shí)別的相關(guān)數(shù)據(jù),同時(shí)還能夠表現(xiàn)相關(guān)文本內(nèi)容中的結(jié)構(gòu)化主要形式。文本型相關(guān)數(shù)據(jù)結(jié)構(gòu)都是有限的,文本型相關(guān)數(shù)據(jù),在計(jì)算機(jī)日常處理過(guò)程中存在很大困難,因此,文本相關(guān)內(nèi)容就無(wú)法通過(guò)數(shù)據(jù)相關(guān)挖掘技術(shù)進(jìn)行解決和處理,必須先對(duì)文本進(jìn)行及時(shí)處理。一般情況下,很多文本內(nèi)容里都擁有海量文本相關(guān)信息,在去除噪音后,需要保留文檔相關(guān)特征。同時(shí)使用特征相關(guān)模型來(lái)作為文本表達(dá)形式,把文本由從非結(jié)構(gòu)化相關(guān)數(shù)據(jù)有效轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)。[3]
四、關(guān)于文本特征相關(guān)選擇分析
文本特征通常情況下,是指與文本內(nèi)容聯(lián)系比較緊密的元數(shù)據(jù),主要分為兩種:語(yǔ)義性相關(guān)特征和描述性相關(guān)特征,文本型相關(guān)數(shù)據(jù)都具有很大維度,這些問(wèn)題對(duì)文本挖掘相互消耗掉海量網(wǎng)絡(luò)資源和大量時(shí)間。尤其,在文本進(jìn)行處理階段時(shí)包含:日常使用比較多的詞表刪除、過(guò)濾,不管是用詞表來(lái)刪減那些使用率比較的低的常用詞語(yǔ)。并且依據(jù)詞語(yǔ)相關(guān)片段在文本與結(jié)構(gòu)中位置不同,來(lái)進(jìn)行不同權(quán)重。通過(guò)文本模型來(lái)表示所得到的數(shù)據(jù)規(guī)模都非常巨大,一般情況下,都帶有很高維數(shù),尤其采用向量相關(guān)空間模型時(shí),文本向量將會(huì)達(dá)到百萬(wàn)級(jí)別的維數(shù)甚至?xí)M(jìn)一步擴(kuò)大。假設(shè)對(duì)這種上百萬(wàn)數(shù)據(jù)文本進(jìn)行解決與處理,必定會(huì)耗費(fèi)非常多的時(shí)間,因此,一定要選擇突出的特征詞,把文本相關(guān)特征集壓縮。以此來(lái)降低文本的維數(shù)。
五、關(guān)于文本挖掘分析
文本相關(guān)數(shù)據(jù)通過(guò)特征化進(jìn)行處理后,之后就要進(jìn)入處于挖掘階段。文本挖掘是整個(gè)挖掘程序中比較困難,同時(shí)也是非常關(guān)鍵的環(huán)節(jié)。它主要包含:文本聚類、文本關(guān)聯(lián)、文本分類、數(shù)據(jù)信息檢索、數(shù)據(jù)鏈接分析等。文本型相關(guān)數(shù)據(jù)大多數(shù)比較復(fù)雜,維度相關(guān)也比較高。因此,要用傳統(tǒng)相關(guān)文本進(jìn)行挖掘與算法,來(lái)對(duì)知識(shí)進(jìn)行挖掘。這種情況就扥不到好的效果。因此,在對(duì)文本挖掘時(shí)要根據(jù)語(yǔ)料相關(guān)特點(diǎn)來(lái)改進(jìn),或者使用比較創(chuàng)新型的算法來(lái)挖掘。通常情況下,有兩個(gè)選擇性比較強(qiáng)的因素:第一種是依據(jù)不同類型文本數(shù)據(jù)各自不同具有的特點(diǎn)進(jìn)行模擬算法。文本挖掘相關(guān)過(guò)程核心主要是文本挖掘算法,文本挖掘常用算法是主要研究方向,使用正確的文本挖掘算法能夠有效提升挖掘效率。想要獲取有價(jià)值的挖掘效果,一定要認(rèn)真了解各種挖掘算法,依據(jù)所要訓(xùn)練的文本特征并且有效結(jié)合適當(dāng)、合理算法來(lái)展開(kāi)挖掘。
六、關(guān)于模式提取
通過(guò)對(duì)用戶的評(píng)估相關(guān)指標(biāo)來(lái)對(duì)文本挖掘所獲得知識(shí)展開(kāi)評(píng)價(jià),依據(jù)評(píng)價(jià)相關(guān)結(jié)果來(lái)選擇是否使用。文本挖掘所獲得結(jié)果是各種應(yīng)用知識(shí)的模式,使用原先已經(jīng)定義好的評(píng)估指標(biāo)來(lái)對(duì)已經(jīng)獲取的模式來(lái)評(píng)價(jià)。如果所評(píng)價(jià)的相關(guān)結(jié)果符合一定要求,就應(yīng)該保存相關(guān)知識(shí)模式,為用戶使用做好充足準(zhǔn)備。
1.關(guān)于用戶畫(huà)像相關(guān)概述
用戶畫(huà)像是一種有效勾畫(huà)需求客戶、準(zhǔn)確聯(lián)系相關(guān)用戶訴求和創(chuàng)造方向的工具。近些年隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,用戶畫(huà)像已經(jīng)被得到廣泛使用。在日常操作中,通常會(huì)用比較淺顯并且與生活聯(lián)系密切的語(yǔ)言,把相關(guān)用戶的行為和特點(diǎn)進(jìn)行有效結(jié)合起來(lái)。一般情況下,用戶畫(huà)像相關(guān)產(chǎn)品在沒(méi)有進(jìn)入市場(chǎng)之前,定性化相關(guān)用戶畫(huà)像在很大程度上能夠節(jié)省更多時(shí)間與資源,通過(guò)使用桌面研究定性化相關(guān)方法來(lái)取得用戶畫(huà)像。它是一種把定性和定量進(jìn)行有效結(jié)合的載體,對(duì)定量化初期進(jìn)行調(diào)研能夠取得對(duì)一個(gè)用戶群比較精準(zhǔn)的理解,在以后用戶角色創(chuàng)建中,能夠很好的對(duì)用戶順序進(jìn)行排列,把有關(guān)核心用戶給重點(diǎn)突出來(lái)。定性化相關(guān)方法雖然不能有效統(tǒng)計(jì)不同單位特征,但是,能夠有效對(duì)相關(guān)資料進(jìn)行分類、比較。進(jìn)一步對(duì)某類現(xiàn)象性質(zhì)做出一定概況,在創(chuàng)建角色中使用定型化相關(guān)方式,能夠有效獲取海量用戶的生活狀況、相關(guān)使用情境、等重要資料,最終生成活生生用戶類型。針對(duì)后臺(tái)相關(guān)信息數(shù)據(jù)挖掘,可以將定型化與定量化有效結(jié)合在一起來(lái)建立用戶畫(huà)像??梢愿鶕?jù)實(shí)際情況從后臺(tái)相關(guān)信息數(shù)據(jù)中提取,通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行分析,能夠有效了解用戶相關(guān)上網(wǎng)環(huán)境的重要指標(biāo)。在對(duì)用戶使用相關(guān)場(chǎng)景熟悉了解后,可以抽取一部分用戶ID樣本,從中獲得用戶身份、性別、購(gòu)物習(xí)慣、用戶個(gè)人愛(ài)好,用戶的日常交易習(xí)慣的重要因素,經(jīng)過(guò)清洗后,可以使用聚類分析相關(guān)工具以此來(lái)確定區(qū)分最明顯的相關(guān)因素。在用戶畫(huà)像還有一個(gè)非常重要的細(xì)化標(biāo)準(zhǔn):顆粒度。舉一個(gè)通俗的例子,假設(shè)“用戶畫(huà)像”細(xì)化到具體的生活場(chǎng)景里。然而,這種情況幾乎不可能發(fā)生的,與此同時(shí),假設(shè)用戶相關(guān)畫(huà)像顆粒度比較大,對(duì)于產(chǎn)品相關(guān)設(shè)計(jì)意義也就會(huì)變小,因此,從整體上有效把握畫(huà)像就顯的非常有必要。[4]
2.關(guān)于用戶畫(huà)像設(shè)計(jì)
用戶畫(huà)像是對(duì)相關(guān)用戶進(jìn)行深入了解,把用戶真實(shí)屬性有效轉(zhuǎn)化成有規(guī)則、方便計(jì)算機(jī)進(jìn)行存儲(chǔ)的信息數(shù)據(jù)格式,一般情況下,是依照某種特殊模型,來(lái)規(guī)范客戶相關(guān)信息。創(chuàng)建用戶相關(guān)畫(huà)像模型,主要目的是對(duì)客戶進(jìn)行有效數(shù)據(jù)分析,更深層次挖掘用戶相關(guān)需求信息。最終達(dá)到為用戶提供比較適合的物品或者其他相關(guān)服務(wù)功能。
結(jié)語(yǔ)
伴隨著互聯(lián)網(wǎng)信息技術(shù)快速發(fā)展,很多電子商務(wù)網(wǎng)站也獲得更大發(fā)展空間,在進(jìn)行網(wǎng)絡(luò)相關(guān)交易活動(dòng)中,對(duì)有關(guān)客戶進(jìn)行用戶畫(huà)像設(shè)置,是能夠更加充分了解客戶信息與需求的重要工具。伴隨著可和規(guī)模的持續(xù)不斷擴(kuò)大,對(duì)大量客戶進(jìn)行系統(tǒng)化管理將會(huì)變得更加復(fù)雜。怎么在海量的信息數(shù)據(jù)中通過(guò)使用文本挖掘技術(shù)來(lái)獲取相關(guān)客戶信息,用戶畫(huà)像是最佳合適選擇路徑。
參考文獻(xiàn)
[1]汪強(qiáng)兵,章成志.融合內(nèi)容與用戶手勢(shì)行為的用戶畫(huà)像構(gòu)建系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(2):80-86.
[2]李雅坤.基于用戶畫(huà)像挖掘技術(shù)的網(wǎng)絡(luò)借貸平臺(tái)研究綜述[J].知識(shí)經(jīng)濟(jì),2017(16):70-70.
[3]王憲朋.基于視頻大數(shù)據(jù)的用戶畫(huà)像構(gòu)建[J].電視技術(shù),2017,41(6):20-23.
[4]李恒超,林鴻飛,楊亮,等.一種用于構(gòu)建用戶畫(huà)像的二級(jí)融合算法框架[J].計(jì)算機(jī)科學(xué),2018,45(1):157-161.