国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA主題模型對(duì)電子商務(wù)專業(yè)崗位特征的挖掘

2023-06-25 23:37:59唐勇
電腦知識(shí)與技術(shù) 2023年13期

唐勇

摘要:文章使用Python語(yǔ)言基于LDA模型對(duì)電子商務(wù)專業(yè)的崗位特征進(jìn)行挖掘。首先使用Selenium庫(kù)對(duì)人才招聘網(wǎng)站的求職信息進(jìn)行采集,分析整理了電子商務(wù)專業(yè)崗位的主要職位名稱;然后對(duì)每個(gè)職位的崗位內(nèi)容進(jìn)行采集;使用skLearn機(jī)器學(xué)習(xí)庫(kù)對(duì)崗位內(nèi)容進(jìn)行LDA建模,分析出電子商務(wù)崗位的五大主題即:管理能力、服務(wù)能力、設(shè)計(jì)能力、直播能力和薪酬待遇,并計(jì)算了每個(gè)崗位主題下的主要特征詞匯,最后對(duì)這些主題進(jìn)行了可視化處理,分析了各個(gè)主題的區(qū)別度和相關(guān)性。

關(guān)鍵詞:主題模型;LDA模型;電子商務(wù)崗位

中圖分類號(hào):TP311.52? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2023)13-0069-04

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)

0 引言

人工智能、大數(shù)據(jù)及區(qū)塊鏈等新興技術(shù)正有力地推動(dòng)著電子商務(wù)行業(yè)的新發(fā)展。例如網(wǎng)絡(luò)商品的展示已經(jīng)從早期的圖片和文字轉(zhuǎn)變?yōu)橐远桃曨l和直播為主要形式;商品的網(wǎng)絡(luò)推廣也從關(guān)鍵詞推廣轉(zhuǎn)變?yōu)橐匀斯ぶ悄芎痛髷?shù)據(jù)為主要技術(shù)手段的智能推薦;售前和售后的客戶服務(wù)環(huán)節(jié)則出現(xiàn)了智能客服機(jī)器人和智能語(yǔ)音應(yīng)答等人工智能技術(shù);在網(wǎng)店的運(yùn)營(yíng)數(shù)據(jù)分析方面人工智能算法和大數(shù)據(jù)處理技術(shù)也被應(yīng)用起來(lái)。

電子商務(wù)行業(yè)的這些新變化引發(fā)了電子商務(wù)相關(guān)崗位技能的新變化,也對(duì)電子商務(wù)專業(yè)的人才培養(yǎng)提出了新的挑戰(zhàn)。然而,不同的電子商務(wù)企業(yè)對(duì)電子商務(wù)崗位技能的要求不盡相同,本文使用采用LDA主題模型對(duì)招聘網(wǎng)站中的電子商務(wù)專業(yè)崗位進(jìn)行數(shù)據(jù)分析,發(fā)現(xiàn)電子商務(wù)專業(yè)崗位技能的主題和特征詞,從而為電子商務(wù)專業(yè)的人才培養(yǎng)提供借鑒。

1 LDA主題模型介紹

LDA(Latent Dirichlet Allocation) 是潛在迪利克雷分配的英文簡(jiǎn)寫,屬于無(wú)監(jiān)督機(jī)器學(xué)習(xí)的一種算法,主要用于從大量文本數(shù)據(jù)中挖掘出潛在的主題信息。該算法認(rèn)為每篇文檔是由主題的多項(xiàng)式分布表示,稱為文檔主題分布;而每個(gè)主題是由單詞的多項(xiàng)式分布表示,稱為主題單詞分布。文檔的生成過(guò)程是對(duì)文檔中每一個(gè)位置先由文檔主題分布隨機(jī)生成一個(gè)主題,然后由該主題單詞分布隨機(jī)生成該位置的單詞[1]。

盡管PLSA(概率潛在語(yǔ)義分析)模型也采用了文檔的主題分布和主題的單詞分布,但是與PLSA模型的不同之處在于:LDA模型假定文檔的主題分布和主題的單詞分布都具有先驗(yàn)分布,并且這兩個(gè)分布的參數(shù)都服從迪利克雷分布,而PLSA模型并沒(méi)有使用先驗(yàn)分布。使用迪利克雷分布作為先驗(yàn)分布的好處是:一方面可以避免在參數(shù)學(xué)習(xí)過(guò)程中產(chǎn)生過(guò)擬合問(wèn)題;另一方面是由于文檔主題分布和主題單詞分布都是多項(xiàng)式分布,而多項(xiàng)式分布的共軛分布是迪利克雷分布,因此可以直接推斷出其后驗(yàn)分布也服從迪利克雷分布,從而方便了相關(guān)參數(shù)計(jì)算。

LDA模型算法中主題數(shù)K、文檔的主題分布概率參數(shù)α及主題的單詞分布概率參數(shù)β均為算法的超參數(shù),需要預(yù)先設(shè)定。一般情況下,α和β的初始值可以設(shè)置為1/k,那么模型的主題數(shù)K就非常重要了。在自然語(yǔ)言處理中困惑度是評(píng)價(jià)語(yǔ)言模型的重要指標(biāo),效果越好的語(yǔ)言模型在測(cè)試數(shù)據(jù)集上的困惑度越小。通過(guò)計(jì)算不同主題數(shù)下困惑度的變化可以找出主題數(shù)K,當(dāng)困惑度曲線出現(xiàn)拐點(diǎn)時(shí)的主題數(shù)K通常是較好的主題數(shù)。

2 LDA模型的語(yǔ)料庫(kù)

網(wǎng)經(jīng)社電子商務(wù)研究中心2022年發(fā)布的電子商務(wù)人才狀況調(diào)查報(bào)告顯示,企業(yè)對(duì)于電子商務(wù)類人才的需求主要有:運(yùn)營(yíng)類、視頻直播類、客戶服務(wù)類及網(wǎng)絡(luò)營(yíng)銷類[2]。劉亞寧、侯海濤等人基于招聘網(wǎng)站的人才需求將電子商務(wù)的崗位類型分為商務(wù)類、管理類和技術(shù)類[3];曾奕棠采用崗位群的視角將電子商務(wù)崗位分為技術(shù)類崗位群、商務(wù)類崗位群及綜合管理類崗位群,其中技術(shù)類崗位群包括了頁(yè)面設(shè)計(jì)、網(wǎng)店美工、信息編輯等崗位,商務(wù)類崗位群包括了網(wǎng)絡(luò)營(yíng)銷、網(wǎng)絡(luò)策劃與推廣、客戶服務(wù)等崗位;綜合崗位類崗位群包括了客戶服務(wù)經(jīng)理、網(wǎng)店運(yùn)營(yíng)管理等崗位[4]。程丹和詹增榮基于勝任力模型并結(jié)合企業(yè)和相關(guān)院校的調(diào)研數(shù)據(jù),將電子商務(wù)專業(yè)的崗位分為技術(shù)型和營(yíng)銷型,其中技術(shù)型人才核心崗位包括了網(wǎng)店美工、淘寶店長(zhǎng)、網(wǎng)絡(luò)運(yùn)維和頁(yè)面設(shè)計(jì),營(yíng)銷型人才核心崗位包括了運(yùn)營(yíng)專員、推廣專員和網(wǎng)絡(luò)客戶[5]。從上述企業(yè)和學(xué)者的研究結(jié)論可以看出:電子商務(wù)崗位主要集中于網(wǎng)店運(yùn)營(yíng)、網(wǎng)店美工、直播營(yíng)銷、客戶服務(wù)等崗位。

招聘網(wǎng)站中匯集了大量的企業(yè)人才需求信息,能夠真實(shí)反映企業(yè)的崗位技能要求。本文選取前程無(wú)憂作為L(zhǎng)DA主題模型的數(shù)據(jù)來(lái)源。前程無(wú)憂網(wǎng)站是國(guó)內(nèi)較有影響的人才招聘網(wǎng)站,該網(wǎng)站中的求職信息能夠真實(shí)反映企業(yè)對(duì)電子商務(wù)專業(yè)的崗位技能要求。本文采用Python語(yǔ)言的Selenium工具包從前程無(wú)憂網(wǎng)站中獲取總計(jì)2 000余條電子商務(wù)專業(yè)的崗位招聘信息。

Selenium是Web應(yīng)用程序的自動(dòng)化測(cè)試工具包,可以用代替人來(lái)模擬Web瀏覽器訪問(wèn)Web頁(yè)面。由于Selenium是間接地調(diào)用瀏覽器并通過(guò)瀏覽器向目標(biāo)網(wǎng)站發(fā)送訪問(wèn)指令,因此與真實(shí)用戶訪問(wèn)Web頁(yè)面沒(méi)有本質(zhì)的差異。通過(guò)對(duì)前程無(wú)憂網(wǎng)站的招聘列表頁(yè)面進(jìn)行解析,成功采集到電子商務(wù)相關(guān)崗位的名稱及崗位對(duì)應(yīng)的詳情頁(yè)網(wǎng)址,共計(jì)兩千條數(shù)據(jù)。

對(duì)于數(shù)據(jù)中的崗位名稱信息,本文使用Jieba分詞工具對(duì)齊進(jìn)行中文分詞處理,接著基于百度停用詞表,過(guò)濾掉崗位名稱中的一些常規(guī)詞匯、停用詞和長(zhǎng)度小于兩個(gè)字符的單字詞匯;然后使用Panadas數(shù)據(jù)分析工具和Matplotlib繪圖工具統(tǒng)計(jì)出崗位名稱中的高頻詞,如圖1所示;最后使用wordcloud工具包將上述詞匯統(tǒng)計(jì)數(shù)據(jù)轉(zhuǎn)換成詞云圖,如圖2所示。可以看出在電子商務(wù)專業(yè)的崗位名稱中運(yùn)營(yíng)、美工、直播等詞匯出現(xiàn)的頻率最高,其次是專員、助理、淘寶和店長(zhǎng)等詞匯。通過(guò)對(duì)崗位名稱的詞匯統(tǒng)計(jì)可以發(fā)現(xiàn)目前企業(yè)招聘電子商務(wù)專業(yè)人才的主要需求。

3 LDA模型的構(gòu)建

對(duì)崗位名稱的詞匯統(tǒng)計(jì)僅能淺層次的分析電子商務(wù)崗位的主要聚集方向,但是對(duì)于深層次的電子商務(wù)崗位特征信息還需要采集每個(gè)崗位的詳情頁(yè)內(nèi)容,挖掘每個(gè)崗位的職責(zé)和任職要求。本文使用Selenium工具包分批次采集了上述崗位詳情頁(yè)列表。使用Jieba分詞工具對(duì)每個(gè)詳情頁(yè)文本進(jìn)行了中文分詞處理、過(guò)濾了常用停用詞和長(zhǎng)度小于兩個(gè)字符的單字詞匯,形成了電子商務(wù)崗位信息文檔共計(jì)2 000篇,構(gòu)成了LDA主題模型的文檔集合。

LDA主題模型可以使用Python語(yǔ)言的gensim工具包或者sklearn庫(kù)來(lái)實(shí)現(xiàn)。LDA模型的主題數(shù)K需要人為選定,通常是依據(jù)計(jì)算不同主題數(shù)K值下困惑度P的變化情況來(lái)確定主題數(shù)。但是gensim工具包并沒(méi)有提供困惑度的計(jì)算,因此本文采用sklearn庫(kù)實(shí)現(xiàn)LDA模型。sklearn庫(kù)的decomposition模塊含有各種數(shù)據(jù)降維的算法接口,其中LatentDirichletAllocation接口就是LDA主題模型的線性變分算法實(shí)現(xiàn)接口。LatentDirichletAllocation接口要求輸入數(shù)據(jù)必須是特定格式的詞頻矩陣,矩陣中的每個(gè)元素表示為:(文檔序號(hào),單詞編號(hào),詞頻數(shù)),這里的文檔序號(hào)將文檔集合中的第1篇文檔編號(hào)為0,依次編號(hào);文檔集合中的所有詞匯集合構(gòu)成一個(gè)詞語(yǔ)列表,每個(gè)詞從1開始依次編號(hào);例如:詞頻矩陣元素(1923,1217,3) 表示的是第1924篇文檔中編號(hào)為1217的詞匯在該文檔中總共出現(xiàn)了3次。使用sklearn的CountVectorizer類可以將之前使用Jieba分詞工具得到的文檔詞匯列表轉(zhuǎn)變文檔詞頻矩陣。具體代碼如下所示。

wordlist= [w for w in [" ".join(words) for words in wordlist]]

tf_vectorizer = CountVectorizer( max_features=1500, max_df =0.95, min_df =2)

tf = tf_vectorizer.fit_transform(wordlist)

上述代碼中wordlist就是文檔的詞匯列表;CountVectorizer類的參數(shù)max_features=1500表示選取詞匯表中詞頻數(shù)在前1500的詞放入詞頻矩陣;參數(shù)max_df=0.95表示當(dāng)某個(gè)詞在所有文檔中出現(xiàn)頻率大于95%時(shí)該詞不放入詞頻矩陣;參數(shù)min_df=2表示當(dāng)某個(gè)詞在所有文檔中出現(xiàn)的頻數(shù)小于2時(shí),該詞匯不納入詞頻矩陣。max_df的設(shè)定實(shí)質(zhì)上過(guò)濾了在所有文檔中都使用的常用詞,min_df則過(guò)濾了所有文檔都極少使用的詞匯。CountVectorizer類的fit_transform方法完成了將文檔詞匯列表轉(zhuǎn)換為詞頻矩陣的過(guò)程。如果使用print方法打印fit_transform方法的返回值tf,可以查看到詞頻矩陣的每個(gè)元素。

在計(jì)算出詞頻矩陣tf后就可以將其作為數(shù)據(jù)源,輸入到LatentDirichletAllocation接口中訓(xùn)練LDA模型,但是LDA模型需要預(yù)設(shè)主題數(shù)K。根據(jù)前述電子商務(wù)崗位的名稱詞匯統(tǒng)計(jì)信息,本文將主題數(shù)K的范圍設(shè)定在1到20的范圍內(nèi),并計(jì)算不同主題數(shù)下模型困惑的數(shù)值,并使用matplotlib繪制出主題數(shù)與困惑度的曲線,如圖3所示??梢钥闯霎?dāng)主題數(shù)K的值為5時(shí),困惑度曲線出現(xiàn)了明顯的拐點(diǎn),因此,選擇LDA模型的主題數(shù)K的值為5較為合適。

在設(shè)定了主題數(shù)K的值之后就可以將LDA模型中的文檔的主題分布概率參數(shù)及主題的單詞分布概率參數(shù)的值設(shè)置為1/K。構(gòu)建LDA主題模型的主要代碼如下所示。

lda = LatentDirichletAllocation(n_components=n_topics, max_iter=50, learning_method='batch', learning_offset=50, doc_topic_prior=1/ k,? topic_word_prior=1/k, random_state=666)

lda.fit(tf)

在上述代碼中,LatentDirichletAllocation方法的參數(shù)doc_topic_prior代表的是文檔的主題分布概率參數(shù),而topic_word_prior代表的是主題的單詞分布概率參數(shù),它們的初始值都被設(shè)置為1/K,max_iter表示算法的迭代次數(shù),其值為50,表示模型將應(yīng)用線性變分算法迭代50次后計(jì)算出模型參數(shù)和的值。最后使用fit方法對(duì)詞頻矩陣tf進(jìn)行數(shù)據(jù)擬合,完成了LDA主題模型的訓(xùn)練。

4 電子商務(wù)崗位的主題特征分析

經(jīng)過(guò)訓(xùn)練LDA主題模型中包含有詞匯表所有詞匯在各個(gè)主題下的評(píng)分信息,可以通過(guò)lda變量的_component屬性獲取各個(gè)主題及對(duì)應(yīng)的特征詞匯評(píng)分。結(jié)合之前訓(xùn)練得到的文檔詞匯矩陣tf_vectorizer變量就可以得到每個(gè)主題下評(píng)分最高的特征詞匯。計(jì)算每個(gè)主題下評(píng)分較高的特征詞匯程序代碼如下所示。

feature_names=tf_vectorizer. get_feature_names_out()

n_top_words=30

for topic_index, topic in enumerate(lda.components_):

topic_words= " ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]])

pprint(topic_ words)

tf_vectorizer變量的get_feature_names_out方法可以獲取到語(yǔ)料庫(kù)中的所有詞匯。本文選擇n_top_words=30表示在每個(gè)主題下選取評(píng)分最高的前30個(gè)詞匯。獲取的主題特征詞匯見表1。

從獲取的主題特征詞匯表中可以看出,每個(gè)主題的特征詞匯有明顯的區(qū)別,部分詞匯是各個(gè)主題都包含的。主題1可以概括為管理能力,其崗位的特征包括店鋪的運(yùn)營(yíng)推廣、平臺(tái)的營(yíng)銷、數(shù)據(jù)分析能力、計(jì)劃制定和管理能力及主流的電商平臺(tái)(淘寶、京東和天貓)的運(yùn)營(yíng)經(jīng)驗(yàn);主題2可以概括為設(shè)計(jì)能力,其崗位特征包括產(chǎn)品和店鋪的圖片制作、美化和裝修能力,促銷、拍攝和配合能力等;主題3可以概括為直播能力,其崗位特征包括抖音的直播運(yùn)營(yíng)能力、有責(zé)任心和經(jīng)驗(yàn),熟悉直播間、粉絲、內(nèi)容、產(chǎn)品、視頻等直播元素,能夠與用戶互動(dòng)、懂得溝通;主題4可以概括為服務(wù)能力,其崗位特征主要是客服能力、銷售能力和經(jīng)驗(yàn)、責(zé)任心和溝通能力,關(guān)鍵字維護(hù)和推廣,對(duì)網(wǎng)店的熟悉、訂單和售后的管理等;主題5是崗位的薪酬特征,包括崗位的福利待遇、職業(yè)發(fā)展空間、員工薪酬工資等方面。除了主題5之外其他主題都與電子商務(wù)專業(yè)的崗位技能要求有關(guān),可以作為崗位的特征信息。

基于模型獲取的主題和主題的特征詞匯,本文使用pyLDAvis庫(kù)對(duì)LDA主題模型進(jìn)一步展開可視化分析。pyLDAvis庫(kù)是可視化交互式的主題模型展示工具。pyLDAvis庫(kù)的lda_model類接收參數(shù)包括:已訓(xùn)練完的lda模型、詞頻矩陣tf及文檔詞匯矩陣tf_ vectorizer,并調(diào)用show方法完成LDA模型的可視化展示。最終的LDA模型可視化效果如圖4所示。圖中左側(cè)的五個(gè)圓分別表示五個(gè)主題;選擇每個(gè)主題可以得出該主題下評(píng)分較高的前30個(gè)主題詞;圖中深色水平條塊表示該詞匯在此主題下的頻數(shù),而淺色條塊表示該詞匯在全部文檔的頻數(shù)。

可視化分析的結(jié)果可以看出主題2(設(shè)計(jì)能力)和主題5(薪酬特征)與其他主題有明顯的區(qū)別度,這是由于設(shè)計(jì)能力和薪酬特征的相關(guān)詞匯較為專業(yè),與其他主題沒(méi)有太多的相關(guān)性;而主題1(管理能力)、主題3(直播能力)和主題4(服務(wù)能力)具有一定的重合度。尤其是主題1和主題4有較大的重合,這也表明了電子商務(wù)的運(yùn)營(yíng)、推廣和客戶服務(wù)、售后服務(wù)具有較大的相關(guān)性,而直播能力相對(duì)較為專業(yè)和獨(dú)立。

5 總結(jié)

本文通過(guò)LDA模型分析電子商務(wù)專業(yè)崗位的潛在特征,基于特征詞匯的評(píng)分概括為五個(gè)主題,即:管理能力、服務(wù)能力、直播能力、設(shè)計(jì)能力和薪酬特征,其中,管理能力和服務(wù)能力具有較多的重疊特征詞匯,而直播能力和管理能力具有較小的重疊特征詞匯,但是直播能力、服務(wù)能力和設(shè)計(jì)能力彼此具有相對(duì)對(duì)立的特征詞匯,這為電子商務(wù)專業(yè)的人才培養(yǎng)方向提供了一定的借鑒。在后續(xù)研究中需要擴(kuò)大并優(yōu)化模型的數(shù)據(jù)源,以期進(jìn)一步分析主題間的重疊特征詞匯,發(fā)現(xiàn)新的特征,另一方面對(duì)LDA模型自身的局限性要結(jié)合其他模型進(jìn)行優(yōu)化,以期提升主題劃分的精確性。

參考文獻(xiàn):

[1] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].2版.北京:清華大學(xué)出版社,2019:391-393.

[2] 網(wǎng)經(jīng)社中國(guó)電子商務(wù)研究中心.2021年度中國(guó)電子商務(wù)人才狀況調(diào)查報(bào)告[EB/OL].(2022-05-22)[2022-10-19].http://www.100ec.cn/detail--6611176.html.

[3] 劉亞寧,侯海濤,孫東陽(yáng),等.基于招聘網(wǎng)站的電子商務(wù)崗位能力要求研究[J].現(xiàn)代商業(yè),2022(10):65-67.

[4] 曾奕棠.基于崗位群的電子商務(wù)專業(yè)大學(xué)生就業(yè)能力研究[J].電子商務(wù),2018(1):70-71.

[5] 程丹,詹增榮.基于勝任力模型下高職電子商務(wù)人才職業(yè)崗位能力及素質(zhì)研究[J].電子商務(wù),2018(6):67-69.

【通聯(lián)編輯:謝媛媛】

香格里拉县| 咸阳市| 常宁市| 天等县| 犍为县| 侯马市| 岢岚县| 景德镇市| 桐城市| 北流市| 禄丰县| 平罗县| 灵寿县| 新闻| 离岛区| 酒泉市| 新巴尔虎左旗| 县级市| 永宁县| 普安县| 上蔡县| 光山县| 博野县| 江达县| 高密市| 称多县| 石城县| 渭源县| 新民市| 潜山县| 昌宁县| 怀安县| 枞阳县| 台山市| 九龙县| 宽甸| 辽宁省| 桦南县| 伊金霍洛旗| 四平市| 呼玛县|