陳可嘉,鄭晶晶,靳健,趙政
(1.福州大學(xué) 經(jīng)濟與管理學(xué)院,福建 福州 350108;2.北京師范大學(xué) 政府管理學(xué)院,北京 100875)
在移動互聯(lián)網(wǎng)時代,大量跨境電商網(wǎng)站和用戶交流平臺的出現(xiàn),給企業(yè)了解用戶行為、把握市場趨勢提供了更加快捷的渠道。對在線評論的挖掘與利用已逐漸成為企業(yè)明確市場定位,提升產(chǎn)品銷量的重要途徑[1]。因而如何從在線評論中提取用戶關(guān)注的產(chǎn)品特征并歸類,成為文本分析領(lǐng)域中的一個熱門研究話題[2]。
在以往的研究中,學(xué)者們提出了各種各樣的產(chǎn)品特征提取方法。比較有代表性的方法有:基于高頻名詞或名詞短語提取[3-5]、根據(jù)語言規(guī)則提取[6-8]、通過監(jiān)督學(xué)習(xí)模式提取[9-11]、利用主題模型提取[12-14]。
基于高頻名詞或名詞短語提取特征詞的方法,由于無需標(biāo)注大量文本,大大減少了人工成本,因而備受學(xué)者們關(guān)注。HU等[3]做出了開創(chuàng)性的工作,根據(jù)評論中名詞和名詞短語被提及的頻繁程度,使用關(guān)聯(lián)規(guī)則查找頻繁項集,從而提取產(chǎn)品特征。后續(xù)很多方法都以此為基礎(chǔ)進行改進,LI等[4]利用PMI-IR算法計算點互信息值,對高頻名詞和名詞短語提取產(chǎn)品特征的方法進行了補充。YANG等[5]在考慮上下文信息的基礎(chǔ)上,引入了全球背景信息,提出了一種基于特征得分和詞頻的產(chǎn)品特征提取方法。這些方法都取得了一定的成效,但單純根據(jù)詞頻提取產(chǎn)品特征的方法往往會忽略一些出現(xiàn)頻率較低的表示產(chǎn)品特征的詞匯,特別是在在線評論的語境下,評論者往往傾向于使用個性化的表達,甚至對同一產(chǎn)品特征,評論者可用的表達方式也不盡相同。這就給從在線評論中挖掘產(chǎn)品特征造成了一定的干擾。
也有學(xué)者在基于詞頻的基礎(chǔ)上,提出利用詞典進行文本相似度計算,進而對特征詞集進行擴展,從而挖掘低頻詞。董苑等[15]提出TSSDWFI算法,該算法基于詞典計算詞語間相似度,能夠提取出低頻但具有代表性的特征詞。但是,很多在在線評論的語境下描述同一產(chǎn)品特征的單詞,其原始語義卻并不一定相似。例如,中文的“形狀”和“外觀設(shè)計”、英文的“design”和“size”,甚至還有一些如“app”“application”“apps”等的拼寫形式。因而基于詞典的方法具有一定的局限性。
基于詞典計算文本相似度的方法,無法結(jié)合上下文語義,因此聶卉等[1]提出基于詞向量和句法結(jié)構(gòu)建立領(lǐng)域特征詞典。通過神經(jīng)網(wǎng)絡(luò)語言模型,把以文本形式表示的詞語轉(zhuǎn)化成以數(shù)值形式表示的詞向量,再對詞向量進行聚類或者在種子特征詞集基礎(chǔ)上用計算向量間相似度的方法來提取產(chǎn)品特征。該方法可以結(jié)合上下文語境,對具有相似上下文的特征詞進行歸類,彌補了利用基于詞典的方法的局限性。馬思丹等[16]提出加權(quán)Word2vec模型,該改進的詞向量模型取得了更好的分類效果。
這些利用詞向量獲取產(chǎn)品特征的研究,大多聚焦于詞向量模型的改進,少有研究著眼于種子特征詞集的構(gòu)建。然而,在線評論中并非只有表示產(chǎn)品特征的詞語,直接對詞向量進行聚類來提取產(chǎn)品特征,容易導(dǎo)致噪聲類別的出現(xiàn)。而用在種子特征詞集基礎(chǔ)上計算向量間相似度的方法提取產(chǎn)品特征,雖然能較好地規(guī)避噪聲類別的出現(xiàn),但其在種子特征詞集的構(gòu)建上,或是需要大量人工標(biāo)注[17],或是對整個語料庫的代表性不夠充分且往往只考慮了高頻名詞[1]。
為了解決以上問題,筆者提出了一種基于詞頻和情景語義的半監(jiān)督產(chǎn)品特征提取方法。首先,通過詞頻和關(guān)聯(lián)規(guī)則構(gòu)建種子特征詞集,只需少量人工標(biāo)注且引入了一些不頻繁名詞,該方式能夠減少噪聲類別的出現(xiàn),使得提取種子特征詞集具有更好的代表性。接著,再采用神經(jīng)網(wǎng)絡(luò)語言模型進行訓(xùn)練,把符號形式的詞語轉(zhuǎn)化成數(shù)值形式的詞向量,并通過計算向量間相似度的方法,對種子特征詞集進行擴充,這樣可以使得對低頻特征詞的提取更加友好。最后經(jīng)人工分類后得到完整的產(chǎn)品特征詞典,從而實現(xiàn)對產(chǎn)品特征的提取。
本文提出的基于詞頻和情景語義的產(chǎn)品特征提取方法主要分為三個階段(圖1):第一階段為在線評論的獲取與預(yù)處理;第二階段為基于詞頻和關(guān)聯(lián)規(guī)則的種子特征詞集挖掘;第三階段為基于情景語義的產(chǎn)品特征擴充與產(chǎn)品特征詞典構(gòu)建。
圖1 基于詞頻和情景語義的產(chǎn)品特征提取方法流程Fig.1 Flow chart of product feature extraction method based on word frequency and context semantics
在線評論按是否表達了評論者的主觀意愿,一般可分為主觀語料和客觀語料。其中主觀語料由于具有褒貶的情感傾向,信息量較為豐富,是評論挖掘的主要研究對象。CNET網(wǎng)站是一家全球領(lǐng)先的科技資訊網(wǎng)站,其上對產(chǎn)品的評論通常包含優(yōu)點、缺點以及描述三部分。其中優(yōu)點、缺點部分的評論語句充分表達了用戶的主觀意愿,且其往往較為簡單明了,可視為主觀語料。相比其他長評論,優(yōu)點、缺點部分的評論語句中更容易出現(xiàn)描述產(chǎn)品特征的詞語。因此,在進行產(chǎn)品特征挖掘時,筆者直接采用八爪魚爬蟲軟件從Cnet.com網(wǎng)站上抓取蘋果、三星、諾基亞等品牌手機優(yōu)點、缺點部分的評論作為研究數(shù)據(jù)。
對用爬蟲軟件爬取的在線評論,通常需要先進行數(shù)據(jù)的預(yù)處理。在數(shù)據(jù)預(yù)處理階段,主要是將散亂的人為書寫的數(shù)據(jù)轉(zhuǎn)換為模型能處理的數(shù)據(jù):
① 剔除缺失數(shù)據(jù)。
② 斷句:根據(jù)句號、嘆號、問號等句末標(biāo)點符號對在線評論進行斷句。
③ 去除停用詞:由于在線評論中還存在著大量無實際意義卻在句子中起到承接作用的詞,亦即停用詞。如中文評論中的“了”“的”,英文評論中的“the”“a”等。為了更好的產(chǎn)品特征提取效果,往往需要對這些無實義的詞進行剔除。
④ 規(guī)范文本:由于用戶書寫評論存在不規(guī)范書寫的情況,因此需要對評論文本做規(guī)范化處理。如特殊字符的處理、刪除多余空格,大小寫的轉(zhuǎn)換等。
⑤ 去除單字詞:有些用戶由于種種原因,只用了如“good”“nice”“terrible”等單個單詞,甚至如“!”“?”等標(biāo)點符號來進行評論。這種由少于一個單詞組成的評論并沒有提供有價值的信息,也需要進行剔除。
由于在線評論中表示產(chǎn)品特征的單詞數(shù)量是有限的,被消費者最常提及的單詞往往和產(chǎn)品最具有相關(guān)性。而產(chǎn)品特征又主要以名詞或名詞短語的形式存在于評論中。因此,在進行種子特征詞集挖掘時,可以根據(jù)詞頻把在線評論中頻繁出現(xiàn)的名詞或者名詞短語當(dāng)做描述產(chǎn)品特征的候選種子特征詞。
WordNet[18]是目前較為常用且有效針對英文語料詞性標(biāo)注的工具。筆者首先借助WordNet對在線評論中出現(xiàn)的每一個單詞進行詞性標(biāo)注,選取其中頻繁出現(xiàn)的名詞作為候選種子特征詞集。然而WordNet對一些不規(guī)范的名詞簡寫,如對“hours”的簡寫“hrs”并不能很好地標(biāo)注。此外,單純按照詞頻排序得到的候選種子特征詞集仍然不夠全面,忽略了某些特定的名詞和名詞短語,如“fm transmitter”“micro sd”等。因此,可以考慮使用關(guān)聯(lián)挖掘的方法來對候選種子特征詞集進行擴充,從而得到更為合理的種子特征詞集。
綜上,種子特征詞集挖掘算法主要分為三個步驟:
① 使用WordNet進行詞性標(biāo)記,對標(biāo)記為名詞的單詞,選取其中詞頻排名前50的單詞進行人工篩選,從而得到候選種子特征詞集。
② 用Apriori算法[19]進行關(guān)聯(lián)規(guī)則挖掘。該算法的核心思想是從低維向高維循環(huán)生成頻繁項集,并用支持度進行減枝去掉低價值的頻繁項,最后再把這些頻繁項集按置信度來生成關(guān)聯(lián)規(guī)則。此外,由于種子特征詞集對單詞準(zhǔn)確性的要求較高,在常規(guī)的置信度和支持度約束下,根據(jù)文獻[3]中的方法,再對提取出的頻繁項集進行緊湊剪枝和冗余剪枝。緊湊剪枝針對包含多個單詞的頻繁項集。如果該頻繁項集中的每個單詞在句子中的間隔大于閾值,就認為是沒有意義的,本文中的閥值設(shè)置為3。冗余剪枝則針對包含一個單詞或者兩個單詞的頻繁項集。部分頻繁項集往往會由于丟失信息,導(dǎo)致沒有超集,因而需要把支持度小于包含該頻繁項集但不包含其超集的句子數(shù)的頻繁項集去除。
③ 篩選合并得到種子特征詞集。用Apriori算法得到的關(guān)聯(lián)規(guī)則
用1.2節(jié)的方法得到的種子特征詞集雖然精準(zhǔn),但不夠全面,特別是對一些出現(xiàn)頻率不高但卻是用來描述產(chǎn)品特征的詞匯不能很好地識別。因此,本文從情景語義的角度出發(fā),通過神經(jīng)網(wǎng)絡(luò)語言模型構(gòu)建詞向量,并采用余弦相似度對種子特征詞集進行擴充,得到最終的產(chǎn)品特征詞典。
神經(jīng)網(wǎng)絡(luò)語言模型能夠?qū)颖菊Z料進行訓(xùn)練,把自然語言中語義、語法等的關(guān)系映射成用數(shù)學(xué)符號表示的向量的形式,亦即詞向量。詞向量是自然語言處理(natural language processing,NLP)中用來表示詞語的常用形式,它是多維實數(shù)向量,其每一維度上的數(shù)值能夠解釋一定的語義和語法。兩個詞之間的語義相似程度,就可以用這兩個詞向量間的相似度來表示,從而將尋找種子特征詞集近義詞的問題,轉(zhuǎn)化成了如何構(gòu)建詞向量以及如何計算兩個詞向量之間相似度的問題。
1.3.1 詞向量構(gòu)建
在詞向量的構(gòu)建上,本文采用基于Word2Vec的神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練詞向量。Word2Vec是由MIKOLOV等在2013年開發(fā)的一款通過語料訓(xùn)練,把詞與詞之間關(guān)系映射到向量空間上的文本挖掘開源工具[20]。Word2Vec采用的是層次化Log-Bilinear語言模型,其具體算法模型主要包含CBOW模型和Skip-gram模型兩種。其中,CBOW模型的主要思想是根據(jù)目標(biāo)詞的上下文來預(yù)測目標(biāo)詞;而Skip-gram模型則正好相反,其主要利用目標(biāo)詞對目標(biāo)詞的上下文進行預(yù)測。
根據(jù)文獻[20]中對CBOW模型和Skip-gram模型的性能詳細對比結(jié)果,筆者采用整體效果更好的Skip-gram模型訓(xùn)練詞向量,其目標(biāo)函數(shù)如式(1)所示:
(1)
其中,wi表示當(dāng)前詞;Corpus表示語料庫;context(wi) 表示與wi的距離在給定窗口大小內(nèi)的上下文單詞集合,由當(dāng)前詞wi預(yù)測上下文的條件概率計算如式(2)所示:
(2)
其中,u表示與wi的距離在給定窗口大小內(nèi)的單詞。
整個模型通過不斷調(diào)整詞向量wi各維度的值,最終使得目標(biāo)函數(shù)G的數(shù)值達到最小。
1.3.2 相似度計算
計算向量間相似度最常用的一個方法是余弦相似度算法。由于上述步驟已把文本單詞轉(zhuǎn)化成詞向量的形式,故此可直接使用余弦相似度公式計算單詞之間的相似度。本文把單詞與其自身的相似度記為1,那么對于已經(jīng)向量化的單詞wi和單詞wj的相似度可用式(3)表示:
(3)
1.3.3 產(chǎn)品特征擴充
在計算完相似度后,需要把與種子特征詞集里單詞相似度排名靠前的單詞并入種子特征詞集,循環(huán)迭代,直至收斂,從而得到完整的產(chǎn)品特征詞集。而對于相似度排名的選取,本文選擇在準(zhǔn)確率P、召回率R、F1值等NLP領(lǐng)域普遍使用的評價指標(biāo)下的排名來進行產(chǎn)品特征擴充。準(zhǔn)確率P、召回率R、F1值分別如式(4)至式(6)所示:
(4)
(5)
(6)
其中,A表示用本文方法挖掘出的真實產(chǎn)品特征數(shù);B表示用本文方法挖掘出的錯誤產(chǎn)品特征數(shù);C表示未被本文方法挖掘出的真實產(chǎn)品特征數(shù)。此外由于在線評論大數(shù)據(jù)的特性,召回率無法完全精確地計算,故本文采用如下的方法來估算召回率。首先從挖掘到的在線評論里隨機抽取出10組評論,每組100條句子,依據(jù)這些評論不斷分組累加計算召回率,如第一組由100條評論驗證召回率,第二組就是200條評論驗證召回率。如此不斷累加,隨著組數(shù)的增多,評論數(shù)量增多,召回率就越準(zhǔn)確,直至召回率趨于穩(wěn)定,穩(wěn)定后的召回率值已經(jīng)非常接近真實召回率。
1.3.4 產(chǎn)品特征詞典構(gòu)建
最終獲取的產(chǎn)品特征詞集,往往描述著產(chǎn)品的不同方面。為了更清晰明了地展示產(chǎn)品特征,需要將這些產(chǎn)品特征詞,按照其描述方面的不同進行分類。不同于常用的“詞向量+聚類”的思路,筆者在構(gòu)建產(chǎn)品特征詞典時,沒有采用如K-means聚類、層次聚類等聚類算法進行產(chǎn)品特征分類,而是直接使用人工標(biāo)注的形式進行分類,主要是基于兩個考慮:一是由于本文是在種子特征詞集的基礎(chǔ)上,利用詞向量相似度進行擴充,從而得到產(chǎn)品特征。若使用聚類算法來對產(chǎn)品特征進行分類會丟失部分種子特征詞集帶來的信息,使得最終分類效果下降。二是由于本文方法最后得到的產(chǎn)品特征詞典所含的單詞數(shù)量已經(jīng)較小,沒有必要再使用聚類算法進行聚類,人工分類完全可以承受且準(zhǔn)確率更高。
本文利用爬蟲軟件,從Cnet.com網(wǎng)站上爬取蘋果、三星、諾基亞等品牌手機的在線評論共5 906段。抓取的內(nèi)容包括評論時間、評論星級、優(yōu)點評價、缺點評價以及描述五部分。本文的研究對象僅針對其中的優(yōu)點評價、缺點評價部分。
表1是對在線評論的描述性統(tǒng)計。從表1中可以看出,單條語句的平均詞數(shù)只有9.2個,顯然,Cnet.com網(wǎng)站上優(yōu)缺點部分的評論以短文本為主。一般情況下,長文本相較短文本而言,更容易出現(xiàn)噪聲詞。而用以形容產(chǎn)品特征的詞語的數(shù)量又是有限的。這意味著相比于長文本,短文本中用以描述產(chǎn)品特征的名詞出現(xiàn)的頻率會更高。因此,本文從優(yōu)缺點部分的評論語句中來進行產(chǎn)品特征提取是較為合理且有效的。
表1 在線評論的描述性統(tǒng)計Tab.1 Descriptive statistics of online reviews
首先,對5 906段評論進行缺失數(shù)據(jù)的剔除,剔除后共剩余5 690段評論;其次,根據(jù)句末標(biāo)點符號對5 690段評論進行斷句,共得到9 955條語句;然后,對評論數(shù)據(jù)進行分詞、去停用詞、去多余空格、去特殊字符、大小寫轉(zhuǎn)換、去標(biāo)點等工作。最后,再對單條評論中少于一個單詞的語句進行剔除,共剔除740條語句。經(jīng)過上述數(shù)據(jù)預(yù)處理后,總計有效評論語句9 215條。
首先,對標(biāo)記為名詞的單詞,按詞頻進行排序,得到用戶提及的頻率排名top50的單詞,如表2所示。
由于產(chǎn)品特征一般以名詞的形式存在,因此本文選取該詞集中被標(biāo)記為名詞的單詞作為候選的種子特征詞集,共得到包含33個名詞的候選種子特征詞集={screen, camera, battery, touch, life, keyboard, apps, call, nokia, design, size, time, os, qwerty, video, display, music, memory, mp, calls, looks, text, windows, flash, gps, iphone, samsung, interface, times, light, touchscreen, sound, software}。
表2 用戶提及頻率top50的名詞Tab.2 Nouns where users mention the frequency top50
接著,利用Apriori算法挖掘關(guān)聯(lián)規(guī)則。在0.1 %支持度和80 %置信度(參考常規(guī)值和文獻[19])下得到142條關(guān)聯(lián)規(guī)則。其中,部分關(guān)聯(lián)規(guī)則如表3所示。如規(guī)則4表示“{xenon}=> {flash}”這條關(guān)聯(lián)規(guī)則的置信度為0.846 2,支持度為0.001 9,且“xenon flash”能組成一個名詞短語。
表3 部分關(guān)聯(lián)規(guī)則Tab.3 Some association rules
最后,根據(jù)1.2節(jié)中的方法進行篩選合并,得到包含42個名詞的種子特征詞集={screen, camera, battery, touch, life, keyboard, apps, call, nokia, design, size, time, os, qwerty, video, display, music, memory, mp, calls, looks, text, windows, flash, gps, iphone, samsung, interface, times, light, touchscreen, sound, software, vga, megapixel, hours, life, xenon flash, fm transmitter, top notch, form factor, micro sd}。
2.4.1 詞向量構(gòu)建
本文采用Skip-gram模型來訓(xùn)練詞向量,訓(xùn)練文本為爬取的5 906段評論,在R-3.5.3環(huán)境下編程實現(xiàn)。在參數(shù)設(shè)置方面,將向量維度設(shè)置為50,采樣值設(shè)置為0.000 01,窗口大小設(shè)定為5,其他參數(shù)均采用默認設(shè)定。經(jīng)過Skip-gram模型訓(xùn)練后,最終把文本形式的單詞轉(zhuǎn)化成的50維向量形式。部分結(jié)果如表4所示。
表4 部分詞向量Tab.4 Some word vectors
2.4.2 相似度計算
通過計算詞向量間的相似度,獲取與種子特征詞集相似的詞語。表5展示了與部分單詞相似度排名前5的單詞。
表5 與部分單詞相似度排名前5的單詞Tab.5 Top five words with similarity to some words
2.4.3 產(chǎn)品特征擴充
本文采用在召回率、準(zhǔn)確率、F1值評價指標(biāo)下綜合效果最好的相似度排名來進行產(chǎn)品特征擴充。圖2分別列舉了與種子特征詞集里單詞相似度排名top1至top15情況下構(gòu)造的產(chǎn)品特征詞典的準(zhǔn)確率、召回率以及F1值。
圖2 相似度排名top1至top15的準(zhǔn)確率、召回率和F1值Fig.2 Accuracy, recall and F1 values for similarity rankings from top1 to top15
從圖2可以看到,隨著擴充詞數(shù)的增加,準(zhǔn)確率呈下降趨勢,召回率則不斷上升。當(dāng)選擇相似度top1的單詞進行構(gòu)造時,雖然準(zhǔn)確率最高,達到了86.44 %,但其召回率卻只有48.57 %。而選擇相似度top15的單詞進行構(gòu)造時,召回率最高,達到了85.71 %,但其準(zhǔn)確率卻只有68.18 %。因此,綜合準(zhǔn)確率和召回率指標(biāo),本文選擇使F1值達到最大(76.44 %)時的與種子特征詞集相似度排名前九的單詞(top9)來進行產(chǎn)品特征擴充,得到包含79個單詞的產(chǎn)品特征詞集={screen, display, touchscreen, touch, interface, resolution, battery, life, time, times, hours, hrs, keyboard, qwerty, button, key, keys, slide, camera, flash, light, pictures, vga, mega, colors, megapixel, picture, xenon flash, apps, app, software, os, windows, mp3, gb, market, applications, system, video, music, sound, voice, command, player, bluetooth, hd, fm transmitter, size, looks, design, top notch, form factor, weight, plastic, cover, lte, pocket, volume, nokia, samsung, galaxy, iphone, google, price, service, memory, slot, card, microsd, hardware, speaker, call, calls, navigation, gps, wifi, text, email, web}。
2.4.4 產(chǎn)品特征詞典構(gòu)建
對特征詞集進行人工分類,得到包含十個類別的產(chǎn)品特征詞典(表6)。
表6 產(chǎn)品特征詞典Tab.6 Product feature dictionary
本文方法與K-means+Word2vec[2]、LDA[21]在準(zhǔn)確率、召回率和F1值這三個評價指標(biāo)上的比較,如表7所示。其中,由于每個類別的產(chǎn)品特征都包含了大量的單詞,因此在比較中,分別選取了每個類別前5、前10、前15、前20的詞(按詞頻排序)進行比較,即分別在top5、top10、top15、top20的水平上進行對比。
表7 三種方法準(zhǔn)確率、召回率、F1值比較Tab.7 Comparison of accuracy, recall, and F1 values for the three methods
從表7中可以看出,隨著提取的單詞數(shù)量增加,本文方法與K-means+Word2vec、LDA等方法的準(zhǔn)確率都呈下降趨勢,而召回率則呈上升趨勢。這意味著在對高頻詞的提取上,幾種方法都有較好的表現(xiàn),能進行較高效率的識別。導(dǎo)致各方法在特征提取效果上出現(xiàn)差異,主要是在對噪聲詞的處理上。由于本文方法通過詞頻和關(guān)聯(lián)規(guī)則構(gòu)建了種子特征詞集,對噪聲詞的處理效果要優(yōu)于另外兩種方法。因此,從表7中可以明顯地發(fā)現(xiàn),本文方法在三種不同評價指標(biāo)下,都較另外兩種方法有更好的表現(xiàn)。
本文提出的基于詞頻和情景語義的產(chǎn)品特征提取方法首先對用爬蟲軟件爬取的在線評論進行數(shù)據(jù)預(yù)處理;接著,通過少量高頻名詞和關(guān)聯(lián)規(guī)則來構(gòu)建種子特征詞集;最后,采用神經(jīng)網(wǎng)絡(luò)語言模型進行訓(xùn)練,把符號形式的詞語轉(zhuǎn)化成數(shù)值形式的詞向量,并通過計算向量間相似度的方法,對種子特征詞集進行擴充,從而得到完整的產(chǎn)品特征詞典。實驗結(jié)果顯示,該方法在用與種子特征詞集相似度排名前九的單詞(top9)來進行產(chǎn)品特征擴充時效果最好,F(xiàn)1值達到了76.44 %。此外,與K-means+Word2vec、LDA等方法在top5,top10,top15,top20水平上的對比實驗表明,無論是在準(zhǔn)確率、召回率,還是F1值的表現(xiàn)上本文方法都更優(yōu)。
本文的特征提取方法雖然在種子特征詞集的構(gòu)建上進行了改進,但在詞向量的訓(xùn)練上仍然沿用了skip-gram模型,且只考慮了顯式產(chǎn)品特征。因此,對詞向量訓(xùn)練模型的改進以及對隱式產(chǎn)品特征的提取是本文下一步的研究方向。