閻亞亞
摘要:電商市場日益完善,網(wǎng)絡(luò)購物成為更多人的消費方式,用戶在電商平臺上保留了大量的產(chǎn)品評論信息,通過人工對文本評論情感分類任務(wù)愈加艱巨,文本情感的自動分類作為自然語言處理技術(shù)的重要一門,近年來受到各界的廣泛關(guān)注。本文首先對京東網(wǎng)頁上爬取的某商品評論文本做預(yù)處理,重點研究詞袋模型和TF-IDF兩種文本特征選擇方法下不同文本分類算法的分類效果,研究結(jié)果表明TF-IDF下的文本分類效果顯著優(yōu)于詞袋模型。
關(guān)鍵詞:詞袋模型;TF-IDF;文本分類
中圖分類號:TP391.1? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)28-0138-03
開放科學(資源服務(wù))標識碼(OSID):
Comparative Study of Word-bag Models and TF-IDF in Text Classification
YAN Ya-ya
(Chongqing Industrial and Commercial University, Chongqing 400067,China)
Absrtact: E-commerce market is becoming more and more perfect, online shopping has become more and more people's consumption mode, users have retained a large number of product comment information on the e-commerce platform, through manual text comment emotional classification task is becoming more and more arduous. As an important natural language processing technology, text emotion automatic classification has attracted wide attention in recent years. This paper first preprocesses the text of a commodity comment crawling on the JingDong web page, focusing on the classification effect of different text classification algorithms under the word bag model and TF-IDF two text feature selection methods. The results show that the text classification effect under TF-IDF is significantly better than that of the word bag model.
Key words: word bag model; TF-IDF; text classification
隨著大數(shù)據(jù)、云技術(shù)等現(xiàn)代化信息技術(shù)不斷發(fā)展,電商市場也成為經(jīng)濟市場的重要部分,人們開始普遍習慣網(wǎng)絡(luò)購物模式,很多購物平臺保留了大量用戶的評價信息,這些信息體現(xiàn)用戶對商品的真實購買體驗,對于新用戶來說,根據(jù)他人的評論內(nèi)容決定是否購買此商品,因此,這些評論信息對新用戶的購買行為產(chǎn)生一定影響,同時,商家也可通過用戶評論提高相關(guān)服務(wù)水平。類似此類評論信息更新速度快,信息量大,傳統(tǒng)的人工文本處理不能滿足發(fā)展需求,所以自動文本分類技術(shù)日益成為時代背景下的研究熱點。
1文本分類概述及研究現(xiàn)狀
文本分類可以理解為按照一定的分類標準或體系使用計算機對文本集實現(xiàn)對文本自動打標簽的分類過程[1],文本分類的目的是將文檔集合中為止類型的文本自動識別到一個類別或幾個類別中。復(fù)旦大學李榮陸依據(jù)最大熵模型進行中文文本分類研究[2]。文本特征選取是文本分類的重要過程,ChuanWan等人提出了一種基于文本結(jié)構(gòu)的SABigam算法可以對文本進行復(fù)合特征的提取[3]。徐冠華等人詳細地對文本特征提取方法做了研究,從封裝式特征選擇算法和過濾式特征選擇算法兩方面進行總結(jié)[4]。朱夢等人引入特征詞類間分布的表現(xiàn)力指數(shù)的特征選取算法[5]。文本分類在應(yīng)用于眾多領(lǐng)域中,學者對于文本分類的研究逐漸深入,文本自動分類技術(shù)愈加成熟。
2相關(guān)工作
本文為研究詞袋模型和TF-IDF進行文本特征選擇處理方法對文本分類效果的不同,設(shè)計了以下總體框架如圖1所示。
2.1文本采集及預(yù)處理
2.1.1文本采集
本文使用八爪魚采集器,從京東商品網(wǎng)頁上隨機獲取某商品的文本評論內(nèi)容,將數(shù)據(jù)集保存在excel表格中,每條評價內(nèi)容對應(yīng)相應(yīng)的評價態(tài)度,對應(yīng)為1-5星,5星為評價最好的星級,這里采用人工打標簽方式將星級劃分為兩種情感態(tài)度,其中1-2級為差評,3-5級為好評。
2.1.2文本預(yù)處理
首先對采集到的文本數(shù)據(jù)進行去重、刪除異常樣本處理,得到有效樣本2566條,其中好評2083條,差評483條,并采用jieba分詞工具進行分詞,將文本中的停用詞剔除;其次拆分訓(xùn)練集和測試集,得到訓(xùn)練樣本1924條,測試樣本642條。
2.2文本表示
文本是由詞和短語構(gòu)成的符號序列。要將自然語言處理問題轉(zhuǎn)化成機器可學習的數(shù)學模型,首先要對詞和文本進行向量化建模,即將自然語言轉(zhuǎn)化為向量,這一過程叫做文本表示。