鄧杰
【摘 要】在大數(shù)據(jù)的領(lǐng)域中,對(duì)大量數(shù)據(jù)的文本分析是基石,后面的所有數(shù)據(jù)的解析都是依賴(lài)與此,規(guī)則維護(hù)的效率以及準(zhǔn)確率至關(guān)重要。本文主要是對(duì)比了目前常用的幾種語(yǔ)義分析的方法,提出了相對(duì)來(lái)說(shuō)效率更高,準(zhǔn)確率也能得到保障的方法。
【關(guān)鍵詞】文本分析;手工編寫(xiě)規(guī)則;機(jī)器學(xué)習(xí)
1 背景內(nèi)容
規(guī)則維護(hù)的辦法,目前主要思路如下:先整理大量的樣本數(shù)據(jù),先手工打上各種分類(lèi)標(biāo)簽或者關(guān)鍵字,然后以這些手工梳理好后的樣本數(shù)據(jù)或者關(guān)鍵字為基準(zhǔn)去手工編寫(xiě)規(guī)則。
但是后期隨著關(guān)鍵字的變化或者樣本數(shù)據(jù)的豐富,會(huì)發(fā)現(xiàn)現(xiàn)有規(guī)則的準(zhǔn)確性、覆蓋率越來(lái)越低,甚至出現(xiàn)大量的樣本數(shù)據(jù)都匹配不到現(xiàn)在的分類(lèi)中。定期對(duì)現(xiàn)有規(guī)則的維護(hù)是一項(xiàng)很重要并且很必須的工作。
隨著規(guī)則的積累和樣本量的增加,手工維護(hù)規(guī)則的工作量會(huì)越來(lái)越來(lái),為了保證語(yǔ)義分析的效果,規(guī)則開(kāi)發(fā)維護(hù)的人員會(huì)越來(lái)越多,會(huì)使得成本增加;另一方面因?yàn)橐?guī)則的積累,導(dǎo)致規(guī)則混亂,在累加規(guī)則中,甚至?xí)霈F(xiàn)在手工維護(hù)規(guī)則后,規(guī)則的準(zhǔn)確性和覆蓋性越來(lái)越低。
2 文本分析常用方法
2.1 手工編寫(xiě)規(guī)則
1)提供大量的樣本數(shù)據(jù);
2)通過(guò)人工手動(dòng)去打上相應(yīng)的標(biāo)簽、關(guān)鍵字;
3)數(shù)據(jù)分析師根據(jù)關(guān)鍵詞,輸出分類(lèi)對(duì)應(yīng)的規(guī)則;
4)再用另外一部分樣本去驗(yàn)證手工編寫(xiě)規(guī)則的準(zhǔn)確率、覆蓋率;
5)對(duì)于有明顯某些分類(lèi)的準(zhǔn)確率覆蓋率較低的分類(lèi),需要專(zhuān)項(xiàng)再重新去分析優(yōu)化。
優(yōu)點(diǎn):
相應(yīng)分類(lèi)樣本充足的情況下,準(zhǔn)確率覆蓋率都可以達(dá)到較高的值。
缺點(diǎn):
需要大量的業(yè)務(wù)人員,能夠?qū)颖緮?shù)據(jù)歸納分類(lèi);
需要大量的分析師,并且對(duì)分析師要求還較高,需要了解業(yè)務(wù),能夠通過(guò)大量數(shù)據(jù)識(shí)別關(guān)鍵字進(jìn)行分析;
編寫(xiě)規(guī)則的周期較長(zhǎng);
規(guī)則需要定期維護(hù),否則準(zhǔn)確率覆蓋率會(huì)逐漸降低;
由于樣本局限性,在實(shí)際應(yīng)用場(chǎng)景中,會(huì)有大量的數(shù)據(jù)匹配不到分類(lèi);
2.2 機(jī)器學(xué)習(xí)通過(guò)訓(xùn)練生成數(shù)據(jù)模型
1)提供樣本數(shù)據(jù)(對(duì)比手工編寫(xiě)規(guī)則的量要小);
2)用樣本數(shù)據(jù)做訓(xùn)練,生成數(shù)據(jù)模型;
3)用訓(xùn)練后的數(shù)據(jù)模型驗(yàn)證新的樣本數(shù)據(jù);
4)對(duì)于準(zhǔn)確性較差的分類(lèi),需要再次調(diào)整優(yōu)化數(shù)據(jù)模型,提高準(zhǔn)確率。
優(yōu)點(diǎn):
規(guī)則周期短;
需要的人力少;
需要樣本量相對(duì)來(lái)說(shuō)少;
缺點(diǎn):
整體的準(zhǔn)確率達(dá)不到手工編寫(xiě)規(guī)則的值;
3 機(jī)器學(xué)習(xí)結(jié)合人工編寫(xiě)規(guī)則
3.1 方法論的產(chǎn)生
純手工維護(hù)規(guī)則,可以使得某些分類(lèi)的準(zhǔn)確率達(dá)到很高,但是輸出規(guī)則需要很長(zhǎng)的周期,并且也很多人力支撐,輸出的規(guī)則很有局限性,不在樣本范圍內(nèi)的規(guī)則或者關(guān)鍵字,無(wú)法識(shí)別,后期需要很高的維
成本;
機(jī)器學(xué)習(xí)通過(guò)訓(xùn)練,能夠很快速的生成數(shù)據(jù)模型,對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析。但是準(zhǔn)確率無(wú)法達(dá)到手工收工維護(hù)規(guī)則的程度。
手工維護(hù)規(guī)則精度夠,但是周期長(zhǎng)、可擴(kuò)展性不強(qiáng);機(jī)器學(xué)習(xí)可擴(kuò)展性好,周期短,但是精度不夠。
那何不集合這兩種方法的優(yōu)點(diǎn),提升規(guī)則維護(hù)效率,縮短規(guī)則生成周期,并且后期維護(hù)成本也不用那么高。
3.2 方法步驟
1)提供樣本數(shù)據(jù)(對(duì)比手工編寫(xiě)規(guī)則的量要小);
2)通過(guò)樣本數(shù)據(jù)做訓(xùn)練,生成數(shù)據(jù)模型;
3)用訓(xùn)練后的數(shù)據(jù)模型驗(yàn)證新的樣本數(shù)據(jù);
4)對(duì)于準(zhǔn)確率較差的分類(lèi),需要再次調(diào)整優(yōu)化提高準(zhǔn)確性5)模型訓(xùn)練后準(zhǔn)確性還是較差的分類(lèi),手工編寫(xiě)規(guī)則,提供準(zhǔn)確性;
6)機(jī)器學(xué)習(xí)可以輸出相應(yīng)的關(guān)鍵字,提高了編寫(xiě)規(guī)則的效率;
7)對(duì)于后期新增的業(yè)務(wù)場(chǎng)景和數(shù)據(jù),機(jī)器學(xué)習(xí)可以及時(shí)識(shí)別,降低了無(wú)法識(shí)別分類(lèi)的概率。
3.3 方法論總結(jié)
機(jī)器學(xué)習(xí)和傳統(tǒng)的手工編寫(xiě)規(guī)則相結(jié)合的方法,既提高了規(guī)則輸出的效率,又保障了一定的準(zhǔn)確性;既減少了維護(hù)工作的人力訴求,也保障了維護(hù)工作的準(zhǔn)確率的穩(wěn)定性。兩者相互取長(zhǎng)補(bǔ)短,互相融合使用,可以有效得提升規(guī)則維護(hù)得效率。