国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合機(jī)器學(xué)習(xí)提升規(guī)則維護(hù)效率

2018-02-26 16:09鄧杰
科技視界 2017年36期
關(guān)鍵詞:文本分析機(jī)器學(xué)習(xí)

鄧杰

【摘 要】在大數(shù)據(jù)的領(lǐng)域中,對(duì)大量數(shù)據(jù)的文本分析是基石,后面的所有數(shù)據(jù)的解析都是依賴(lài)與此,規(guī)則維護(hù)的效率以及準(zhǔn)確率至關(guān)重要。本文主要是對(duì)比了目前常用的幾種語(yǔ)義分析的方法,提出了相對(duì)來(lái)說(shuō)效率更高,準(zhǔn)確率也能得到保障的方法。

【關(guān)鍵詞】文本分析;手工編寫(xiě)規(guī)則;機(jī)器學(xué)習(xí)

1 背景內(nèi)容

規(guī)則維護(hù)的辦法,目前主要思路如下:先整理大量的樣本數(shù)據(jù),先手工打上各種分類(lèi)標(biāo)簽或者關(guān)鍵字,然后以這些手工梳理好后的樣本數(shù)據(jù)或者關(guān)鍵字為基準(zhǔn)去手工編寫(xiě)規(guī)則。

但是后期隨著關(guān)鍵字的變化或者樣本數(shù)據(jù)的豐富,會(huì)發(fā)現(xiàn)現(xiàn)有規(guī)則的準(zhǔn)確性、覆蓋率越來(lái)越低,甚至出現(xiàn)大量的樣本數(shù)據(jù)都匹配不到現(xiàn)在的分類(lèi)中。定期對(duì)現(xiàn)有規(guī)則的維護(hù)是一項(xiàng)很重要并且很必須的工作。

隨著規(guī)則的積累和樣本量的增加,手工維護(hù)規(guī)則的工作量會(huì)越來(lái)越來(lái),為了保證語(yǔ)義分析的效果,規(guī)則開(kāi)發(fā)維護(hù)的人員會(huì)越來(lái)越多,會(huì)使得成本增加;另一方面因?yàn)橐?guī)則的積累,導(dǎo)致規(guī)則混亂,在累加規(guī)則中,甚至?xí)霈F(xiàn)在手工維護(hù)規(guī)則后,規(guī)則的準(zhǔn)確性和覆蓋性越來(lái)越低。

2 文本分析常用方法

2.1 手工編寫(xiě)規(guī)則

1)提供大量的樣本數(shù)據(jù);

2)通過(guò)人工手動(dòng)去打上相應(yīng)的標(biāo)簽、關(guān)鍵字;

3)數(shù)據(jù)分析師根據(jù)關(guān)鍵詞,輸出分類(lèi)對(duì)應(yīng)的規(guī)則;

4)再用另外一部分樣本去驗(yàn)證手工編寫(xiě)規(guī)則的準(zhǔn)確率、覆蓋率;

5)對(duì)于有明顯某些分類(lèi)的準(zhǔn)確率覆蓋率較低的分類(lèi),需要專(zhuān)項(xiàng)再重新去分析優(yōu)化。

優(yōu)點(diǎn):

相應(yīng)分類(lèi)樣本充足的情況下,準(zhǔn)確率覆蓋率都可以達(dá)到較高的值。

缺點(diǎn):

需要大量的業(yè)務(wù)人員,能夠?qū)颖緮?shù)據(jù)歸納分類(lèi);

需要大量的分析師,并且對(duì)分析師要求還較高,需要了解業(yè)務(wù),能夠通過(guò)大量數(shù)據(jù)識(shí)別關(guān)鍵字進(jìn)行分析;

編寫(xiě)規(guī)則的周期較長(zhǎng);

規(guī)則需要定期維護(hù),否則準(zhǔn)確率覆蓋率會(huì)逐漸降低;

由于樣本局限性,在實(shí)際應(yīng)用場(chǎng)景中,會(huì)有大量的數(shù)據(jù)匹配不到分類(lèi);

2.2 機(jī)器學(xué)習(xí)通過(guò)訓(xùn)練生成數(shù)據(jù)模型

1)提供樣本數(shù)據(jù)(對(duì)比手工編寫(xiě)規(guī)則的量要小);

2)用樣本數(shù)據(jù)做訓(xùn)練,生成數(shù)據(jù)模型;

3)用訓(xùn)練后的數(shù)據(jù)模型驗(yàn)證新的樣本數(shù)據(jù);

4)對(duì)于準(zhǔn)確性較差的分類(lèi),需要再次調(diào)整優(yōu)化數(shù)據(jù)模型,提高準(zhǔn)確率。

優(yōu)點(diǎn):

規(guī)則周期短;

需要的人力少;

需要樣本量相對(duì)來(lái)說(shuō)少;

缺點(diǎn):

整體的準(zhǔn)確率達(dá)不到手工編寫(xiě)規(guī)則的值;

3 機(jī)器學(xué)習(xí)結(jié)合人工編寫(xiě)規(guī)則

3.1 方法論的產(chǎn)生

純手工維護(hù)規(guī)則,可以使得某些分類(lèi)的準(zhǔn)確率達(dá)到很高,但是輸出規(guī)則需要很長(zhǎng)的周期,并且也很多人力支撐,輸出的規(guī)則很有局限性,不在樣本范圍內(nèi)的規(guī)則或者關(guān)鍵字,無(wú)法識(shí)別,后期需要很高的維

成本;

機(jī)器學(xué)習(xí)通過(guò)訓(xùn)練,能夠很快速的生成數(shù)據(jù)模型,對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分析。但是準(zhǔn)確率無(wú)法達(dá)到手工收工維護(hù)規(guī)則的程度。

手工維護(hù)規(guī)則精度夠,但是周期長(zhǎng)、可擴(kuò)展性不強(qiáng);機(jī)器學(xué)習(xí)可擴(kuò)展性好,周期短,但是精度不夠。

那何不集合這兩種方法的優(yōu)點(diǎn),提升規(guī)則維護(hù)效率,縮短規(guī)則生成周期,并且后期維護(hù)成本也不用那么高。

3.2 方法步驟

1)提供樣本數(shù)據(jù)(對(duì)比手工編寫(xiě)規(guī)則的量要小);

2)通過(guò)樣本數(shù)據(jù)做訓(xùn)練,生成數(shù)據(jù)模型;

3)用訓(xùn)練后的數(shù)據(jù)模型驗(yàn)證新的樣本數(shù)據(jù);

4)對(duì)于準(zhǔn)確率較差的分類(lèi),需要再次調(diào)整優(yōu)化提高準(zhǔn)確性5)模型訓(xùn)練后準(zhǔn)確性還是較差的分類(lèi),手工編寫(xiě)規(guī)則,提供準(zhǔn)確性;

6)機(jī)器學(xué)習(xí)可以輸出相應(yīng)的關(guān)鍵字,提高了編寫(xiě)規(guī)則的效率;

7)對(duì)于后期新增的業(yè)務(wù)場(chǎng)景和數(shù)據(jù),機(jī)器學(xué)習(xí)可以及時(shí)識(shí)別,降低了無(wú)法識(shí)別分類(lèi)的概率。

3.3 方法論總結(jié)

機(jī)器學(xué)習(xí)和傳統(tǒng)的手工編寫(xiě)規(guī)則相結(jié)合的方法,既提高了規(guī)則輸出的效率,又保障了一定的準(zhǔn)確性;既減少了維護(hù)工作的人力訴求,也保障了維護(hù)工作的準(zhǔn)確率的穩(wěn)定性。兩者相互取長(zhǎng)補(bǔ)短,互相融合使用,可以有效得提升規(guī)則維護(hù)得效率。

猜你喜歡
文本分析機(jī)器學(xué)習(xí)
投資者情緒短期對(duì)股票市場(chǎng)的影響研究
前綴字母為特征在維吾爾語(yǔ)文本情感分類(lèi)中的研究
文本情感計(jì)算系統(tǒng)“小菲”的設(shè)計(jì)及其在教育領(lǐng)域文本分析中的應(yīng)用
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
初中英語(yǔ)聽(tīng)說(shuō)課教學(xué)實(shí)踐探索
《化學(xué):概念與應(yīng)用》專(zhuān)題作業(yè)設(shè)計(jì)分析及啟示
含山县| 博罗县| 德令哈市| 宿迁市| 芷江| 习水县| 上杭县| 彰化市| 彭泽县| 新乐市| 壤塘县| 新沂市| 道孚县| 昌平区| 鹤岗市| 南阳市| 利川市| 金川县| 武宣县| 青海省| 永胜县| 韶山市| 始兴县| 潜江市| 山阴县| 玉树县| 邛崃市| 东阿县| 洪泽县| 门源| 新田县| 清水河县| 红原县| 盐城市| 镇安县| 铜山县| 南部县| 滦南县| 繁峙县| 宁城县| 新巴尔虎左旗|