国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于統(tǒng)計(jì)方法的新詞發(fā)現(xiàn)研究

2018-11-23 06:10:32
福建質(zhì)量管理 2018年21期
關(guān)鍵詞:詞頻新詞分詞

(云南財(cái)經(jīng)大學(xué) 云南 昆明 650032)

一、引言

對(duì)于英語(yǔ)等很多西方語(yǔ)言來(lái)說(shuō),其文本內(nèi)容中的詞與詞之間是以空格、標(biāo)點(diǎn)等符號(hào)顯式分隔的,因此可以很容易的將詞切割開(kāi),并不存在分詞的問(wèn)題。然而中文的文本內(nèi)容是以連續(xù)的漢字串形式表示的,詞與詞之間沒(méi)有明確的分隔標(biāo)記,因此,中文的自動(dòng)分詞一直是自然語(yǔ)言處理領(lǐng)域中的一項(xiàng)非常重要的基礎(chǔ)性工作,如果無(wú)法獲得準(zhǔn)確的分詞,也就無(wú)法再進(jìn)行后續(xù)操作。近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動(dòng)終端的普及,以及微博、抖音等社交媒體的出現(xiàn),開(kāi)始涌現(xiàn)大量的新詞,新詞的出現(xiàn)使現(xiàn)有分詞軟件的分詞準(zhǔn)確率明顯降低。同時(shí),由于不同行業(yè)或?qū)W科中都有其特定的專(zhuān)業(yè)術(shù)語(yǔ),現(xiàn)有分詞軟件很難做到個(gè)性化處理準(zhǔn)確地對(duì)特殊詞匯進(jìn)行分割。因此,如何有效地發(fā)現(xiàn)新詞,對(duì)提高中文分詞的分詞效果有著重要作用,對(duì)提高工作效率具有重要的意義。

二、新詞發(fā)現(xiàn)的研究現(xiàn)狀

目前,新詞發(fā)現(xiàn)主要有基于統(tǒng)計(jì)的新詞發(fā)現(xiàn)和基于規(guī)則的新詞發(fā)現(xiàn)兩大類(lèi)方法。Peng(2004)將詞匯特征和領(lǐng)域知識(shí)特征融入到模型中,利用CRF訓(xùn)練,進(jìn)而識(shí)別新詞。徐憶蘇(2008)利用條件隨機(jī)場(chǎng)模型對(duì)上下文特征進(jìn)行訓(xùn)練,從而進(jìn)行新詞識(shí)別。徐遠(yuǎn)方(2012)等人通過(guò)支持向量機(jī)訓(xùn)練新詞詞間模式特征和詞內(nèi)模式特征的向量化樣本,得到支持向量機(jī)從而預(yù)測(cè)新詞。陳飛(2013)等人利用條件隨機(jī)場(chǎng)方法,結(jié)合歸納出的許多區(qū)分新詞邊界的統(tǒng)計(jì)特征實(shí)現(xiàn)了新詞發(fā)現(xiàn),并在SogouT 大規(guī)模語(yǔ)料上進(jìn)行新詞發(fā)現(xiàn)實(shí)驗(yàn),證明了方法的有效性。黃軒(2013)等通過(guò)詞出現(xiàn)的頻率,詞分布的密度,上下文分析以及詞在時(shí)間域上的變化分析對(duì)詞進(jìn)行過(guò)濾;最后通過(guò)詞的統(tǒng)計(jì)信息和詞性規(guī)則對(duì)候選詞進(jìn)行排序以提高準(zhǔn)確率;在此基礎(chǔ)上建立新詞發(fā)現(xiàn)系統(tǒng)。邢恩軍(2016)等提出了一種基于上下文詞頻詞匯量的統(tǒng)計(jì)指標(biāo)來(lái)實(shí)現(xiàn)新詞發(fā)現(xiàn)的方法,而該指標(biāo)主要通過(guò)修改信息熵公式中參數(shù)的定義。

基于規(guī)則的方法往往需要人工構(gòu)建規(guī)則庫(kù),這些規(guī)則的建立往往需要耗費(fèi)大量的人力物力,且新詞出現(xiàn)速度快,消失地也快,人工構(gòu)建規(guī)則庫(kù)常常跟不上新詞的腳步。而且大部分規(guī)則都具有局限性,只能針對(duì)特定領(lǐng)域,很難制定出完全適用于各個(gè)領(lǐng)域的規(guī)則。基于統(tǒng)計(jì)的方法通常利用有監(jiān)督的機(jī)器學(xué)習(xí)算法進(jìn)行新詞發(fā)現(xiàn),這些算法都需要標(biāo)注語(yǔ)料,而且算法復(fù)雜。而本文基于統(tǒng)計(jì)方法的新詞發(fā)現(xiàn)并不需要大量的預(yù)料標(biāo)注,算法簡(jiǎn)單。主要步驟為首先對(duì)語(yǔ)料進(jìn)行預(yù)處理,通過(guò)計(jì)算詞內(nèi)部結(jié)合度,篩選出候選二元詞組; 然后計(jì)算邊界自由度,對(duì)二元詞組再次篩選和擴(kuò)展,并通過(guò)調(diào)節(jié)閾值最終發(fā)現(xiàn)新詞。

三、基于內(nèi)部凝固度和邊界自由度的新詞發(fā)現(xiàn)

(一)文本預(yù)處理

要進(jìn)行新詞發(fā)現(xiàn)的工作,首先要對(duì)文本在現(xiàn)有技術(shù)的條件下進(jìn)行一次分詞,再?gòu)姆衷~好的語(yǔ)料中進(jìn)行統(tǒng)計(jì)、分析,從中找到需要的新詞,我們把這一步驟稱(chēng)為一元分詞。本文中的所有分析都是在Python軟件中實(shí)現(xiàn)的,而在Python中,有封裝好的分詞工具可以使用,因此,直接利用Python中的jieba分詞工具對(duì)文本進(jìn)行一元分詞。經(jīng)過(guò)jieba分詞后,大部分常用詞都可以被正確分開(kāi),少部分新詞也可以被找到。例如,“我們?cè)谕胬侨藲ⅰ边@句話(huà),就可以被切分成“我們/在/玩/狼人/殺”,而“狼人殺”是一個(gè)最近流行的桌游,是我們想要發(fā)現(xiàn)的新詞,但進(jìn)行一元分詞后并沒(méi)有把它正確劃分出,因此,需要進(jìn)行后續(xù)分析。

(二)內(nèi)部凝固度

進(jìn)行一元分詞后的語(yǔ)料會(huì)以單字和詞語(yǔ)的形式呈現(xiàn),如果一個(gè)新詞被錯(cuò)誤的劃分開(kāi),則會(huì)被分成兩個(gè)甚至更多的部分,所以要想找到新詞,這里又把臨近的詞兩兩組合,重新構(gòu)成字符串,我們把新構(gòu)成的詞稱(chēng)為二元詞。例如,上例中的“我們/在/玩/狼人/殺”,構(gòu)成二元詞就是“我們?cè)?在玩/玩狼人/狼人殺”。

內(nèi)部凝固度是對(duì)兩個(gè)一元詞緊密結(jié)合的度量,用來(lái)衡量?jī)蓚€(gè)詞構(gòu)成新詞語(yǔ)的可能性。凝固度越大,表明結(jié)合的越緊密,構(gòu)成新詞的可能性就越大。例如詞A和詞B單獨(dú)出現(xiàn)的概率分別是P(A)和P(B),假設(shè)這兩個(gè)詞是獨(dú)立詞,則兩個(gè)詞同時(shí)出現(xiàn)的概率為P(A)*P(B)。如果這兩個(gè)詞不是獨(dú)立的,則兩個(gè)詞同時(shí)出現(xiàn)的條件概率會(huì)大于P(A)*P(B),即P(C)>P(A)*P(B)。

把上一步得到二元詞進(jìn)行凝固度判斷,剔除小于設(shè)定閾值的商品,選擇大于設(shè)定閾值的二元詞進(jìn)行下一步分析。但凝固度對(duì)稀疏數(shù)據(jù)特別敏感,通過(guò)凝固度篩選的二元詞可能會(huì)有很多噪音,影響準(zhǔn)確性。例如,P(C)很小,但如果P(A)和P(B)也足夠小,那么C仍會(huì)被認(rèn)為通過(guò)了凝固度檢驗(yàn)。因此,我們需要對(duì)二元詞進(jìn)行詞頻統(tǒng)計(jì),只有大于設(shè)定閾值后,才能進(jìn)行凝固度判斷。

(三)邊界自由度

通過(guò)了凝固度檢驗(yàn)還不能判斷出該二元詞就可以成詞,還需要從整體上看這個(gè)詞的外部表現(xiàn)情況。邊界自由度是指一個(gè)字符串的鄰接集合中的鄰接字種類(lèi)的數(shù)量。邊界自由度越大,表明字符串的邊界集合中字符的種類(lèi)越多,即與該字符串相鄰的字符越復(fù)雜,那么該字符串成為邊界的可能性就越大,反之亦然。比如,“輩子”這個(gè)字符串,用法非常固定,除了“一輩子”、“這輩子”、“上輩子”、“下輩子”,基本上“輩子”前面不能加別的字了,即它的左臨字集合非常有限,因此,我們認(rèn)為“輩子”這個(gè)字符串不能成為一個(gè)單獨(dú)的詞,而它和它的左鄰字構(gòu)成的新詞才有可能構(gòu)成一個(gè)真正的詞,像“這輩子”、“上輩子”。

如果一個(gè)文本片段能夠算作一個(gè)詞的話(huà),它應(yīng)該能夠靈活地出現(xiàn)在各種不同的環(huán)境中,具有非常豐富的左鄰字集合和右鄰字集合。在這里,我們由下式衡量二元詞的自由度:

P=左(右)鄰字字頻/二元詞詞頻

P越大,表示自由度越小,鄰字和二元詞更有可能構(gòu)成新詞,而該二元詞不能成為新詞。對(duì)通過(guò)凝固度篩選的二元詞進(jìn)行自由度判斷,如果左右鄰接字都小于設(shè)定的閾值,則認(rèn)為該二元詞就是我們要找的新詞。如果左鄰接字大于閾值,則把左鄰字和二元詞構(gòu)成的詞當(dāng)作新詞。同理,對(duì)右鄰字也做這樣的判斷。

(四)算法流程

本文的新詞發(fā)現(xiàn)算法主要就由文本預(yù)處理,內(nèi)部凝固度算法和邊界自由度算法構(gòu)成,算法的總流程如下圖所示:

四、實(shí)驗(yàn)及結(jié)果分析

本文采用文言文版的西游記一書(shū)作為文本材料進(jìn)行實(shí)驗(yàn),因?yàn)楣艥h語(yǔ)與現(xiàn)代漢語(yǔ)在成詞、結(jié)構(gòu)、語(yǔ)序等方面都有很多不同,因此,在時(shí)間緊迫來(lái)不及獲取更多文本語(yǔ)料的情況下,選此作為實(shí)驗(yàn)數(shù)據(jù)。

常用來(lái)判斷算法好壞的指標(biāo)是準(zhǔn)確率和召回率:

準(zhǔn)確率=正確識(shí)別出的新詞個(gè)數(shù)/識(shí)別出的詞串總個(gè)數(shù)

召回率=正確識(shí)別出的新詞個(gè)數(shù)/語(yǔ)料中新詞總個(gè)數(shù)

因?yàn)闊o(wú)法確定語(yǔ)料中的新詞總個(gè)數(shù),因此只采用準(zhǔn)確率來(lái)判斷算法好壞。通過(guò)Python實(shí)現(xiàn)上述算法(由于文章篇幅所限,并未附上代碼,如有需要可以聯(lián)系作者)后,采用不同的閾值對(duì)語(yǔ)料進(jìn)行分析得到結(jié)果如下:

詞頻閾值凝固度閾值自由度閾值詞串個(gè)數(shù)新詞個(gè)數(shù)準(zhǔn)確率1020000.521810045.87%2020000.5562850%1010000.530010133.67%1020000.721810045.87%

通過(guò)結(jié)果可以看出,不同閾值的選擇對(duì)輸出結(jié)果還是有很大的影響。詞頻閾值設(shè)置過(guò)大,準(zhǔn)確率可以提升,但發(fā)現(xiàn)的新詞個(gè)數(shù)也大幅度下降;凝固度閾值過(guò)小,會(huì)造成準(zhǔn)確率下降;而第一組和第四組的輸出結(jié)果幾乎相同,說(shuō)明能作為新詞的二元詞,其在語(yǔ)句中都具有極高的靈活度,閾值增加到0.7幾乎不產(chǎn)生影響。

輸出結(jié)果的準(zhǔn)確率都在50%左右,證明了這個(gè)算法的有效性,但如前所述,閾值不同其輸出結(jié)果也不同。同時(shí),由于不同文本的特征不同,其對(duì)閾值的要求也會(huì)相應(yīng)不同。因此,接下來(lái)的研究方向就是尋找最佳的閾值設(shè)定,同時(shí)希望能找到一種針對(duì)不同文本都具有普適性的閾值設(shè)定方法。

猜你喜歡
詞頻新詞分詞
基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
結(jié)巴分詞在詞云中的應(yīng)用
《微群新詞》選刊之十四
值得重視的分詞的特殊用法
詞頻,一部隱秘的歷史
云存儲(chǔ)中支持詞頻和用戶(hù)喜好的密文模糊檢索
以關(guān)鍵詞詞頻法透視《大學(xué)圖書(shū)館學(xué)報(bào)》學(xué)術(shù)研究特色
小議網(wǎng)絡(luò)新詞“周邊”
高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
外教新詞堂
新宁县| 新民市| 仙游县| 德钦县| 云龙县| 广河县| 山阳县| 乡城县| 高尔夫| 天台县| 兴仁县| 贡山| 宝山区| 拉萨市| 祥云县| 乌鲁木齐县| 叙永县| 当雄县| 永兴县| 南昌县| 杭锦后旗| 榆树市| 河曲县| 盐山县| 东光县| 阿巴嘎旗| 镇原县| 株洲县| 西平县| 浮山县| 岳池县| 长乐市| 桃园市| 灌南县| 普安县| 玛多县| 大安市| 施秉县| 建始县| 内乡县| 南汇区|