国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于民歌歌詞的情感分類研究與實(shí)現(xiàn)概述

2018-10-30 11:15婷,曹
關(guān)鍵詞:分詞詞典民歌

張 婷,曹 暉

(西北民族大學(xué) 中國(guó)民族語言文字信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730030)

0 引言

我國(guó)幅員遼闊、歷史悠久,全國(guó)56個(gè)民族在漫長(zhǎng)的歲月中共同創(chuàng)作了光輝燦爛的民間音樂文化,為后人留下了十分豐富和優(yōu)秀的文化遺產(chǎn).民歌歌曲代表著一個(gè)民族的文化,也代表著一個(gè)時(shí)代的記憶.隨著時(shí)代的發(fā)展,民歌逐漸淡出人們的視野,因此我們必須記住民歌,傳承經(jīng)典.然而,為了更加有效地搜索民歌,對(duì)民歌進(jìn)行的分類就顯得尤為重要.

近些年來,國(guó)家對(duì)于少數(shù)民族語言、漢語方言和相關(guān)地域文化的保護(hù)措施逐漸加強(qiáng).十九大報(bào)告中指出:“文化是一個(gè)國(guó)家、一個(gè)民族的靈魂.文化興國(guó)運(yùn)興,文化強(qiáng)民族強(qiáng).”“中國(guó)語言資源保護(hù)工程”是順應(yīng)文化大發(fā)展的時(shí)代潮流.我國(guó)是一個(gè)多民族、多語種、文化多元的國(guó)家,民歌集中體現(xiàn)了一個(gè)民族的民族精神、風(fēng)俗習(xí)慣和風(fēng)土人情等,它是民族文化之魂.中國(guó)民歌的情感分類問題,也是民歌研究工作中的一個(gè)重要環(huán)節(jié).

目前,常見的民歌分類按內(nèi)容分有:勞動(dòng)歌、生活歌、情歌、兒歌等.按體裁分有:號(hào)子、山歌、小調(diào)[1].按民族分有:漢、蒙古、藏、壯、維吾爾等族.但是,按情感分類涉及的不多.所謂情感分析又稱作情感計(jì)算,它是一個(gè)多領(lǐng)域交叉的研究方向[2].其研究方向主要包括:文本情感分析[3]、語音情感分析[4]、情感機(jī)器人等.由于地理環(huán)境風(fēng)俗習(xí)慣人文風(fēng)情等差異,民歌的唱法產(chǎn)生了很多不同版本.比如山東的“繡荷包”,旋律舒緩;山西的“繡荷包”,蒼勁高亢.本文從民歌歌詞著手,對(duì)漢語民歌的情感分類進(jìn)行研究,屬于文本情感分析的范疇.

1 主要研究?jī)?nèi)容

本文研究的內(nèi)容是對(duì)民歌情感進(jìn)行分類.目前,對(duì)于民歌的分類大多是按照地域或者題材等分類,這種分類對(duì)人們的幫助和理解是有限的,不足以分析和判斷人們對(duì)民歌的情感和態(tài)度.本文擬采用張曉未在《民歌情感因素探微》的民歌情感分類,進(jìn)行“熱烈歡快”“悲傷憂愁”“童趣天真”“其他類別”的情感分類[5].再結(jié)合已有的音樂情感分類標(biāo)準(zhǔn),通過有效特征融合和情感詞極值表,計(jì)算其權(quán)值大小,然后對(duì)民歌情感進(jìn)行程度判斷.本文將從以下幾個(gè)方面著手研究,其實(shí)驗(yàn)技術(shù)路線圖見圖1.

圖1 民歌分類實(shí)驗(yàn)技術(shù)路線圖

1.1 語料庫的構(gòu)建及預(yù)處理

本文采用語料來源于網(wǎng)上資料和對(duì)各個(gè)音樂網(wǎng)站爬蟲.通過預(yù)處理將其存儲(chǔ)為文本形式.我們首先將文本進(jìn)行人工標(biāo)注和劃分.以山西民歌《走西口》為例,其深刻地唱出了農(nóng)民的苦難和辛酸,這就屬于“悲傷憂愁”的情感.當(dāng)構(gòu)建出語料庫之后,就需要對(duì)文本進(jìn)行預(yù)處理操作,其步驟如下[6]:

1)首先要對(duì)文檔中的無用信息進(jìn)行處理,去除掉文檔中文檔格式、標(biāo)點(diǎn)符號(hào)、數(shù)字、特殊字符等一些無關(guān)信息.

2)對(duì)歌詞文本進(jìn)行分詞,將文本中的歌詞分割成單詞.本文實(shí)驗(yàn)中擬采用多種分詞算法進(jìn)行對(duì)比,選擇分詞正確率較高的進(jìn)行分詞,并對(duì)中文詞性進(jìn)行標(biāo)注.

3)去除文本中的停止詞.在文本中存在著很多無用的沒有區(qū)分和預(yù)測(cè)能力的特征詞,如冠詞、助詞、代詞、介詞、連詞,去掉這些無用的特征詞,可以減少特征總數(shù),因此只提取文本中的具有情感傾向的特征詞.

4)建立文本中詞匯的數(shù)字映射表,對(duì)當(dāng)中的單詞進(jìn)行統(tǒng)計(jì),用文本空間向量來存儲(chǔ),使得文本表示成特征向量.

1.2 中文分詞技術(shù)

歌詞情感分類的前提是切分出單個(gè)的詞語,然后再進(jìn)行其他分析,從而獲得有用信息.而分詞的準(zhǔn)確率在很大程度上對(duì)搜索結(jié)果會(huì)有影響.對(duì)于英文,詞間都有空格作為間隔標(biāo)志,實(shí)現(xiàn)起來相對(duì)容易.對(duì)于中文,只有句子間的標(biāo)點(diǎn)符號(hào),詞與詞之間沒有明確的分隔標(biāo)記[6].

中文分詞就是按照一定規(guī)則,把計(jì)算機(jī)無法理解的字符串切分成計(jì)算機(jī)可以理解的詞序列的過程.四種常用的基于python的中文分詞工具有:jieba、SnowNLP(MIT)、pynlpir(大數(shù)據(jù)搜索挖掘?qū)嶒?yàn)室)、thulac(清華大學(xué)自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室).本文將幾種分詞方法進(jìn)行實(shí)驗(yàn)對(duì)比,并進(jìn)行評(píng)價(jià),找出對(duì)漢語民歌分詞效果最好的分詞方法,以降低對(duì)最終分類結(jié)果的影響.

1.3 情感分析詞典

首先將民歌分為“抒情”“熱烈歡快”“悲傷憂愁”“童趣天真”等類別.然后對(duì)民歌情感再進(jìn)行細(xì)粒度劃分.此時(shí)就需要建立情感分析詞庫,通過對(duì)歌詞中情感詞和情感詞典進(jìn)行對(duì)比,可以計(jì)算出情感值,才能對(duì)民歌進(jìn)行程度判斷.本研究根據(jù)語料質(zhì)量和特征選擇來決定選用何種情感詞典并加以修改.以下將介紹幾種典型的情感分析詞典.

1.3.1 臺(tái)灣大學(xué)中文情感極性詞典

該詞典為簡(jiǎn)體的情感極性詞典,共包含2 812個(gè)正向情感詞和8 278個(gè)負(fù)向情感詞,可以用于二元情感分類任務(wù)當(dāng)中[7].正向情感詞如:乞丐、乞求、乞討、乞得等.負(fù)向情感詞如:小心、小心的、小心謹(jǐn)慎、小心謹(jǐn)慎的等.中文情感極性詞典數(shù)據(jù)可應(yīng)用于以下領(lǐng)域:

1)中文情感詞典的構(gòu)建;

2)中文微博、中文網(wǎng)絡(luò)輿情的情感分析;

3)中文環(huán)境下的機(jī)器學(xué)習(xí).

1.3.2 清華大學(xué)李軍中文褒貶義詞典

該詞典共包含兩個(gè)文件:一個(gè)為褒義,一個(gè)為貶義.該詞典共包含褒義詞5 568個(gè)和貶義詞4 470個(gè)[8].褒義情感詞如:遂意、得救、穩(wěn)帖、謙誠(chéng)等.貶義情感詞如:泡影、失足、浮夸、悲劇等.

1.3.3 知網(wǎng)情感詞典

該詞典主要分為中文和英文兩部分,共包含如下數(shù)據(jù):中文正面評(píng)價(jià)詞語3 730個(gè),中文負(fù)面評(píng)價(jià)詞語3 116個(gè),中文正面情感詞語836個(gè),中文負(fù)面情感詞語1 254個(gè);英文正面評(píng)價(jià)詞語3 594個(gè)、英文正面評(píng)價(jià)詞語3 563個(gè)、英文正面情感詞語769個(gè)、英文負(fù)面情感詞語1 011個(gè)[9].

1.3.4 大連理工大學(xué)中文情感詞匯本體庫

中文情感詞匯本體庫是大連理工大學(xué)信息檢索研究室在林鴻飛教授的指導(dǎo)下,整理和標(biāo)注的一個(gè)中文本體資源.該資源從不同角度描述一個(gè)中文詞匯或者短語,包括詞語詞性種類、情感類別和情感強(qiáng)度等信息[8].

此本體庫是在Ekman的基礎(chǔ)上構(gòu)建的,其對(duì)褒義情感進(jìn)行了更細(xì)致的劃分.最終詞匯本體中的情感共分為7大類21小類.

1.4 文本表示方法

向量空間模型(Vector Space Model)是目前被廣泛使用的文本度量模型.它是一種基于統(tǒng)計(jì)理論的代數(shù)模型.此模型通過將文檔映射為特征向量的方式將對(duì)文本的處理轉(zhuǎn)化為對(duì)空間向量進(jìn)行的向量運(yùn)算,并通過空間上的相似度對(duì)文本間的相似度進(jìn)行表達(dá),使得對(duì)文本的處理變得更簡(jiǎn)單[10].而文本向量化表示實(shí)際上就是對(duì)語料的特征提取過程,也就是分類器的輸入.如:民歌《茉莉花》中“好一朵茉莉花”.分詞之后為“好/一朵/茉莉花”.在這里規(guī)定詞向量空間為:(好,一朵,茉莉花),對(duì)應(yīng)三維空間中的(x,y,z),結(jié)果見圖2.

圖2 VSM的文本量化演化圖

1.5 分類器

文本分類就是通過計(jì)算機(jī)根據(jù)已經(jīng)建立好的分類器,對(duì)未知類別進(jìn)行劃分的過程.文本分類的流程見圖3.

圖3 文本分類流程

民歌歌詞提取情感特征之后,代表歌曲情感的特征向量就要進(jìn)行情感分類.本項(xiàng)目擬采用SVM實(shí)現(xiàn)文本分類[11].SVM最初應(yīng)用于二分類問題,隨后逐漸應(yīng)用于多分類問題上.對(duì)民歌歌詞提取情感特征之后,代表歌曲情感的特征向量就要進(jìn)行情感分類.而本研究將同常用分類方法,如:高斯混合模型、KNN分類算法、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等進(jìn)行對(duì)比評(píng)測(cè),找出分類效果最好的分類算法.

1.6 評(píng)價(jià)指標(biāo)

準(zhǔn)確率(precision)、召回率(recall)和F值(F-measure)是文本情感分類結(jié)果的常用評(píng)價(jià)指標(biāo).

1)在情感分類中,準(zhǔn)確率即正確情感分類的文本數(shù)占總情感分類文本數(shù)的比例,其公式為:

2)召回率也稱查全率,即與人工情感分類結(jié)果相吻合的文本占人工情感分類結(jié)果應(yīng)有文本的比率,其公式為:

3)F值是將準(zhǔn)確率和召回率統(tǒng)一到一個(gè)尺度中,F(xiàn)值越大,說明分類器的分類效果越好,其公式為:

2 結(jié)束語

本文系統(tǒng)地闡述了基于民歌歌詞情感分類研究與實(shí)現(xiàn)的步驟,其主要包括6部分:①建立語料庫;②分詞;③情感詞典;④文本向量化表示;⑤分類器;⑥評(píng)價(jià)指標(biāo).目前對(duì)民歌的情感分類研究的學(xué)者很少,而本項(xiàng)目將從了解中文歌詞的音樂情感分析出發(fā),在對(duì)現(xiàn)有的中文歌詞分類方法理解的基礎(chǔ)上,結(jié)合民歌領(lǐng)域知識(shí),擴(kuò)充民歌情感詞匯表,借助音樂情感分類方法進(jìn)行研究,最終通過分類實(shí)驗(yàn)進(jìn)行驗(yàn)證.

猜你喜歡
分詞詞典民歌
分詞在英語教學(xué)中的妙用
米蘭·昆德拉的A-Z詞典(節(jié)選)
米沃什詞典
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
詞典引發(fā)的政治辯論由來已久 精讀
民歌一樣的小溪(外二章)
藤縣水上民歌
中呂 十二月帶堯民歌 十九大勝利閉幕
穿花衣 唱民歌