国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BP神經(jīng)網(wǎng)絡(luò)的藏語實體關(guān)系抽取

2019-06-06 04:21郭莉莉孫媛
軟件導(dǎo)刊 2019年3期
關(guān)鍵詞:藏語BP神經(jīng)網(wǎng)絡(luò)

郭莉莉 孫媛

摘 要:隨著藏文信息開始與現(xiàn)代化接軌,藏文信息數(shù)量在網(wǎng)絡(luò)上迅速增加。面對海量的網(wǎng)絡(luò)信息,如何從中挖掘人們所需的信息成為目前關(guān)注的熱點。目前中文實體關(guān)系抽取研究已取得較多成果,而在藏語人物屬性抽取研究方面還有很大的提升空間。實驗選取實體位置關(guān)系、實體間距離關(guān)系、實體及周圍詞特征進(jìn)行特征向量化。通過BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類抽取,并且取得了較好效果。研究成果可在搜索引擎、信息安全、機(jī)器翻譯等許多應(yīng)用領(lǐng)域發(fā)揮重要作用。

關(guān)鍵詞:藏語;實體關(guān)系抽取;BP神經(jīng)網(wǎng)絡(luò)

DOI:10. 11907/rjdk. 181807

中圖分類號:TP301文獻(xiàn)標(biāo)識碼:A文章編號:1672-7800(2019)003-0007-03

0 引言

隨著互聯(lián)網(wǎng)的迅速發(fā)展,電子文本信息資源數(shù)量越來越多,網(wǎng)民的增長速度也不斷加快,其中藏族網(wǎng)民近年來的增長幅度達(dá)到86%,遠(yuǎn)高于全國的平均增長速度[1]。如今自然語言處理技術(shù)已成為計算機(jī)領(lǐng)域的重要研究方向之一,其研究成果也為社會帶來了巨大價值。如何對龐大的電子文本信息資源進(jìn)行有效利用,并從中快速、準(zhǔn)確地獲取人們所需的信息,已成為當(dāng)前關(guān)注的熱點問題。

由于互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長,使研究熱點更多地轉(zhuǎn)向Web內(nèi)容結(jié)構(gòu)化分析[2],在自然語言處理研究中,知識圖譜開始得到人們的重點關(guān)注。由于少數(shù)民族語言知識圖譜的構(gòu)建才剛剛起步,所有藏文信息以文本形式顯示為主,而缺少知識的結(jié)構(gòu)化表示。如果將藏文知識以實體方式表示,并通過實體與實體之間的鏈接表征知識之間的關(guān)系,將有利于藏文知識的結(jié)構(gòu)化分析與深度挖掘。

80年代初期,中國社會科學(xué)院民族所張連生嘗試用計算機(jī)進(jìn)行藏文詞匯排序,開啟了藏文文本處理的先河。但由于藏語形式與英語及漢語有著很大不同,在計算機(jī)操作系統(tǒng)平臺上對其進(jìn)行開發(fā)十分困難。截至目前,在藏語文本資源及文獻(xiàn)分類、文本統(tǒng)計[3]與嫡值計算[4]、文本資源建設(shè)與詞典構(gòu)建等方面研究已取得較大進(jìn)展,從而為本文的藏語實體關(guān)系抽取研究打下了良好基礎(chǔ)。

1 研究現(xiàn)狀

實體關(guān)系抽取是信息處理技術(shù)中的重要環(huán)節(jié)。由于藏語人物屬性抽取工作尚處于起步階段,還有大量工作有待完成。在英文研究方面提出了基于特征向量[5-6]與基于核函數(shù)的方法[7-8],在中文研究方面也有針對這兩種方法的具體應(yīng)用研究[9-10]。在使用模式匹配技術(shù)的基礎(chǔ)上,鄧擘等[11]引入詞匯語義匹配技術(shù)對漢語實體關(guān)系進(jìn)行抽取;張葦如等[12]提出一種基于維基百科與模式聚類的方法,從開放文本中抽取高準(zhǔn)確率的中文關(guān)系實體對;Culotta[13]利用一些轉(zhuǎn)換規(guī)則,定義基于依存樹的核函數(shù),并使用SVM分類器進(jìn)行關(guān)系抽取;Zhang等[14]設(shè)計了一種復(fù)合卷積樹核函數(shù)進(jìn)行關(guān)系抽取。

藏語自然語言處理[15]研究目前存在最大的困難是藏語語料的缺乏。在藏語實體關(guān)系抽取方面,現(xiàn)有研究成虹非常少。在文獻(xiàn)[16]中提出基于泛化模板與SVM相結(jié)合的方法抽取實體關(guān)系;在文獻(xiàn)[17]中提出基于SVM的方法進(jìn)行藏語人名屬性抽取研究,并且已取得一定成果。

2 方法描述

BP神經(jīng)網(wǎng)絡(luò)的實體關(guān)系抽取是將實體關(guān)系的判別問題轉(zhuǎn)化為分類問題。本文首先從許多藏文網(wǎng)站爬取得到具有實體關(guān)系的文本;然后從文本中篩選出具有實體關(guān)系的句子進(jìn)行預(yù)處理,如分詞、詞性標(biāo)注等;對于標(biāo)注好的語料,選取相關(guān)實體位置關(guān)系、實體之間距離、實體及實體周圍詞特征進(jìn)行向量化,作為輸入數(shù)據(jù);最后利用構(gòu)建好的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行判別分類。整體抽取過程如圖1所示。

2.1 特征向量化

本文對需要處理的語料進(jìn)行向量化。本文特征選取主要采用實體詞位置關(guān)系、實體詞距離關(guān)系、實體詞周圍特征以及實體本身特征。假設(shè)實體關(guān)系中的兩個實體分別為E1、E2。

(1)實體位置關(guān)系。兩個實體在藏文句子中出現(xiàn)的順序是決定其關(guān)系的重要因素之一。在非包含關(guān)系的實體位置特征中考慮的情況有兩種:一種情況是實體E1在實體E2之前,表示為EP12;另一種情況是實體E1在實體E2之后,表示為EP21。

(2)實體距離關(guān)系。兩個實體在藏文句子中會產(chǎn)生一定距離。兩個實體詞之間距離不同,表達(dá)的兩個實體詞之間的信息也不同。將兩個實體之間的距離特征表示為Ed。

(3)實體及周圍詞特征。實體詞周圍特征以及實體本身特征包含詞特征以及詞性特征。藏語與漢語、英語有很大不同,比如藏語句型是謂語后置,其中的動詞是句子的關(guān)鍵。在藏文實體關(guān)系抽取工作中,格標(biāo)記同樣起著關(guān)鍵作用。

本文選擇實體周圍窗口Windows大小為2,也即是實體前后兩個詞的詞性特征,選取格助詞(/k)、動詞(/v)、形容詞(/a)、數(shù)詞(/m)、連詞(/c)作為實體周圍詞的詞性特征。本文研究中實體E2為出生地、出生日期、逝世日期、父親、母親、國籍、職業(yè)、有關(guān)人物、性別等。實體E2詞性特征E2pog可以表示為/ng、/nt、/ns、/nh、/nz 共5種。實體E1全部為人名,其詞性都為人物名詞,沒有顯著區(qū)別,所以在本文中忽略不計。[EWi]表示詞匯特征,i=1,2,[Epog]表示詞匯詞性特征,分別如式(1)、式(2)所示。

2.2 BP神經(jīng)網(wǎng)絡(luò)

隱藏層可以有任意多個,本文使用兩層隱藏層對實體關(guān)系進(jìn)行判別。隱藏層節(jié)點數(shù)一般根據(jù)前人設(shè)計所得經(jīng)驗與自己試驗進(jìn)行確定。另外,隱藏層節(jié)點數(shù)太多會導(dǎo)致學(xué)習(xí)時間過長,而節(jié)點數(shù)太少,識別未經(jīng)學(xué)習(xí)的樣本能力差。隱藏層節(jié)點數(shù)L的初始值可先由以下兩個公式中的其中之一確定:

3 實驗

3.1 語料預(yù)處理

本文的藏語語料是通過配置的爬蟲系統(tǒng)從多個藏文網(wǎng)站爬取的,如維基百科(藏語版)、康巴傳媒網(wǎng)、中國藏族中學(xué)網(wǎng)等。然后從中篩選出關(guān)于藏族人物介紹的文章,并對這些句子作一些預(yù)處理,如人工分詞、詞性語料標(biāo)注等,其中篩選包含人物屬性的句子4 216句,采用3 000句作為訓(xùn)練數(shù)據(jù),1 216句作為測試數(shù)據(jù)。

3.2 評價指標(biāo)

實體關(guān)系抽取的性能評價使用信息檢索中的評價方法,召回率(R)可被粗略看成是測量被正確抽取的信息比例,而準(zhǔn)確率(P)用來測量抽取的信息中有多少是正確的。一般召回率與準(zhǔn)確率存在反比關(guān)系,也即準(zhǔn)確率增大會導(dǎo)致召回率減小,反之亦然。本文采用F值對最終的系統(tǒng)性能進(jìn)行評價,F(xiàn)值越接近1,表示結(jié)果越好。

3.3 實驗參數(shù)設(shè)置

本文隱藏層選用Sigmoid函數(shù),輸出層選用線性函數(shù)。訓(xùn)練函數(shù)有trainlm算法、trainrp算法、trainbfg算法、traingdx算法等。本文選用了適合模擬分類的traingdx算法。選擇的學(xué)習(xí)速度參數(shù)不能太大,否則會出現(xiàn)算法不收斂的情況,也不能太小,否則會使訓(xùn)練時間太長。一般選擇0.01~0.1之間的值,本文選用0.01,訓(xùn)練目標(biāo)誤差為0.01。

3.4 實驗結(jié)果及分析

在同樣語料的情況下,本文采用支持向量機(jī)方法進(jìn)行實驗,實驗結(jié)果如表1所示。

從表1可以直觀地看出,在選取相同特征及相同語料的基礎(chǔ)上,使用BP神經(jīng)網(wǎng)絡(luò)模型比使用SVM模型的實驗結(jié)果在正確率、召回率以及F值上都有更好效果,其中F值提高了1%。

實驗采用MATLAB對結(jié)果作進(jìn)一步分析,如圖3所示為訓(xùn)練結(jié)果,隨著迭代次數(shù)增加,檢驗參數(shù)的值不斷減少。在迭代106次時,最佳的檢驗參數(shù)是0.653。

圖4是BP神經(jīng)網(wǎng)絡(luò)模型的實際與預(yù)測分類對比結(jié)果。黑色表示預(yù)測類別的標(biāo)簽,灰色表示測試之前標(biāo)注好的標(biāo)簽。

4 結(jié)語

本文介紹了使用BP神經(jīng)網(wǎng)絡(luò)模型對藏語實體關(guān)系進(jìn)行抽取的方法。實驗結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)相比于SVM分類器,在正確率、召回率以及F值上都有更好效果。目前,藏語語料還不夠豐富,與漢語測試數(shù)據(jù)相比,實驗中藏語數(shù)據(jù)相對比較單一,而且標(biāo)注數(shù)量有限,對語料的收集與檢驗工作還需進(jìn)一步完善。因此,在藏語實體關(guān)系抽取研究上仍有很大的提升空間。該研究在搜索引擎、網(wǎng)絡(luò)信息過濾與信息安全、機(jī)器翻譯等許多應(yīng)用領(lǐng)域可發(fā)揮重要的作用。

參考文獻(xiàn):

[1] 李光,鐘雅瓊. 大陸研擬藏維文網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)監(jiān)控分裂風(fēng)險[EB/OL].? http://news.ifeng.com/.

[2] BIZER C,HEATH T,BERNERS-LEE T. Linked data-the story so far [J]. International Journal on Semantic Web and Information Systems (IJSWIS),2009,5(3):1-22.

[3] 梁金寶. 藏語歷史文獻(xiàn)詞匯統(tǒng)計[D]. 北京:中國社會科學(xué)院民族學(xué)與人類學(xué)研究所,2013.

[4] 祁坤鈺. 信息處理用藏文自動分詞研究[J]. 西北民族大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2006,26(4): 92-97.

[5] ZHOU G D,ZHANG M. Extracting relation information from text documents by exploring various types of knowledge[J]. Information Processing and Management,2007(43): 969-982.

[6] NANDA KAMBHATLA. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[C].? Proceedings of ACL, 2004: 178-181.

[7] QIAN L H,ZHOU G G,KONG F, et al. Exploiting constituent dependencies for tree kernel-based semantic relation extraction[C]. Proceedings of COLING, 2008: 697-704.

[8] ZHOU G D,ZHANG? M,JI? D H, et? al. Tree? kernel-based? relation? extraction with context-sensitive structured parse tree information? [C]. Proceedings of? EMNLP/CONLL,2007:728-736.

[9] CHE W X,JIANG J M, ZHONG SU,et al. Improved-Edit-Distance kernel for Chinese relation extraction[C]. Proceedings of IJCNLP, 2005:132-137.

[10] 莊成龍,錢龍華,周國棟. 基于樹核函數(shù)的實體語義關(guān)系抽取方法研究[J].? 中文信息學(xué)報,2009,23(1):3.

[11] 鄧擘,樊孝忠,楊立公. 用語義模式提取實體關(guān)系的方法[J]. 計算機(jī)工程,2007,33(10):212-214.

[12] 張葦如,孫樂,韓先培. 基于維基百科和模式聚類的實體關(guān)系抽取方法[J]. 中文信息學(xué)報,2012,26(2): 75-81.

[13] CULOTTA A, SORENSEN J. Dependency tree kernels for relation extraction [C].? Proceedings of ACL, 2004: 423-429.

[14] ZHANG M, ZHANG J, SU J, et al. A compo site kernel to extract relations between entities with both flat and structured features [C].? Proceedings of ACL, 2006: 825-832.

[15] SUN Y, YAN X, ZHAO X, et al. Research on automatic recognition of Tibetan personal names based on multi-features[C]. International Conference on Natural Language Processing and Knowledge Engineering. IEEE, 2010:1-5.

[16] 朱臻,孫媛. 基于SVM和泛化模版協(xié)作的藏文人物屬性抽取[J]. 中文信息學(xué)報,29(6): 220-227.

[17] 蘭義涌. 藏文人名屬性抽取及消歧研究[D]. 北京:中央民族大學(xué), 2016.

(責(zé)任編輯:黃 ?。?/p>

猜你喜歡
藏語BP神經(jīng)網(wǎng)絡(luò)
淺談藏語中的禮儀語
漢藏語及其音樂
藏語拉達(dá)克話的幾個語音特征
藏語地理分布格局的形成原因
現(xiàn)代藏語元音特征研究
《栴檀瑞像傳入中國記》的回鶻語與藏語譯文
若尔盖县| 金坛市| 沛县| 依安县| 高陵县| 遵义县| 舒城县| 大渡口区| 永平县| 孟津县| 黑水县| 星座| 军事| 临漳县| 潜山县| 昌邑市| 天柱县| 雅江县| 丹寨县| 广昌县| 克山县| 乐亭县| 贵德县| 通海县| 彰化县| 华坪县| 晋城| 咸宁市| 涿州市| 那曲县| 宁乡县| 西盟| 福鼎市| 富民县| 桦南县| 龙门县| 麻江县| 德令哈市| 从江县| 东莞市| 临湘市|