国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于在線評(píng)論特征的領(lǐng)域本體概念獲取方法

2018-09-20 05:26:00曹書芳李金海
中國(guó)集體經(jīng)濟(jì) 2018年26期
關(guān)鍵詞:在線評(píng)論

曹書芳 李金海

摘要:文章對(duì)納入在線評(píng)論觀點(diǎn)挖掘過(guò)程中的領(lǐng)域本體的概念獲取方法研究現(xiàn)狀進(jìn)行了分析,發(fā)現(xiàn)存在一些不足,之后基于這些不足與在線評(píng)論的特點(diǎn),提出了基于領(lǐng)域劃分與觀點(diǎn)五元組的領(lǐng)域本體概念獲取方法。

關(guān)鍵詞:在線評(píng)論;觀點(diǎn)挖掘;本體構(gòu)建;概念獲取

一、研究背景

在線評(píng)論指消費(fèi)者通過(guò)互聯(lián)網(wǎng)提交的有關(guān)產(chǎn)品或者公司的評(píng)論信息,是網(wǎng)絡(luò)口碑的重要來(lái)源。不少學(xué)者嘗試從在線評(píng)論中自動(dòng)提取有用信息,并逐漸形成了觀點(diǎn)挖掘方法體系,即從帶有情感色彩的主觀性文本中抽取用戶對(duì)話題、產(chǎn)品、個(gè)人、組織和服務(wù)等的情緒、意見(jiàn)、喜好、情感傾向。觀點(diǎn)挖掘主要任務(wù)有產(chǎn)品特征識(shí)別、情感識(shí)別、情感計(jì)算與匯總。最初學(xué)者采用基于統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、詞典等方法,但由于語(yǔ)義描述模塊的缺失,存在一定局限,如韓忠明等(2017)提出句子中觀點(diǎn)內(nèi)容指向的是具有層次關(guān)系或者從屬關(guān)系的對(duì)象,因此需要能夠自動(dòng)識(shí)別對(duì)象間層次關(guān)系的方法來(lái)幫助提高整個(gè)模型的有效性?;诖耍S著本體理論的發(fā)展,國(guó)內(nèi)外學(xué)者開(kāi)始嘗試將本體引入觀點(diǎn)挖掘過(guò)程,主要原理是利用領(lǐng)域本體對(duì)特征等概念間的關(guān)系進(jìn)行描述,從而實(shí)現(xiàn)模型效果的提升。如王付國(guó)(2014)基于對(duì)象本體與情感本體實(shí)現(xiàn)本體推理,設(shè)計(jì)了一個(gè)基于領(lǐng)域本體的網(wǎng)絡(luò)評(píng)論觀點(diǎn)挖掘模型。隨著研究的深入,少量學(xué)者對(duì)領(lǐng)域本體的構(gòu)建進(jìn)行了研究,普遍認(rèn)為首要步驟就是領(lǐng)域概念的獲取。本文重點(diǎn)關(guān)系領(lǐng)域本體概念獲取的方法,分析現(xiàn)有成果與不足,并構(gòu)建了改善的方法。

二、領(lǐng)域本體相關(guān)理論技術(shù)

(一)領(lǐng)域本體的概念

本體是共享概念模型的明確的形式化規(guī)范說(shuō)明,領(lǐng)域本體(domain ontology)是指對(duì)一定領(lǐng)域范圍內(nèi)的概念進(jìn)行描述的本體,它通過(guò)定義類、實(shí)例、屬性、關(guān)系、公理等元素,刻畫出領(lǐng)域中的類和實(shí)例及其之間的關(guān)系,對(duì)領(lǐng)域知識(shí)進(jìn)行歸納和抽象。一個(gè)本體需要滿足四個(gè)基本特征。

1.概念化。指通過(guò)對(duì)客觀世界中的具體現(xiàn)象進(jìn)行抽象歸納出的相關(guān)概念而獲得的模型。

2.明確性。指本體所使用的概念以及使用相應(yīng)概念的約束具有明確的定義。

3.形式化。指本體可以被計(jì)算機(jī)或信息系統(tǒng)所理解和處理。

4.共享性。指本體中所體現(xiàn)的是范圍內(nèi)共同認(rèn)可的知識(shí)。

因此,創(chuàng)建領(lǐng)域本體的首要工作是明確領(lǐng)域中的概念的范圍、類型。本體中的概念可以是一般意義上的概念,也可以是集合、對(duì)象類型或事物的種類等,用來(lái)描述具有相似點(diǎn)或共同特征的資源的集合。

(二)領(lǐng)域本體的構(gòu)建過(guò)程

領(lǐng)域本體的構(gòu)建有多種方法,其中應(yīng)用最廣泛的是七步法。七步法是斯坦福大學(xué)提出的一種構(gòu)建方法,其主要過(guò)程分為七個(gè)步驟,如圖1所示。

在這些步驟中,前兩步是正式構(gòu)建前的預(yù)備工作,是為了明確本體的需求。第三步指出的領(lǐng)域中的重要術(shù)語(yǔ)即概念,之后類的創(chuàng)建、關(guān)系分析、實(shí)例的構(gòu)建均在該步驟工作的成果上進(jìn)行,因此概念的獲取在一定程度上關(guān)系著領(lǐng)域本體構(gòu)建的成敗。

三、在線評(píng)論觀點(diǎn)挖掘過(guò)程中領(lǐng)域本體概念獲取研究分析

(一)現(xiàn)有研究成果與不足

有少量學(xué)者對(duì)領(lǐng)域本體的構(gòu)建進(jìn)行了分析。馬捷等(2012)從《教育主題詞表》中選取教育領(lǐng)域?qū)I(yè)概念以構(gòu)建教育領(lǐng)域本體。李慶賽(2015)以“旅游”、“旅行”為關(guān)鍵詞檢索新浪博客中的標(biāo)簽并加以整理,構(gòu)建了旅游領(lǐng)域相關(guān)術(shù)語(yǔ)待選集,之后參考《中國(guó)分類主題詞表》中的相關(guān)主題及相關(guān)行業(yè)標(biāo)準(zhǔn),對(duì)術(shù)語(yǔ)進(jìn)行最終篩選與規(guī)范。王雙鳳(2016)參考旅游行業(yè)標(biāo)準(zhǔn)《旅游目的地信息分類與描述》,對(duì)旅游目的地相關(guān)信息的分類層級(jí)結(jié)構(gòu)以及概念描述進(jìn)行了分析,構(gòu)建了旅游目的地領(lǐng)域本體。翟羽佳(2015)從網(wǎng)絡(luò)中檢索出1613篇有關(guān)“農(nóng)民工”的文章,之后通過(guò)分詞與詞性標(biāo)注抽取了1049個(gè)術(shù)語(yǔ)。陳云志(2017)通過(guò)教材、圖書、期刊文獻(xiàn)等渠道收集大量的疾病知識(shí),并參考醫(yī)學(xué)主題詞表等設(shè)計(jì)了肝炎本體??梢钥闯觯蹼p鳳等學(xué)者對(duì)于概念的獲取來(lái)自于現(xiàn)成中文詞匯,首先獲得待選概念集,然后加以整理定義領(lǐng)域概念。以往學(xué)者對(duì)于領(lǐng)域內(nèi)重要概念的獲取主要通過(guò)以下四種方法。

1. 基于領(lǐng)域?qū)<抑R(shí)

比如行業(yè)標(biāo)準(zhǔn)等政策法規(guī),相關(guān)圖書、期刊文獻(xiàn)、企業(yè)官網(wǎng)等領(lǐng)域?qū)<抑R(shí)?;谠摲椒?gòu)建的本體在術(shù)語(yǔ)集上具有完備性,一般涵蓋了大部分的領(lǐng)域知識(shí)。

2. 基于大眾分類法與社會(huì)化標(biāo)簽

如從豆瓣、博客等標(biāo)簽較為集中的網(wǎng)站上通過(guò)關(guān)鍵詞搜索的方式獲取大量標(biāo)簽,形成術(shù)語(yǔ)待選集,之后篩選出最終術(shù)語(yǔ)。該方法基于用戶視角收集概念,充分考慮了領(lǐng)域的全員參與性,但容易出現(xiàn)大量冗余標(biāo)簽。

3. 基于主題詞表的方法

如《中國(guó)分類主題詞表》以及《教育主題詞表》等領(lǐng)域主題詞表。該方法基于標(biāo)準(zhǔn)化術(shù)語(yǔ),很好地對(duì)領(lǐng)域術(shù)語(yǔ)進(jìn)行了規(guī)范化,但忽略了術(shù)語(yǔ)的社會(huì)化屬性,即社會(huì)大眾使用不規(guī)范的、口語(yǔ)化的表達(dá)對(duì)領(lǐng)域進(jìn)行描述。

4. 基于文本挖掘的方法

利用自然語(yǔ)言處理技術(shù),從由句子組成的篇章段落中抽取領(lǐng)域術(shù)語(yǔ)。該方法對(duì)技術(shù)要求高,所抽取術(shù)語(yǔ)的范圍和專業(yè)度較依賴于語(yǔ)料樣本。

(二)基于在線評(píng)論特征的領(lǐng)域本體概念獲取方法

為了將領(lǐng)域本體更好地應(yīng)用于在線評(píng)論觀點(diǎn)挖掘過(guò)程中,需要構(gòu)建出適用性更強(qiáng)的本體,首先需要對(duì)在線評(píng)論的特征進(jìn)行分析。在線評(píng)論具有一系列鮮明的特征。

1. 專業(yè)性強(qiáng)。如產(chǎn)品的物理結(jié)構(gòu)、選用材質(zhì)等含有大量專有名詞與技術(shù)參數(shù),通過(guò)領(lǐng)域?qū)<抑R(shí)獲取更有針對(duì)性。

2. 社會(huì)化屬性。產(chǎn)品生產(chǎn)的最終目的是銷售,因此產(chǎn)品領(lǐng)域概念具有與消費(fèi)者交互的特征,同一個(gè)概念既有專業(yè)術(shù)語(yǔ),也有通用說(shuō)法。

3. 分散性。不像教育、醫(yī)學(xué)等領(lǐng)域本體涉及的概念非常集中,在線評(píng)論涉及多個(gè)領(lǐng)域的概念,如與產(chǎn)品運(yùn)輸相關(guān)的物流,電商平臺(tái)相關(guān)的店鋪、客服,產(chǎn)品本身涉及的專業(yè)概念等。

4. 消費(fèi)者屬性。雖然產(chǎn)品領(lǐng)域具有大量的概念,但消費(fèi)者對(duì)于這些概念的關(guān)注度是不同的,對(duì)企業(yè)來(lái)說(shuō),將主要精力放在消費(fèi)者重點(diǎn)關(guān)注的概念上,更有利于后續(xù)的口碑獲取與運(yùn)營(yíng)決策。

因此,在獲取領(lǐng)域術(shù)語(yǔ)時(shí),即要參考領(lǐng)域?qū)<抑R(shí),又要充分考慮術(shù)語(yǔ)的社會(huì)化屬性,還要將多個(gè)領(lǐng)域的概念加以整合?;诖?,本文提出了基于領(lǐng)域細(xì)分與觀點(diǎn)五元組的概念獲取思路:首先將領(lǐng)域概念劃分為幾個(gè)細(xì)分領(lǐng)域,之后根據(jù)每個(gè)領(lǐng)域的特點(diǎn)分別獲取概念,最后將所有領(lǐng)域的概念進(jìn)行整合。領(lǐng)域本體的概念可分為四個(gè)模塊。

一是產(chǎn)品特征模塊。該模塊對(duì)產(chǎn)品相關(guān)概念進(jìn)行了描述。產(chǎn)品結(jié)構(gòu)相關(guān)概念可從產(chǎn)品官網(wǎng)、技術(shù)論壇等領(lǐng)域?qū)<抑R(shí)獲取。此外,由于口碑的社會(huì)化屬性,還應(yīng)從社會(huì)化文本中提取特征概念,比如從社會(huì)化標(biāo)簽中提取標(biāo)簽集、從在線評(píng)論文本中抽取產(chǎn)品特征。

二是消費(fèi)者模塊。消費(fèi)者是口碑評(píng)價(jià)的主體,消費(fèi)者相關(guān)概念的獲取可參考電商平臺(tái)新用戶注冊(cè)時(shí)需要錄入的相關(guān)字段。

三是情感模塊。情感是消費(fèi)者評(píng)價(jià)中特征的具體指向,具有情感極性和強(qiáng)度兩個(gè)屬性。情感極性有正向、負(fù)向和中性之分,情感強(qiáng)度通過(guò) “非常”、“有點(diǎn)兒”等程度副詞表現(xiàn)??蓪⑹孪榷x的情感詞典導(dǎo)入本體知識(shí)庫(kù)完成情感模塊創(chuàng)建。目前已經(jīng)構(gòu)建的情感詞典有HowNet情感詞典、大連理工大學(xué)情感詞匯本體、同義詞詞林等。

四是時(shí)間模塊。時(shí)間描述了消費(fèi)者評(píng)價(jià)發(fā)出的時(shí)間,是Liu Bing(2012)[10]提出的觀點(diǎn)五元組(實(shí)體,分面,情感,持有者,時(shí)間)中的重要元素,從在線評(píng)論網(wǎng)站數(shù)據(jù)庫(kù)中即可獲取。

這四個(gè)模塊構(gòu)成的領(lǐng)域本體涵蓋了觀點(diǎn)完備的元素,能更好地輔助進(jìn)行觀點(diǎn)挖掘。

四、結(jié)論與展望

本文通過(guò)對(duì)觀點(diǎn)挖掘、領(lǐng)域本體構(gòu)建相關(guān)理論技術(shù)進(jìn)行分析,發(fā)現(xiàn)了有關(guān)領(lǐng)域本體概念獲取方法的成果與不足,并在此基礎(chǔ)上提出了優(yōu)化的方法——基于在線評(píng)論特點(diǎn)與觀點(diǎn)五元組的領(lǐng)域劃分本體構(gòu)建方法。本文目前僅是提出了理論思路和技術(shù)路線,希望未來(lái)能將文中所構(gòu)建的方法應(yīng)用于具體的領(lǐng)域本體構(gòu)建過(guò)程中,更好地驗(yàn)證本文所提出方法的有效性。

參考文獻(xiàn):

[1]Serrano-Guerrero J, Olivas J A, Ro

mero F P, et al. Sentiment analysis: A review and comparative analysis of web services[J].Information Sciences, 2015(05).

[2]韓忠明,李夢(mèng)琪,劉雯,張夢(mèng)玫,段大高,于重重.網(wǎng)絡(luò)評(píng)論方面級(jí)觀點(diǎn)挖掘方法研究綜述[J].軟件學(xué)報(bào),2018(09).

[3]王付國(guó).基于領(lǐng)域本體的網(wǎng)絡(luò)評(píng)論觀點(diǎn)挖掘[D].吉林大學(xué),2014.

[4]Gruber T R. Toward principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human-Computer Studies, 1995(06).

[5]馬捷,劉小樂(lè),黃嵐,張喜艷.教育領(lǐng)域本體構(gòu)建研究[J].情報(bào)理論與實(shí)踐,2012(07).

[6]李慶賽.旅游領(lǐng)域本體構(gòu)建研究[D].鄭州大學(xué),2015.

[7]王雙鳳.旅游目的地本體構(gòu)建研究[D].湘潭大學(xué),2016.

[8]翟羽佳,王芳.基于文本挖掘的中文領(lǐng)域本體構(gòu)建方法研究[J].情報(bào)科學(xué),2015(06).

[9]陳云志.肝炎本體構(gòu)建及語(yǔ)義相似度研究[D].浙江大學(xué),2017.

[10]Liu B. Sentiment Analysis and Opi

nion Mining[C]. Synthesis Lectures on Human Language Technologies. Morgan & Claypool,2012.

*本文系江蘇省社會(huì)科學(xué)基金項(xiàng)目“大數(shù)據(jù)視角下基于領(lǐng)域本體的網(wǎng)絡(luò)輿情預(yù)警研究”(項(xiàng)目編號(hào):16TQB009),江蘇省高校哲學(xué)社會(huì)科學(xué)研究基金項(xiàng)目“大數(shù)據(jù)環(huán)境下基于情境語(yǔ)義推理的移動(dòng)個(gè)性化推薦研究”(項(xiàng)目編號(hào):2017SJB1892)的研究成果。

(作者單位:曹書芳,江蘇大學(xué);李金海,泰州學(xué)院)

猜你喜歡
在線評(píng)論
消費(fèi)者個(gè)體特征對(duì)在線評(píng)論有效性的影響研究
在線評(píng)論情感屬性的動(dòng)態(tài)變化
在線評(píng)論對(duì)電子商務(wù)商品銷量的影響研究
中文信息(2016年10期)2016-12-12 11:01:20
在線評(píng)論對(duì)消費(fèi)者購(gòu)買意圖的影響研究
商(2016年10期)2016-04-25 10:03:58
基于情感傾向的在線評(píng)論對(duì)購(gòu)買決策的影響
基于復(fù)雜網(wǎng)絡(luò)構(gòu)建面向主題的在線評(píng)論挖掘模型
在線商品評(píng)論的類型研究
在線評(píng)論與消費(fèi)者行為的研究進(jìn)展與趨勢(shì)展望
軟科學(xué)(2015年6期)2015-07-10 02:32:49
在線評(píng)論對(duì)大學(xué)生網(wǎng)絡(luò)購(gòu)物決策的影響研究
在線評(píng)論信息挖掘分析的數(shù)據(jù)來(lái)源可靠性研究
軟科學(xué)(2015年4期)2015-04-20 02:03:26
唐山市| 荃湾区| 江西省| 会理县| 日喀则市| 霍邱县| 清苑县| 金秀| 湟中县| 乐东| 沂水县| 车险| 德庆县| 贺兰县| 梅州市| 连南| 林西县| 朝阳市| 芜湖市| 咸宁市| 大冶市| 泸水县| 临高县| 将乐县| 固阳县| 香格里拉县| 南郑县| 那曲县| 汝州市| 阿图什市| 叶城县| 明水县| 庆城县| 巩义市| 留坝县| 汕尾市| 昌吉市| 福清市| 鹿邑县| 巩义市| 德兴市|