王娜 董煥晴
關(guān)鍵詞:用戶;在線旅游;網(wǎng)站信息;本體構(gòu)建;馬蜂窩
隨著經(jīng)濟(jì)以及旅游業(yè)的發(fā)展,旅游資源越來(lái)越豐富,外出旅游也成為人們的日常休閑活動(dòng)。網(wǎng)絡(luò)信息技術(shù)的不斷進(jìn)步和發(fā)展.讓在線旅游獲得了極大的進(jìn)展.在線旅游網(wǎng)站也因此層出不窮,如人們常用的有馬蜂窩旅游網(wǎng)、攜程旅行網(wǎng)、途牛旅游網(wǎng)、去哪兒旅行網(wǎng)等。面對(duì)旅游網(wǎng)站中大量的旅游景區(qū)、美食、住宿等信息,人們通常是通過(guò)基于關(guān)鍵詞的查詢方式獲取信息,然后再篩選出真正滿足自身需求的信息加以利用。在互聯(lián)網(wǎng)+旅游的模式下,人們獲取旅游信息資源的渠道增加,獲取的網(wǎng)絡(luò)信息數(shù)量也隨之增加.使其更易受到信息迷航或信息過(guò)載的困擾。因此,如何將大量的信息進(jìn)行合理組織以便更貼近于用戶的需求.使得用戶在大量嘈雜的數(shù)據(jù)中可以簡(jiǎn)便清晰地獲取有價(jià)值的信息是一個(gè)亟需解決的問(wèn)題。
互聯(lián)網(wǎng)的快速發(fā)展使得更多的用戶從信息的使用者漸漸轉(zhuǎn)變?yōu)橹鲃?dòng)的內(nèi)容生產(chǎn)者.這既使得網(wǎng)絡(luò)信息數(shù)量激增,又由于一手信息的豐富增強(qiáng)了信息的時(shí)效性。因此,筆者認(rèn)為為了使得獲取的信息更符合用戶的需求,優(yōu)化用戶的檢索效果,可利用用戶參與行為產(chǎn)生的信息來(lái)構(gòu)建旅游信息本體,在本體的基礎(chǔ)上對(duì)旅游網(wǎng)站信息進(jìn)行重新組織。該方法的優(yōu)勢(shì)在于:首先,以用戶發(fā)布的信息作為數(shù)據(jù)源構(gòu)建本體.一方面可以使獲取的信息更貼合用戶的需求:另一方面可以使本體的進(jìn)化變得更為自動(dòng)化,不用過(guò)多地依賴領(lǐng)域?qū)<覅⑴c,只需每隔一段時(shí)間爬取用戶發(fā)布的信息即可完成更新。其次本體主要定義了事物的概念、屬性以及概念之間的關(guān)系,能夠體現(xiàn)出信息之間的關(guān)聯(lián)性。將本體技術(shù)應(yīng)用于在線旅游網(wǎng)站的信息組織,能夠?qū)⒏鱾€(gè)旅游信息類之間的關(guān)系體現(xiàn)出來(lái),在語(yǔ)義和知識(shí)層次上表示復(fù)雜的知識(shí),比如當(dāng)用戶搜索某一景區(qū)時(shí),網(wǎng)站會(huì)將與景區(qū)相關(guān)聯(lián)的美食、酒店、交通等信息以及其自身的屬性都反饋給用戶,為用戶提供更精確、有價(jià)值、有關(guān)聯(lián)的旅游信息。
1國(guó)內(nèi)外研究現(xiàn)狀綜述
1.1國(guó)內(nèi)外旅游本體構(gòu)建相關(guān)研究綜述
旅游本體是將本體技術(shù)應(yīng)用于旅游領(lǐng)域,通過(guò)對(duì)相關(guān)旅游概念的描述,構(gòu)建概念間的邏輯關(guān)系,國(guó)內(nèi)外的學(xué)者在旅游本體構(gòu)建方面也進(jìn)行了大量的研究。如閆曉鵬通過(guò)在旅游信息檢索系統(tǒng)中引入本體技術(shù),以山東省為例,利用七步法構(gòu)建了山東旅游信息本體模型。封玨以揚(yáng)州風(fēng)景區(qū)為例研究了其中的類結(jié)構(gòu),最后使用OWL本體描述語(yǔ)言定義本體類、類之間的屬性關(guān)系、屬性的約束以及實(shí)例的創(chuàng)建,構(gòu)建了揚(yáng)州領(lǐng)域旅游信息本體。戚利娜為了提升旅游信息資源的檢索效果,以張家界為例,利用六步法研究了類的層次結(jié)構(gòu),最后使用Protege工具構(gòu)建了張家界旅游信息本體。李艷等以商洛地區(qū)為例,提出了基于本體的全域旅游信息平臺(tái)建設(shè)模式.并通過(guò)使用Protege工具構(gòu)建了商洛地區(qū)的全域旅游信息本體。李慶賽在比較大眾分類法與本體的異同上,采用七步法對(duì)旅游領(lǐng)域本體建模,并在此基礎(chǔ)上使用本體構(gòu)建工具Protege詳細(xì)介紹了旅游本體的構(gòu)建過(guò)程。Chan.trapornchai c等以泰國(guó)健康旅游為例,通過(guò)信息收集、語(yǔ)料庫(kù)研究、本體的構(gòu)建和發(fā)布評(píng)價(jià)以及應(yīng)用構(gòu)建等過(guò)程,構(gòu)建了泰國(guó)第一個(gè)健康旅游本體。Xavier C C等提出了利用半自動(dòng)化的抽取方法提取維基百科數(shù)據(jù)庫(kù)的類別.其主要過(guò)程為逐步抽取旅游分類結(jié)構(gòu)、類別的層級(jí)結(jié)構(gòu)、概念關(guān)系、子類和實(shí)例,進(jìn)而以此為基礎(chǔ)最終構(gòu)建旅游信息本體。Mili H等結(jié)合本體構(gòu)建工具Protege和OWL本體語(yǔ)言構(gòu)建了一個(gè)法語(yǔ)旅游本體,為構(gòu)建的電子旅游平臺(tái)系統(tǒng)提供了基礎(chǔ)框架。Daramola J O等在構(gòu)建尼日利亞旅游業(yè)的旅游推薦服務(wù)框架時(shí).利用本體構(gòu)建工具Protege和OWL語(yǔ)言構(gòu)建了目的地環(huán)境本體和住宿本體。
1.2簡(jiǎn)要述評(píng)
綜上所述.國(guó)內(nèi)外對(duì)于旅游信息本體構(gòu)建研究已有一定的成果.目前的研究大多集中在通過(guò)使用某一地區(qū)的旅游信息進(jìn)行本體的構(gòu)建。但尚未有從用戶的角度出發(fā),利用在線旅游網(wǎng)站中用戶發(fā)布的信息進(jìn)行本體構(gòu)建的研究。將用戶在在線旅游網(wǎng)站發(fā)布的信息重新組織應(yīng)用,能夠在較大程度上滿足用戶自身的需求,并更好地體現(xiàn)出信息的時(shí)效性價(jià)值,而本體作為一種有效的知識(shí)組織方式,能夠幫助用戶在大量的信息之間簡(jiǎn)便快速地獲取有價(jià)值的關(guān)聯(lián)信息。因此,本文在借鑒現(xiàn)有旅游信息本體構(gòu)建研究相關(guān)成果的基礎(chǔ)上,以在線旅游網(wǎng)站中用戶發(fā)布的信息為切入點(diǎn),從用戶的角度出發(fā)構(gòu)建在線旅游網(wǎng)站信息本體。
2用戶參與的在線旅游網(wǎng)站信息本體設(shè)計(jì)
2.1用戶對(duì)旅游信息組織的需求分析
在線旅游網(wǎng)站是用戶通過(guò)互聯(lián)網(wǎng)進(jìn)行互通和分享旅游信息的網(wǎng)絡(luò)平臺(tái)。隨著旅游活動(dòng)的日常化,在出行前,越來(lái)越多的用戶習(xí)慣于從在線旅游網(wǎng)站中獲取相關(guān)的景區(qū)、美食、住宿以及交通等信息。因此,為了了解用戶使用在線旅游網(wǎng)站的現(xiàn)狀,本文調(diào)研了馬蜂窩旅游網(wǎng)、攜程旅行網(wǎng)、途牛旅游網(wǎng)等相關(guān)在線旅游網(wǎng)站的產(chǎn)品體驗(yàn)分析報(bào)告,以此為基礎(chǔ)分析了目前用戶對(duì)于在線旅游網(wǎng)站的需求,在分析過(guò)程中發(fā)現(xiàn)有4個(gè)方面容易影響到用戶滿意度:第一.雖然網(wǎng)絡(luò)技術(shù)的普及讓人們獲取信息變得容易,但網(wǎng)絡(luò)信息的增長(zhǎng)量超出了用戶的認(rèn)知能力,造成了信息過(guò)載等諸多問(wèn)題。而目前在線旅游網(wǎng)站只提供了簡(jiǎn)單的關(guān)鍵詞查詢、分類搜索等檢索方法,展示的游記、攻略和旅游產(chǎn)品信息過(guò)多,導(dǎo)致頁(yè)面之間的交互復(fù)雜需要跳轉(zhuǎn)多個(gè)界面進(jìn)行查詢,已無(wú)法使用戶快速獲取有價(jià)值的旅游信息;第二,旅游領(lǐng)域中信息的復(fù)雜性強(qiáng),涉及游、購(gòu)、娛、食、住、行等多方面,再加上各個(gè)在線旅游網(wǎng)站面向的用戶群體階層也有所不同,如馬蜂窩旅游網(wǎng)的用戶大多為25~35歲的年輕女性,而攜程旅行網(wǎng)、途牛旅游網(wǎng)的用戶則較多為35歲左右的商務(wù)男性。因此,不同的用戶在查詢信息時(shí),需要查詢多次或者嘗試多個(gè)在線旅游網(wǎng)站才能夠獲取全面的信息,單個(gè)的網(wǎng)站難以滿足用戶全面的信息需求;第三,用戶在通過(guò)查看相關(guān)游記獲取旅游信息時(shí),因?yàn)榇蟛糠钟斡浭怯蓤D文以及視頻組成,在獲取相關(guān)信息時(shí),一般都要看完視頻或者閱讀完整篇內(nèi)容才能獲取其中的零星信息.所得到的信息也較為分散、關(guān)聯(lián)性弱,并且需要花費(fèi)較多時(shí)間瀏覽和閱讀;第四,從互聯(lián)網(wǎng)技術(shù)方面來(lái)說(shuō),在線旅游網(wǎng)站提供的搜索引擎對(duì)語(yǔ)義的理解和表達(dá)有限,往往會(huì)造成信息的檢準(zhǔn)率低和信息之間語(yǔ)義關(guān)聯(lián)性差的問(wèn)題。
基于以上分析,為了提高用戶對(duì)于獲取的信息的滿意程度,筆者認(rèn)為可采用用戶參與構(gòu)建在線旅游網(wǎng)站信息本體的方法,從用戶的角度出發(fā),以用戶發(fā)布的信息為基礎(chǔ)使用本體方式對(duì)在線旅游網(wǎng)站中的信息進(jìn)行組織,構(gòu)建一個(gè)可重用、可發(fā)展的在線旅游網(wǎng)站信息本體,提供更有關(guān)聯(lián)的、更滿足用戶需求的信息。
2.2用戶參與的在線旅游網(wǎng)站信息本體設(shè)計(jì)機(jī)理
通過(guò)上文的分析可知,隨著在線旅游網(wǎng)站的發(fā)展,大量繁雜的網(wǎng)絡(luò)信息不僅沒(méi)有很好地滿足用戶的需求,反而降低了用戶獲取有價(jià)值旅游信息的效果。針對(duì)此問(wèn)題,本文提出一種以用戶發(fā)布的旅游信息為基礎(chǔ),通過(guò)用戶參與構(gòu)建在線旅游網(wǎng)站信息本體的方法,以期通過(guò)基于本體的查詢來(lái)優(yōu)化用戶檢索信息的效果,使得檢索的結(jié)果更加滿足用戶需求。在本研究中用戶參與的方式主要是在在線旅游網(wǎng)站中的信息發(fā)布行為,發(fā)布的信息包括游記、攻略、評(píng)論等多種內(nèi)容,也即在本體構(gòu)建過(guò)程中用戶的參與是一種隱式的參與,該種方式可減輕用戶的負(fù)擔(dān)。用戶參與的在線旅游網(wǎng)站信息本體設(shè)計(jì)機(jī)理具體如圖1所示.其整個(gè)流程主要包括用戶數(shù)據(jù)的生成、用戶數(shù)據(jù)的獲取、在線旅游網(wǎng)站信息本體構(gòu)建、旅游信息檢索4個(gè)模塊。
1)用戶數(shù)據(jù)的生成。該部分是指用戶通過(guò)在線旅游網(wǎng)站發(fā)布旅游游記、攻略、評(píng)論等信息,組成了網(wǎng)站中有關(guān)于用戶的大量旅游信息文本集,對(duì)這些信息中的相關(guān)內(nèi)容進(jìn)行挖掘可用于后續(xù)的本體構(gòu)建,這一部分是整個(gè)用戶參與的在線旅游網(wǎng)站信息本體構(gòu)建的數(shù)據(jù)基礎(chǔ)。
2)用戶數(shù)據(jù)的獲取。第一步是利用數(shù)據(jù)采集工具爬取在線旅游網(wǎng)站中用戶發(fā)布的文本信息,然后進(jìn)行文本信息的篩選,篩選標(biāo)準(zhǔn)是剔除爬取到的重復(fù)、亂碼以及含有錯(cuò)誤的文本。第二步是將經(jīng)過(guò)預(yù)處理的文本信息利用分詞系統(tǒng)進(jìn)行分詞以及關(guān)鍵詞的提取。第三步是將提取出的關(guān)鍵詞依據(jù)詞語(yǔ)的詞性以及詞頻進(jìn)行篩選.主要是過(guò)濾沒(méi)有意義的虛詞和實(shí)詞,選取詞性為名詞且出現(xiàn)頻次相對(duì)較高的關(guān)鍵詞,然后將內(nèi)容或意義相同但名稱不同的詞匯進(jìn)行歸類或合并,最后以詞頻進(jìn)行排序形成在線旅游網(wǎng)站用戶旅游信息數(shù)據(jù)集。
3)在線旅游網(wǎng)站信息本體構(gòu)建。綜合相關(guān)研究得出,目前常用的本體構(gòu)建方法主要包括IDEF5法、TOVE法、METHONLOGY法、骨架法和七步法。它們的成熟度依次為七步法>METHONLOGY法>IDEF5法>TOVE法>骨架法。其中IDEF5法、TOVE法和骨架法主要用于構(gòu)建企業(yè)領(lǐng)域本體,METHONLOGY法通常用于創(chuàng)建化學(xué)領(lǐng)域本體,七步法是基于本體開(kāi)發(fā)工具Protege構(gòu)建領(lǐng)域本體,是目前一種較為實(shí)用也較為成熟的本體構(gòu)建方法。因此,本文認(rèn)為可采用七步法構(gòu)建用戶參與的在線旅游網(wǎng)站信息本體,以獲取的在線旅游網(wǎng)站用戶旅游信息數(shù)據(jù)集作為主要數(shù)據(jù)源,并以在線旅游網(wǎng)站分類類目信息、中國(guó)旅游資源分類表為參考,對(duì)提取的旅游信息的相關(guān)概念以及概念間的關(guān)系進(jìn)行分析,確定旅游領(lǐng)域的核心術(shù)語(yǔ)、定義類和類之間的等級(jí)體系、定義類的屬性、創(chuàng)建本體實(shí)例,最后形成在線旅游網(wǎng)站信息本體庫(kù)。
4)旅游信息檢索。該部分是指用戶使用構(gòu)建的在線旅游網(wǎng)站信息本體庫(kù)進(jìn)行旅游信息的檢索,本體庫(kù)將一系列具有語(yǔ)義關(guān)聯(lián)的旅游信息返回給用戶。
3用戶參與的在線旅游網(wǎng)站信息本體構(gòu)建
3.1用戶參與的在線旅游網(wǎng)站信息本體基礎(chǔ)模型設(shè)計(jì)
在旅行中旅游者的實(shí)際旅游需求包含吃、住、行、游、購(gòu)、娛6大方面,考慮到構(gòu)建在線旅游網(wǎng)站信息本體的實(shí)用意義.本文借鑒了旅游體驗(yàn)的6大要素吃、住、行、游、購(gòu)、娛,并在分析了國(guó)內(nèi)各大優(yōu)秀旅游網(wǎng)站的主題導(dǎo)航信息的基礎(chǔ)上,提煉出在線旅游網(wǎng)站信息本體的6大核心類:景區(qū)、美食、住宿、交通、娛樂(lè)、購(gòu)物,其中每一個(gè)核心類中又包含諸多的子類,可以逐步細(xì)化到每一個(gè)具體的實(shí)例。因此,本文以此為基礎(chǔ)構(gòu)建了在線旅游網(wǎng)站信息本體的基礎(chǔ)模型,如圖2所示。
3.2用戶參與的在線旅游網(wǎng)站信息本體構(gòu)建流程
構(gòu)建在線旅游網(wǎng)站信息本體是為了實(shí)現(xiàn)知識(shí)的共享與重用,但信息是在不斷改變和增長(zhǎng)的,因而本體也是不斷進(jìn)化、逐步完善的。所以本體構(gòu)建的流程要有一定的可復(fù)用性,鑒于此,本文在七步法和在線旅游網(wǎng)站信息本體基礎(chǔ)模型的基礎(chǔ)上,提出了用戶參與的在線旅游網(wǎng)站信息本體的具體構(gòu)建流程。具體構(gòu)建流程如下所示:
3.2.1確定領(lǐng)域本體的范圍
在構(gòu)建本體時(shí)首先要明確的是本體覆蓋的專業(yè)領(lǐng)域,本文以旅游領(lǐng)域作為特定的研究領(lǐng)域.從用戶角度出發(fā),挖掘在線旅游網(wǎng)站中用戶發(fā)布的相關(guān)旅游信息,并以此為基礎(chǔ)構(gòu)建在線旅游網(wǎng)站信息本體。
3.2.2考察復(fù)用現(xiàn)有本體的可能性
根據(jù)對(duì)現(xiàn)有相關(guān)本體的研究,發(fā)現(xiàn)目前國(guó)內(nèi)外學(xué)者的研究大多是針對(duì)某一地區(qū)或者某一旅游要素構(gòu)建本體,與本文的研究目標(biāo)有所不同,所以不考慮復(fù)用現(xiàn)有的本體。
3.2.3選取旅游信息概念術(shù)語(yǔ)
本文將會(huì)以獲取的在線旅游網(wǎng)站用戶旅游信息數(shù)據(jù)集作為構(gòu)建旅游信息本體的主要數(shù)據(jù)源.然后參考在線旅游網(wǎng)站中有關(guān)的旅游實(shí)例信息以及中國(guó)旅游資源分類表信息,確定選取的旅游信息概念術(shù)語(yǔ)。
3.2.4定義類和類的等級(jí)體系
本文采用自頂向下法來(lái)構(gòu)建本體,以前文構(gòu)建的6大頂層核心類為基礎(chǔ),在參考在線旅游網(wǎng)站分類類目信息與中國(guó)旅游資源分類表的基礎(chǔ)上,劃分各大核心類子類。考慮到類的通用性與科學(xué)性,定義類的層級(jí)結(jié)構(gòu),具體如圖3所示。
3.2.5定義類的屬性及關(guān)系
此部分是描述類的內(nèi)在結(jié)構(gòu)的過(guò)程.屬性的建立通常是以學(xué)科知識(shí)和應(yīng)用目的為基礎(chǔ),其包括對(duì)象屬性和數(shù)據(jù)屬性。類的對(duì)象屬性主要表示旅游信息本體中類之間的關(guān)系,類的數(shù)據(jù)屬性表示的是類實(shí)例對(duì)象所具有的特征,比如住宿具有價(jià)格、星級(jí)等屬性。
1)定義類的關(guān)系,其主要表示旅游信息本體中類與類之間、類與實(shí)例之間、實(shí)例與實(shí)例之間的關(guān)系,本文定義的關(guān)系主要包括part-of、kind-of、instance-of和attribute-of 4種。本文主要參考在線旅游網(wǎng)站分類類目信息與中國(guó)旅游資源分類表,定義類之間的關(guān)系。比如景區(qū)、美食、住宿、交通、娛樂(lè)、購(gòu)物6個(gè)大類是總的旅游信息類的一部分,可用part-of表示;景區(qū)與人文景區(qū)、自然景區(qū)則是父類與子類的關(guān)系,可用kind-of表示;某具體的人文景區(qū)與人文景區(qū)之間則是類與實(shí)例的關(guān)系,可用instance-of表示。
2)定義類的對(duì)象屬性,其主要是對(duì)領(lǐng)域內(nèi)各種類的關(guān)系進(jìn)行描述,比如景區(qū)類與美食類之間可用have_food的對(duì)象屬性進(jìn)行關(guān)聯(lián),表示的是景區(qū)周邊存在的美食信息。本文通過(guò)各旅游網(wǎng)站對(duì)旅游領(lǐng)域內(nèi)相關(guān)景區(qū)、美食、住宿、交通、娛樂(lè)、購(gòu)物信息的分析歸納,定義了旅游信息本體中類的對(duì)象屬性,如表1所示。
3)定義類的數(shù)據(jù)屬性,其表示的是一個(gè)類的特征,用于對(duì)類的實(shí)例屬性進(jìn)行賦值。為了能夠準(zhǔn)確和詳細(xì)地描述類,在構(gòu)建數(shù)據(jù)屬性的時(shí)候,應(yīng)該重點(diǎn)關(guān)注屬性的作用,考慮屬性的科學(xué)性與適用性,非關(guān)鍵的屬性可以省略,例如在對(duì)景區(qū)、美食等描述時(shí),用戶的關(guān)注點(diǎn)通常會(huì)在地址、價(jià)格上,而對(duì)于景區(qū)、美食的創(chuàng)始人姓名關(guān)注較少。通過(guò)調(diào)研分析在線旅游網(wǎng)站的分類類目的具體信息以及互聯(lián)網(wǎng)上對(duì)景區(qū)、美食、住宿、交通、娛樂(lè)、購(gòu)物6個(gè)大類實(shí)例的具體描述.本文定義了6大分類中較為通用的數(shù)據(jù)屬性。定義的詳細(xì)數(shù)據(jù)屬性如下所示:景區(qū)(營(yíng)業(yè)時(shí)間、地址、聯(lián)系電話、景點(diǎn)級(jí)別、價(jià)格、簡(jiǎn)介),美食(營(yíng)業(yè)時(shí)間、地址、聯(lián)系電話、人均消費(fèi)、簡(jiǎn)介),住宿(營(yíng)業(yè)時(shí)間、地址、聯(lián)系電話、房?jī)r(jià)、房型),交通(運(yùn)營(yíng)時(shí)間、聯(lián)系電話、費(fèi)用信息),娛樂(lè)(營(yíng)業(yè)時(shí)間、地址、聯(lián)系電話、內(nèi)容介紹、費(fèi)用信息),購(gòu)物(營(yíng)業(yè)時(shí)間、地址、聯(lián)系電話)。對(duì)于類的數(shù)據(jù)屬性的取值,考慮到爬取的用戶發(fā)布的數(shù)據(jù)可能存在不準(zhǔn)確和不完整的情況,因此,本文在定義各個(gè)實(shí)例的屬性的取值時(shí),將會(huì)以定義的實(shí)例為關(guān)鍵詞重新搜索實(shí)例的相關(guān)信息,然后將獲取到的屬性值根據(jù)定義的數(shù)據(jù)屬性進(jìn)行賦值。
3.2.6定義屬性的分面
一個(gè)屬性的分面就是指屬性取值的特征,如取值的類型、個(gè)數(shù)和容許的取值等。一個(gè)屬性可能由多個(gè)分面組成,它們共同構(gòu)成屬性的內(nèi)在結(jié)構(gòu)。比如景區(qū)具有地址、聯(lián)系電話、價(jià)格等屬性,通常設(shè)置“地址”屬性取值類型為文本型、“聯(lián)系電話”取值類型為數(shù)字型,針對(duì)不同的旅游對(duì)象群體,景區(qū)“價(jià)格”屬性通常會(huì)設(shè)置1~3個(gè)價(jià)格數(shù)值。
3.2.7創(chuàng)建實(shí)例
實(shí)例是領(lǐng)域本體中最小的概念.比如從在線旅游網(wǎng)站用戶發(fā)布的信息中抓取的關(guān)鍵詞就是一個(gè)個(gè)的實(shí)例。在創(chuàng)建實(shí)例時(shí),可選取在線旅游網(wǎng)站中某一具體目的地,根據(jù)6大頂層核心類構(gòu)建各個(gè)類的具體實(shí)例。
3.2.8本體形式化
目前,國(guó)內(nèi)外開(kāi)發(fā)構(gòu)建本體的工具有很多,比較成熟的有Prot6g6系列、OntoEdit、WebODE等,這些工具都是基于Web的本體描述語(yǔ)言,具有良好的可擴(kuò)展性,可以處理多種建立于Web之上的本體描述語(yǔ)言格式。其中Protege系列是美國(guó)斯坦福大學(xué)醫(yī)學(xué)院生物信息研究中心基于Java語(yǔ)言開(kāi)發(fā)的本體構(gòu)建工具,主要用于語(yǔ)義網(wǎng)中本體的構(gòu)建。它提供了本體概念類、關(guān)系、屬性和實(shí)例的構(gòu)建.用戶使用時(shí)只需在概念層次上進(jìn)行領(lǐng)域本體模型的構(gòu)建,而不需要關(guān)心具體的本體描述語(yǔ)言。由于其具有開(kāi)源、支持中文編輯、簡(jiǎn)單易懂以及良好的可擴(kuò)展性等優(yōu)勢(shì),因此本文將使用Protege工具實(shí)現(xiàn)在線旅游網(wǎng)站信息本體的形式化。
3.2.9本體知識(shí)庫(kù)的存儲(chǔ)
本體構(gòu)建完成后,可以根據(jù)Protege工具提供的RDF/XML Syntax、OWIZXML Syntax、Turtle Syn-tax等保存方式進(jìn)行本體文件的保存,用戶可以在保存后的本體內(nèi)查詢與維護(hù)此本體。
4實(shí)證研究
4.1在線旅游網(wǎng)站信息本體的概念及體系結(jié)構(gòu)設(shè)計(jì)
本文以馬蜂窩在線旅游網(wǎng)站為例,以洛陽(yáng)為關(guān)鍵詞,使用后羿采集器數(shù)據(jù)采集工具爬取在線旅游網(wǎng)站中用戶發(fā)布的有關(guān)洛陽(yáng)的游記信息,收集的信息內(nèi)容主要包括用戶關(guān)于洛陽(yáng)景區(qū)、美食、住宿、交通、娛樂(lè)、購(gòu)物等的描述信息。對(duì)爬取到的游記文本內(nèi)容處理的詳細(xì)過(guò)程如下:
1)對(duì)爬取的文本信息進(jìn)行篩選,剔除爬取到的重復(fù)、亂碼以及含有錯(cuò)誤的文本,共計(jì)得到的洛陽(yáng)游記文本信息857條,部分詳細(xì)文本信息如圖4所示。然后將篩選過(guò)的文本信息集使用NLPIR-IC.TCLAS漢語(yǔ)分詞系統(tǒng)的關(guān)鍵詞提取功能進(jìn)行分詞以及詞頻統(tǒng)計(jì),部分結(jié)果如圖5所示。
2)處理關(guān)鍵詞分詞結(jié)果,過(guò)濾沒(méi)有意義的虛詞和實(shí)詞等,如“雖然”“可以”“一個(gè)”“開(kāi)始”“建筑”等.然后保留詞性為名詞且出現(xiàn)頻次相對(duì)較高的關(guān)鍵詞。其次是將內(nèi)容或意義相同但名稱不同的詞匯進(jìn)行歸類或合并.如“天子駕六”與“天子駕六博物館”“古墓博物館”與“洛陽(yáng)古代藝術(shù)博物館”等。
3)將其按詞頻進(jìn)行降序排序得到關(guān)鍵詞詞頻統(tǒng)計(jì)結(jié)果,部分結(jié)果如圖6所示。
4)根據(jù)得到的關(guān)鍵詞詞頻統(tǒng)計(jì)結(jié)果,本文參考中國(guó)旅游資源分類表,以其分類信息為標(biāo)準(zhǔn),對(duì)得到的關(guān)鍵詞結(jié)果進(jìn)行分類、歸納以及詞頻排序,得到的部分景區(qū)類的關(guān)鍵詞詞頻統(tǒng)計(jì)圖與歸納的各分類部分實(shí)例表,如圖7與表2所示。
5)定義類的屬性及關(guān)系
①類的對(duì)象屬性及關(guān)系的構(gòu)建:類的關(guān)系的創(chuàng)建主要以中國(guó)旅游資源分類信息為基準(zhǔn),類的對(duì)象屬性的創(chuàng)建主要根據(jù)前文3.3.5中對(duì)類的對(duì)象屬性的定義,其對(duì)象屬性值的填充則是通過(guò)歸納匯總在線旅游網(wǎng)站對(duì)各旅游實(shí)例的具體描述。以景區(qū)實(shí)例為例,對(duì)其添加對(duì)象屬性及關(guān)系.得到的實(shí)例信息如表3和表4所示。
②類的數(shù)據(jù)屬性與屬性值的獲?。阂罁?jù)上文定義的數(shù)據(jù)屬性,以洛陽(yáng)旅游分類實(shí)例表中的各種實(shí)例為關(guān)鍵詞展開(kāi)搜索,用搜索獲取的具體信息填充其屬性值。本文以景區(qū)實(shí)例為例,進(jìn)行實(shí)例數(shù)據(jù)的添加,部分實(shí)例具體數(shù)據(jù)如表5所示。
4.2基于Protege的在線旅游網(wǎng)站信息本體構(gòu)建
依照上文中定義的本體構(gòu)建流程,選用上文中定義的類、類的屬性與屬性值,使用Protege進(jìn)行本體的創(chuàng)建。
1)定義類:根據(jù)上文定義的類目在Class界面添加其頂層類及二級(jí)類.并構(gòu)建它們之間的層次結(jié)構(gòu),得到的本體類目層次結(jié)構(gòu)圖如圖8所示。
2)定義屬性:根據(jù)上文定義的對(duì)象屬性與數(shù)據(jù)屬性,分別通過(guò)Obiect Pmperty與Data Pmperty界面添加定義類的對(duì)象屙l生與數(shù)據(jù)屬性.如圖9和圖10所示。
3)添加洛陽(yáng)旅游信息本體實(shí)例:在使用Protege為在線旅游網(wǎng)站信息本體添加實(shí)例時(shí),本文以洛陽(yáng)旅游信息為例,以上文爬取整理后的實(shí)例及實(shí)例數(shù)據(jù)填充本體。首先是為建立的類目下添加相應(yīng)的實(shí)例,其次是為實(shí)例添加對(duì)應(yīng)的對(duì)象屬性值與數(shù)據(jù)屬性值。具體如圖11所示。
4)本體可視化:本文使用Pmtege的OntoGraf功能,實(shí)現(xiàn)構(gòu)建的本體的可視化。如圖12和圖13所示,其中虛線表示的是各類目之間、各實(shí)例之間的語(yǔ)義聯(lián)系,其中圖13表示的是展開(kāi)的龍門石窟實(shí)例的相關(guān)信息。
4.3用戶參與的在線旅游網(wǎng)站信息本體評(píng)估
4.3.1實(shí)驗(yàn)過(guò)程
為了對(duì)用戶參與的在線旅游網(wǎng)站信息本體進(jìn)行評(píng)估測(cè)試.本文采用用戶參與的方式進(jìn)行實(shí)驗(yàn),具體的實(shí)施步驟為:
1)選取10位用戶作為實(shí)驗(yàn)用戶,然后依據(jù)已構(gòu)建完成的本體,讓用戶從中選擇感興趣的景點(diǎn)。
2)將從實(shí)驗(yàn)用戶處搜集到的景點(diǎn)作為第一次檢索的關(guān)鍵詞,然后使用其分別在在線旅游網(wǎng)站信息本體和在線旅游網(wǎng)站中進(jìn)行檢索.并分別將本體檢索結(jié)果集和網(wǎng)站檢索結(jié)果集匯總。
3)將本體檢索結(jié)果集和網(wǎng)站檢索結(jié)果集分別以推送的方式返回給用戶,并請(qǐng)用戶選擇結(jié)果集中感興趣的信息作為第二次檢索的檢索詞,然后使用其分別在在線旅游網(wǎng)站信息本體和在線旅游網(wǎng)站中進(jìn)行檢索,最后分別將兩次檢索的本體檢索結(jié)果信息和網(wǎng)站檢索結(jié)果信息匯總。
4)將匯總后的本體檢索結(jié)果集和網(wǎng)站檢索結(jié)果集以推送的方式重新返回給用戶,并請(qǐng)用戶依據(jù)滿意度評(píng)估量表對(duì)檢索結(jié)果集進(jìn)行評(píng)價(jià)。
5)統(tǒng)計(jì)10位用戶的評(píng)估結(jié)果.對(duì)評(píng)估結(jié)果進(jìn)行均值化處理,最后以此為基準(zhǔn)來(lái)評(píng)估用戶參與的在線旅游網(wǎng)站信息本體的效果。
4.3.2評(píng)估量表設(shè)計(jì)
在設(shè)計(jì)用戶滿意程度評(píng)估五級(jí)李克特量表時(shí),本文以莫祖英等提出的信息資源質(zhì)量維度劃分中的檢索結(jié)果的檢全率和檢準(zhǔn)率兩個(gè)指標(biāo),查先進(jìn)等。提出的信息資源質(zhì)量評(píng)估指標(biāo)體系中的易用性、可獲取性和準(zhǔn)確性3個(gè)指標(biāo)以及0nt0QA量化指標(biāo)評(píng)估框架中的模式指標(biāo)組的關(guān)系豐富度、屬性豐富度兩個(gè)評(píng)估指標(biāo)作為參考。綜合對(duì)以上3類指標(biāo)分析.得出本文適用的具體評(píng)估指標(biāo)為信息的全面性、信息的精確性、有效信息的易獲取性、信息的關(guān)聯(lián)性、信息的準(zhǔn)確性。其中信息的全面性是指檢索結(jié)果集所反映的信息是否全面;信息的精確性是指檢索結(jié)果集反映的信息是否精確,是否為應(yīng)該檢索出的信息;有效信息的易獲取性是指返回的檢索結(jié)果集能否幫助用戶更快更簡(jiǎn)易地獲取有效信息;信息的關(guān)聯(lián)性是指檢索結(jié)果集中除了返回檢索詞本身的具體信息.是否返回與其相關(guān)的其他旅游信息以及其具體內(nèi)容;信息的準(zhǔn)確性是指檢索結(jié)果集的質(zhì)量,比如信息的來(lái)源是否可靠、返回的信息是否有錯(cuò)誤等。在對(duì)量表題目選項(xiàng)進(jìn)行賦值時(shí),設(shè)置非常不同意為1分、比較不同意為2分、一般為3分、比較同意為4分、非常同意為5分,具體的用戶滿意程度評(píng)估量表題目設(shè)置如表6所示。
4.3.3實(shí)驗(yàn)結(jié)果分析
對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行分析,經(jīng)過(guò)處理后的檢索結(jié)果滿意度分值如表7所示。當(dāng)平均值結(jié)果為3~4分,代表用戶對(duì)本體檢索結(jié)果集中反映的信息比較滿意;當(dāng)平均值結(jié)果為4~5分,代表用戶對(duì)本體檢索結(jié)果集中反映的信息非常滿意。
從上述滿意度反饋數(shù)據(jù)可以發(fā)現(xiàn),與通過(guò)網(wǎng)站檢索獲取的檢索結(jié)果集相比,用戶對(duì)于使用本體檢索出的檢索結(jié)果集滿意程度更好。如數(shù)據(jù)顯示,在檢索的信息的全面性、信息的精確性、有效信息的易獲取性、信息的關(guān)聯(lián)性、信息的準(zhǔn)確性5個(gè)方面,與在線旅游網(wǎng)站對(duì)比,用戶對(duì)于利用在線旅游網(wǎng)站信息本體檢索出來(lái)的信息較為滿意。尤其是在信息的全面性和信息的關(guān)聯(lián)性這兩個(gè)方面用戶的滿意程度更高,其次是有效信息的易獲取性方面。經(jīng)過(guò)上述分析可知,本文采用用戶參與構(gòu)建在線旅游網(wǎng)站信息本體的方式對(duì)信息進(jìn)行重新組織,在一定程度上使得用戶獲取的信息更加全面以及獲取的信息之間的語(yǔ)義關(guān)系更豐富。因此,本文認(rèn)為基于用戶參與的在線旅游網(wǎng)站信息本體可為用戶提供更有關(guān)聯(lián)、更滿足用戶需求的信息。
5結(jié)語(yǔ)
隨著人們生活水平的不斷提高,旅游逐漸成為其休閑娛樂(lè)的方式,而人們獲取相關(guān)旅游攻略信息,往往要瀏覽在線旅游網(wǎng)站上大量的旅游景區(qū)、美食、住宿等信息,然后再進(jìn)行篩選和歸納,利用信息的效率還有待提高。針對(duì)該問(wèn)題,本文從用戶的角度出發(fā),提出用戶參與的在線旅游網(wǎng)站信息本體的構(gòu)建方法,并利用馬蜂窩中用戶發(fā)布的關(guān)于洛陽(yáng)的旅游信息進(jìn)行了實(shí)證分析,實(shí)驗(yàn)結(jié)果說(shuō)明當(dāng)用戶使用此種方式進(jìn)行旅游信息查詢時(shí),獲得的檢索結(jié)果更加全面以及獲取的結(jié)果之間的語(yǔ)義關(guān)系更豐富,因而使其獲得了更有價(jià)值的旅游攻略信息,優(yōu)化了用戶的檢索效果。但是由于時(shí)間等諸多原因,本文的研究尚存在以下不足:一方面是在實(shí)證過(guò)程中,本文僅爬取了馬蜂窩在線旅游網(wǎng)站的數(shù)據(jù),數(shù)據(jù)量較小,因而得到的相關(guān)旅游信息還存在偏差;另一方面是本文的研究?jī)?nèi)容尚處于基礎(chǔ)性的階段,總體框架比較簡(jiǎn)單,仍需進(jìn)一步完善。因?yàn)榉锹糜蜗嚓P(guān)專業(yè),對(duì)于數(shù)據(jù)內(nèi)容的處理容易出現(xiàn)偏差,一定程度上影響了構(gòu)建的本體的準(zhǔn)確性,所構(gòu)建的本體庫(kù)尚不完善,因而在構(gòu)建本體的過(guò)程中需要相關(guān)旅游專業(yè)的人員指導(dǎo)。這兩點(diǎn)也是后續(xù)研究中需進(jìn)一步完善的地方。