郭偉光
摘要:在農(nóng)產(chǎn)品的電子商務(wù)中,信息過載使得人們難以快速查找到最為關(guān)注的農(nóng)產(chǎn)品信息?,F(xiàn)在很少有基于語義網(wǎng)和本體技術(shù)構(gòu)建的農(nóng)產(chǎn)品知識(shí)檢索與推薦系統(tǒng)。針對這一問題,在描述農(nóng)產(chǎn)品本體基本結(jié)構(gòu)的基礎(chǔ)上,提出一個(gè)基于農(nóng)產(chǎn)品本體的語義檢索與推薦系統(tǒng)框架。系統(tǒng)除了能讓用戶使用語義查詢功能直接檢索農(nóng)產(chǎn)品知識(shí)外,還能向用戶推薦農(nóng)產(chǎn)品的關(guān)聯(lián)知識(shí)。
關(guān)鍵詞:語義網(wǎng);本體;語義檢索;推薦;農(nóng)產(chǎn)品電子商務(wù);系統(tǒng)框架
中圖分類號(hào):G642? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)17-0191-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Abstract: In the e-commerce of agricultural products, information overload makes it difficult for people to quickly find the most important agricultural product information. Currently, there are few agricultural product knowledge retrieval and recommendation systems based on semantic web and ontology technology. Aiming at this problem, based on the description of the basic structure of agricultural products, a framework of semantic retrieval and recommendation system based on agricultural products is proposed. In addition to allowing users to directly retrieve agricultural knowledge using semantic query functions, the system also makes it possible to recommend the associated knowledge of agricultural products to users.
Key words: semantic web; ontology; semantic retrieval; e-commerce of agro-products; system framework
1 引言
近年來,我國鼓勵(lì)傳統(tǒng)農(nóng)產(chǎn)品流通企業(yè)發(fā)展線上線下結(jié)合的網(wǎng)上批發(fā)和網(wǎng)上零售,農(nóng)產(chǎn)品電子商務(wù)發(fā)展迅速,涉及農(nóng)產(chǎn)品經(jīng)營的電子商務(wù)網(wǎng)站數(shù)以萬計(jì)。隨著消費(fèi)者對健康和食品安全問題的關(guān)注,在農(nóng)產(chǎn)品消費(fèi)時(shí)相比以往更關(guān)注農(nóng)產(chǎn)品的營養(yǎng)、產(chǎn)地、功效、加工品、綠色安全等信息。但每個(gè)農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站所提供的信息量多且繁雜,導(dǎo)致無法讓消費(fèi)者快速、有效找到所需要的信息,出現(xiàn)所謂“信息超載”。在農(nóng)產(chǎn)品的電子商務(wù)中,信息過載使得人們需要大量的用戶交互,難以快速查找到最為期望的農(nóng)產(chǎn)品信息。
語義網(wǎng)是一種智能網(wǎng)絡(luò),它不但能夠理解詞語和概念,而且還能夠理解它們之間的邏輯關(guān)系,可以使信息檢索變得更準(zhǔn)確?;诒倔w的語義檢索和推薦能夠幫助用戶不斷調(diào)整自己的檢索詞匯,改變檢索策略,以獲得最為相關(guān)的知識(shí)。農(nóng)產(chǎn)品電子商務(wù)平臺(tái)和許多相關(guān)學(xué)術(shù)研究都在探討通過語義網(wǎng)與信息推薦來改善信息檢索效率。范順忠,陳浩對基于用戶的協(xié)同過濾算法進(jìn)行改進(jìn),設(shè)計(jì)一種融合專家選擇和在線推薦的菜品推薦系統(tǒng),通過在候選菜品選擇時(shí)引入時(shí)間敏感因子和協(xié)同過濾中引入時(shí)間遺忘因子,改進(jìn)興趣感知算法和菜品偏好預(yù)測效果,使得在推薦的準(zhǔn)確性和效率方面有明顯改進(jìn)[1];秦志遠(yuǎn)等人基于農(nóng)產(chǎn)品目錄信息及農(nóng)業(yè)物聯(lián)網(wǎng)感知信息分別建立農(nóng)產(chǎn)品上層本體和下層本體,根據(jù)消費(fèi)者信息建立消費(fèi)者興趣本體, 然后將農(nóng)產(chǎn)品上層本體與消費(fèi)者興趣本體進(jìn)行概念語義相似度計(jì)算,實(shí)現(xiàn)個(gè)性化推薦[2]; 彭潔等人提出通過收集農(nóng)產(chǎn)品的評價(jià)信息,進(jìn)行預(yù)處理,提取出每個(gè)評價(jià)者的特征-意見值對,提出一種基于潛在類回歸模型(latent-class regression model,簡稱LCRM)和組群偏好的個(gè)性化推薦方案[3];于超等人,在網(wǎng)絡(luò)教育資源的檢索工作中應(yīng)用了本體語義的概念,提出對用戶輸入的查詢條件進(jìn)行基于本體的查詢擴(kuò)展算法,設(shè)計(jì)實(shí)現(xiàn)了使用Lucene對擴(kuò)展后的查詢條件進(jìn)行檢索的語義檢索模型[4];楊清琳等通過建立領(lǐng)域本體知識(shí)庫,改進(jìn)傳統(tǒng)檢索系統(tǒng)基于關(guān)鍵詞匹配存在的缺陷,將用戶輸入的自然語言查詢經(jīng)分析推理后上升到語義層面,構(gòu)建了一個(gè)基于領(lǐng)域本體知識(shí)庫的語義檢索模型,提高了檢索性能[4]。
目前,在農(nóng)產(chǎn)品電子平臺(tái)中,很少有使用語義網(wǎng)和本體技術(shù)的實(shí)際應(yīng)用,也沒有專門的農(nóng)產(chǎn)品知識(shí)查詢系統(tǒng)。語義網(wǎng)環(huán)境下基于本體的知識(shí)集成能夠解決不同網(wǎng)絡(luò)信息資源的語義異構(gòu)問題,通過集成不同的知識(shí)結(jié)構(gòu)和不同來源的知識(shí),為用戶提供統(tǒng)一的知識(shí)訪問接口以及智能化的知識(shí)服務(wù)[5]。本文基于語義網(wǎng)技術(shù),通過農(nóng)產(chǎn)品知識(shí)本體的運(yùn)用,提出一個(gè)基于農(nóng)產(chǎn)品本體的語義檢索和推薦框架,希望能改進(jìn)對用戶輸入檢索語句的理解,減少用戶與系統(tǒng)的交互次數(shù),提升農(nóng)產(chǎn)品信息查詢的準(zhǔn)確度與可靠度。
2 相關(guān)技術(shù)
2.1語義檢索
2001年Tim Berners-Lee在《科學(xué)美國人》雜志上發(fā)表了論文“The Semantic Web”,標(biāo)志著語義網(wǎng)的誕生。語義網(wǎng)是一種使用可以被計(jì)算機(jī)理解的方式描述事物的網(wǎng)絡(luò),為解決網(wǎng)格這個(gè)智能性不足的問題提供了答案,可以認(rèn)為其是一個(gè)擁有著層次結(jié)構(gòu)的技術(shù)棧:一套可以被各類軟件代理(software agent)理解的用來描述數(shù)據(jù)的通用語言, 如RDF、RFDS、OWL 及SPARQL等;一組可以把分散數(shù)據(jù)庫中的信息翻譯成通用術(shù)語的描述(本體Ontology);一套允許軟件代理基于這些術(shù)語所描述信息進(jìn)行推理的規(guī)則(Rules)[6]。語義搜索對網(wǎng)頁文檔信息所蘊(yùn)含的語義信息進(jìn)行充分挖掘,同時(shí)把用戶的檢索要求轉(zhuǎn)換成相應(yīng)的語義表示,基于領(lǐng)域本體對其進(jìn)行辨別和推理,從語義層面理解用戶查詢,并將基于本體推理的結(jié)果返回給用戶[7]。
2.2本體
斯坦福大學(xué)的人工智能(AI)專家Tom Gurber解釋說,本體是指“使程序和人們共享知識(shí)信息的概念模型的規(guī)范說明”。簡單地說, “本體”就是精確定義了某一領(lǐng)域的可以被計(jì)算機(jī)理解的,且被該領(lǐng)域所共同接受的一些概念,以及描述這些概念的特性(property)、概念之間的關(guān)系的屬性(attribute),以及屬性的約束(constraint)等。本體是對領(lǐng)域知識(shí)共同的理解與描述,是實(shí)現(xiàn)語義網(wǎng)技術(shù)的關(guān)鍵。
本體的結(jié)構(gòu)可以定義為一個(gè)五元組,即Ontology={C,R,H,Rel,A},其中C代表概念的集合,其包含很多方面,可以是行為、方法等等,每個(gè)概念都有相應(yīng)的屬性對其自身進(jìn)行描述;R為關(guān)系集合,關(guān)系是概念之間的相互關(guān)聯(lián),最常出現(xiàn)的有四種關(guān)系為Part-of整體-部分關(guān)系,Kind-of繼承關(guān)系,Instance-of實(shí)例關(guān)系,Attribute-of屬性關(guān)系; H代表概念層次,即概念間的分類關(guān)系,Rel表示概念之間的非分類關(guān)系,A表示本體的公理。目前十分流行的本體構(gòu)建工具是Protégé,它屬于開放源代碼軟件。
2.3推薦系統(tǒng)
推薦系統(tǒng)可以說是一種信息過濾 (Information Filtering) 機(jī)制,該系統(tǒng)主要依據(jù)使用者的喜好、興趣、行為或需求,過濾出使用者潛在需求的信息、服務(wù)或產(chǎn)品,從而減少使用者在搜尋信息過程中所附加的額外成本。目前無論是傳統(tǒng)的推薦系統(tǒng)還是基于本體技術(shù)的推薦系統(tǒng),推薦方法都可以分為: 協(xié)同過濾推薦、基于內(nèi)容的推薦、基于知識(shí)的推薦和混合推薦等?;诒倔w技術(shù)的推薦系統(tǒng)仍然采用了傳統(tǒng)推薦系統(tǒng)中算法的核心思想,但是在具體實(shí)現(xiàn)細(xì)節(jié)上,結(jié)合本體技術(shù)的優(yōu)勢,對傳統(tǒng)的推薦算法進(jìn)行改進(jìn),從本質(zhì)上解決傳統(tǒng)推薦系統(tǒng)中存在的問題[7]。推薦系統(tǒng)的主要作用是在信息生產(chǎn)方和信息消費(fèi)方搭建起橋梁,從而建立連接。以個(gè)性化推薦技術(shù)為核心的推薦系統(tǒng)已廣泛應(yīng)用于電子商務(wù)、多媒體資源點(diǎn)播、電子旅游及社交網(wǎng)絡(luò)等領(lǐng)域。尤其在電子商務(wù)領(lǐng)域,幾乎所有的平臺(tái)Amazon、天貓、淘寶、京東等均不同程度地使用了各種推薦系統(tǒng)主動(dòng)為用戶推薦其感興趣的信息。
3基于農(nóng)產(chǎn)品本體的語義檢索與推薦框架
3.1系統(tǒng)框架
我們提出的系統(tǒng)框架如圖1所示,運(yùn)用語義網(wǎng)中的語意分析技術(shù),從農(nóng)產(chǎn)品電子商務(wù)交易平臺(tái)獲取農(nóng)產(chǎn)品信息進(jìn)行分析,將處理過的信息裝入農(nóng)產(chǎn)品信息庫、語義詞匯庫和農(nóng)產(chǎn)品本體庫。
3.2農(nóng)產(chǎn)品知識(shí)本體構(gòu)建
本研究建立農(nóng)產(chǎn)品本體模型的基本思想是對農(nóng)產(chǎn)品的屬性特征進(jìn)行組織表示農(nóng)產(chǎn)品知識(shí)。圖2描述了基于屬性特征的農(nóng)產(chǎn)品本體模型的基本結(jié)構(gòu)。
根據(jù)前文定義,農(nóng)產(chǎn)品本體定義為一個(gè)五元組:FarmProduceOntology={C,R,H,Rel,A}。類集合C盡可能多收集農(nóng)產(chǎn)品領(lǐng)域所涉及的術(shù)語和概念,如分類、產(chǎn)地、食用方法等?;镜恼Z義WordNet詞典中涵蓋了農(nóng)產(chǎn)品與其有關(guān)的概念的分類(我們使用的是WordNet漢語開放詞網(wǎng),可從以下網(wǎng)址下載:http://compling.hss.ntu.edu.sg/cow/)。在WTO農(nóng)產(chǎn)品協(xié)議中,所定義農(nóng)產(chǎn)品主要就是HS分類中的前24章的產(chǎn)品。根據(jù)這一原則我們將C中的農(nóng)產(chǎn)品分為動(dòng)物、植物、動(dòng)植物分解品及動(dòng)槙物加工品4一級(jí)概念,24個(gè)二級(jí)概念,層次最多為5層的農(nóng)產(chǎn)品本體概論集。屬性集合R包括對象關(guān)系屬性和值關(guān)系屬性,其中對象關(guān)系屬性O(shè)bjectProperty用來描述類間的關(guān)系,值關(guān)系屬性DProperty描述概念與數(shù)據(jù)類型間的關(guān)系。屬性作用域Rel通過對R中屬性的定義域和值域進(jìn)行限制連接了本體中的概念。公理體系A(chǔ)是農(nóng)產(chǎn)品本體中類和屬性的限制描述。
3.3語義查詢和語義分析
當(dāng)用戶進(jìn)行語義搜索的時(shí)候,如搜索“安徽碭山出產(chǎn)哪些水果?”,系統(tǒng)的語義分析模塊分為兩個(gè)關(guān)鍵步驟,即斷詞斷句和關(guān)鍵字提取。中文詞法分析是中文信息處理的基礎(chǔ)與關(guān)鍵。張華平博士開發(fā)的NLPIR漢語分詞系統(tǒng)(http://www.nlpir.org,自然語言處理與信息檢索共享平臺(tái)提供下載),主要功能包括主要功能包括中文分詞、英文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別、關(guān)鍵詞提取等,并且提供一套完整的動(dòng)態(tài)連接庫可以直接在自己的系統(tǒng)中調(diào)用來實(shí)現(xiàn)漢語詞法分析。如前文安徽碭山出產(chǎn)哪些水果?系統(tǒng)會(huì)分詞標(biāo)注為:“安徽/ns 碭山/ns 出產(chǎn)/v 哪些/ry 水果/n”,然后系統(tǒng)提取出的關(guān)鍵詞:“安徽碭山”,“水果”送往Jena處理。
3.4推理機(jī)和推薦生成
推理機(jī)(Jena )來處理農(nóng)產(chǎn)品知識(shí)本體OWL 與RDF文件。例如“安徽碭山出產(chǎn)哪些水果?”語義分析模塊將會(huì)提取二個(gè)關(guān)鍵詞:安徽碭山、水果。SPARQL通過關(guān)鍵詞查詢RDF獲數(shù)據(jù),便可獲得安徽碭山出產(chǎn)的水果品類信息,如梨、蘋果、黃桃等。當(dāng)用戶點(diǎn)擊了黃桃后,系統(tǒng)會(huì)呈現(xiàn)黃桃的信息,同時(shí)會(huì)向用戶推薦黃桃的加工品黃桃罐頭等。
4結(jié)束語
語義網(wǎng)可以理解用戶輸入語句真正要表達(dá)的意思,減少不必要的模糊字詞查詢。本體技術(shù)將數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化OWL文本,可以提高數(shù)據(jù)搜索速度與準(zhǔn)確性。我們結(jié)合農(nóng)產(chǎn)品信息檢索和語義網(wǎng)的語義分析技術(shù)提出的系統(tǒng)框架除了能讓用戶檢索一般的農(nóng)產(chǎn)品信息外,還能使用語義查詢功能直接查詢農(nóng)產(chǎn)品知識(shí)并能向用戶推薦關(guān)聯(lián)信息。另外我們提出的框架還有需要改進(jìn)的地方,例如,可以結(jié)合用戶的檢索歷史和自填寫信息構(gòu)建用戶模型,分析用戶的情景化偏好,實(shí)現(xiàn)農(nóng)產(chǎn)品信息的個(gè)性化推薦。
參考文獻(xiàn):
[1]范順忠,陳浩.基于興趣感知和時(shí)間因子的個(gè)性化菜品推薦[J].計(jì)算機(jī)應(yīng)用研究,2018,35(2):358-361.
[2]秦志遠(yuǎn),黃海松,張慧.基于本體和物聯(lián)網(wǎng)的農(nóng)產(chǎn)品推薦研究[J].食品工業(yè),2017,38(4):165-169.
[3]彭潔,徐劍暉,陳超.電子商務(wù)中基于潛在類回歸模型的農(nóng)產(chǎn)品個(gè)性化推薦方案[J].江蘇農(nóng)業(yè)科學(xué),2017,45(12):274-278.
[4]于超,王璐,程道文.基于本體的教育資源語義檢索系統(tǒng)研究[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2018,36(2):207-212.
[5]劉小樂,馬捷.語義網(wǎng)環(huán)境下基于本體的知識(shí)集成研究進(jìn)展[J].現(xiàn)代情報(bào),2015,35(1):159-163.
[6]T.Berners-Lee, Linked Data-Design Issues [EB/OL] (2019-03-06). https://www.w3.org/DesignIssues/LinkedData.html.
[7]劉琪,王小正,王磊. 基于本體的教育資源語義檢索關(guān)鍵技術(shù)研究[J].電腦知識(shí)與技術(shù),2014,10(16):3872-3875.
[8]唐曉波,魏巍.基于本體的推薦系統(tǒng)研究綜述[J].圖書館學(xué)研究,2016(18):7-12.
【通聯(lián)編輯:王力】