国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于檢索意圖識(shí)別的信息檢索專利技術(shù)綜述

2016-08-16 02:34:32王志超李銀松
河南科技 2016年6期
關(guān)鍵詞:信息檢索搜索引擎專利申請(qǐng)

王志超 李銀松

(國(guó)家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作河南中心,河南 鄭州 450002)

基于檢索意圖識(shí)別的信息檢索專利技術(shù)綜述

王志超李銀松

(國(guó)家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作河南中心,河南鄭州450002)

信息檢索是對(duì)大規(guī)模電子文本和其他人類語(yǔ)言數(shù)據(jù)進(jìn)行表示、搜索和處理的技術(shù)。隨著信息檢索技術(shù)的發(fā)展,為了使檢索結(jié)果更加符合用戶要求,基于檢索意圖識(shí)別的信息檢索技術(shù)迅速發(fā)展。本文首先介紹信息檢索和檢索意圖識(shí)別的基本概念,然后從專利技術(shù)的角度介紹基于檢索意圖識(shí)別的信息檢索技術(shù)的發(fā)展路線,并介紹基于檢索意圖識(shí)別的信息檢索技術(shù)重要申請(qǐng)人的技術(shù)路線,最后,總結(jié)現(xiàn)有的基于檢索意圖識(shí)別的信息檢索技術(shù)的整體發(fā)展趨勢(shì)和專利文獻(xiàn)在其中所起的作用。

信息檢索;檢索意圖;多維度

1 引言

信息檢索(Information Retrieval,IR)被認(rèn)為是對(duì)大規(guī)模電子文本和其他人類語(yǔ)言數(shù)據(jù)進(jìn)行表示、搜索和處理的技術(shù)。信息檢索系統(tǒng)和服務(wù)現(xiàn)在已經(jīng)非常普遍了,成千上萬的人每天都在使用它們來方便的進(jìn)行商務(wù)、教育和娛樂。Google、Bing、Yahoo、百度等Web搜索引擎,是目前為止最普遍和大量使用的信息檢索服務(wù)形式,提供獲取最新技術(shù)信息、搜索人和組織、總結(jié)新聞和事件意見簡(jiǎn)化比較購(gòu)物的途徑[1]。

信息檢索通常包括:Web搜索、其他搜索應(yīng)用、其他信息搜索應(yīng)用等。通常的Web搜索形式是使用Web搜索引擎,通過輸入簡(jiǎn)單的查詢,得到問題的答案。對(duì)于其他搜索應(yīng)用,兩個(gè)常用的實(shí)例就是桌面搜索和文件系統(tǒng)搜索。與Web搜索引擎相比,桌面搜索引擎系統(tǒng)需要對(duì)文件格式和創(chuàng)建時(shí)間更加了解。其他搜索應(yīng)用還包括企業(yè)級(jí)信息搜索系統(tǒng)、數(shù)字圖書館等其他專業(yè)信息檢索系統(tǒng)。其他信息搜索應(yīng)用通常處理的問題還包括存儲(chǔ)、處理和檢索人類語(yǔ)言數(shù)據(jù)等各種相互關(guān)聯(lián)的問題[1],具體包括:文檔路由、過濾和選擇性傳播、文本聚類和分類、摘要、信息提取、話題檢索與跟蹤、專家搜索、問答、多媒體信息檢索等。

大部分信息檢索系統(tǒng)都可以表示為一個(gè)共同的基礎(chǔ)組織結(jié)構(gòu),如圖1所示。首先用戶產(chǎn)生一個(gè)信息需求,并基于該需求,用戶在信息檢索系統(tǒng)中輸入一個(gè)查詢,由搜索引擎根據(jù)該查詢?cè)跀?shù)據(jù)庫(kù)中進(jìn)行檢索,然后對(duì)檢索結(jié)果進(jìn)行過濾、排序等處理生成檢索結(jié)果,最后將檢索結(jié)果返回給用戶。

圖1 信息檢索系統(tǒng)

2 檢索意圖識(shí)別的基本概念

檢索意圖(Retrieval Intention)是檢索中包含的用戶信息需求、查詢目標(biāo)、查詢動(dòng)機(jī)等。

根據(jù)用戶輸入的檢索信息,自動(dòng)識(shí)別出其檢索意圖,返回與其信息需求更相關(guān)的信息,成為有效把握用戶需求、提高搜索引擎檢索質(zhì)量的途徑之一。

對(duì)于檢索意圖的分類,學(xué)術(shù)界通常使用Broder等人提出的分類標(biāo)準(zhǔn)[2]:

(1)導(dǎo)航類(Navigational):又叫主頁(yè)查找類。這類檢索意圖是為了訪問某個(gè)特定的網(wǎng)站,例如某企業(yè)、組織的主頁(yè);

(2)信息類(Informational):又叫話題相關(guān)類。這類檢索意圖是為了獲取例如如何改變閱讀器背景顏色等會(huì)在多個(gè)網(wǎng)頁(yè)上存在的信息;

(3)事務(wù)類(Transactional):又叫服務(wù)查找類。這類檢索意圖是為了進(jìn)行一些基于Web的活動(dòng),例如:觀看視頻、網(wǎng)上購(gòu)物等。

Rose等人[3]在Border等人的基礎(chǔ)上,又提出了更加細(xì)致的分類層次,除了導(dǎo)航類和信息類外,又增加了:

①指導(dǎo)類(Directed):用戶想知道關(guān)于某個(gè)話題的特定信息,其中包括:確定的(Closed)和開放的(Open);

②無指導(dǎo)類(Undirected):用戶想知道關(guān)于一個(gè)話題的任何信息;

③建議(Advice):用戶想要得到關(guān)于某個(gè)主題的建議或攻略等,例如:春節(jié)海南旅行攻略;

④位置(Locate):用戶想知道在哪里能夠得到現(xiàn)實(shí)世界中的某種服務(wù)或產(chǎn)品;

⑤下載(Download);

⑥娛樂(Entertainment);

⑦交互(Interact);

⑧獲取(Obtain)。

基于檢索意圖識(shí)別的信息檢索的關(guān)鍵技術(shù)通常包括[4]:特征提?。ù_定特征詞匯、詞項(xiàng)之間的關(guān)系、詞性、相關(guān)數(shù)據(jù)的統(tǒng)計(jì)信息等)和數(shù)據(jù)集的構(gòu)造或獲取(用于分類的數(shù)據(jù)集通常包括訓(xùn)練接和測(cè)試集,通??梢允褂盟阉饕娴娜罩荆?。

3 基于檢索意圖識(shí)別的信息檢索技術(shù)發(fā)展路線

一直以來,學(xué)界認(rèn)為傳統(tǒng)信息檢索的核心宗旨為:用戶內(nèi)在的信息需求促使其采用相應(yīng)的信息檢索系統(tǒng)并產(chǎn)生相應(yīng)檢索行為,從而將用戶查詢中所包含的信息需求狹義地界定為信息類信息,即主題類查詢。

1987年12月2日,日本的日立有限公司的申請(qǐng)(JPH01145721 A,19890607)首次通過評(píng)價(jià)檢索意圖來對(duì)搜索結(jié)果排序,公開了一種通過檢索關(guān)鍵詞計(jì)算得到的擬合優(yōu)度(goodness-of-fit)這一測(cè)度來數(shù)值化檢索意圖的方法。直到2000年出現(xiàn)韓國(guó)的申請(qǐng)之前,在基于檢索意圖的信息檢索領(lǐng)域的專利全部集中在日本,其中以FUJI XEROX CO LTD為首,包括12件專利申請(qǐng),MATSUSHITA ELECTRIC IND CO LTD、NIPPON TELEGRAPH& TELEPHONE、YAHOO JAPAN CORP、YAHOO KK次之,分別有8件專利申請(qǐng)。此時(shí)的基于檢索意圖的信息檢索還遵循著傳統(tǒng)的信息檢索的定義,通過用戶輸入的關(guān)鍵詞進(jìn)行主題類查詢。

自2002年開始,學(xué)術(shù)界認(rèn)為用戶執(zhí)行檢索不只是想獲取信息類信息,并通過對(duì)用戶查詢及AltaVista日志進(jìn)行分析將用戶查詢意圖分為三類,即信息類(I)、導(dǎo)航類(N)和事務(wù)類(T)。自此,人們開始從多個(gè)角度研究基于檢索意圖識(shí)別的信息檢索技術(shù)。

2003年7月2日,日本的OKI ELECTRIC IND CO LTD的申請(qǐng)(JP2003000190556,20030702)不僅通過關(guān)鍵詞來獲得用戶的檢索意圖,同時(shí)加入關(guān)鍵詞的屬性,來共同表示檢索意圖。即,檢索意圖識(shí)別中的一個(gè)關(guān)鍵技術(shù)——特征提取——開始備受關(guān)注,多角度、多維度的特征提取方法激增。

中國(guó)專利CN101782909A公開了一種基于用戶對(duì)網(wǎng)頁(yè)搜索和操作網(wǎng)頁(yè)的記錄來計(jì)算用戶后續(xù)需求意向的方法。通過記錄用戶對(duì)網(wǎng)頁(yè)的點(diǎn)擊數(shù)、點(diǎn)擊速率、網(wǎng)頁(yè)速度、瀏覽時(shí)長(zhǎng)、瀏覽次數(shù)和鏈接文字的操作,計(jì)算出用戶對(duì)搜索結(jié)果的喜好分值和后續(xù)需求意向。當(dāng)用戶點(diǎn)擊一個(gè)超鏈接時(shí),搜索引擎要實(shí)時(shí)的計(jì)算一個(gè)喜好分值,并將鏈接上的文字和檢索請(qǐng)求相聯(lián)系起來,可認(rèn)為是相關(guān)聯(lián)。

中國(guó)專利CN102880723A公開了一種識(shí)別用戶檢索意圖的搜索方法和系統(tǒng)。計(jì)算檢索請(qǐng)求的意圖特征相似度、實(shí)體詞關(guān)聯(lián)度、以及句法格式相似度三種度量,根據(jù)上述計(jì)算的三種度量確定用戶檢索意圖,既考慮到檢索詞匯與意圖特征庫(kù)的相似度,又考慮到實(shí)體詞的特殊作用以及整體的檢索句法結(jié)構(gòu),從局部和整體上對(duì)檢索關(guān)鍵字做意圖識(shí)別,為搜索引擎提供盡可能多的信息支持,同時(shí)不完全依賴于線上搜索引擎的結(jié)果信息,更易于實(shí)現(xiàn)。

4 基于檢索意圖識(shí)別的信息檢索技術(shù)重要申請(qǐng)人的技術(shù)路線

基于檢索意圖識(shí)別的信息檢索技術(shù)專利申請(qǐng),中國(guó)申請(qǐng)以阿里巴巴集團(tuán)控股有限公司為首,有73件專利申請(qǐng),百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司次之,有43件專利申請(qǐng);國(guó)外申請(qǐng)以阿里巴巴(ALIBABA GROUP HOLDING)為首,有19件專利申請(qǐng),騰訊(TENCENT)次之,有18件專利申請(qǐng)。但阿里巴巴的申請(qǐng)的申請(qǐng)日都集中在2010年以后。在2010年以前,都集中在日本和美國(guó),其中日本以FUJI XEROX CO LTD為主。

以下主要分析阿里巴巴在中國(guó)申請(qǐng)的關(guān)于檢索意圖識(shí)別方法的技術(shù)路線。

2009年9月4日,阿里巴巴在中國(guó)提交的第一件關(guān)于檢索意圖識(shí)別的信息檢索方法(CN200910171083),主要以查詢關(guān)鍵字的語(yǔ)言特點(diǎn)和歷史用戶行為作為特征,對(duì)用戶意圖進(jìn)行分析,以語(yǔ)義檢索為主,不再是傳統(tǒng)信息檢索中簡(jiǎn)單的文字匹配。

2010年4月30日,提交的CN201010160535提出了一種基于垂直搜索的查詢方法,其體現(xiàn)了在搜索領(lǐng)域新出現(xiàn)的一個(gè)搜索技術(shù)——垂直搜索,是用這項(xiàng)新的技術(shù),結(jié)合協(xié)同過濾的思想,在用戶推薦領(lǐng)域獲得用戶的查詢意圖。

2010年12月31日,提交的CN201010618555提出了一種通過建立非意圖詞集的方式,預(yù)先確定多種推薦方式,其中第一預(yù)定推薦方式為基于知識(shí)庫(kù)的推薦方式和/或基于會(huì)話相關(guān)性的推薦方式,從而解決了沒有明確搜索意圖的用戶推薦搜索關(guān)鍵詞時(shí)推薦效果不佳,造成搜索引擎服務(wù)器系統(tǒng)資源浪費(fèi)的問題。

2011年9月1日,提交的CN201110256639使用兩級(jí)查詢,進(jìn)一步提高檢索精度。

2011年11月15日,提交的CN201110361975在原來只進(jìn)行單詞這一層面分析的基礎(chǔ)上,使用詞的匹配規(guī)則,進(jìn)一步挖掘用戶的搜索意圖。

2012年1月17日,提交的CN201210015340通過輸入的查詢字和選取的類目,確定查詢?cè)~與類目名稱之間的上下位關(guān)系,根據(jù)確定的上下位關(guān)系確定擴(kuò)展查詢?cè)~,從而加大匹配到用戶查詢意圖的可能性。且在2012年的多項(xiàng)申請(qǐng)中,都致力于根據(jù)用戶輸入的查詢?cè)~,進(jìn)行查詢?cè)~擴(kuò)展,找到更能符合用戶查詢意圖的關(guān)鍵詞。

2013年的申請(qǐng)主要結(jié)合用戶的搜索行為制定個(gè)性化的搜索方案,從而輸出合理的符合某一用戶的搜索意圖的結(jié)果。

5 結(jié)論

隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展及用戶需求的急劇增加,對(duì)信息檢索的精度和速度的要求越來越高。為了得到更加貼近用戶意圖的檢索結(jié)果,用戶意圖識(shí)別技術(shù)必將得到更多重視。與其他機(jī)器學(xué)習(xí)方法的發(fā)展歷程一樣,基于用戶檢索意圖的信息檢索正在由單維度向多維度發(fā)展,由底層的數(shù)據(jù)匹配向高層的語(yǔ)義匹配發(fā)展。

由于發(fā)明成果在專利文獻(xiàn)中的公開早于其他公開媒介,且體現(xiàn)了行業(yè)和技術(shù)的發(fā)展趨勢(shì)及商業(yè)價(jià)值。所以,有效利用專利文獻(xiàn)更有利于提高研究效率、減少研究投入并提高研究水平。通過專利文獻(xiàn)中技術(shù)的發(fā)展脈絡(luò),能夠及時(shí)發(fā)現(xiàn)現(xiàn)有技術(shù)的空白點(diǎn)及改進(jìn)點(diǎn),有助于研究者及時(shí)調(diào)整技術(shù)研究及企業(yè)發(fā)展方向及戰(zhàn)略,研發(fā)出更加符合用戶需求的產(chǎn)品。

[1]Stegan Büttcher,Charles L.A.Clarke,Gordon V.Cormack著,陳健,黃晉等譯,信息檢索:實(shí)現(xiàn)和評(píng)價(jià)搜索引擎,機(jī)械工業(yè)出版社,北京,2011.12.

[2]Andrei Broder.A taxonomy of web search[C].SIGIRForum. New York,N Y,USA:ACM Press,2002:3-10.

[3]Daniel E,Rose,Danny Levinson.U nderstandinguser goals in web search[C].WWW’04:Proceedingsof the 13th international conference on World WideWeb.New York,N Y,U SA:ACM Press,2004:13-19.

[4]張森,王斌.Web檢索查詢意圖分類技術(shù)綜述.中文信息學(xué)報(bào).2008,22(4):75-82.

Patent technical review of information retrieval based on retrieval intention

Wang ZhichaoLi Yinsong
(Patent Examination Cooperation Henan Center of the Patent Office,SIPO,Zhengzhou Henan 450002)

Information retrieval is the technology to represent,search and process large-scale electronic text and other human language data.With the development of the information retrieval technology,in order to make the result more in line with the user’s requirements,the technology of information retrieval based on retrieval intention develops rapidly.First,we introduce the basic concepts of information retrieval and retrieval intention recognition.Then,we introduce the development routes of the technology and important applicants of information retrieval based on retrieval intention from the perspective of patent technology.Finally,we summarize the overall development trend of the existing information retrieval technology based on retrieval intention and the role of patent literatures.

Information retrieval;retrieval intention;multi-dimension

王志超(1987-),女,碩士,研究方向:機(jī)器學(xué)習(xí);李銀松(1988-),男,碩士,研究方向:機(jī)器學(xué)習(xí)(等同第一作者)。

G354

A

1003-5168(2016)03-0063-03

2016-2-20

猜你喜歡
信息檢索搜索引擎專利申請(qǐng)
專利申請(qǐng)審批流程圖
河南科技(2016年8期)2016-09-03 08:08:22
專利申請(qǐng)三步曲
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務(wù)的實(shí)踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
國(guó)外專利申請(qǐng)如何盡快被授權(quán)
广西| 滨州市| 米易县| 肥东县| 万州区| 灌云县| 格尔木市| 晋宁县| 郓城县| 开阳县| 红桥区| 洛阳市| 临沧市| 西畴县| 吉木萨尔县| 冕宁县| 涟源市| 渝北区| 辰溪县| 崇义县| 濉溪县| 汨罗市| 阳新县| 太仓市| 麟游县| 玉山县| 探索| 东乡县| 河池市| 都昌县| 柯坪县| 喜德县| 新安县| 福海县| 武川县| 娄底市| 阳高县| 连江县| 南陵县| 桦甸市| 台安县|