国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向區(qū)域農(nóng)業(yè)信息的垂直搜索引擎研究

2018-05-14 12:19李果
山西農(nóng)經(jīng) 2018年13期

李果

摘 要:區(qū)域農(nóng)業(yè)信息對于特定區(qū)域的關(guān)切人群具有重要價值。提出了一種面向區(qū)域農(nóng)業(yè)信息的垂直搜索引擎設(shè)計方法,從信息采集、信息組織和信息服務(wù)3個角度,提升用戶獲取區(qū)域農(nóng)業(yè)信息的體驗(yàn)。

關(guān)鍵詞:區(qū)域信息;垂直搜索引擎;農(nóng)業(yè)信息

文章編號:1004-7026(2018)13-0061-01 中國圖書分類號:TP391.3 文獻(xiàn)標(biāo)志碼:A

搜索引擎是一種應(yīng)對信息過載的有效方式。但通用搜索引擎在面對狹小細(xì)分領(lǐng)域信息檢索的時候,信息收集不充分、索引數(shù)據(jù)庫不完備,從而導(dǎo)致該領(lǐng)域信息查全率和查準(zhǔn)率低的問題。因此,垂直搜索引擎應(yīng)運(yùn)而生。垂直搜索引擎是指應(yīng)用于搜索某一專業(yè)領(lǐng)域(比如科技論文、汽車、房產(chǎn)等)或者某一類信息(比如地圖、音樂等)的專業(yè)搜索引擎[1],也被稱為專題或?qū)iT搜索引擎,是搜索引擎的細(xì)分和延伸。垂直搜索引擎并不追求大而全,強(qiáng)調(diào)的是專而精,可以在特定領(lǐng)域信息檢索中獲得較好的效果。

區(qū)域農(nóng)業(yè)信息指通過各種渠道傳播的以地方區(qū)域?yàn)榉秶纳孓r(nóng)相關(guān)信息,這些信息對于特定區(qū)域關(guān)切的人來說往往關(guān)乎切身利益,具有重要價值。每天都有大量的各類信息從各個地方產(chǎn)生,但受限于主流媒體有限的版面和時長,只有極少數(shù)信息能被選擇報道傳播,許多區(qū)域信息被埋沒而失去價值。通過建立面向區(qū)域農(nóng)業(yè)信息的垂直搜索引擎,快速、精準(zhǔn)地滿足相關(guān)用戶個性化的信息需求,下文將就幾個關(guān)鍵技術(shù)點(diǎn)進(jìn)行闡述。

1 區(qū)域農(nóng)業(yè)信息搜索基本流程

從信息管理角度看,要實(shí)現(xiàn)區(qū)域信息垂直搜索引擎的設(shè)計。首先需要根據(jù)設(shè)定區(qū)域從互聯(lián)網(wǎng)各種渠道采集相關(guān)信息,并建立基本的信息庫。接著對信息庫中的信息進(jìn)行標(biāo)注,從每一條信息中提取若干主題特征。此外為了搜索結(jié)果的有效性,還應(yīng)計算信息的權(quán)重。最后考慮到區(qū)域信息規(guī)模往往不大,可以采用關(guān)鍵詞匹配的方式響應(yīng)用戶搜索,同時采用top-N推薦的方式提升用戶使用體驗(yàn)。

2 區(qū)域農(nóng)業(yè)信息基礎(chǔ)庫建設(shè)

垂直搜索設(shè)計的首要問題是基礎(chǔ)信息庫的建設(shè),對于區(qū)域信息,主要有三類:一、穩(wěn)定的信息,產(chǎn)生時間早且不容易發(fā)生變化,比如某地的歷史、地理信息、風(fēng)俗習(xí)慣等;二、較穩(wěn)定信息,信息變化不頻繁但一定周期會發(fā)生更新,比如某地的火車時刻表、農(nóng)業(yè)經(jīng)營場所信息等;三、實(shí)時信息,這類信息變化快、數(shù)量大,比如某地的天氣信息、某地的交通路況信息、惠農(nóng)政策信息等。針對不同類別信息需要建立相應(yīng)的信息庫。

3 區(qū)域農(nóng)業(yè)信息采集

對于不同類別信息,信息采集方式不一樣。對于穩(wěn)定的信息,主要是做好前期工作,信息來源不僅僅是互聯(lián)網(wǎng),還可以是線下信源,傳統(tǒng)方志、實(shí)地考察等,確保權(quán)威、準(zhǔn)確。對于較穩(wěn)定的信息,則注意信息抓取的周期,盡量響應(yīng)信息更新。對于實(shí)時信息,則需要耗費(fèi)較多計算資源,密切抓取信息源實(shí)時更新?;ヂ?lián)網(wǎng)信息來源多樣,在有限資源的前提下,考慮到信息分布呈現(xiàn)的馬太效應(yīng)[3],盡可能聚焦核心信息源信息進(jìn)行采集可以提升采集效率。

4 區(qū)域農(nóng)業(yè)信息組織

對于已建立好的信息庫,要實(shí)現(xiàn)搜索的響應(yīng)功能,需要做好兩個工作。一是對信息進(jìn)行標(biāo)注,提取信息的主題特征,可通過中文分詞進(jìn)行涉農(nóng)詞匯識別,去除無意義的停用詞,提取有意義的涉農(nóng)詞語標(biāo)簽。二是計算信息的權(quán)重值,主要從時間角度和影響力角度進(jìn)行衡量,從時間角度看通常較新的信息具有更大的價值,從影響力角度看主要考慮信息來源和信息引用及互動情況。比如權(quán)威信息源發(fā)布的信息往往重要性高于普通網(wǎng)民發(fā)布的信息,又比如被廣泛轉(zhuǎn)載和評論的信息往往具有較高的價值。

5 區(qū)域農(nóng)業(yè)信息搜索

區(qū)域涉農(nóng)信息規(guī)模通常不大,在信息呈現(xiàn)上,可以以兩種方式:一是提供搜索入口,用戶提交關(guān)鍵詞,然后直接通過關(guān)鍵詞匹配和近似詞匹配的方式,按照權(quán)重和時間順序給出搜索結(jié)果,單純依賴關(guān)鍵詞匹配可能會降低查全率,在信息組織階段可以將信息進(jìn)行基本類別的劃分,當(dāng)關(guān)鍵詞匹配結(jié)果不理想的情況下,可以反饋同類別信息;二是采用topN推薦的方式,列出特定時間段重要性較高的信息,滿足用戶多樣性和新穎度的需求。

6 結(jié)束語

相比通用綜合搜索引擎大而全的方式,垂直搜素引擎強(qiáng)調(diào)專而精,在特定領(lǐng)域信息搜索中具有更高的查準(zhǔn)率。區(qū)域農(nóng)業(yè)信息對于某一地方關(guān)切的用戶具有重要價值,通過垂直搜索引擎采集和挖掘本地信息便具有重要意義。

參考文獻(xiàn):

[1]王文鈞,李巍.垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J].情報科學(xué),2010,28(03):477-480.

[2]楊韜,鄒永利.中文商業(yè)網(wǎng)站信息資源的集中與分散規(guī)律探究[J].現(xiàn)代情報,2007(09):53-56.

商丘市| 廊坊市| 贵定县| 读书| 灵石县| 晋州市| 静宁县| 武山县| 会宁县| 舒城县| 镶黄旗| 仁寿县| 大名县| 洛阳市| 青海省| 北辰区| 宽甸| 勃利县| 九江市| 宁远县| 隆德县| 尼木县| 昭通市| 荔波县| 连城县| 乌兰浩特市| 若尔盖县| 白朗县| 通化县| 芷江| 南靖县| 花莲县| 武隆县| 中阳县| 永善县| 二连浩特市| 乌兰县| 高密市| 德兴市| 萝北县| 延安市|