劉瓊?cè)?/p>
摘要:Imcene是Java實現(xiàn)全文搜索引擎的工具包,短小精悍,功能強(qiáng)大,近來被廣泛使用。文章對其核心“索引一檢索”進(jìn)行了研究,搭建該平臺并引入了中文分詞,可完成對中文的搜索,以及實現(xiàn)“與”和“非”功能。在排序部分,分別用向量空間模型和BM25實現(xiàn)。在系統(tǒng)實現(xiàn)時,主要介紹了3種評測方法,對vsM和BM25模型排序算法進(jìn)行了評測,并進(jìn)行對比分析。
關(guān)鍵詞:搜索引擎;Lucene;空間向量模型;BM25