邱金水,莊會(huì)富,金 濤
(中國(guó)科學(xué)院昆明植物研究所科技信息中心,云南 昆明 650201)
近年來(lái),隨著科學(xué)研究進(jìn)入數(shù)據(jù)驅(qū)動(dòng)的第四范式,科學(xué)數(shù)據(jù)資源成為國(guó)家重要的戰(zhàn)略性支撐資源[1]。植物圖像包括植物的彩色圖像和標(biāo)本圖像,它們是植物學(xué)科領(lǐng)域的重要科學(xué)數(shù)據(jù)資源。植物圖像不僅是比較直觀地了解和認(rèn)識(shí)植物的參考資料,同時(shí)也是植物學(xué)領(lǐng)域的科技工作者研究植物不可或缺的科研材料。隨著電子科技的進(jìn)步尤其是智能手機(jī)的廣泛普及和標(biāo)本數(shù)字化的快速發(fā)展,植物的彩色圖像和標(biāo)本圖像都呈現(xiàn)爆發(fā)式增長(zhǎng)。利用海量的植物圖像構(gòu)建一個(gè)智能的植物圖像檢索系統(tǒng),不僅能對(duì)廣大人民群眾起到科普教育和科普宣傳的作用,同時(shí)還可以支撐植物學(xué)領(lǐng)域的科技工作者進(jìn)行植物物種鑒定和植物分類等科學(xué)研究工作。
使用當(dāng)前比較流行的搜索引擎如百度和Google也能檢索植物圖像,但檢索出來(lái)的植物圖像有些標(biāo)注信息(如物種鑒定信息)是錯(cuò)誤的。用于植物分類學(xué)研究的植物圖像(如植物器官特征圖像)會(huì)比較缺乏,在支撐植物科學(xué)研究方面比較有限。主要是因?yàn)檫@些通用的搜索引擎缺乏植物領(lǐng)域?qū)I(yè)性,它們僅僅是將整個(gè)互聯(lián)網(wǎng)開(kāi)放的植物圖像簡(jiǎn)單地網(wǎng)羅在一起。目前國(guó)內(nèi)較大的植物圖像庫(kù)有中國(guó)植物圖像庫(kù)(Plant Photo Bank of China, PPBC)[2]、中國(guó)數(shù)字植物標(biāo)本館(Chinese Virtual Herbarium, CVH)[3]等,它們都是專業(yè)的植物圖像庫(kù),植物圖像保存數(shù)量均超過(guò)800萬(wàn)張。由于它們的植物圖像主要來(lái)自于國(guó)內(nèi)的標(biāo)本數(shù)字化圖像和個(gè)人拍攝的植物圖像,尚未整合國(guó)內(nèi)外開(kāi)放的專業(yè)植物圖像數(shù)據(jù)庫(kù),因此其植物圖像數(shù)量的年增長(zhǎng)率均比較低。此外,PPBC和CVH的搜索引擎不支持根據(jù)植物圖片、部位顏色和圖片大小進(jìn)行檢索,因此還有進(jìn)一步完善和優(yōu)化的空間。
在植物圖像研究和應(yīng)用領(lǐng)域,研究人員在植物圖像分割[4-5]、植物圖像分類[6-7]、植物圖像管理[8]、植物圖像識(shí)別[9-11]和基于圖像處理技術(shù)的植物圖像檢索[12-13]等方面均進(jìn)行了相關(guān)的研究。這些研究主要基于植物圖像的內(nèi)容,側(cè)重于植物圖像的輪廓特征、紋理特征、圖像顏色等方面的算法研究,而對(duì)植物圖像的采集、整理、存儲(chǔ)以及構(gòu)建智能檢索系統(tǒng)等方面的開(kāi)發(fā)設(shè)計(jì)或研究則比較少。因此本文利用大數(shù)據(jù)技術(shù)、人工智能技術(shù)、搜索引擎技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)嘗試對(duì)海量植物圖像的檢索系統(tǒng)進(jìn)行設(shè)計(jì),對(duì)其他相關(guān)領(lǐng)域的研發(fā)設(shè)計(jì)與應(yīng)用具有一定的參考意義。
在傳統(tǒng)的軟件設(shè)計(jì)過(guò)程中,采用單臺(tái)植物圖像文件服務(wù)器和關(guān)系型數(shù)據(jù)庫(kù)構(gòu)建植物圖像檢索系統(tǒng)是常用的技術(shù)手段,通過(guò)植物拉丁名或中文名等文字信息進(jìn)行檢索亦是普遍的檢索方式。但隨著大數(shù)據(jù)時(shí)代的到來(lái)以及人工智能技術(shù)的高速發(fā)展,科學(xué)數(shù)據(jù)日益呈現(xiàn)出4V特征[14]:體量(volume)、類型(variety)、速度(velocity)和最重要的價(jià)值(value)。傳統(tǒng)的軟件設(shè)計(jì)技術(shù)已無(wú)法滿足海量植物圖像的存儲(chǔ)需求和檢索性能需求,單一的文字檢索方式亦不能滿足植物學(xué)領(lǐng)域科技工作者的個(gè)性化檢索需求。因此,本文提出利用百度Artificial Intelligence(AI)技術(shù)、ImageSharp圖像分割技術(shù)和OpenCV 2.X(CV2)顏色識(shí)別技術(shù)實(shí)現(xiàn)植物圖像的智能檢索,利用FastDFS技術(shù)實(shí)現(xiàn)檢索系統(tǒng)的動(dòng)態(tài)擴(kuò)容、負(fù)載均衡和植物圖像的快速加載,利用Solr搜索引擎技術(shù)提高海量植物圖像的檢索效率,利用Python爬蟲技術(shù)不斷豐富植物圖像檢索系統(tǒng)的數(shù)據(jù)量從而實(shí)現(xiàn)檢索系統(tǒng)的可持續(xù)化發(fā)展。實(shí)驗(yàn)結(jié)果表明,通過(guò)上述技術(shù)能夠構(gòu)建一個(gè)面向海量植物圖像的智能檢索系統(tǒng)。
傳統(tǒng)軟件技術(shù)設(shè)計(jì)的植物圖像檢索系統(tǒng)存在以下問(wèn)題:
1)檢索方式單一。傳統(tǒng)的植物圖像檢索方式主要以植物拉丁名或中文名進(jìn)行檢索。隨著人工智能技術(shù)的快速發(fā)展,圖像識(shí)別技術(shù)和目標(biāo)檢測(cè)技術(shù)愈發(fā)成熟,基于人工智能技術(shù)可以實(shí)現(xiàn)根據(jù)植物圖片、部位和顏色進(jìn)行檢索。
2)檢索系統(tǒng)難以擴(kuò)容,檢索高并發(fā)時(shí)植物圖像加載速度慢。傳統(tǒng)的軟件技術(shù)普遍采用的是單臺(tái)植物圖像文件服務(wù)器,當(dāng)文件服務(wù)器的存儲(chǔ)空間耗盡時(shí),需要重新部署新的文件服務(wù)器,且需要對(duì)應(yīng)用服務(wù)器的代碼層級(jí)進(jìn)行修改,而檢索請(qǐng)求高并發(fā)時(shí)單臺(tái)文件服務(wù)器亦無(wú)法及時(shí)處理植物圖像的下載請(qǐng)求從而造成植物圖像加載比較慢的問(wèn)題。
3)檢索效率低下。傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的設(shè)計(jì)主要面向企業(yè)級(jí)應(yīng)用,系統(tǒng)運(yùn)行在獨(dú)立的服務(wù)器上。隨著用戶及相應(yīng)數(shù)據(jù)量的急劇增加,傳統(tǒng)的集中式關(guān)系數(shù)據(jù)庫(kù)在可擴(kuò)展性上的弊端日益顯現(xiàn)[15],且檢索效率低下。如當(dāng)植物圖像的數(shù)據(jù)量超過(guò)1000萬(wàn)時(shí),采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)如SQL Server 2014進(jìn)行模糊檢索時(shí),即使設(shè)計(jì)了索引字段耗時(shí)也需要大約116 s。這主要受限于關(guān)系型數(shù)據(jù)庫(kù)自身的設(shè)計(jì)機(jī)制。
4)傳統(tǒng)的植物圖像檢索系統(tǒng)一般基于現(xiàn)有的植物圖像進(jìn)行設(shè)計(jì),很少考慮數(shù)據(jù)量增長(zhǎng)和可持續(xù)化發(fā)展等問(wèn)題。隨著網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展,利用Python技術(shù)對(duì)國(guó)內(nèi)外各大專業(yè)的植物圖像庫(kù)進(jìn)行圖像數(shù)據(jù)采集,可以不斷豐富植物圖像檢索系統(tǒng)的圖像。
本文設(shè)計(jì)的海量植物圖像智能檢索系統(tǒng)的系統(tǒng)架構(gòu)從上往下可以分為4層:應(yīng)用層、應(yīng)用支撐層、數(shù)據(jù)資源層和基礎(chǔ)設(shè)施層。其中,應(yīng)用層提供給用戶既可以按照傳統(tǒng)的植物拉丁名或中文名進(jìn)行檢索圖像,也可以根據(jù)植物圖片、部位、顏色和大小等條件檢索植物圖像;應(yīng)用支撐層主要包括為了支撐應(yīng)用層所采取的關(guān)鍵性技術(shù),如植物圖像識(shí)別技術(shù)、植物圖像標(biāo)注服務(wù)、植物部位顏色識(shí)別技術(shù)和植物圖像信息抽取技術(shù)等;數(shù)據(jù)資源層主要包括植物圖像檢索系統(tǒng)的底層數(shù)據(jù),如Solr數(shù)據(jù)、FastDFS分布式存儲(chǔ)的文件、業(yè)務(wù)數(shù)據(jù)庫(kù)、歷史數(shù)據(jù)和爬蟲數(shù)據(jù)等;基礎(chǔ)設(shè)施層主要包括支撐植物圖像檢索系統(tǒng)所需要的硬件設(shè)備和軟件系統(tǒng)。同時(shí),為了保障檢索系統(tǒng)的安全穩(wěn)定運(yùn)行和監(jiān)測(cè)用戶的檢索行為,檢索系統(tǒng)還建立了一個(gè)用戶檢索行為記錄與系統(tǒng)監(jiān)測(cè)體系。具體的植物圖像檢索系統(tǒng)架構(gòu)如圖1所示。
本文設(shè)計(jì)的海量植物圖像智能檢索系統(tǒng)由眾多服務(wù)器組成,其中Web服務(wù)器用于部署植物圖像檢索系統(tǒng),接受用戶在檢索客戶機(jī)發(fā)出的檢索請(qǐng)求;歷史數(shù)據(jù)服務(wù)器用于存儲(chǔ)現(xiàn)有的植物圖像;爬蟲服務(wù)器用于抓取國(guó)內(nèi)外各大專業(yè)植物圖像庫(kù)對(duì)外免費(fèi)開(kāi)放的植物圖像;數(shù)據(jù)處理服務(wù)器用于處理尚未入庫(kù)的植物圖像數(shù)據(jù),處理植物圖像時(shí)需要調(diào)用圖像標(biāo)注服務(wù)器提供的標(biāo)注服務(wù),處理完后圖像文件傳輸?shù)紽astDFS分布式文件存儲(chǔ)服務(wù)器進(jìn)行保存,并將FastDFS返回的地址信息和其它已處理好的結(jié)構(gòu)化數(shù)據(jù)保存到數(shù)據(jù)庫(kù)服務(wù)器;Solr服務(wù)器集群則通過(guò)連接數(shù)據(jù)庫(kù)服務(wù)器構(gòu)建Solr底層索引數(shù)據(jù),并為Web服務(wù)器提供智能檢索支持。具體的植物圖像檢索系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
本文設(shè)計(jì)的海量植物圖像智能檢索系統(tǒng)的功能模塊包括檢索頁(yè)面和檢索結(jié)果展示2個(gè)部分,具體的植物圖像檢索系統(tǒng)功能模塊如圖3所示。
用戶在植物圖像檢索客戶端發(fā)出檢索請(qǐng)求后,檢索系統(tǒng)首先判斷用戶是按圖片檢索還是按文字檢索。如果是按圖片檢索,則調(diào)用植物圖像識(shí)別應(yīng)用程序接口(Application Programming Interface, API),然后處理接口返回識(shí)別信息并根據(jù)可信度最高的物種信息去調(diào)用Solr集群的API。如果是按文字檢索,檢索系統(tǒng)先對(duì)檢索關(guān)鍵詞進(jìn)行初步處理,處理完后根據(jù)相關(guān)的檢索條件去調(diào)用Solr集群的API,然后處理返回的結(jié)果信息,接著檢索系統(tǒng)將處理好的結(jié)果信息返回給客戶端,從而響應(yīng)檢索請(qǐng)求??蛻舳藶g覽器對(duì)于返回的文字信息直接顯示,對(duì)于返回的圖像地址信息則根據(jù)地址信息請(qǐng)求FastDFS分布式文件存儲(chǔ)服務(wù)器,然后FastDFS下載圖像返回給客戶端的瀏覽器進(jìn)行顯示,從而完成一個(gè)檢索流程。具體的植物圖像檢索系統(tǒng)業(yè)務(wù)流程如圖4所示。
本文設(shè)計(jì)的海量植物圖像智能檢索系統(tǒng),其構(gòu)建步驟主要包括植物圖像數(shù)據(jù)抓取、植物圖像數(shù)據(jù)處理、植物圖像文件存儲(chǔ)、植物圖像結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、植物圖像索引數(shù)據(jù)存儲(chǔ)和植物圖像的智能檢索等。使用的關(guān)鍵技術(shù)包括數(shù)據(jù)抓取與處理技術(shù)、分布式存儲(chǔ)技術(shù)、搜索引擎技術(shù)和智能檢索技術(shù)等。構(gòu)建植物圖像智能檢索系統(tǒng)的具體技術(shù)路線如表1所示。
表1 構(gòu)建植物圖像智能檢索系統(tǒng)技術(shù)路線
為了實(shí)現(xiàn)植物圖像檢索系統(tǒng)底層數(shù)據(jù)的持續(xù)增長(zhǎng),本文通過(guò)Python網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)免費(fèi)開(kāi)放的植物圖像數(shù)據(jù)進(jìn)行抓取。Python是一款優(yōu)秀的爬蟲工具,它通過(guò)使用Beautiful Soup、Selenium和XPath這3個(gè)組件可以很便捷地實(shí)現(xiàn)爬蟲技術(shù)[16]。植物圖像數(shù)據(jù)抓取的基本原則包括:只抓取植物圖像類的專業(yè)數(shù)據(jù)庫(kù),確保數(shù)據(jù)的可靠性和專業(yè)性;只抓取免費(fèi)開(kāi)放的數(shù)據(jù),并注明數(shù)據(jù)的來(lái)源且不用于盈利,確保原始植物圖像數(shù)據(jù)的知識(shí)產(chǎn)權(quán)得到保護(hù);采取定期和延時(shí)抓取策略,避免對(duì)目標(biāo)數(shù)據(jù)庫(kù)造成過(guò)大負(fù)載,不影響目標(biāo)數(shù)據(jù)庫(kù)的正常運(yùn)行。
對(duì)抓取的植物圖像數(shù)據(jù)需要經(jīng)過(guò)一系列的處理才能進(jìn)入植物圖像檢索系統(tǒng):需要對(duì)開(kāi)放的圖像元數(shù)據(jù)如種中文名、種拉丁名、作者信息、來(lái)源信息、時(shí)間信息等進(jìn)行清洗、格式校正等常規(guī)處理;計(jì)算植物圖像文件的Message Digest 5(MD5)值,根據(jù)MD5值判斷該圖像文件是否已存在;讀取植物圖像的特征信息包括拍攝時(shí)間、GPS信息、像素、分辨率、相機(jī)型號(hào)、光圈、曝光時(shí)間和焦距等基本圖像信息;調(diào)用圖像自動(dòng)標(biāo)注服務(wù)API對(duì)植物部位進(jìn)行標(biāo)注;通過(guò)ImageSharp圖像分割技術(shù)和CV2顏色識(shí)別技術(shù)識(shí)別植物部位的顏色;生成植物圖像縮略圖;將原圖和縮略圖保存到FastDFS分布式文件系統(tǒng)并獲取存儲(chǔ)路徑;將上述處理獲得的所有結(jié)構(gòu)化數(shù)據(jù)保存到數(shù)據(jù)庫(kù),并定期更新Solr集群的索引數(shù)據(jù)。具體的植物圖像數(shù)據(jù)處理流程如圖5所示。
植物圖像檢索系統(tǒng)在檢索請(qǐng)求高并發(fā)時(shí),需要從圖片服務(wù)器加載大量的植物縮略圖到客戶端。采用傳統(tǒng)的單臺(tái)文件服務(wù)器顯然無(wú)法滿足需求,而分布式文件系統(tǒng)能夠?qū)?shù)據(jù)管理任務(wù)均衡地分布到每個(gè)存儲(chǔ)節(jié)點(diǎn)上,達(dá)到各司其職和彼此協(xié)同的目的[17],如FastDFS,其充分考慮了文件的冗余備份、負(fù)載均衡和支持動(dòng)態(tài)擴(kuò)容等機(jī)制,解決了文件的大容量存儲(chǔ)和負(fù)載均衡等問(wèn)題[18]。因此本文通過(guò)引入在小文件處理表現(xiàn)優(yōu)秀的FastDFS分布式文件系統(tǒng)來(lái)提高植物圖像的加載速度。
當(dāng)植物圖像檢索系統(tǒng)客戶端發(fā)出高并發(fā)請(qǐng)求植物圖像時(shí),檢索系統(tǒng)客戶機(jī)通過(guò)基于虛擬IP(Virtual IP Address, VIP)的植物圖像地址請(qǐng)求FastDFS的Client。Client由1主N備的客戶機(jī)構(gòu)成,通過(guò)Nginx和Keepalived保證Client的高可用性。Client將請(qǐng)求地址發(fā)送給Tracker Server。Tracker Server由多臺(tái)對(duì)等跟蹤服務(wù)器構(gòu)成,能實(shí)現(xiàn)負(fù)載均衡的功能。Tracker Server根據(jù)請(qǐng)求地址信息尋找一臺(tái)可用的Storage Server地址和端口返回給Client。Client根據(jù)返回的地址和端口信息和Storage Server建立聯(lián)系。Storage Server根據(jù)地址信息查找圖像并返回給Client。Client再將圖像返回給檢索系統(tǒng)客戶機(jī)。
由于植物圖像在上傳到FastDFS前需要經(jīng)過(guò)一系列處理工作,因此在本文構(gòu)建的植物圖像檢索系統(tǒng)中,上傳圖像采用了基于C#開(kāi)發(fā)并部署在植物圖像數(shù)據(jù)處理服務(wù)器的UploadClient模塊。上傳植物圖像時(shí),UploadClient首先向Tracker Server發(fā)出上傳請(qǐng)求。Tracker Server根據(jù)負(fù)載均衡優(yōu)先級(jí)選擇優(yōu)先級(jí)最高的Storage Server并將其地址和端口信息返回給UploadClient。UploadClient根據(jù)返回的地址和端口信息與Storage Server建立聯(lián)系并上傳文件。上傳完畢Storage Server將文件的存儲(chǔ)地址信息返回給UploadClient。UploadClient保存返回的文件地址信息結(jié)束上傳。植物圖像FastDFS分布式文件存儲(chǔ)結(jié)構(gòu)如圖6所示。
FastDFS除了在文件下載和上傳時(shí)提供高可用性、冗余備份和負(fù)載均衡外,還支持動(dòng)態(tài)擴(kuò)容功能。當(dāng)植物圖像的文件數(shù)量不斷增加時(shí),可通過(guò)動(dòng)態(tài)增加Storage Server的Group實(shí)現(xiàn)存儲(chǔ)擴(kuò)容。
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)如SQL Server在海量數(shù)據(jù)的查詢尤其是模糊查詢方面效率比較低。為此科研人員可通過(guò)優(yōu)化搜索算法[19]或采用非關(guān)系型數(shù)據(jù)庫(kù)如MongoDB來(lái)提升查詢效率[20]。工業(yè)界常用方法是將數(shù)據(jù)遷移到集成了數(shù)據(jù)存儲(chǔ)和檢索功能的垂直分布的搜索引擎[21],例如Solr[22-23]、Elasticsearch[24-25]。本文研究通過(guò)引入Solr集群來(lái)實(shí)現(xiàn)海量植物圖像的結(jié)構(gòu)化數(shù)據(jù)的極速查詢。
單臺(tái)Solr服務(wù)器在千萬(wàn)級(jí)海量數(shù)據(jù)的模糊搜索時(shí)能實(shí)時(shí)返回檢索結(jié)果,但在面對(duì)億級(jí)海量數(shù)據(jù)的模糊搜索時(shí)仍然有一定的延時(shí)。因此為了提高植物圖像檢索系統(tǒng)的檢索效率和可擴(kuò)展性,本文采用Solr的分布式集群搜索方案,通過(guò)使用Zookeeper來(lái)管理和協(xié)調(diào)SolrCloud[26]。Zookeeper由1臺(tái)Leader服務(wù)器和2臺(tái)Follower服務(wù)器構(gòu)成,它們主要實(shí)現(xiàn)配置管理、監(jiān)控SolrCloud集群狀態(tài)、接收客戶端請(qǐng)求、投票的發(fā)起和決議以及向客戶端返回結(jié)果的功能。SolrCloud可由多臺(tái)Solr服務(wù)器構(gòu)成,主要用于存儲(chǔ)Solr底層的索引結(jié)構(gòu)。一個(gè)Collection即是一個(gè)完整的索引結(jié)構(gòu)。為了提高檢索效率和實(shí)現(xiàn)檢索請(qǐng)求高并發(fā),通常將一個(gè)Collection分成多個(gè)Shard分片,并將Shard分片分布式存儲(chǔ)于多臺(tái)Solr服務(wù)器。當(dāng)檢索系統(tǒng)的數(shù)據(jù)量需要擴(kuò)容時(shí),可以通過(guò)增加Solr服務(wù)器和Shard分片來(lái)實(shí)現(xiàn)。
Solr集群通過(guò)配置Zookeeper配置文件目錄下的data-config.xml來(lái)實(shí)現(xiàn)與植物圖像結(jié)構(gòu)化數(shù)據(jù)庫(kù)的通信。在data-config.xml中可配置如SQL Server、Oracle和MySQL等多種關(guān)系型數(shù)據(jù)庫(kù),通常將需要檢索的植物圖像字段如種拉丁名、種中文名、部位、顏色、圖片大小、圖片MD5值等字段以及其它必要的字段如圖像縮略圖的存儲(chǔ)路徑等添加查詢,并通過(guò)配置managed-schema來(lái)建立上述字段與Solr集群底層索引結(jié)構(gòu)的對(duì)應(yīng)關(guān)系。由于Solr集群默認(rèn)的分詞是英文分詞器,植物圖像檢索系統(tǒng)需要滿足通過(guò)植物的中文名、植物圖像的部位和顏色等條件進(jìn)行檢索,因此本文構(gòu)建的Solr集群還增加了IKAnalyzer中文分詞器,并將《中國(guó)植物志》(Flora of China, FOC)中的植物物種中文名稱和常用的中文檢索關(guān)鍵詞添加到分詞器的擴(kuò)展詞典中。構(gòu)建好的Solr集群通過(guò)API接口形式向植物圖像檢索系統(tǒng)的Web應(yīng)用服務(wù)器和植物圖像數(shù)據(jù)處理服務(wù)器提供數(shù)據(jù)檢索服務(wù)。具體的植物圖像Solr集群結(jié)構(gòu)如圖7所示。
本文的植物圖像檢索系統(tǒng)除了提供基于百度植物圖像識(shí)別API接口[27]實(shí)現(xiàn)的根據(jù)圖片檢索植物圖像功能外,還能根據(jù)植物圖像的部位和顏色進(jìn)行智能檢索植物圖像。這得益于基于百度EasyDL技術(shù)構(gòu)建的植物圖像自動(dòng)標(biāo)注服務(wù)、ImageSharp圖像分割技術(shù)和CV2顏色識(shí)別技術(shù)。植物圖像自動(dòng)標(biāo)注服務(wù)構(gòu)建流程如圖8所示。
為了提高植物圖像自動(dòng)化標(biāo)注的效率,需要將訓(xùn)練好的標(biāo)注模型部署在本地服務(wù)器。植物圖像自動(dòng)標(biāo)注模型部署到本地服務(wù)器后,可以對(duì)外提供植物圖像的部位自動(dòng)標(biāo)注服務(wù)。數(shù)據(jù)處理服務(wù)器通過(guò)調(diào)用該服務(wù)接口實(shí)現(xiàn)對(duì)植物圖像的部位標(biāo)注,如葉子、花朵、果實(shí)、樹(shù)干等。同時(shí)利用返回的部位標(biāo)注Mask信息和ImageSharp圖像分割技術(shù)實(shí)現(xiàn)對(duì)植物圖像的部位進(jìn)行分割。如圖9所示。再通過(guò)CV2顏色識(shí)別技術(shù)識(shí)別植物圖像部位的顏色,如葉子-綠色、花朵-紅色、果實(shí)-黃色等,從而實(shí)現(xiàn)對(duì)植物圖像的部位和顏色信息進(jìn)行采集并保存到關(guān)系型數(shù)據(jù)庫(kù)中,并用于構(gòu)建Solr集群的部位和顏色索引信息,從而使植物圖像檢索系統(tǒng)支持通過(guò)植物的部位和顏色進(jìn)行智能檢索。面向海量植物圖像的智能檢索系統(tǒng)界面設(shè)計(jì)如圖10所示。用戶使用該系統(tǒng)可以根據(jù)植物的種中文名、種拉丁名、植物圖片、圖片部位、部位顏色和圖片尺寸等屬性實(shí)現(xiàn)海量植物圖像的快速檢索。
通過(guò)對(duì)植物圖像智能檢索系統(tǒng)的原型系統(tǒng)進(jìn)行測(cè)試,證實(shí)本文采用的技術(shù)和方案在提高海量植物圖像的檢索效率和加載速度,實(shí)現(xiàn)植物圖像的智能檢索和檢索系統(tǒng)的可持續(xù)化發(fā)展等方面是有效的。
1)在Intel(R) Xeon(R) Silver 4210 32核CPU、64 GB內(nèi)存和2 TB機(jī)械硬盤的服務(wù)器環(huán)境下,關(guān)系型數(shù)據(jù)庫(kù)SQL Server 2014對(duì)1.2億條已設(shè)置索引的GUID數(shù)據(jù)進(jìn)行模糊檢索需要約480 s,Solr搜索引擎檢索僅需約3.7 s;Solr搜索引擎對(duì)1.2億條可分詞的數(shù)據(jù)進(jìn)行模糊檢索僅需不到1 s,表明Solr搜索引擎在海量數(shù)據(jù)的檢索方面比關(guān)系型數(shù)據(jù)庫(kù)有明顯的效率提升。
2)搭建由2臺(tái)Client服務(wù)器、2臺(tái)Tracker Server服務(wù)器、一個(gè)Group中2臺(tái)Storage Server服務(wù)器組成的簡(jiǎn)易植物圖像FastDFS分布式文件存儲(chǔ)系統(tǒng)。任意一臺(tái)Client服務(wù)器、Tracker Server服務(wù)器和Storage Server服務(wù)器關(guān)機(jī)情況下,檢索系統(tǒng)均能正常工作。植物圖像下載請(qǐng)求高并發(fā)時(shí)2臺(tái)Storage Server比單臺(tái)Storage Server的下載速率提高了約80%,表明FastDFS分布式文件存儲(chǔ)系統(tǒng)能有效提高檢索系統(tǒng)的可用性和高并發(fā)時(shí)植物圖像的下載速率。
3)本文基于百度EasyDL技術(shù)構(gòu)建的植物圖像自動(dòng)標(biāo)注服務(wù)對(duì)植物圖像的部位標(biāo)注準(zhǔn)確率約為73%,基于ImageSharp圖像分割技術(shù)和CV2顏色識(shí)別技術(shù)構(gòu)建的植物圖像部位顏色識(shí)別服務(wù)對(duì)植物圖像部位顏色識(shí)別準(zhǔn)確率約為90%,能有效支撐植物圖像檢索系統(tǒng)的智能檢索。
4)本文基于Python技術(shù)實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲能有效地從目標(biāo)數(shù)據(jù)庫(kù)抓取免費(fèi)開(kāi)放的植物圖像數(shù)據(jù),數(shù)據(jù)處理模塊能有效地對(duì)抓取的數(shù)據(jù)進(jìn)行處理、入庫(kù)和建立Solr集群索引,能支持植物圖像檢索系統(tǒng)的可持續(xù)化發(fā)展。
本文研究設(shè)計(jì)的面向海量植物圖像的智能檢索系統(tǒng),采用Solr集群技術(shù)有效地提高了海量植物圖像的檢索效率,使用FastDFS分布式文件存儲(chǔ)技術(shù)確保植物圖像檢索系統(tǒng)的高可用性和實(shí)現(xiàn)負(fù)載均衡,基于百度AI技術(shù)、ImageSharp圖像分割技術(shù)和CV2顏色識(shí)別技術(shù)實(shí)現(xiàn)海量植物圖像的智能檢索,通過(guò)Python網(wǎng)絡(luò)爬蟲技術(shù)不斷豐富植物圖像檢索系統(tǒng)的數(shù)據(jù),支持植物圖像檢索系統(tǒng)的可持續(xù)化發(fā)展。下一步工作,將研究提高植物圖像部位標(biāo)注準(zhǔn)確率的方法和技術(shù),并探索更加高效的植物圖像部位顏色識(shí)別方案。