方濱興 中國工程院院士
搜索引擎毫無疑問是促進(jìn)互聯(lián)網(wǎng)應(yīng)用的一個重大支撐杠桿,撬動了巨量的互聯(lián)網(wǎng)市場。應(yīng)該說,在互聯(lián)網(wǎng)任何應(yīng)用中都離不開搜索引擎,不論是百度、360那樣的通用搜索引擎,還是淘寶網(wǎng)、新浪微博內(nèi)嵌的專用搜索引擎,都是支持互聯(lián)網(wǎng)應(yīng)用不可缺少的基本要素。
隨著信息技術(shù)的不斷發(fā)展,搜索引擎也必將進(jìn)入跨越式發(fā)展的階段。這一跨越式發(fā)展將受到大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算、社交網(wǎng)絡(luò)、移動寬帶等新興信息技術(shù)的共同推動,使得搜索引擎不再是互聯(lián)網(wǎng)的專屬產(chǎn)物,還將進(jìn)一步輻射到物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等應(yīng)用載體中;它將會依托大數(shù)據(jù)處理技術(shù),在云計(jì)算、寬帶移動網(wǎng)絡(luò)技術(shù)的支撐下,以為用戶提供解決方案的面目出現(xiàn)。由此,新的搜索引擎不僅能夠形成一種向網(wǎng)絡(luò)要智慧的應(yīng)用模式,還能夠極大地促進(jìn)物聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展。這種技術(shù),我們稱之為“大搜索”技術(shù)。
眾所周知,大數(shù)據(jù)是當(dāng)前最為熱門的一個領(lǐng)域,它有五個被稱為“5V”的重要屬性,即規(guī)模巨大(Volume)、產(chǎn)生高速(Velocity)、形式多樣(Variety)、不確定性(Veracity)、潛在價(jià)值(Value)。其中,前四種屬性表明大數(shù)據(jù)處理所面對的挑戰(zhàn),而“潛在價(jià)值”才是人們對大數(shù)據(jù)技術(shù)追求的根本,因?yàn)榘l(fā)覺“潛在價(jià)值”是促進(jìn)社會發(fā)展的一個重要手段。
潛在價(jià)值的發(fā)現(xiàn)依靠的是發(fā)掘技術(shù)。人們可以通過統(tǒng)計(jì)的手段來解決指定目標(biāo)的發(fā)掘,例如研判哪只股票成長性最好;可以通過聚類的方法來解決沒有預(yù)期的發(fā)掘,例如網(wǎng)上突發(fā)了什么社會熱點(diǎn);可以通過關(guān)聯(lián)技術(shù)來解決最佳方案的發(fā)掘,例如到哪里看急診最快。
從大數(shù)據(jù)中去發(fā)掘潛在價(jià)值成為企業(yè)所采取的重要手段,所產(chǎn)生的經(jīng)濟(jì)效益反映出其潛在價(jià)值所在。例如,亞馬遜的個性化推薦系統(tǒng),使得提前銷售額超過30%。但是,這僅限于在企業(yè)內(nèi)部,使用企業(yè)自己的數(shù)據(jù)及知識發(fā)掘系統(tǒng)來為企業(yè)自身提供服務(wù)。如果數(shù)據(jù)是開放的、知識發(fā)現(xiàn)能力也是通用的,可否就能將知識發(fā)掘作為一種服務(wù)提供給公眾呢?事實(shí)上,目前已經(jīng)存在類似的知識發(fā)掘服務(wù),例如新浪微博的“知微”分析服務(wù),就是利用自身的數(shù)據(jù)為公眾來提供知識發(fā)掘的服務(wù)。
目前搜索引擎的應(yīng)用領(lǐng)域涉及三個方面。一是“存在性信息搜索”。如搜信息、商品、聯(lián)網(wǎng)設(shè)備、傳感設(shè)備、人物、物體位置、物流狀態(tài)、附近的人等。存在性搜索本質(zhì)上是將已存在的、符合用戶需求的搜索結(jié)果提交給用戶,關(guān)鍵在于如何能夠給出最符合用戶需求的信息。二是“服務(wù)搜索”。如搜標(biāo)準(zhǔn)時(shí)間服務(wù)、指定地域氣象服務(wù)、指定機(jī)票服務(wù)、當(dāng)日匯率服務(wù)、指定股票走向服務(wù)、特定游戲服務(wù)、特定視頻節(jié)目播放服務(wù)等。服務(wù)搜索是以“盡力而為”為原則,通過匯集大量“服務(wù)”的方式,在用戶提出搜索需求時(shí),首先判斷這個需求是否和系統(tǒng)服務(wù)庫之中的某個服務(wù)對應(yīng)上,如果能對應(yīng)上,就為用戶啟動相應(yīng)的服務(wù)。但所有服務(wù)都是確定的,不具有推理與知識發(fā)現(xiàn)的能力。三是“知識搜索”。如搜人際關(guān)系、作者關(guān)系、社會熱點(diǎn)、路徑規(guī)劃等。知識搜索是根據(jù)用戶的需求,為用戶提供答案。當(dāng)然,答案的優(yōu)良與可信程度取決于搜索引擎的智能程度。
從大數(shù)據(jù)演變出來的知識發(fā)掘服務(wù),到搜索引擎演變出來的知識搜索,兩者交匯到一起便形成了“基于搜索引擎的知識發(fā)現(xiàn)服務(wù)”,這就是“大搜索”?,F(xiàn)在的導(dǎo)航系統(tǒng),不僅有路徑規(guī)劃,還擁有交通流量信息,因此,可以根據(jù)實(shí)際路況來推薦更為合理、便捷的路徑,這就是“大搜索”要完成的事情。
那么,什么是“大搜索”?簡單地說,就是從泛在網(wǎng)(網(wǎng)絡(luò)空間)上獲取事件、人和物體等信息,針對物聯(lián)網(wǎng)和Web2.0/3.0應(yīng)用模式及大數(shù)據(jù)價(jià)值發(fā)掘的需求,通過正確理解用戶意圖,在對網(wǎng)絡(luò)空間對象收集、建模和索引的基礎(chǔ)上,給出滿足用戶需求的智慧解答。
“大搜索”技術(shù)要解決的問題是用戶能夠到網(wǎng)絡(luò)空間中尋找智慧,求得解決方案。這就涉及到幾個技術(shù)要素,即如何在泛在網(wǎng)空間中獲取數(shù)量巨大、種類繁多的實(shí)體(人、物、事件),如何理解用戶的真實(shí)意圖,用戶意圖與實(shí)體之間的關(guān)系如何發(fā)現(xiàn)、如何關(guān)聯(lián)、如何構(gòu)建為用戶需求來服務(wù)的知識結(jié)構(gòu)。
本質(zhì)上來說,“大搜索”技術(shù)體系主要包括五個核心要素。一是信息獲取能力。這是智慧的源泉,主要是在網(wǎng)絡(luò)空間中抓取所需要的信息,并形成大數(shù)據(jù)的管理結(jié)構(gòu)。二是問題理解能力。這是智慧的推手,主要是解決情景感知、意圖理解,以進(jìn)行必要的預(yù)處理。三是知識庫構(gòu)建能力。這是智慧平臺,主要是進(jìn)行多源綜合、構(gòu)建搜索對象空間,并形成用戶搜索接口。四是提供解決方案的能力。這是智慧的體現(xiàn),主要是將知識發(fā)掘的結(jié)果以恰當(dāng)?shù)男问匠尸F(xiàn)給用戶。五是安全保護(hù)能力。這是智慧的保障,主要是解決隱私保護(hù)等安全問題。類比大數(shù)據(jù),我們可以把“大搜索”的技術(shù)體系描述為“5S”,包括四個核心能力和一個重要保障。核心能力包括“泛網(wǎng)獲取(Sourcing)”、“用戶感知(Sensing)”、“多源綜合(Synthesizing)”、“智慧解答(Solution)”,重要保障是指“安全可信(Secure)”。
1)“泛網(wǎng)獲取”(Sourcing from Cyberspace)目的在于支持定向信息獲取。傳統(tǒng)的搜索引擎只是從互聯(lián)網(wǎng)上爬取網(wǎng)頁數(shù)據(jù);而“大搜索”則會根據(jù)給定的目標(biāo)和任務(wù),在泛在網(wǎng)絡(luò)的多通道中獲取包括人、物、事件、時(shí)間、空間等各類信息。
2)“用戶感知”(Sensing in Context)目的在于解決基于場景感知的意圖理解。傳統(tǒng)的搜索引擎只關(guān)心所提交的查詢詞;而“大搜索”則不僅能夠在語義級別上對用戶搜索意圖進(jìn)行理解,還能根據(jù)用戶的時(shí)空位置、情緒狀態(tài)以及歷史偏好等來感知用戶的需求,并以恰當(dāng)?shù)姆绞竭M(jìn)行表示,提交給搜索引擎。
3)“多源綜合”(Synthesizing Multi-channel)目的在于構(gòu)建搜索對象空間。傳統(tǒng)的搜索引擎只是根據(jù)PageRank給出最相關(guān)的結(jié)果;而“大搜索”則是從多模態(tài)數(shù)據(jù)(如位置、傳感器、交通、社交網(wǎng)絡(luò)等數(shù)據(jù))中進(jìn)行關(guān)聯(lián)關(guān)系綜合,并構(gòu)建由巨規(guī)模實(shí)體及關(guān)聯(lián)關(guān)系所構(gòu)成的知識倉庫,同時(shí),通過知識的迭代來形成相應(yīng)的知識框架及索引體系,用以存儲和管理網(wǎng)絡(luò)知識,服務(wù)于為求解用戶智慧答案的知識索取。
4)“智慧解答”(Intellifent Solution)目的在于為用戶求解出智慧答案。傳統(tǒng)的搜索引擎僅提供符合用戶搜索要求的存在信息;而“大搜索”則可根據(jù)用戶的搜索意圖,基于知識倉庫對關(guān)聯(lián)的知識進(jìn)行求解,通過推理演算形成若干個智慧綜合的解決方案,其能囊括涉及用戶需求的多層面要素,并將之以合適的方式提交給用戶。
“安全可信”(Secure&Trust)目的在于在搜索過程中進(jìn)行必要的安全保護(hù),主要包括5個層面。
1) 設(shè)備可靠。處理大規(guī)模數(shù)據(jù)涉及的設(shè)備眾多,設(shè)備可靠性成為“大搜索”安全的基礎(chǔ)問題。
2) 系統(tǒng)安全。一方面,“大搜索”平臺龐大的計(jì)算環(huán)境存在系統(tǒng)復(fù)雜、運(yùn)行不穩(wěn)定的風(fēng)險(xiǎn);另一方面,“大搜索”在進(jìn)行數(shù)據(jù)分析過程中產(chǎn)生的知識和價(jià)值容易引發(fā)黑客攻擊;因此,“大搜索”涉及的系統(tǒng)需要完善安全機(jī)制。
3) 數(shù)據(jù)可信?!按笏阉鳌焙诵哪芰Φ膶?shí)現(xiàn)通常需要依賴云計(jì)算平臺的存儲和計(jì)算能力,因此,可能會出現(xiàn)數(shù)據(jù)被云服務(wù)商破壞和竊取的情況;同時(shí)“大搜索”數(shù)據(jù)來源的繁雜性,也使得對數(shù)據(jù)的合規(guī)性和真實(shí)性檢查成為必要。
4) 數(shù)據(jù)可溯源。傳統(tǒng)的搜索引擎只有簡單的信息過濾措施;而“大搜索”則可對數(shù)據(jù)來源進(jìn)行確認(rèn),并對之進(jìn)行標(biāo)簽,以保證數(shù)據(jù)可溯源。
5) 訪問控制。大搜索是從泛在網(wǎng)絡(luò)的多通道上獲取各類多維信息,將大數(shù)據(jù)用于不同場景,因此,訪問控制需求十分突出。利用大搜索技術(shù),根據(jù)大數(shù)據(jù)的密集程度和用戶的不同需求,對搜索結(jié)果進(jìn)行細(xì)粒度的訪問控制,將數(shù)據(jù)和用戶設(shè)定為不同的權(quán)限等級,使受限制的信息不會被非授權(quán)所獲取,從而滿足多樣化的訪問控制需求。
6) 隱私保護(hù)。這是“大搜索”大量、多源特征引發(fā)的新問題。過去人們發(fā)布數(shù)據(jù)時(shí)只是簡單地隱藏部分敏感信息,但“大搜索”出現(xiàn)后,一些較為隱秘的信息都有可能被挖掘出來,因此,亟需更為先進(jìn)、強(qiáng)大的技術(shù)手段,能夠在不侵犯用戶隱私的前提下對搜索數(shù)據(jù)進(jìn)行有效地分析、開放和共享。
“大搜索”從搜索范圍來看,是從傳統(tǒng)的互聯(lián)網(wǎng)擴(kuò)展到綜合互聯(lián)網(wǎng)、電信網(wǎng)與傳感網(wǎng)絡(luò)的泛在網(wǎng)絡(luò)空間中;從具體的搜索內(nèi)容來看,是從傳統(tǒng)的信息搜索擴(kuò)展到人、事件、物體;從搜索的結(jié)果呈現(xiàn)方式來看,是從傳統(tǒng)順序給出的標(biāo)量結(jié)果展示擴(kuò)展到包含了時(shí)間序列、空間位置序列的向量展示模式;從安全防護(hù)重點(diǎn)來看,是從傳統(tǒng)的設(shè)備、系統(tǒng)安全擴(kuò)展到數(shù)據(jù)可信、可溯源以及用戶隱私的保護(hù)。
“大搜索”的定義如下:在安全可信的前提下,根據(jù)一定的策略和方法,從包括互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電信網(wǎng)的泛在網(wǎng)中實(shí)時(shí)、快速、精準(zhǔn)地獲取各種物理實(shí)體、人物、信息等,針對Web2.0/3.0應(yīng)用模式及大數(shù)據(jù)價(jià)值發(fā)掘的需求,具備洞察理解用戶搜索意圖的“智能”,能夠?qū)W(wǎng)絡(luò)空間各種對象進(jìn)行高效地組織和管理,包括對海量、多源、異構(gòu)、多態(tài)、不確定的數(shù)據(jù)進(jìn)行收集、建模和索引;具備為用戶構(gòu)建盡可能符合用戶需求答案的智慧;能夠以“向量”的方式提供智慧解答。其具有以下特點(diǎn):一是搜索內(nèi)容由信息擴(kuò)展到了物體、信息和人物,從傳統(tǒng)搜索面對的虛擬世界擴(kuò)展到了現(xiàn)實(shí)的物理世界;二是以智能的方式理解用戶意圖,以智慧的手段為用戶構(gòu)建答案;三是搜索結(jié)果由標(biāo)量結(jié)果變成了向量結(jié)果,即由原先的內(nèi)容呈現(xiàn)結(jié)果變成了內(nèi)容、時(shí)間、空間三個維度的結(jié)果呈現(xiàn)。