方濱興
【摘要】大數(shù)據(jù)時代,互聯(lián)網(wǎng)朝著泛在網(wǎng)的方向發(fā)展,這催生了大搜索技術(shù)的誕生,同時大搜索也成為網(wǎng)絡(luò)發(fā)展的利器和催化劑。與傳統(tǒng)搜索相比,大搜索不僅能夠在語義級別上對用戶的搜索意圖進行理解,還能根據(jù)用戶的時空位置、情緒狀態(tài)以及歷史偏好等信息來感知用戶的需求;能去偽數(shù)據(jù),還能保障用戶的隱私;而且搜索解答實現(xiàn)了智慧化,能為用戶求解給出智慧的答案。
【關(guān)鍵詞】大數(shù)據(jù) 大搜索 泛在網(wǎng) 時空 智慧
【中圖分類號】TP37 【文獻(xiàn)標(biāo)識碼】A
目前,互聯(lián)網(wǎng)正結(jié)合物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)向著泛在網(wǎng)的方向發(fā)展。泛在網(wǎng)是指基于個人和社會的需求,利用現(xiàn)有的網(wǎng)絡(luò)技術(shù)和新的網(wǎng)絡(luò)技術(shù),實現(xiàn)人與人、人與物、物與物之間按需進行的信息獲取、傳遞、存儲、認(rèn)知、決策、使用等服務(wù),網(wǎng)絡(luò)超強的環(huán)境感知、內(nèi)容感知及其智能性,可能為個人和社會提供泛在的、無所不含的信息服務(wù)和應(yīng)用。泛在網(wǎng)不僅承載信息,還把人和物連接在一起,新型應(yīng)用層出不窮,數(shù)據(jù)及數(shù)據(jù)形態(tài)利益豐富多樣,并且蘊藏極大的價值,大搜索技術(shù)由此應(yīng)運而生。
大數(shù)據(jù)時代數(shù)據(jù)的特點是:數(shù)據(jù)量大,數(shù)據(jù)產(chǎn)生的速度快、類型多樣,數(shù)據(jù)不可信,最重要的是具有潛在價值。我們需要應(yīng)對、需要解決的問題就是在大數(shù)據(jù)中發(fā)掘價值。比如:哪個企業(yè)的產(chǎn)值最高?這就涉及到統(tǒng)計的問題。近期會出現(xiàn)什么熱點?這涉及到聚類的問題。事件的起因,這就涉及關(guān)聯(lián)計算。
現(xiàn)在有很多大數(shù)據(jù)價值發(fā)掘的案例。比如:亞馬遜通過營銷推薦系統(tǒng),可以精準(zhǔn)對接客戶需求,把很多產(chǎn)品提前預(yù)銷售。中國移動的客戶投訴識別系統(tǒng),每年可以節(jié)約成本540萬元。谷歌使用大數(shù)據(jù)技術(shù)實現(xiàn)更加精準(zhǔn)的廣告投放,獲得80億美元的收入。
我們團隊開發(fā)的應(yīng)急系統(tǒng)可以通過公開的語境信息、公開的微博信息去挖掘并為用戶提供一些公開的能力,大家可以利用這個能力去發(fā)現(xiàn)他所感興趣的領(lǐng)域中的一些重要事件。比如:判斷某個自己感興趣的事件的傳播情況,大家對該事件所持的態(tài)度以及事件在什么地域傳播等等。
一、網(wǎng)絡(luò)搜索引擎的種類
從搜索引擎角度來思考,目前網(wǎng)絡(luò)空間中我們都能搜到的信息多種多樣,最簡單的就是文字搜索和兒童搜索。兒童搜索的特點是:你要是輸入臟話,它會告訴你,沒有這個詞。文字搜索種類很多,比如:視頻搜索,在視頻庫里搜索你所關(guān)心的視頻;新聞搜索,它的背后是大量的新聞網(wǎng)站;微博搜索,了解其他人所關(guān)注的內(nèi)容;文檔搜索,搜索自己關(guān)心的領(lǐng)域及相關(guān)研究內(nèi)容;學(xué)術(shù)搜索,可以搜索到很多資料,包括研究成果;人物搜索,輸入“奧巴馬”,就可以搜索到他的一些公開信息;企業(yè)信息搜索,比如輸入“天眼查”,它可以告訴你這個公司的法人代表是誰、有哪些下設(shè)機構(gòu);房地產(chǎn)搜索,輸入“房天下”,它會告訴你附近的房價;購物搜索,使用“一淘”搜索引擎,可以隨時查詢自己關(guān)注的產(chǎn)品價格;商品信息檢索,拿起手機拍下商品的二維碼,就可以知道這個商品在哪個超市多少錢,哪里最便宜;物流搜索,可以隨時查詢自己購買的物品現(xiàn)在在哪、何時能到;生活搜索,輸入“北京小吃”,會告訴你北京哪里有有特色的著名的小吃;旅游搜索,在去哪兒搜索引擎輸入“我要在北京旅游三天”,它會告訴你有哪些最適合你的旅游套餐;職位搜索,它會告訴你哪個企業(yè)需要什么樣的人才,滿足你個性化的需求;農(nóng)業(yè)搜索,會告訴你不同的作物不同的季節(jié)應(yīng)該打什么樣的農(nóng)藥,怎么使用,等等。
此外,還有其他種類的搜索。比如:我們團隊開發(fā)的聯(lián)網(wǎng)設(shè)備搜索,目前已經(jīng)搜到了3億多個聯(lián)網(wǎng)設(shè)備,還發(fā)現(xiàn)了170多萬個設(shè)備有漏洞,可以任意闖進去;移動設(shè)備檢索,如360智能手環(huán),可以定位佩戴手環(huán)的兒童的具體位置。這些應(yīng)用本質(zhì)上我們叫做存在性搜索。它是把存在的符合用戶需求的東西提供給用戶,重點是如何給出最符合用戶需求的信息。比如搜索“第四次工業(yè)革命”,它可能有幾萬個結(jié)果,哪個結(jié)果放在最前面這是它所要關(guān)心的。所有這些我們都叫存在性搜索。
本質(zhì)上來說,這些都是能感知到你所需要的服務(wù),并有針對性地提供服務(wù)。我上面舉的例子叫服務(wù)搜索,以“盡力而為”為原則,通過匯集大量“服務(wù)”的方式,在用戶提出搜索需求時,首先判斷這個需求是否和系統(tǒng)服務(wù)庫之中的某個服務(wù)對應(yīng),如果能對應(yīng),就為用戶啟動相應(yīng)的服務(wù)。簡單說,就是根據(jù)你的關(guān)鍵詞判斷你可能需要這個服務(wù),如果沒有這個服務(wù),就提供與這個服務(wù)相關(guān)的信息。再比如:學(xué)術(shù)搜索,輸入“北京郵電大學(xué)”,會告訴你北京郵電大學(xué)的相關(guān)知識點、具體機構(gòu)、相關(guān)人員還有圖書的曲線、發(fā)表刊物的曲線等等,具有強大的智能性,會幫你分析這個學(xué)校的整個學(xué)術(shù)情況。企業(yè)信用搜索,輸入相關(guān)企業(yè)名稱,會得到它的打分情況、信用等級,還會介紹其高管和核心企業(yè)對外進行了哪些投資等等。論文查重搜索,輸入一個文檔名,了解這個文檔在網(wǎng)上是不是和其他文章有重復(fù)、重復(fù)率多少,是否有抄襲情況等。
二、大搜索的要素及其特性
網(wǎng)絡(luò)空間、大數(shù)據(jù)等新技術(shù)的發(fā)展,促進搜索引擎技術(shù)不斷進步,也促進用戶形成了新的搜索需求,用戶將不再滿足于僅在互聯(lián)網(wǎng)空間搜索存在性信息,而是希望搜集到涉及信息、時間、位置三維空間的包含有人、物體、信息在內(nèi)的解決方案。從互聯(lián)網(wǎng)到物聯(lián)網(wǎng)到移動互聯(lián)網(wǎng),再到泛在網(wǎng),我們要搜索答案,而不是搜索信息,而且這個答案要涉及到時間和空間。
(一)大搜索的要素
下一代搜索就是從大數(shù)據(jù)到價值發(fā)掘,再到知識發(fā)現(xiàn)服務(wù),稱之為大搜索。比如地圖搜索導(dǎo)航信息,這本身就是知識搜索,它要給你做路徑規(guī)劃。但是現(xiàn)在導(dǎo)航要結(jié)合物聯(lián)網(wǎng)信息,這樣它就知道每條路的交通流量,通過交通流量給出最快的一條路徑,而這個“到達(dá)最快”不僅僅取決于距離,還包含交通擁堵情況等。這就相當(dāng)于搜索引擎基于知識處理之外,還有更多的信息融合。
大搜索,是指面向泛在網(wǎng)絡(luò)空間的人、物體和內(nèi)容,在正確理解用戶意圖的基礎(chǔ)上,基于從網(wǎng)絡(luò)空間大數(shù)據(jù)獲取的知識,從信息、時間、位置的角度給出滿足用戶需求的智慧解答。我們有各種各樣的信息源,最后要得出的是一個智能發(fā)掘,而這個智能發(fā)掘就是從大數(shù)據(jù)的源頭通過大搜索獲得網(wǎng)絡(luò)的智慧。
這樣做要依靠四個因素:第一是網(wǎng)絡(luò)空間。第二是正確的理解,理解就涉及到要有感知,要能判斷真實的需求是什么。第三是知識庫的構(gòu)建,如果我們設(shè)計的是一個專家系統(tǒng),兩個小時可以給出答案,這個大家都能接受。但如果設(shè)計的是一個搜索引擎,怎么可能等兩小時?大家可能兩分鐘都等不了。大數(shù)據(jù)也是一樣,可能對用戶這一次問的問題沒有提供滿意的答案,因為數(shù)據(jù)庫還沒有為這個問題做過知識框架,但可以把它記錄下來,以后圍繞它搜集所有相關(guān)答案,等下次有人再問這個問題的時候,就可以馬上提供答案。最后,當(dāng)用戶提出問題的時候,搜索引擎不能給出存在性的信息,而是要對相關(guān)答案進行重新組織,重新加工,從而給出最正確的答案。這些要素都具備了以后,搜索就會很強大,它可能把個人的隱私也挖掘出來了,所以就需要一道安全門,這個安全門就是隱私保護,涉及到隱私了,這個東西就不能往外提供。
(二)大搜索的特性
大數(shù)據(jù)有5V特性:Volume(大體量)、Variety(多樣性)、Velocity(時效性)、Veracity(準(zhǔn)確性)、Value(大價值);而大搜索有5S特性,首先是信息泛網(wǎng)獲取(Sourcing);第二是感知人們的意圖(Sensing);第三是多源綜合(Synthesizing);第四是安全可信(Secure);第五是智慧解答(Solution)。
1.泛網(wǎng)獲取,網(wǎng)絡(luò)空間泛在化,支持定向信息的獲取。傳統(tǒng)搜索只是從網(wǎng)頁上抓取互聯(lián)網(wǎng)數(shù)據(jù)。為了提供答案,現(xiàn)在是十萬個為什么,將來可能是十億個為什么,大搜索圍繞的是為什么獲取信息以及沒有這個為什么就不去獲取了。
2.用戶感知、意圖理解精確化,基于場景感知的意圖理解。傳統(tǒng)搜索只是關(guān)心所提交的查詢詞,大搜索關(guān)心的是不僅能夠在語意級別上對用戶的搜索意圖進行理解,還能根據(jù)用戶的時空位置、情緒狀態(tài)以及歷史偏好等信息來感知用戶的需求。比如輸入一家公司名“曼豪中國”,就會把曼豪中國的組成、業(yè)績、相關(guān)人員都提供出來,如果發(fā)現(xiàn)曼豪中國背后有關(guān)聯(lián)的創(chuàng)新論壇,也會推送與創(chuàng)新論壇相關(guān)的內(nèi)容。只有具有用戶感知功能才能解決這個問題。
3.多源綜合,信息關(guān)聯(lián)知識化,構(gòu)建搜索對象空間。傳統(tǒng)搜索只是根據(jù)網(wǎng)頁級別(PageRank)給出最相關(guān)的結(jié)果。大搜索要把所有的東西聯(lián)系起來,看看它們之間有什么關(guān)聯(lián)。
4.安全可信,傳統(tǒng)的安全可信只是簡單的信息過濾措施,大搜索能去偽數(shù)據(jù),還能保障用戶的隱私。
5.解決方案,搜索解答智慧化,為用戶求解提供智慧的答案。
搜查搜索的內(nèi)容分為三種:信息搜索、物體搜索和人物搜索,搜索的問題從傳統(tǒng)的信息搜索擴張到信息、人物和物體。網(wǎng)絡(luò)空間大搜索就是根據(jù)一定的策略和方法,通過互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電信網(wǎng)等實時、快速、精準(zhǔn)地獲取各種物理實體、人物、信息,及其時間與位置的屬性,具備洞察理解用戶搜索意圖的智能。
歷史經(jīng)驗告訴我們,如果沒有互聯(lián)網(wǎng)搜索引擎,就沒有今天互聯(lián)網(wǎng)的發(fā)展,如果沒有大搜索引擎,泛在網(wǎng)肯定發(fā)展不快,走不下去。媒體在今后的發(fā)展創(chuàng)新中應(yīng)關(guān)注泛在網(wǎng),面向泛在網(wǎng),在大數(shù)據(jù)中發(fā)掘滿足用戶意圖的智慧解答,因為它將成為下一代網(wǎng)絡(luò)發(fā)展的利器和催化劑!
注釋
①百度百科,http://baike.baidu.com/view/1470376.htm.
(本文編輯:寧黎黎)