白劍波
智慧星光在成立短短4年半的時間里獲得了高速發(fā)展:2012年成立之后,正式簽約了100多個客戶,2013年增加到了200多個客戶,2014年我們的產品,特別是我們的數(shù)據(jù)能力得到了快速發(fā)展,客戶數(shù)達到800多個,這一數(shù)字在2015年達到1100多個,在平臺上,我們集聚了更多用戶使用我們提供的各種產品。
核心競爭力
智慧星光之所以能夠得到如此快速的發(fā)展,取決于我們一直堅持的兩個核心:第一是以客戶為核心。我們所做的是滿足和超越客戶對我們的希望。第二是以精準化信息服務為核心,我們的目的、使命,是以此為前提。同時堅持“四化”,即全面實現(xiàn)基礎化、智能化、標準化和可視化。
另外,智慧星光有兩個最核心的能力,第一是數(shù)據(jù)獲取能力或數(shù)據(jù)采集能力,特別是針對互聯(lián)網數(shù)據(jù)。我們每天能采集到的互聯(lián)網原創(chuàng)文章超過5000~6000萬篇,類型涵蓋互聯(lián)網上所有類型,包括新聞、論壇、微博、微信等。第二,是我們的處理能力。這個處理能力所采集的數(shù)據(jù)都以秒級的速度進行處理,同時分類打印標簽,以我們的方式放到數(shù)據(jù)存儲系統(tǒng),為前端的各個應用提供基礎,這是智慧星光的兩個核心能力。
結合兩個核心能力,我們?yōu)榭蛻籼峁└鞣N服務,包括提供最原始的原數(shù)據(jù)加工服務、輿情監(jiān)測服務、人物畫像等。目前,我們所有數(shù)據(jù)都保存在儲存系統(tǒng)里,積累了超過500億條的互聯(lián)網文本數(shù)據(jù),超過6億網民的評論。原創(chuàng)數(shù)據(jù)以超過5000萬條的速度增長。
大數(shù)據(jù)融合實力
在大數(shù)據(jù)融合方面,我們也有自己的理解。我們通過五官去感覺外部世界,當我們的感官獲得了外部世界的信息之后,我們要將其進行匯總、融合,同時結合我們的經驗知識,對外部做一個判斷,判斷之后再決定采取什么行動,這是人類感知世界的過程。
在大數(shù)據(jù)時代,面對如此龐大、復雜的數(shù)據(jù),我們該如何進行有效處理,有效融合?幫助我們的企業(yè)、組織機構,做出正確判斷,并且選擇一個正確的決定,從而采取更加有效的行動,這是做大數(shù)據(jù)融合的一些初衷和原因。
在做大數(shù)據(jù)融合時候,我們認為有三個數(shù)據(jù)來源,基本上分為三大類。第一類,企業(yè)或者是組織內部的數(shù)據(jù);第二類,來自于外部互聯(lián)網的數(shù)據(jù)。其數(shù)據(jù)量大,增長迅速,類型多;第三類,來自第三方的數(shù)據(jù),包括一些行業(yè)統(tǒng)計、調研報告、數(shù)據(jù)交易中心等提供的數(shù)據(jù)。
那么,在應用層面,我們如何把這些不同的數(shù)據(jù)融合到一起、應用到不同行業(yè)中去呢?基本上分為兩大類型:第一個是政府的機構,包括一些提供公共服務的機構,如水電燃氣類型的公共服務部門;第二個是企業(yè)的用戶,可以看到在金融、電信、零售、電商、物流等各個行業(yè)里,大數(shù)據(jù)融合的應用需求是非常強烈的,我們已經看到了非常多的市場機會和行業(yè)需求。
大數(shù)據(jù)平臺服務
當前,智慧星光有一個大數(shù)據(jù)的平臺,可以針對多元的、異構數(shù)據(jù)進行有效的融合。這些融合的數(shù)據(jù)都包括什么呢?我們通過數(shù)據(jù)采集和分析的能力,將互聯(lián)網數(shù)據(jù)、企業(yè)內部數(shù)據(jù)、第三方的互聯(lián)網采集的數(shù)據(jù),其他的數(shù)據(jù)源融合到星光搭建的平臺里,包括企業(yè)內部數(shù)據(jù),包括企業(yè)的運營數(shù)據(jù)甚至自己采集的數(shù)據(jù)或者他所采購的第三方數(shù)據(jù)都可以放在平臺里面進行各種各樣的計算,如關聯(lián)的計算、關聯(lián)的檢索等等。
智慧星光搭建的平臺,從提供的功能和服務上包括信息的有效檢索。在數(shù)百億條數(shù)據(jù)里,我們根據(jù)用戶輸入的條件進行有效檢索,以不超過分鐘級的速度,就能夠有效檢索出提供用戶下載、滿足檢測級別用戶需求,并可以分布式存儲進行有效的擴展的數(shù)據(jù),目前已經接近TB級的存儲能力,通過平行擴展可以突破更高的極限。
我們的引擎,把算法、引擎融合到大數(shù)據(jù)里面,讓我們的用戶可以使用大數(shù)據(jù)平臺模型去做各種有效運算,我們自己應用也是使用這些模型進行計算。
此外在互聯(lián)網的文本數(shù)據(jù)方面建立文本數(shù)據(jù)平臺。我們自己的產品也基于這個平臺交付,同時我們也有這個能力把數(shù)據(jù)提供給客戶。讓文本大數(shù)據(jù)給各行業(yè)發(fā)展帶來無限價值。比如,我們的合作伙伴可以通過API的方式或者數(shù)據(jù)下載的方式獲取,同時也提供采購的方式;此外,也支持創(chuàng)業(yè),以參股的方式我們把數(shù)據(jù)提供給我們的創(chuàng)業(yè)伙伴。研究機構跟我們合作,共享我們的免費數(shù)據(jù),共享我們的研究成果,這是我們數(shù)據(jù)平臺服務可對各方提供的。
新技術應用
在新技術使用上,我們不斷去嘗試,比如最近火熱的深度學習。深度學習在文本處理方面,特別是無監(jiān)督的自然語言理解上,可以幫助我們進行海量運行處理時更高效、更準確。例如,我們在數(shù)據(jù)監(jiān)測時,假如100條負面新聞,我們能監(jiān)測出97條,只有3條監(jiān)測失敗,這樣的準確性是很高的。
另外,我們通過大規(guī)模的知識圖譜可以構造有效的關聯(lián)分析,也可以在一些實體抽取之后再做關聯(lián)分析,幫助我們應用到各種各樣的大數(shù)據(jù)應用場景去,根據(jù)我們的算法引擎確定一些算法、模型。比如文本處理最基本的模型,包括我們各種各樣的基于關鍵詞匹配的模型、我們做的實體抽取的模型等等,這些都是我們基本的分析能力。憑借這些能力,公司已經與國內眾多行業(yè)領軍企業(yè)開展全面合作,(根據(jù)演講內容整理,未經本人審核)