記者:科技工作者在實(shí)際工作中是否也可以應(yīng)用大數(shù)據(jù)來(lái)開(kāi)展工作呢?具體應(yīng)該如何應(yīng)用?
王艷云:前面舉了很多行業(yè)的例子,但在具體的應(yīng)用中科技工作者還是有大量的工作要做,其中我覺(jué)得有幾點(diǎn)非常重要。第一是要保證大數(shù)據(jù)的樣本真實(shí)性和數(shù)據(jù)量足夠。因?yàn)檫@兩點(diǎn)是大數(shù)據(jù)處理的基礎(chǔ),沒(méi)有真實(shí)且達(dá)到一定數(shù)量的數(shù)據(jù),再好的處理能力也不可能得到準(zhǔn)確的結(jié)論。這就要求我們科技工作者在大數(shù)據(jù)存儲(chǔ)硬件投入、存儲(chǔ)軟件架構(gòu)選擇、數(shù)據(jù)量不足時(shí)進(jìn)行數(shù)據(jù)交換等方面提前做好投入和規(guī)劃,保證時(shí)刻擁有真實(shí)且數(shù)據(jù)量足夠的大數(shù)據(jù)。第二是要選擇合適的大數(shù)據(jù)處理方式。數(shù)據(jù)結(jié)構(gòu)有很多種,數(shù)據(jù)分析的實(shí)時(shí)性要求、分析結(jié)果的精確性要求在各行各業(yè)可能都不同,這就要求科技工作者要充分考慮實(shí)際需要選擇適合的大數(shù)據(jù)處理方式,譬如實(shí)時(shí)性要求高的可能就需要采用STORM架構(gòu)進(jìn)行并行處理,體現(xiàn)相互關(guān)系的大數(shù)據(jù)結(jié)果可能就需要對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行解析、去重、標(biāo)記和建模等。第三是要有突破常規(guī)的大數(shù)據(jù)分析思路。在我們的實(shí)際工作中,我們發(fā)現(xiàn)很多大數(shù)據(jù)分析結(jié)論并不能找到很好的解釋,而更多是反映了一種對(duì)應(yīng)關(guān)系,而如果多嘗試不同的分析框架和角度,可能會(huì)得到更為精確的結(jié)果,所以技術(shù)人員并不需要去對(duì)每一個(gè)結(jié)果進(jìn)行解讀,找出最終的原因,而只需要找到不同結(jié)果之間的對(duì)應(yīng)關(guān)系,并能針對(duì)需要解決的應(yīng)用找到合適的對(duì)應(yīng)結(jié)果即可。