李寶鐸
隨著網(wǎng)絡(luò)科技的發(fā)展,人類走進(jìn)了大數(shù)據(jù)時(shí)代,如何對(duì)海量數(shù)據(jù)進(jìn)行合理應(yīng)用,成為人們必須要思考的問(wèn)題。在這種形勢(shì)下,數(shù)據(jù)挖掘技術(shù)逐漸發(fā)展起來(lái),在這些技術(shù)的支持下,數(shù)據(jù)的存儲(chǔ)、處理以及分析變得更加方便、快捷。企業(yè)可以建立一個(gè)超級(jí)計(jì)算環(huán)境,提高數(shù)據(jù)的利用率,完善生產(chǎn)經(jīng)營(yíng)模式。當(dāng)下,越來(lái)越多的人才投身到數(shù)據(jù)挖掘技術(shù)的研究中,并取得了非常不錯(cuò)的成果,吳春妹就是這些優(yōu)秀人才中的代表。多年來(lái),她始終堅(jiān)持?jǐn)?shù)據(jù)挖掘技術(shù)和大數(shù)據(jù)算法的研究,并取得了豐碩的成果,幫助合作企業(yè)建立了新型的運(yùn)作模式,為互聯(lián)網(wǎng)行業(yè)的發(fā)展和進(jìn)步做出了一定的貢獻(xiàn)。本期,筆者就對(duì)吳春妹女士進(jìn)行專訪,了解她對(duì)數(shù)據(jù)挖掘技術(shù)的看法以及研究經(jīng)驗(yàn)。
筆者:您好,作為互聯(lián)網(wǎng)數(shù)據(jù)挖掘領(lǐng)域的佼佼者,您已經(jīng)在該行業(yè)中拼搏了多年,能為我們分享一下您的從業(yè)經(jīng)驗(yàn)嗎?
吳春妹:我進(jìn)入互聯(lián)網(wǎng)行業(yè)的時(shí)間比較早,一直堅(jiān)持研究數(shù)據(jù)挖掘方面的技術(shù)。我認(rèn)為,在這個(gè)大數(shù)據(jù)時(shí)代中,誰(shuí)能應(yīng)用先進(jìn)的技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行合理運(yùn)用,誰(shuí)就能占得先機(jī)、實(shí)現(xiàn)發(fā)展。當(dāng)然,對(duì)于這個(gè)新興領(lǐng)域來(lái)說(shuō),很多東西都是未知的,但是我們不能因此退縮,未知中往往蘊(yùn)含著更多的財(cái)富。所以,無(wú)論是技術(shù)研發(fā)還是企業(yè)管理,我都會(huì)以一種積極的心態(tài)去面對(duì)。每一次在技術(shù)研發(fā)方面取得新的突破,都讓我更加堅(jiān)定自己的選擇,我覺(jué)得只要堅(jiān)持下去,就一定會(huì)有所收獲。
筆者:近幾年,大數(shù)據(jù)這個(gè)概念頻頻出現(xiàn),數(shù)據(jù)挖掘技術(shù)被炒得很熱,但是很少有人真正清楚其中的含義,能夠根據(jù)您的理解為我們解析一下嗎?
吳春妹:所謂的數(shù)據(jù)挖掘,就是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中、人們事先不知道的,但又是潛在有用信息和知識(shí)的過(guò)程。關(guān)于數(shù)據(jù)挖掘有很多定義,我個(gè)人認(rèn)為剛才我表述的這個(gè)定義最具代表性,能夠清楚地描述出數(shù)據(jù)挖掘的內(nèi)涵。而我們研究數(shù)據(jù)挖掘技術(shù),就是要在最短的時(shí)間內(nèi)從海量數(shù)據(jù)中找到自己最需要的信息。這是一個(gè)非常復(fù)雜的過(guò)程,涉及到統(tǒng)計(jì)、在線分析處理、模糊識(shí)別等多方面技術(shù)。這就需要我們技術(shù)研發(fā)人員加強(qiáng)學(xué)習(xí),完善自己的理論知識(shí)體系,熟練掌握相關(guān)技術(shù),這樣才能研究出滿足實(shí)際需要的數(shù)據(jù)挖掘技術(shù)。
筆者:近幾年您獲得了多項(xiàng)軟件著作權(quán),得到了權(quán)威機(jī)構(gòu)的認(rèn)證,并被一些企業(yè)應(yīng)用于管理實(shí)踐中,取得了非常不錯(cuò)的效果。您研發(fā)相關(guān)軟件系統(tǒng)的初衷是什么?
吳春妹:最初出現(xiàn)的大數(shù)據(jù)技術(shù),主要是被應(yīng)用于大型網(wǎng)絡(luò)企業(yè)中,是對(duì)點(diǎn)擊流數(shù)據(jù)進(jìn)行分析。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)量成倍增加,很多企業(yè)每天都需要處理大量數(shù)據(jù)。包括銀行、情報(bào)部門(mén)以及事業(yè)單位等,他們對(duì)大數(shù)據(jù)技術(shù)的需求越來(lái)越大。同時(shí),很多企業(yè)的管理者開(kāi)始認(rèn)識(shí)到了信息服務(wù)的重要價(jià)值,他們覺(jué)得,對(duì)信息進(jìn)行合理挖掘和利用,能夠在一定程度上提高自己的競(jìng)爭(zhēng)優(yōu)勢(shì)。如果在信息收集、處理以及利用方面不積極,起點(diǎn)就可能比競(jìng)爭(zhēng)者低很多。因此,短時(shí)間內(nèi),數(shù)據(jù)挖掘技術(shù)成為了企業(yè)關(guān)注的焦點(diǎn)。出于對(duì)這種現(xiàn)狀的考慮,我開(kāi)始研究相關(guān)的軟件系統(tǒng),針對(duì)不同企業(yè)的特征做出了不同的設(shè)計(jì),希望這些系統(tǒng)能夠幫助企業(yè)對(duì)數(shù)據(jù)進(jìn)行收集、分析,提高信息的利用率,促進(jìn)企業(yè)健康發(fā)展。
筆者:現(xiàn)在看來(lái)您的目標(biāo)基本上實(shí)現(xiàn)了,很多企業(yè)應(yīng)用了您研發(fā)的軟件系統(tǒng)以后,都覺(jué)得很滿意。
吳春妹:我的研究成果能夠?yàn)楹献髌髽I(yè)的發(fā)展起到一定的積極作用,我感到非常欣慰。我覺(jué)得不同類型的企業(yè)對(duì)信息處理有著不同的需求,所以我在研究軟件系統(tǒng)的時(shí)候,會(huì)考慮多方面因素,爭(zhēng)取為企業(yè)構(gòu)建一個(gè)完善的信息處理系統(tǒng),保證其對(duì)現(xiàn)有的數(shù)據(jù)信息進(jìn)行合理利用。
筆者:開(kāi)始您就說(shuō)過(guò),數(shù)據(jù)挖掘過(guò)程非常復(fù)雜,其流程究竟是怎樣的呢?通過(guò)什么樣的方式在海量數(shù)據(jù)中挖掘到自己需要的信息?
吳春妹:數(shù)據(jù)挖掘過(guò)程可以總結(jié)為以下幾個(gè)步驟。第一步是定義問(wèn)題,就是明確目標(biāo),確定本次操作想要得到什么,后續(xù)所有步驟都要圍繞所定義的問(wèn)題展開(kāi);第二步是準(zhǔn)備數(shù)據(jù),就是在數(shù)據(jù)庫(kù)中提取目標(biāo)數(shù)據(jù)集,對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行預(yù)處理、加工等,具體包括檢驗(yàn)數(shù)據(jù)的完整性和一致性,對(duì)丟失的域進(jìn)行填補(bǔ),對(duì)無(wú)效的數(shù)據(jù)進(jìn)行刪除等;第三步是數(shù)據(jù)挖掘,需要選擇合適的數(shù)據(jù)算法,要將數(shù)據(jù)的功能以及算法作為依據(jù),然后在凈化和轉(zhuǎn)換過(guò)的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘;第四步是結(jié)果分析,就是對(duì)挖掘的結(jié)果進(jìn)行轉(zhuǎn)換和評(píng)價(jià),將其轉(zhuǎn)化為用戶能夠理解的知識(shí);第五步是知識(shí)的運(yùn)用,這是數(shù)據(jù)挖掘的最終目的,就是將得到的知識(shí)整合到業(yè)務(wù)信息系統(tǒng)中去,成為企業(yè)管理的一部分。從流程中我們可以看出數(shù)據(jù)挖掘的過(guò)程比較復(fù)雜,任何一個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題,都有可能無(wú)法達(dá)到理想的挖掘效果。因此我們?cè)谘芯肯嚓P(guān)技術(shù)和軟件系統(tǒng)的過(guò)程中會(huì)考慮到每一個(gè)細(xì)節(jié),不允許出現(xiàn)任何疏漏。
筆者:現(xiàn)在,數(shù)據(jù)挖掘軟件的種類越來(lái)越多,企業(yè)面臨著很多選擇。能根據(jù)您的經(jīng)驗(yàn)為我們分析一下如何評(píng)價(jià)、選擇數(shù)據(jù)挖掘軟件嗎?
吳春妹:隨著大數(shù)據(jù)技術(shù)的發(fā)展,商業(yè)軟件的數(shù)量越來(lái)越多,企業(yè)選擇合適的軟件,能夠大大提升數(shù)據(jù)挖掘的成功率。根據(jù)我的個(gè)人經(jīng)驗(yàn),我覺(jué)得應(yīng)該從以下幾個(gè)方面來(lái)評(píng)價(jià)和選擇。首先是評(píng)價(jià)其計(jì)算性能,除了確定軟件能否在不同的商業(yè)平臺(tái)上運(yùn)行之外,還要考慮其是否能連接不同的數(shù)據(jù)源,計(jì)算效率、運(yùn)行的穩(wěn)定性如何等;其次是評(píng)價(jià)功能性,包括算法的多樣性、算法的適用范圍、用戶能否根據(jù)自己的需要對(duì)算法和參數(shù)進(jìn)行調(diào)整、挖掘結(jié)果能否以不同的形式表現(xiàn)出來(lái)等;第三是評(píng)價(jià)其可用性,包括用戶界面的友好程度、軟件的應(yīng)用范圍和易學(xué)程度、主要針對(duì)初級(jí)用戶還是高級(jí)用戶等;最后是評(píng)價(jià)其輔助功能,包括軟件是否允許用戶修改數(shù)據(jù)集中的錯(cuò)誤,能否將一次分析的結(jié)果反饋到另一次分析中。評(píng)價(jià)過(guò)程中,要從以上四個(gè)方面綜合考慮,根據(jù)自己的需要做出合理的判斷和選擇。
筆者:您分析得非常全面,企業(yè)在選擇數(shù)據(jù)挖掘軟件時(shí),可以將其作為重要的參考依據(jù)。作為一名技術(shù)研發(fā)人員和一名企業(yè)管理者,您肩上的責(zé)任很重,您是如何在這兩項(xiàng)工作中間做好平衡的?
吳春妹:我覺(jué)得,一名合格的企業(yè)管理者必須是一名優(yōu)秀的技術(shù)研發(fā)人員,尤其對(duì)于我們這種類型的企業(yè)來(lái)說(shuō)更是如此。公司的主要業(yè)務(wù)就是研發(fā)大數(shù)據(jù)相關(guān)技術(shù),為合作企業(yè)提供相應(yīng)的服務(wù)。作為一名管理者,如果不懂這些技術(shù),就無(wú)法明確公司的發(fā)展方向。所以長(zhǎng)期以來(lái),盡管公司日常管理工作非常忙碌,我也從來(lái)沒(méi)有放棄過(guò)技術(shù)研究。這樣做,一方面是可以將自己多年的研究經(jīng)驗(yàn)傳授給大家,鼓勵(lì)團(tuán)隊(duì)成員之間相互交流,共同進(jìn)步;另一方面是可以引起大家對(duì)技術(shù)研發(fā)工作的重視,用創(chuàng)新推進(jìn)公司發(fā)展。我會(huì)根據(jù)市場(chǎng)需求和公司的實(shí)際情況對(duì)發(fā)展戰(zhàn)略進(jìn)行調(diào)整,將公司發(fā)展與行業(yè)發(fā)展統(tǒng)一起來(lái),防止發(fā)展偏離軌道。
筆者:近幾年,您帶領(lǐng)團(tuán)隊(duì)開(kāi)發(fā)數(shù)據(jù)挖掘技術(shù)和大數(shù)據(jù)算法,能為我們分享一下經(jīng)驗(yàn)嗎?
吳春妹:當(dāng)前,大數(shù)據(jù)這個(gè)概念非?;馃?,各行各業(yè)對(duì)數(shù)據(jù)挖掘技術(shù)越來(lái)越重視,這對(duì)于我們這種類型的企業(yè)來(lái)說(shuō)無(wú)疑是一種發(fā)展良機(jī)。但是,所謂水漲船高,競(jìng)爭(zhēng)者的數(shù)量越來(lái)越多,部分競(jìng)爭(zhēng)者的實(shí)力非常強(qiáng)大。誰(shuí)能研究出最先進(jìn)的技術(shù)和產(chǎn)品,誰(shuí)才能得到用戶的信任。就是說(shuō),僅僅認(rèn)識(shí)到現(xiàn)實(shí)形勢(shì)是不夠的,要想在競(jìng)爭(zhēng)中處于優(yōu)勢(shì)地位,必須用實(shí)力說(shuō)話,而先進(jìn)的技術(shù)和產(chǎn)品就是實(shí)力的直接代表。所以,我和團(tuán)隊(duì)成員會(huì)非常關(guān)注市場(chǎng)行情,明確用戶需要什么,然后確定技術(shù)研究方向,有條不紊地開(kāi)展每一項(xiàng)研究工作。我們會(huì)將數(shù)據(jù)挖掘流程與用戶的特征聯(lián)系起來(lái),綜合考慮各方面因素,研究出適合不同行業(yè)、不同用戶的大數(shù)據(jù)技術(shù)。當(dāng)然,研究過(guò)程中會(huì)遇到很多困難,很多時(shí)候在進(jìn)入模擬試驗(yàn)階段以后,才發(fā)現(xiàn)技術(shù)或者軟件功能沒(méi)有達(dá)到預(yù)期,此時(shí)就需要回頭對(duì)每一個(gè)細(xì)節(jié)進(jìn)行重新分析,明確問(wèn)題所在,逐一改進(jìn)。所有細(xì)節(jié)修改完成以后,需要重新模擬試驗(yàn),再次對(duì)軟件的可靠性和功能性進(jìn)行評(píng)價(jià),直至滿意為止。
筆者:憑借先進(jìn)的技術(shù)和產(chǎn)品,您的公司與很多知名企業(yè)建立了長(zhǎng)期合作的關(guān)系,這一過(guò)程中一定收獲了可觀的經(jīng)濟(jì)效益吧?
吳春妹:的確是,事實(shí)證明我們?cè)诩夹g(shù)研發(fā)方面的投入沒(méi)有白費(fèi)。產(chǎn)品被用戶認(rèn)可,并被廣泛應(yīng)用于實(shí)際中以后,公司的盈利能力明顯提升。尤其是與一些企業(yè)建立了長(zhǎng)期合作關(guān)系以后,公司能夠獲得相對(duì)穩(wěn)定的收益。我們會(huì)將收益中的一部分拿出來(lái),繼續(xù)投入到技術(shù)研發(fā)工作中去,始終保持公司的創(chuàng)新活力,實(shí)現(xiàn)公司的可持續(xù)發(fā)展。如今,公司的盈利能力提升,規(guī)模處于進(jìn)一步發(fā)展壯大之中。未來(lái),我會(huì)帶領(lǐng)團(tuán)隊(duì)向更多企業(yè)尋求合作,通過(guò)研發(fā)先進(jìn)的數(shù)據(jù)挖掘技術(shù)提升其綜合管理水平,實(shí)現(xiàn)雙方的互利共贏。
筆者:您一直在強(qiáng)調(diào)將數(shù)據(jù)挖掘技術(shù)應(yīng)用于實(shí)際中,重視對(duì)用戶需求的考慮,能談一下原因嗎?
吳春妹:原因很簡(jiǎn)單,因?yàn)閿?shù)據(jù)挖掘技術(shù)的出現(xiàn)主要就是面向應(yīng)用的。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,各行各業(yè)的業(yè)務(wù)操作逐漸向著自動(dòng)化的方向發(fā)展,業(yè)務(wù)數(shù)據(jù)越來(lái)越龐雜。我們研究數(shù)據(jù)挖掘技術(shù),就是為了幫助企業(yè)解決數(shù)據(jù)管理和應(yīng)用中的實(shí)際問(wèn)題,所以我一直在強(qiáng)調(diào)用戶需求以及技術(shù)和產(chǎn)品的實(shí)際運(yùn)用。現(xiàn)在,數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍越來(lái)越廣,涵蓋了電信、醫(yī)學(xué)、軍事、金融等各個(gè)領(lǐng)域,取得了很好的效果。
筆者:您認(rèn)為互聯(lián)網(wǎng)數(shù)據(jù)挖掘領(lǐng)域的發(fā)展前景如何?
吳春妹:我覺(jué)得這個(gè)領(lǐng)域具備非常廣闊的發(fā)展前景。從目前的情況來(lái)看,數(shù)據(jù)挖掘技術(shù)尚處于發(fā)展期,就已經(jīng)創(chuàng)造了意想不到的價(jià)值。隨著技術(shù)的成熟,這種技術(shù)的應(yīng)用范圍將會(huì)越來(lái)越廣,成為各行各業(yè)發(fā)展過(guò)程中必不可少的工具。所以,我會(huì)在這個(gè)領(lǐng)域堅(jiān)持下去,希望自己能夠有機(jī)會(huì)見(jiàn)證各個(gè)行業(yè)的蛻變。同時(shí),我也希望更多優(yōu)秀的人才參與到數(shù)據(jù)挖掘技術(shù)研究工作中來(lái),為該領(lǐng)域的發(fā)展和進(jìn)步添磚加瓦。
筆者:根據(jù)您的判斷,您認(rèn)為未來(lái)一段時(shí)間內(nèi)數(shù)據(jù)挖掘技術(shù)的研究焦點(diǎn)是什么?
吳春妹:通過(guò)對(duì)市場(chǎng)形勢(shì)進(jìn)行分析,結(jié)合我個(gè)人的理解,我認(rèn)為未來(lái)一段時(shí)間內(nèi)該領(lǐng)域的研究重點(diǎn)將體現(xiàn)在幾方面上。一是研究互聯(lián)網(wǎng)環(huán)境下的數(shù)據(jù)挖掘技術(shù),尤其是分布式數(shù)據(jù)采掘技術(shù)的開(kāi)發(fā)和應(yīng)用將會(huì)越來(lái)越廣泛;二是有關(guān)生物信息的數(shù)據(jù)挖掘,推進(jìn)生物化學(xué)、生物醫(yī)學(xué)領(lǐng)域的進(jìn)一步發(fā)展;三是數(shù)據(jù)挖掘過(guò)程將向著可視化的方向發(fā)展,以往我們重點(diǎn)研究挖掘結(jié)果的可視化,將數(shù)據(jù)轉(zhuǎn)化為知識(shí),方便用戶的理解和使用。而挖掘過(guò)程的可視化可以使用戶更加清楚整個(gè)進(jìn)程,有利于人機(jī)交互的實(shí)現(xiàn);四是數(shù)據(jù)處理范圍將會(huì)越來(lái)越廣,會(huì)涉及到更多數(shù)據(jù)類型,可能是結(jié)構(gòu)比較特殊的數(shù)據(jù),也可能是比較復(fù)雜的數(shù)據(jù);五是數(shù)據(jù)挖掘語(yǔ)言將會(huì)越來(lái)越豐富,可能會(huì)研究專門(mén)用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語(yǔ)言,促使其向著標(biāo)準(zhǔn)化的方向發(fā)展。
筆者:未來(lái)您在研究相關(guān)技術(shù)時(shí)會(huì)將以上幾點(diǎn)作為重點(diǎn)嗎?
吳春妹:我會(huì)將自己的判斷與公司的業(yè)務(wù)范圍聯(lián)系起來(lái),確定科學(xué)合理的技術(shù)研發(fā)方向,為公司的發(fā)展指明道路。可以肯定的是,無(wú)論行業(yè)向著什么方向發(fā)展以及發(fā)展重點(diǎn)是什么,技術(shù)研發(fā)都是重中之重。因此,我和團(tuán)隊(duì)成員會(huì)始終將該項(xiàng)工作作為公司發(fā)展的核心,積極學(xué)習(xí)相關(guān)理論知識(shí),豐富實(shí)踐經(jīng)驗(yàn),提高技術(shù)研發(fā)能力,以此適應(yīng)市場(chǎng)形勢(shì),緊跟時(shí)代潮流。
筆者:對(duì)于這個(gè)行業(yè)的未來(lái)你有著怎樣的希冀呢?
吳春妹:我認(rèn)為這是一個(gè)充滿朝氣的行業(yè),具有無(wú)限的可能性,因此對(duì)于這個(gè)行業(yè)的未來(lái),我充滿期待。我會(huì)將公司以及每一個(gè)研究項(xiàng)目作為載體,為數(shù)據(jù)挖掘技術(shù)的成熟和進(jìn)步貢獻(xiàn)一份力量。當(dāng)然,我也希望各行各業(yè)的精英們能夠認(rèn)識(shí)到數(shù)據(jù)挖掘技術(shù)的巨大潛力,加強(qiáng)相關(guān)產(chǎn)品和技術(shù)的應(yīng)用,提高信息利用率,實(shí)現(xiàn)自身的健康發(fā)展,同時(shí)推進(jìn)互聯(lián)網(wǎng)數(shù)據(jù)挖掘行業(yè)的革新。