向鴻瑾
(上海外國語大學(xué),上海 201620)
數(shù)據(jù)挖掘是處理大型數(shù)據(jù)集以認(rèn)知其模式并且建立解決問題和數(shù)據(jù)分析的過程。數(shù)據(jù)挖掘工具讓企業(yè)能夠預(yù)測未來趨勢,大量提高生產(chǎn)效率;讓醫(yī)院更高效地醫(yī)治病患;讓科研院所更富有成效地研究實(shí)驗(yàn)過程及其相關(guān)變量。總的說來,數(shù)據(jù)挖掘能幫助人類更好地認(rèn)識(shí)事物,分析事物。從源頭上來說,數(shù)據(jù)挖掘有著嚴(yán)謹(jǐn)?shù)目茖W(xué)分析方法。數(shù)據(jù)挖掘脫胎于統(tǒng)計(jì)學(xué),統(tǒng)計(jì)學(xué)則脫胎于數(shù)學(xué)。大部分統(tǒng)計(jì)學(xué)習(xí)算法有著嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明,是現(xiàn)存的最優(yōu)的最科學(xué)的分析問題的方法。
數(shù)據(jù)挖掘有著一些成熟的分析方法和算法,包括在金融業(yè)大放異彩的序列分析(Time Series Analysis)、經(jīng)典的分類和聚類算法等。這些分析方法實(shí)際上都是在尋找事件的模式和參數(shù)。一個(gè)序列是指一個(gè)有序的事件列表,這是一種常見的數(shù)據(jù)結(jié)構(gòu)。分類算法是在基于數(shù)據(jù)庫的其他特征向量中尋找數(shù)據(jù)的模式,從而得到可能的數(shù)據(jù)的內(nèi)部結(jié)構(gòu)。而聚類算法則與分類算法類似,能夠從特征中找到未知的關(guān)聯(lián),通過分析不同樣本的相關(guān)性從而將它們分類并標(biāo)號(hào)。
數(shù)據(jù)挖掘的目的具體來說有以下幾點(diǎn):把握趨勢和模式;預(yù)測;求最優(yōu)解。在這三個(gè)目的中,其過程也都需要對大量的、雜亂無章的數(shù)據(jù)進(jìn)行以下三個(gè)步驟:數(shù)據(jù)預(yù)處理;數(shù)據(jù)挖掘;后處理。首先分析數(shù)據(jù)預(yù)處理。之所以有這樣一個(gè)步驟,是因?yàn)橥ǔ5臄?shù)據(jù)挖掘需要涉及相對較大的數(shù)據(jù)量,只有從大量的數(shù)據(jù)中,才能看到整個(gè)未來發(fā)展趨勢。這些數(shù)據(jù)的來源不一導(dǎo)致格式不同,有的數(shù)據(jù)也許還存在一些缺失值或者無效值。如果不經(jīng)處理,直接將這些‘臟’數(shù)據(jù)放到模型中去跑,就非常容易導(dǎo)致模型計(jì)算的失敗或可用性很差。所以數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中不可或缺的一步。預(yù)處理這一步通常占用了數(shù)據(jù)挖掘過程中的大部分時(shí)間,但的確值得這樣去做。
數(shù)據(jù)挖掘和后處理相對來說容易理解。完成了數(shù)據(jù)的預(yù)處理,下一步將通常進(jìn)行特征的構(gòu)造,然后將其放到特定的模型中去計(jì)算,利用某種標(biāo)準(zhǔn)去評判不同模型或組合模型的表現(xiàn),最后確定一個(gè)最合適的模型用于后處理。后處理的過程是在已經(jīng)發(fā)現(xiàn)了那個(gè)想要找到的模式后,去應(yīng)用它或者用合適的方式將其表示出來。
第一次工業(yè)革命中,蒸汽機(jī)的出現(xiàn)讓家庭小作坊的織女們大量“下崗”失業(yè),但是她們很快地轉(zhuǎn)入其他行業(yè),包括但不限于秘書、財(cái)務(wù)、修女等。第二次工業(yè)革命中,電燈的出現(xiàn)讓給各個(gè)家庭運(yùn)煤的工人也很快地失去了工作,但他們也能轉(zhuǎn)業(yè)去從事電話接線員等工作。第三次工業(yè)革命,電子計(jì)算機(jī)和互聯(lián)網(wǎng)信息化時(shí)代的到來,讓傳統(tǒng)的郵差的工作量大量減少,但是催生了新的低端工種,例如前端程序員等。從縱向來看,歷史的經(jīng)驗(yàn)可以讓我們得出一個(gè)暫時(shí)無法反駁的結(jié)論:每次的技術(shù)革命雖然會(huì)造成舊事物、舊工種的滅亡,但是也產(chǎn)生了大量的、新的工作需求。事物的相互聯(lián)系包含著事物的相互作用,而相互作用必然導(dǎo)致事物的運(yùn)動(dòng)、變化和發(fā)展。而發(fā)展是前進(jìn)上升的運(yùn)動(dòng),實(shí)質(zhì)是新事物的產(chǎn)生和舊事物的滅亡。新事物是指合乎歷史前進(jìn)方向、具有遠(yuǎn)大前途的東西,新事物是不可戰(zhàn)勝的。
舊事物被打敗的原因除了舊事物不再適合新社會(huì)的要求以外,還有沉溺于舊事物的思想。這也加速了舊事物被淘汰的進(jìn)程。二十年前,柯達(dá)公司可謂是如日中天,銷售的膠卷不僅僅能夠繞地球三圈,甚至可以連接太陽與地球。但是,正是這種瘋狂式的成功讓柯達(dá)公司一步一步走向了墳?zāi)?。來自日本的量產(chǎn)的單反數(shù)碼相機(jī)曾讓柯達(dá)公司不屑一顧:他們真的以為自己已經(jīng)大到不能倒的地步,并對單反相機(jī)沒有一點(diǎn)點(diǎn)投資和研發(fā)意向,固執(zhí)地將所有的經(jīng)費(fèi)投在了傳統(tǒng)的光學(xué)敏感材料上了。事實(shí)證明,柯達(dá)曾經(jīng)不愿意接受的技術(shù)已經(jīng)成了現(xiàn)代攝影技術(shù)的主流,甚至成功地?fù)魯×丝逻_(dá)公司:2013年5月,伊士曼-柯達(dá)公司正式提交退出破產(chǎn)保護(hù)的計(jì)劃,宣告了一代商業(yè)神話的滅亡。
所以,從事傳統(tǒng)行業(yè)的人們,不能固步自封,認(rèn)為自己的工作是無可替代的。其實(shí)新技術(shù)的產(chǎn)生到推廣是非常快速的,如果一個(gè)人像柯達(dá)公司一樣拒絕排斥新技術(shù),那么在新的技術(shù)影響下,他之前從事的職業(yè)將會(huì)極快地被取代,也會(huì)面臨與柯達(dá)公司相似的困境:下崗失業(yè)。更為現(xiàn)實(shí)的是,在新的技術(shù)環(huán)境下,工作對人們的知識(shí)水平和經(jīng)驗(yàn)要求更高,那么固執(zhí)的“舊社會(huì)”的下崗民工將在新的時(shí)代下永遠(yuǎn)失業(yè)。
綜上所述,可以看出:從數(shù)據(jù)量的爆發(fā),到數(shù)據(jù)挖掘技術(shù)的應(yīng)用,再到人類社會(huì)走向未來全新的人工智能時(shí)代是一條明晰的發(fā)展路徑。雖然不像新聞媒體中所說的那么極速地到來,但未來也不會(huì)像電影里表現(xiàn)出來的那么恐怖。不可否認(rèn)的是,人工智能的確會(huì)給人類社會(huì)帶來全新的挑戰(zhàn):短暫的失業(yè)潮、數(shù)量不小的傳統(tǒng)行業(yè)的資本虧損等。人們應(yīng)當(dāng)有著更為積極的態(tài)度去看待數(shù)據(jù)挖掘的應(yīng)用和未來的人工智能技術(shù),去學(xué)習(xí)、擁抱新的技術(shù),掌握更為先進(jìn)的生產(chǎn)力,為自己的家庭和社會(huì)帶來更大的價(jià)值。