區(qū) 蘇
(廣西大學(xué)行健文理學(xué)院,廣西 南寧 530005)
在當(dāng)今時(shí)代背景下,人們所進(jìn)行的大多數(shù)活動(dòng),都有著大數(shù)據(jù)的影子,甚至在許多情況下大數(shù)據(jù)占據(jù)著關(guān)鍵的位置,起到?jīng)Q定性的作用,數(shù)據(jù)爆炸的當(dāng)今,我們通過(guò)計(jì)算機(jī)、互聯(lián)網(wǎng)就能夠獲取大量的信息。同時(shí),在“互聯(lián)網(wǎng)+”、物聯(lián)網(wǎng)經(jīng)濟(jì)二者的潛移默化下,各個(gè)行業(yè)所產(chǎn)生的數(shù)據(jù),都應(yīng)運(yùn)而生出令人嘆為觀止的增進(jìn)趨向,那可以被形容為“天文數(shù)字”,在這種情況下,對(duì)數(shù)據(jù)的采集變得極為重要。而在完成數(shù)據(jù)采集工作之后,還應(yīng)該對(duì)數(shù)據(jù)進(jìn)行深度地發(fā)掘、分析,操縱數(shù)據(jù)來(lái)引導(dǎo)未來(lái)的發(fā)展,以此來(lái)施展數(shù)據(jù)的價(jià)值。在這一過(guò)程中,工作人員就可以將Python編程語(yǔ)言應(yīng)用其中[1]。
對(duì)Python進(jìn)行簡(jiǎn)單的解釋?zhuān)切聲r(shí)代的一種計(jì)算機(jī)程序語(yǔ)言,且自它誕生之日開(kāi)始,它便較其他程序語(yǔ)言有著很大的優(yōu)勢(shì)。Python的可讀性很高,它的集成方法相較而言也比較全面,可以輕易滿足用戶(hù)的需求,而它不同于以往程序語(yǔ)言的晦澀難懂,Python上手門(mén)檻低,并且還十分方便人們理解。正是因?yàn)檫@些優(yōu)點(diǎn),它被計(jì)算機(jī)領(lǐng)域廣泛使用,已經(jīng)成為不可或缺的一部分,而即便是除計(jì)算機(jī)領(lǐng)域以外的其他行業(yè),在進(jìn)行數(shù)據(jù)分析時(shí)也會(huì)選擇Python。
其功能主要體現(xiàn)在以下幾方面:
(一)網(wǎng)絡(luò)開(kāi)發(fā):正因?yàn)楹芏噍^為常見(jiàn)的網(wǎng)絡(luò)協(xié)議庫(kù)都存在于Python的內(nèi)部,所以Python才有能力作為一個(gè)網(wǎng)絡(luò)編程工具,比如Socket、urllib和urllib2模塊,并在相關(guān)的開(kāi)發(fā)工作中發(fā)揮效果。
(二)GUI開(kāi)發(fā):對(duì)Tkinter的使用,對(duì)GUI應(yīng)用程序的創(chuàng)建可以在短時(shí)間內(nèi)通過(guò)Python來(lái)完成,也能夠與Java形成Jython庫(kù)。
(三)游戲開(kāi)發(fā):Python在游戲當(dāng)中可以減輕開(kāi)發(fā)游戲的復(fù)雜性,有助于在開(kāi)發(fā)過(guò)程當(dāng)中提高游戲的便捷。具體體現(xiàn)在游戲裝備、戰(zhàn)斗攻防互動(dòng)系統(tǒng)、賬號(hào)登錄注冊(cè)系統(tǒng),它們的基礎(chǔ)都是通過(guò)Python進(jìn)行開(kāi)發(fā)[2]。
(四)人工智能:在當(dāng)前的社會(huì)中,人工智能是較為火熱的一個(gè)領(lǐng)域,也是整個(gè)時(shí)代想要進(jìn)行發(fā)展的先驅(qū),但是許多人工智能同時(shí)也需要Python作為基礎(chǔ),人工智能的開(kāi)發(fā)設(shè)計(jì)離不開(kāi)Python的幫助,在微軟的小冰、谷歌的“阿爾法狗”、蘋(píng)果的Siri等這些婦孺皆知的人工智能上皆有著Python的影子,Python在它們上面都得到了具體的體現(xiàn)。
(五)網(wǎng)絡(luò)爬蟲(chóng)方面:Python有著自帶的框架,而通過(guò)Python,可以取得網(wǎng)站的信息,觀看到網(wǎng)頁(yè)的內(nèi)容,尋找到我們所需要的數(shù)據(jù)并且對(duì)其進(jìn)行分析與提出,而后者只需要采用正則表達(dá)式,便可以成功地將我們所需要的數(shù)據(jù)提取出來(lái)。
Python數(shù)據(jù)分析顧名思義,便是針對(duì)所有收集的數(shù)據(jù),將其進(jìn)行存儲(chǔ)、計(jì)算、分析,從數(shù)據(jù)當(dāng)中發(fā)現(xiàn)有價(jià)值的東西,將有用或者有參考意義的信息摘取出來(lái)。從這方面來(lái)看,數(shù)據(jù)分析雖然只是一個(gè)計(jì)算機(jī)科學(xué)的分支,但是因?yàn)樗?dú)有的特性,數(shù)據(jù)分析可以跨越多個(gè)領(lǐng)域,作為一個(gè)重要的方法去挖掘數(shù)據(jù)當(dāng)中所隱含的價(jià)值[3]。
(一)機(jī)器學(xué)習(xí):所謂機(jī)器學(xué)習(xí),便是通過(guò)賦予機(jī)器學(xué)習(xí)的能力從而讓它完成變成無(wú)法完成的事情的功能,但是從實(shí)踐的角度出發(fā),機(jī)器學(xué)習(xí)可以通過(guò)利用數(shù)據(jù),從而訓(xùn)練出一個(gè)模型,再通過(guò)模型進(jìn)行預(yù)測(cè)。
(二)深度學(xué)習(xí):源于人工神經(jīng)網(wǎng)絡(luò)的研究,作為機(jī)器學(xué)習(xí)研究當(dāng)中的一個(gè)全新的領(lǐng)域,其主要的動(dòng)機(jī)在于建立,對(duì)人腦進(jìn)行模擬,從而進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。和機(jī)器學(xué)習(xí)方法相同,深度機(jī)器學(xué)習(xí)方法也可以分成監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),舉例說(shuō)明,卷積神經(jīng)網(wǎng)絡(luò)就屬于監(jiān)督學(xué)習(xí),深度置信網(wǎng)就屬于無(wú)監(jiān)督學(xué)習(xí)。
(三)神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)最一開(kāi)始屬于生物學(xué)的名詞概念,大腦的神經(jīng)元、觸點(diǎn)和細(xì)胞組成的一個(gè)完整的網(wǎng)絡(luò)便是神經(jīng)網(wǎng)絡(luò),將此概念引申到Python數(shù)據(jù)分析當(dāng)中,人工智能受到啟發(fā),誕生了人工神經(jīng)網(wǎng)絡(luò),對(duì)人腦加以模擬,從而誕生了AI。
(四)人工智能:計(jì)算機(jī)同樣也有著無(wú)法解決的問(wèn)題,例如對(duì)圖像的識(shí)別,對(duì)語(yǔ)音的識(shí)別,人工智能的出現(xiàn)便是為了針對(duì)這些問(wèn)題進(jìn)行解決,而事實(shí)證明這種設(shè)想確實(shí)可以實(shí)現(xiàn)。
這四個(gè)概念出現(xiàn)得十分頻繁,它們之間的關(guān)系是包含關(guān)系,逐漸遞進(jìn)深入,如果使用圖片的話更容易理解:
圖1 包含關(guān)系
具體的學(xué)習(xí)模型例如LSTM,即長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),這是一種特別的循環(huán)神經(jīng)網(wǎng)絡(luò),核心思想是記憶塊,主要由輸入門(mén)、遺忘門(mén)和記憶單元,他的特點(diǎn)是其網(wǎng)絡(luò)結(jié)構(gòu)模型是鏈狀結(jié)構(gòu),擅長(zhǎng)用在不分段連續(xù)手寫(xiě)識(shí)別上,其作為非線性模型,還可以作為復(fù)雜的非線性單元而去構(gòu)建大型的深度神經(jīng)網(wǎng)絡(luò)[4]。
該學(xué)習(xí)模型關(guān)鍵在于其單元狀態(tài),信息通過(guò)單元傳遞,從上一個(gè)單元傳遞到下一個(gè),而線性相互作用也比較少,適合于處理和預(yù)測(cè)間隔和延遲時(shí)間非常長(zhǎng)的重要事件。在解決傳統(tǒng)模式RNN存在的依賴(lài)問(wèn)題上有著突出的表現(xiàn),在使用時(shí)要注意輸出遺忘和記憶變量這三個(gè)核心要點(diǎn),對(duì)他們的掌控才能做到對(duì)該學(xué)習(xí)模型的掌控。
圖2 LSTM的模型
下面這是四個(gè)函數(shù)單元,最左邊的函數(shù)大多數(shù)情況下是區(qū)塊的輸入,右邊三個(gè)會(huì)經(jīng)過(guò)“門(mén)”決定輸入值接下來(lái)是否能傳入?yún)^(qū)塊,左邊第二個(gè)便是核心之一的輸入門(mén),假設(shè)這里的數(shù)值近似于零,這里的數(shù)值將會(huì)在第二層就被阻擋,不會(huì)進(jìn)到下一層。左邊第三個(gè)便是另一個(gè)核心——遺忘門(mén),如果這里也是與零近似的數(shù)值,第二層里已經(jīng)得到記憶的值將會(huì)被遺忘,不能傳遞到第三層。第四個(gè)也就是最右邊的輸入為輸出門(mén),這一個(gè)可以直接決定最后在單元之中進(jìn)行傳遞的輸入值最后是否能被輸出。
Python數(shù)據(jù)分析可以在將大部分的工作獨(dú)自完成,熟悉Python集成的多種類(lèi)型的庫(kù),這對(duì)于數(shù)據(jù)的整理和分析是極為重要的。
Python中有著一個(gè)專(zhuān)門(mén)用于計(jì)算的模塊,他的名字叫做Numpy,作為Python科學(xué)計(jì)算的基礎(chǔ)包,它通過(guò)提供多維數(shù)組對(duì)象,可以直接運(yùn)算數(shù)學(xué)和元素級(jí)別的數(shù)組。因此主要適用于數(shù)組和矩陣,在科學(xué)計(jì)算領(lǐng)域也多有應(yīng)用,而將Fortran集成到Python,也需要用到它。
Pandas和Numpy的使用頻率是最高的,對(duì)于Python中數(shù)據(jù)的讀取和保存有著重要的作用,且Pandas較強(qiáng)的靈活度使得它在處理Excel時(shí)可以更加高效,可以輕易的將execl表格中的數(shù)據(jù)進(jìn)行轉(zhuǎn)換。
除了Python中對(duì)數(shù)據(jù)的計(jì)算、讀取和保存,使得數(shù)據(jù)更加容易被觀察,同樣是Python數(shù)據(jù)分析中至關(guān)重要的一項(xiàng),它通過(guò)對(duì)圖表進(jìn)行繪制從而使得數(shù)據(jù)簡(jiǎn)單化,可視化。數(shù)據(jù)的可視化,不管是對(duì)數(shù)據(jù)的使用人員,還是數(shù)據(jù)分析人員,工作都將簡(jiǎn)化方便,從而提高效率[5]。
在當(dāng)今信息時(shí)代中,對(duì)于大數(shù)據(jù)的挖掘、分析,Python在大多數(shù)情況下是好用的一個(gè)。將Python應(yīng)用其中進(jìn)行數(shù)據(jù)分析,能夠在很大程度上,為工作帶來(lái)更多的便捷。這是因?yàn)?,這是Python自身先天的優(yōu)勢(shì)所決定的,Python有著較強(qiáng)的數(shù)據(jù)挖掘能力和分析能力。同時(shí)在數(shù)據(jù)分庫(kù)方面,Python具有突出且令人滿意的功能性,在實(shí)際應(yīng)用方面也有著很好的效果,并且Python可以在平臺(tái)當(dāng)中實(shí)現(xiàn)跨越運(yùn)轉(zhuǎn),所以可以將計(jì)算機(jī)編程的重要作用充分發(fā)揮出來(lái)。通過(guò)本文的分析能夠發(fā)現(xiàn),Python數(shù)據(jù)分析在數(shù)據(jù)整理和分析方面,非常符合當(dāng)今時(shí)代的需求,且其實(shí)用性也為我們帶來(lái)了相較其他更多的好處。因此它的可行性毋庸置疑,在未來(lái)的一段時(shí)間內(nèi),不管是數(shù)據(jù)分析,還是游戲領(lǐng)域,亦或者是對(duì)AI進(jìn)行開(kāi)發(fā)研究,還是用于網(wǎng)絡(luò)安全等各種領(lǐng)域,Python都將是首選的語(yǔ)言,Python數(shù)據(jù)分析也必將發(fā)揮著巨大的作用。隨著我國(guó)的科學(xué)技術(shù)的飛速發(fā)展,筆者相信Python數(shù)據(jù)分析將會(huì)用在更加廣闊的領(lǐng)域,且發(fā)揮重要的作用。