陶 鵬,楊俊麗
(1洛陽(yáng)科技職業(yè)學(xué)院智能與數(shù)字工程學(xué)院 河南 洛陽(yáng) 471000)
(2洛陽(yáng)科技職業(yè)學(xué)院機(jī)電工程學(xué)院 河南 洛陽(yáng) 471000)
21世紀(jì)以來(lái),信息技術(shù)是推動(dòng)行業(yè)激烈競(jìng)爭(zhēng)的技術(shù)核心,數(shù)據(jù)分析是推動(dòng)行業(yè)持續(xù)發(fā)展的重要技術(shù)基礎(chǔ)。當(dāng)前,數(shù)據(jù)綜合分析和商業(yè)數(shù)據(jù)挖掘已經(jīng)成為當(dāng)下各種商業(yè)活動(dòng)的重要組成部分。大數(shù)據(jù)分析技術(shù)、云計(jì)算技術(shù)及物理互聯(lián)網(wǎng)等作為信息時(shí)代通信核心技術(shù)的不斷出現(xiàn),難以完全滿(mǎn)足于對(duì)海量商業(yè)數(shù)據(jù)的外在價(jià)值特征挖掘和內(nèi)在價(jià)值分析。面對(duì)復(fù)雜、海量、低密度及商業(yè)數(shù)據(jù),必須深度綜合分析才能夠快速獲取我們所需要的信息,以綜合構(gòu)架的大數(shù)據(jù)綜合分析技術(shù)平臺(tái)及數(shù)據(jù)系統(tǒng)快速度地完成對(duì)大數(shù)據(jù)潛在應(yīng)用價(jià)值的深度挖掘和綜合分析[1]。因此,重點(diǎn)在于探討如何充分利用Python大數(shù)據(jù)分析的各種技術(shù)優(yōu)勢(shì)點(diǎn)來(lái)構(gòu)建一個(gè)可視化企業(yè)數(shù)據(jù)分析處理平臺(tái),實(shí)現(xiàn)企業(yè)大數(shù)據(jù)的快速采集分析及相關(guān)信息實(shí)時(shí)獲取,有助于提高數(shù)據(jù)分析處理能力及數(shù)據(jù)平臺(tái)體系構(gòu)建的科學(xué)系統(tǒng)性,滿(mǎn)足經(jīng)濟(jì)社會(huì)發(fā)展趨勢(shì)。
Python應(yīng)用功能強(qiáng)大,可以推廣整合到各類(lèi)大型信息網(wǎng)絡(luò)系統(tǒng)開(kāi)發(fā)、圖形用戶(hù)界面、游戲軟件系統(tǒng)開(kāi)發(fā)及各種企業(yè)移動(dòng)端應(yīng)用軟件開(kāi)發(fā)等企業(yè)流程管理控制中。Python由于它的內(nèi)置網(wǎng)絡(luò)中繼器使其具有很多常見(jiàn)的支持網(wǎng)絡(luò),所以在很多程序運(yùn)行網(wǎng)絡(luò)過(guò)程中,其對(duì)網(wǎng)絡(luò)兼容性較強(qiáng),能夠同時(shí)支持各種網(wǎng)絡(luò),如socket、urllib等。在網(wǎng)絡(luò)相關(guān)信息分析爬蟲(chóng)庫(kù)中,它能夠?yàn)橛脩?hù)獲取網(wǎng)頁(yè)內(nèi)容及其他各類(lèi)網(wǎng)站網(wǎng)頁(yè)相關(guān)數(shù)據(jù)信息等數(shù)據(jù),還可以收集提供綜合分析數(shù)據(jù)框架,快速方便地將獲取各類(lèi)內(nèi)容數(shù)據(jù)及其他網(wǎng)站相關(guān)信息提取,然后用戶(hù)可以直接利用正則表達(dá)式等分析方法同時(shí)進(jìn)行其他網(wǎng)站相關(guān)信息數(shù)據(jù)收集、綜合分析和數(shù)據(jù)綜合利用。Python在數(shù)據(jù)分析及海量相關(guān)數(shù)據(jù)信息快速準(zhǔn)確獲取過(guò)程中,后臺(tái)服務(wù)具有較強(qiáng)的海量數(shù)據(jù)分析資源優(yōu)勢(shì),可以快速準(zhǔn)確獲取海量數(shù)據(jù)分析信息資源并快速準(zhǔn)確完成海量數(shù)據(jù)相關(guān)信息提取。此外,由于Python海量數(shù)據(jù)信息采集處理分析軟件庫(kù)較為全面,從而在傳統(tǒng)企業(yè)計(jì)算機(jī)應(yīng)用領(lǐng)域逐步擴(kuò)展普及Web,利用其全面的海量系統(tǒng)數(shù)據(jù)采集分析軟件庫(kù)及多種類(lèi)型,Python海量系統(tǒng)數(shù)據(jù)信息采集資源快速獲取系統(tǒng)資源,加上基于本身內(nèi)置的大量數(shù)據(jù)庫(kù)和多種標(biāo)準(zhǔn)數(shù)據(jù)模型,可高效快捷地、快速準(zhǔn)確地完成大型海量數(shù)據(jù)的綜合采集分析處理,如CVS等海量數(shù)據(jù)。
Python具備各種整合式的人工智能、神經(jīng)網(wǎng)絡(luò)等各種數(shù)據(jù)資源,并且在整個(gè)基于云端的平臺(tái)中可以實(shí)現(xiàn)Python的各種功能與英語(yǔ)Java和C語(yǔ)言完美相互兼容,能在各類(lèi)數(shù)據(jù)庫(kù)運(yùn)營(yíng)管理工具中快速準(zhǔn)確完成和滿(mǎn)足數(shù)據(jù)服務(wù)平臺(tái)對(duì)云數(shù)據(jù)服務(wù)的各種功能方面的要求,減少整個(gè)開(kāi)發(fā)項(xiàng)目的大數(shù)據(jù)分析開(kāi)發(fā)周期及數(shù)據(jù)運(yùn)營(yíng)管理成本。從整個(gè)項(xiàng)目的大數(shù)據(jù)資源綜合抽取、數(shù)據(jù)綜合收集整理以及綜合挖掘等再到大數(shù)據(jù)分析成果展示以及整個(gè)數(shù)據(jù)開(kāi)發(fā)工作過(guò)程中,不必再擔(dān)心需要其他的大數(shù)據(jù)開(kāi)發(fā)輔助工具或者大數(shù)據(jù)分析資源庫(kù)的直接支持幫助,并且每個(gè)用戶(hù)同樣能夠在Python中快速準(zhǔn)確完成整個(gè)數(shù)據(jù)工作過(guò)程,避免整個(gè)數(shù)據(jù)對(duì)程序的錯(cuò)誤切換及數(shù)據(jù)分析的錯(cuò)誤轉(zhuǎn)化等,有效且更加便利于用戶(hù)提高大數(shù)據(jù)環(huán)境的各種綜合功能,加強(qiáng)了大數(shù)據(jù)的綜合應(yīng)用性和高效性。Python對(duì)比其他傳統(tǒng)企業(yè)網(wǎng)頁(yè)設(shè)計(jì)數(shù)據(jù)處理、計(jì)算和交互編程應(yīng)用語(yǔ)言等,Python不僅能根據(jù)開(kāi)發(fā)需求自動(dòng)構(gòu)建各種功能,同時(shí)它還具有較強(qiáng)的用戶(hù)深度交互學(xué)習(xí)性和應(yīng)用開(kāi)發(fā)能力,能夠在各不同類(lèi)型的網(wǎng)頁(yè)編程設(shè)計(jì)以及應(yīng)用語(yǔ)言中脫穎而出,快速有效率地提高數(shù)據(jù)處理運(yùn)轉(zhuǎn)系統(tǒng)的整體功能架構(gòu)建設(shè),同時(shí)提高程序員的產(chǎn)品開(kāi)發(fā)性和工作效率。Python數(shù)據(jù)圖表系統(tǒng)能快速準(zhǔn)確地完成各種類(lèi)型數(shù)據(jù)的統(tǒng)計(jì)分析以及可視化,創(chuàng)建各種類(lèi)型的數(shù)據(jù)圖表及基本的3D系列圖表,將各種類(lèi)型數(shù)據(jù)通過(guò)一種科學(xué)化、合理化的充分形象展示方式表達(dá)出來(lái)。對(duì)比其他應(yīng)用程序來(lái)說(shuō)工作成本也比較少,且對(duì)于數(shù)據(jù)庫(kù)的獲取處理速度快。
Python是一種面向?qū)ο蟮慕忉屨Z(yǔ)言類(lèi)型計(jì)算機(jī)應(yīng)用程序設(shè)計(jì)語(yǔ)言,于1991年正式開(kāi)始發(fā)行。Python具備十分豐富而強(qiáng)大的文件庫(kù),可以對(duì)其他各種編程設(shè)計(jì)語(yǔ)言所需要進(jìn)行制作和存儲(chǔ)的各種模塊化的文件信息進(jìn)行無(wú)縫聯(lián)結(jié)。較為常見(jiàn)的原型改寫(xiě)方式情況一般如下:首先,利用Python在短短的一段時(shí)間內(nèi)快速改寫(xiě)生成整個(gè)傳統(tǒng)程序原型中的各個(gè)原型,隨后再針對(duì)其中某些原型具有一定技術(shù)特殊要求的一部分,利用更為合適的設(shè)計(jì)以及改寫(xiě)方式快速進(jìn)行整個(gè)程序原型改寫(xiě)。Python的基本優(yōu)點(diǎn)主要包括:簡(jiǎn)單易學(xué)、解釋性、可移植性、可靠的軟件嵌入性以及持續(xù)性和擴(kuò)展性等,其屬于一種比較高層次的編程設(shè)計(jì)。而它的最大缺點(diǎn)主要表現(xiàn)在于:?jiǎn)涡幸粋€(gè)命令而言語(yǔ)句與其他基于命令行而言語(yǔ)句間的傳輸之間有兩個(gè)多方面的傳輸質(zhì)量平衡問(wèn)題,而且與基于C++相比較,其在運(yùn)行時(shí)的語(yǔ)言傳輸速度較慢。其目前的主要應(yīng)用領(lǐng)域以及范圍包括:科學(xué)圖像視頻處理、數(shù)學(xué)圖像處理、文本W(wǎng)eb視頻編程、多媒體視頻應(yīng)用、pymo搜索引擎以及其他黑客策略編程等。可視化后的開(kāi)源數(shù)據(jù)分析論壇服務(wù)平臺(tái)當(dāng)中主要基礎(chǔ)功能模塊包括三大類(lèi)的核心基礎(chǔ)功能模塊:在線(xiàn)數(shù)據(jù)互動(dòng)開(kāi)源數(shù)據(jù)管理分析平臺(tái)模塊、能力分析系統(tǒng)管理平臺(tái)模塊以及一個(gè)大的開(kāi)源在線(xiàn)數(shù)據(jù)分析論壇服務(wù)平臺(tái)模塊。除此之外,為了更方便廣大用戶(hù)隨時(shí)下載相關(guān)應(yīng)用,平臺(tái)還特別配有自己設(shè)置的用戶(hù)下載幫助和服務(wù)管理中心。
在這里主要可以分為兩個(gè)維度進(jìn)行工作,包括用戶(hù)數(shù)據(jù)模型儲(chǔ)存和用戶(hù)數(shù)據(jù)模型建模。在數(shù)據(jù)信息儲(chǔ)存管理方面主要應(yīng)用技術(shù)中最難的點(diǎn)就是如何克服非傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的信息儲(chǔ)存和數(shù)據(jù)映射間的關(guān)系,例如,如何把今天的產(chǎn)品銷(xiāo)售數(shù)據(jù)情況,同明天服務(wù)器的帶寬性能數(shù)據(jù)利用率以及明天帶寬性能使用率的趨勢(shì)等,這些看似“毫不相關(guān)”的不同數(shù)據(jù)類(lèi)型進(jìn)行相互耦合;本系統(tǒng)中的典型數(shù)據(jù)建模技術(shù)是泛指對(duì)各種類(lèi)型數(shù)據(jù)進(jìn)行概括,同時(shí)將整個(gè)數(shù)據(jù)庫(kù)結(jié)構(gòu)中的任何一行都以數(shù)據(jù)的形式轉(zhuǎn)化成現(xiàn)實(shí)的、更容易被人理解的數(shù)據(jù)模型。該應(yīng)用模塊需要涉及的應(yīng)用數(shù)據(jù)類(lèi)型有多種。下面主要從產(chǎn)品生產(chǎn)數(shù)據(jù)分析、產(chǎn)品管理數(shù)據(jù)綜合分析、倉(cāng)儲(chǔ)管理數(shù)據(jù)綜合分析三個(gè)方面進(jìn)行介紹。
要研究?jī)?nèi)容分別是基于產(chǎn)品種類(lèi)、型號(hào)、批次等作為基礎(chǔ)統(tǒng)計(jì)數(shù)據(jù)相關(guān)信息的業(yè)務(wù)深度分析統(tǒng)計(jì)數(shù)據(jù)組合分析;利用車(chē)間關(guān)鍵工序運(yùn)行性能指標(biāo)、車(chē)間各個(gè)關(guān)鍵部件最佳運(yùn)行性能參數(shù)等作為基礎(chǔ)統(tǒng)計(jì)數(shù)據(jù),研究各個(gè)維度車(chē)間關(guān)鍵工序的最佳運(yùn)行性能參數(shù)等并進(jìn)行分析組合,指導(dǎo)整個(gè)生產(chǎn)線(xiàn)全過(guò)程車(chē)間工序的不斷改進(jìn);同時(shí)可以結(jié)合更多的多個(gè)方向數(shù)據(jù)來(lái)分析多個(gè)維度,用戶(hù)可以同時(shí)進(jìn)行探索式數(shù)據(jù)組合分析和大數(shù)據(jù)趨勢(shì)預(yù)測(cè),借助這些數(shù)據(jù)挖掘深度分析數(shù)據(jù)服務(wù)平臺(tái)用戶(hù),可以直接實(shí)現(xiàn)從一個(gè)整體生產(chǎn)線(xiàn)以及一個(gè)車(chē)間的各分廠多個(gè)點(diǎn)的管理維度,各個(gè)點(diǎn)收集數(shù)據(jù),來(lái)直觀性地展示分析一家公司以及整個(gè)生產(chǎn)流程中的運(yùn)營(yíng)進(jìn)度管理進(jìn)展情況。
在研究?jī)?nèi)容上主要分析了整個(gè)生產(chǎn)環(huán)境以及外部地理氣候條件,主要包括天氣溫度、濕度等各種環(huán)境因素對(duì)整個(gè)產(chǎn)品的直接驅(qū)動(dòng)影響;同時(shí)通過(guò)針對(duì)每個(gè)客戶(hù)發(fā)出訂單的產(chǎn)品數(shù)據(jù)留存時(shí)間變化和跟蹤情況,及時(shí)進(jìn)行留存跟蹤數(shù)據(jù)分析,挖掘整個(gè)產(chǎn)品中的潛在用戶(hù);通過(guò)對(duì)產(chǎn)品外形美觀件設(shè)計(jì)中的質(zhì)量合格品與外觀件中不合格品兩個(gè)大類(lèi)產(chǎn)品分別進(jìn)行圖片取樣、標(biāo)簽化,進(jìn)行工業(yè)樣品處理光學(xué)成像圖片處理取樣成像,實(shí)現(xiàn)產(chǎn)品數(shù)據(jù)分類(lèi)和智能分析自動(dòng)檢測(cè),將產(chǎn)品分類(lèi)在該技術(shù)及其領(lǐng)域推廣擴(kuò)展到整個(gè)機(jī)器設(shè)備生產(chǎn)線(xiàn)上,實(shí)施產(chǎn)品數(shù)據(jù)智能自動(dòng)檢測(cè)、分揀,提高自動(dòng)識(shí)別產(chǎn)品數(shù)據(jù)精度和自動(dòng)分揀數(shù)據(jù)效率;對(duì)整個(gè)機(jī)器生產(chǎn)來(lái)說(shuō),量化和可視化的機(jī)器產(chǎn)能對(duì)整個(gè)公司財(cái)務(wù)固定資產(chǎn)能產(chǎn)生的直接驅(qū)動(dòng)影響。
主要業(yè)務(wù)是為具有大量的數(shù)據(jù)統(tǒng)計(jì)和分析咨詢(xún)要求的用戶(hù)實(shí)時(shí)地提供相關(guān)統(tǒng)計(jì)和數(shù)據(jù),以及對(duì)于存在的問(wèn)題進(jìn)行的咨詢(xún)。并且這些用戶(hù)也可通過(guò)協(xié)助,實(shí)時(shí)地進(jìn)行相關(guān)咨詢(xún)服務(wù)以及內(nèi)容實(shí)時(shí)化定制,管理員也可以實(shí)時(shí)對(duì)用戶(hù)的咨詢(xún)服務(wù)內(nèi)容進(jìn)行實(shí)時(shí)管理,在一定程度上需要他們對(duì)其所提出的相關(guān)問(wèn)題、所需要進(jìn)行的咨詢(xún)和其在有定制化和服務(wù)性需要時(shí),能夠進(jìn)行問(wèn)卷回復(fù)和反饋處理。
平臺(tái)同時(shí)提供了全部開(kāi)源算法的基本簡(jiǎn)介和全部開(kāi)源算法代碼,用戶(hù)不僅可以自由展開(kāi)各種算法的學(xué)習(xí)與交流活動(dòng),還可以更為深入地了解算法數(shù)據(jù)結(jié)構(gòu)分析以及算法的各種應(yīng)用實(shí)現(xiàn)方式,將其應(yīng)用作為算法基礎(chǔ)點(diǎn)并結(jié)合自身實(shí)際需求可以進(jìn)行二次開(kāi)發(fā),從而有效率地提升廣大學(xué)生的算法學(xué)習(xí)工作興趣與研究積極性。
大數(shù)據(jù)分析時(shí)代在不斷演進(jìn),數(shù)據(jù)分析的深遠(yuǎn)影響及重要性也在逐步拓寬和不斷加深,本文提出了一個(gè)面向我國(guó)制造業(yè)的基于Python的可視化數(shù)據(jù)分析技術(shù)平臺(tái)[2-3],重點(diǎn)研究展開(kāi)了該平臺(tái)的功能設(shè)計(jì)和企業(yè)結(jié)構(gòu)管理框架優(yōu)化設(shè)計(jì)的全過(guò)程,為我國(guó)制造業(yè)的可視數(shù)據(jù)分析發(fā)展提供了動(dòng)力。