国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學習技術在信息系統(tǒng)數(shù)據(jù)分析中的應用

2017-08-08 02:04:22林偉聲
電腦與電信 2017年6期
關鍵詞:編碼器正確率信息系統(tǒng)

林偉聲

(廣州市城市規(guī)劃自動化中心,廣東 廣州 510000)

深度學習技術在信息系統(tǒng)數(shù)據(jù)分析中的應用

林偉聲

(廣州市城市規(guī)劃自動化中心,廣東 廣州 510000)

深度學習是近年來機器學習領域的一個熱點研究方向,其主要方法是通過增加學習器的層數(shù),增大其通道數(shù)和參數(shù)的規(guī)模,借助大數(shù)據(jù)學習時代的超強計算能力,發(fā)現(xiàn)原始數(shù)據(jù)集中的高層抽象概念,為應用領域的決策支持服務。探討了在信息系統(tǒng)的數(shù)據(jù)分析任務中深度學習技術的應用方法,著重闡述了卷積神經(jīng)網(wǎng)絡和堆疊自動編碼器的主要原理和實現(xiàn)方法,及其在信息系統(tǒng)的數(shù)據(jù)分析中的應用案例,并對其應用價值進行了分析。

深度學習;信息系統(tǒng)數(shù)據(jù)分析;卷積神經(jīng)網(wǎng)絡;堆疊自動編碼器

1 背景和研究現(xiàn)狀

深度學習是近年來機器學習領域的一個熱點研究方向,相對于淺層次學習而言,深度學習的主要特征是大大增加了學習器模型的層次,也即數(shù)據(jù)從輸入端到輸出端所需要經(jīng)過的運算子個數(shù),在這種情況下,學習器也同時增大了通道數(shù)和參數(shù)的規(guī)模,借助大數(shù)據(jù)學習時代的超強計算能力,使其具備表達復雜函數(shù)的能力,同時也使其能夠發(fā)現(xiàn)原始數(shù)據(jù)集中的高層抽象概念,為應用領域的決策支持服務。

隨著計算機軟硬件技術的發(fā)展,信息系統(tǒng)與各個具體的業(yè)務領域的結合越來越緊密,在把各種業(yè)務過程進行信息化處理的過程中,收集了大量的結構化/非結構化數(shù)據(jù),而對這些數(shù)據(jù)的分析、理解和知識發(fā)現(xiàn)是對傳統(tǒng)信息系統(tǒng)技術的挑戰(zhàn)。例如,在一個超市的銷售數(shù)據(jù)中,通過大數(shù)據(jù)挖掘技術,發(fā)現(xiàn)商品購買習慣與消費者的個人信息之間的關系,為商品的進貨、擺架、促銷活動的設計等進行服務;在一個醫(yī)學圖像診斷系統(tǒng)中,通過對圖像和診斷結果進行深度學習,可以對醫(yī)生的診斷經(jīng)驗進行建模,從而實現(xiàn)醫(yī)學圖像的計算機輔助診斷。以上目標的實現(xiàn),有兩個先決條件,一是需要收集海量的數(shù)據(jù);二是需要強有力的算法從海量數(shù)據(jù)中獲取知識,而這類算法均需要強大的計算能力作為支持。

在當前,深度學習技術吸引著大批機器學習研究者和應用領域研究者的興趣,無論是理論研究還是應用研究都出現(xiàn)了大量有價值的成果。Hinton等人[1]于2006年在Science中發(fā)表文章,提出了一個訓練深度神經(jīng)網(wǎng)絡的有效方法,被認為是近年來深度學習研究開始走向成熟的標志。卷積神經(jīng)網(wǎng)絡(Convolutional NeuralNetwork,CNN)[2]在圖像理解上的成功,大大鼓舞了機器學習和人工智能界,其中主要的代表為Krizhevsky等人[3]在2012年提出的AlexNet架構,在ImageNet數(shù)據(jù)集[4]的圖像理解問題上,大幅提升了機器學習模型的正確率。在隨后幾年的ImageNet大賽中,卷積神經(jīng)網(wǎng)絡在圖像理解中的正確率不斷創(chuàng)出新高,其中Google的GoogleNet[5]和百度的ResNet[6]均有很好的表現(xiàn),同時訓練這些模型所需要的計算代價也是巨大的。最近,采用深度學習技術的人工智能圍棋程序A lphaGo[7]在與人類頂尖棋手的對戰(zhàn)過程中大獲全勝,是對深度學習算法強大能力的一個很好的說明。

本文探討深度學習技術在信息系統(tǒng)的數(shù)據(jù)分析和知識發(fā)現(xiàn)中的應用,闡述兩個常用的深度學習模型的基本原理,即卷積神經(jīng)網(wǎng)絡和堆疊自動編碼器,給出它們在信息系統(tǒng)的深度學習中的使用案例,并對結果進行分析。

2 深度學習模型

2.1 卷積神經(jīng)網(wǎng)絡

卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network)在圖像理解問題中有良好的表現(xiàn),它的主要原理是采用一系列的卷積層、池化層、非線性激活層和隨機屏蔽層等對原始的輸入信號進行非線性化變換,在此過程中逐步抽取原始輸入信號的本質特征,通過對誤差的反向傳播,使用一種有監(jiān)督的方式對網(wǎng)絡中的權值進行調(diào)整,使其在訓練和評估數(shù)據(jù)集上的誤差達到最小。其中最重要的操作為卷積操作,在每一卷積層中,通過一個固定大小的卷積核,對輸入的信號進行連續(xù)掃描并進行卷積運算,可以有效獲取輸入信號中的局部性特征,適用于圖像分類、標注相關的問題求解。

對于激活層,一般采用Sigmoid函數(shù)和Relu函數(shù),其形式公式(1)和公式(2)所示:

圖1展示了一個卷積神經(jīng)網(wǎng)絡的基本結構。

圖1 卷積神經(jīng)網(wǎng)絡的基本結構

在圖1中,卷積神經(jīng)網(wǎng)絡通過多個塊(Block)的疊加,逐層進行特征的抽象化,每個塊由卷積層、非線性激活層和池化層構成,其中池化層一個鄰域內(nèi)的特征通過平均或求最大值的方式對特征進行歸納,提取關鍵特征并減少特征維數(shù)。隨機屏蔽層以一定的百分比屏蔽輸出單元,使輸出不能重度依賴于少數(shù)幾個單元,提升了模型的泛化能力。SoftMax輸出層是一個多分類函數(shù),得到一個1-of-k編碼的輸出,對于多分類問題,應使Multi-class SVM或BP網(wǎng)絡[8]。

2.2 堆疊自動編碼器

堆疊自動編碼器是一種無監(jiān)督(Unsupervised)的特征變換器,其中每一個自動編碼器是一個三層結構的網(wǎng)絡,包括輸入層、中間層和輸出層,中間層執(zhí)行一個非線性變換函數(shù),訓練的目標為要求輸出的向量能盡可能地還原為輸入向量。通過多個自動編碼器的堆疊,原始輸入特征被層層變換,但每一層都盡可能保持與原始輸入等價的信息量。圖2展示了單一一個自動編碼器的基本結構。

圖2 自動編碼器的基本結構

3 應用實例

在UCI數(shù)據(jù)集[9]上進行上述深度學習模型的測試,選取其中兩個來自于信息系統(tǒng)的數(shù)據(jù)庫,分別是Nursery和Census Income,兩個數(shù)據(jù)集均有明顯的信息系統(tǒng)應用背景。主要屬性見表1。

表1 數(shù)據(jù)集的基本屬性

為了測試模型的有效性,把兩個數(shù)據(jù)集按如下方式劃分為訓練集、驗證集和測試集,其大小比例為8:1:1,其中訓練集用于訓練模型,驗證集用于在模型的訓練過程中評估模型的訓練效果,測試集用于測試完成訓練的模型的性能,在本文的設定中,測試集在訓練過程中不可見。

本應用案例中,需要實現(xiàn)兩個深度學習模型和一個支持向量機分類器。對于深度學習模型,采用的是MatConvNet深度學習框架[10],該框架是基于Matlab實現(xiàn)的,其核心是用C語言編寫的,具有良好的用戶界面和優(yōu)秀的運行效率。對于支持向量機分類器,使用當前性能最佳的LibSVM。

設計了兩個實驗用于展示深度學習模型的效果。第一個是采用卷積神經(jīng)網(wǎng)絡對兩個數(shù)據(jù)集的分類標簽進行預測,具體的做法為把兩個數(shù)據(jù)集通過MatConvNet的API函數(shù)轉換為其內(nèi)置對象imdb,對其中的數(shù)據(jù)屬性進行min-max歸一化,然后編寫網(wǎng)絡配置腳本進行網(wǎng)絡設計,參考著名的A lexNet進行設計,采用5個塊相互連接,卷積核的大小固定在5*1,池化層采用max-pooling,最后增加三個全連接層,每一個全連接層后面附有一個20%的隨機屏蔽層。訓練共進行30輪,學習率采用0.01*15、0.001*10、0.0005*5,記錄每一輪的top1err。表2展示了在這個實驗中模型對兩個數(shù)據(jù)集分類的正確率和方差。

表2 卷積神經(jīng)網(wǎng)絡的分類正確率和方差

第二個是用堆疊自動編碼器對數(shù)據(jù)集進行編碼,然后再訓練一個支持向量機分類器,采用7層的堆疊自動編碼器,最終的輸出維數(shù)Nursery為10,Census Income為12,支持向量機采用LibSVM實現(xiàn),核函數(shù)使用參數(shù)為缺省值的徑向基函數(shù),不設置懲罰項,同時把不經(jīng)過自動編碼器的原始屬性直接輸入支持向量機模型進行對比。表3展示本部分實驗的結果。

表3 卷積神經(jīng)網(wǎng)絡的分類正確率和方差

從表3中可以看了,經(jīng)過堆疊自動編碼器編碼后的數(shù)據(jù)集在SVM上的表現(xiàn)更好,說明了深度學習模型在信息系統(tǒng)的數(shù)據(jù)分析中的作用十分顯著。

4 結論和展望

本文闡述了深度學習技術在信息系統(tǒng)的數(shù)據(jù)分析中的應用,并給出了具體的技術路線。通過在兩個數(shù)據(jù)集上對兩個深度學習模型的應用實踐,展示了深度學習模型在數(shù)據(jù)分析中的顯著作用。在今后的研究中,將進一步把深度學習技術與大數(shù)據(jù)分析技術結合,同時引入更多信息系統(tǒng)所承載的業(yè)務內(nèi)容,建立面向行業(yè)應用的深度學習大數(shù)據(jù)分析平臺,為企業(yè)的決策支持提供更有效的保障。

[1]Hinton,G.E.&Salakhutdinov,R.R.Reducing the dimensionality of dataw ith neuralnetworks[J].Science,2006,313,504-507.

[2]Bengio,Y.Learning Deep Architectures for AI[J].Foundation TrendsofMachine Learning,Now Publishers Inc.,2009,2,1-127.

[3]Krizhevsky,A.,Sutskever,I.,Hinton,G.E.ImageNetClassification w ith Deep Convolutional Neural Networks[C].Advances in Neural Information Processing Systems,2012,25,2012.

[4]Olga Russakovsky,Jia Deng,Hao Su,Jonathan Krause,Sanjeev Satheesh,Sean Ma,Zhiheng Huang,Andrej Karpathy,Aditya Khosla,M ichael Bernstein,Alexander C.Berg and Li Fei-Fei[C].ImageNet Large Scale VisualRecognition Challenge,IJCV,2015.

[5]Szegedy,C.;Liu,W.;Jia,Y.;Sermanet,P.;Reed,S.;Anguelov,D.;Erhan,D.;Vanhoucke,V.&Rabinovich,A.Going deeperw ith convolutions[C].2015 IEEEConference on Computer Vision and Pattern Recognition(CVPR),2015,1-9.

[6]Kaim ing He;Xiangyu Zhang;Shaoqing Ren;Jian Sun;undefined;undefined;undefined&undefined Deep Residual Learning for Image Recognition 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),IEEEComputer Society,2016,00,770-778.

[7]Silver,D.;Huang,A.;Maddison,C.J.;Guez,A.;Sifre,L.;Van,d.D.G.;Schrittw ieser,J.;Antonoglou,I.;Panneershelvam,V.& Lanctot,M.Mastering the game of Go w ith deep neural networks and tree search[J].Nature,2016,529,484.

[8]Bishop,C.M.Pattern Recognition and Machine Learning(Information Scienceand Statistics)[B].Springer-Verlag New York,Inc.,2006.

[9]Bache,K.&Lichman,M.UCIMachine Learning Repository [EB/OL].University of California,Irvine,Schoolof Information and Computer Sciences,University of California,Irvine,School of Information and Computer Sciences,2013.

[10]Vedaldi,A.&Lenc,K.MatConvNet--Convolutional Neural Networks forMATLAB[C].Proceeding of theACM Int.Conf.on Multimedia,2015.

The Application of Deep Learning Technologies in Data Analysisof Information System

LinWeisheng
(Guangzhou City Planning Automation Center,Guangzhou 510000,Guangdong)

Deep learing isan active research area inmachine learning community.Itsmain idea is to discoverhigh-levelAbstractconcepts in original datasetsw ith huge computational power of the age of big data,by increasing the number of layers of the learners,so as to increase the sizeof channelsand thequantity of parameters.Itbecomesa significantinformation source for decision supportof application domains.We explore themethodsof applying deep learning technologies in the data analysis tasksof information systems by presenting themain principles and implemetation details of two deep learningmodels,convolutionan neuralnetwork and stacked auto-encoders in emphasis,their application cases in the data analysis of information system,aswellas the analysis on their application value.

deep learning;dataanalysisof information system;convolutionalneuralnetwork;stacked auto-encoder

TP391.4

A

1008-6609(2017)06-0051-03

林偉聲(1980-),男,廣東揭陽人,助理工程師,研究方向為信息系統(tǒng)數(shù)據(jù)分析、卷積神經(jīng)網(wǎng)絡、堆疊自動編碼器。

猜你喜歡
編碼器正確率信息系統(tǒng)
企業(yè)信息系統(tǒng)安全防護
哈爾濱軸承(2022年1期)2022-05-23 13:13:18
門診分診服務態(tài)度與正確率對護患關系的影響
基于FPGA的同步機軸角編碼器
基于區(qū)塊鏈的通航維護信息系統(tǒng)研究
電子制作(2018年11期)2018-08-04 03:25:54
信息系統(tǒng)審計中計算機審計的應用
消費導刊(2017年20期)2018-01-03 06:26:40
基于PRBS檢測的8B/IOB編碼器設計
生意
品管圈活動在提高介入手術安全核查正確率中的應用
天津護理(2016年3期)2016-12-01 05:40:01
生意
故事會(2016年15期)2016-08-23 13:48:41
基于SG-I6000的信息系統(tǒng)運檢自動化診斷實踐
鄂托克前旗| 随州市| 丹棱县| 中山市| 永寿县| 南郑县| 商水县| 盐山县| 黄龙县| 淮北市| 德格县| 库伦旗| 金门县| 惠东县| 法库县| 额尔古纳市| 基隆市| 乌拉特后旗| 绍兴市| 余姚市| 铜陵市| 黄冈市| 宜昌市| 聊城市| 安远县| 德化县| 闵行区| 闻喜县| 天气| 怀安县| 奉化市| 连山| 深圳市| 无极县| 错那县| 建昌县| 百色市| 宜兰县| 屏东县| 文化| 平阴县|