齊慧
摘? 要:文章首先對(duì)web數(shù)據(jù)挖掘技術(shù)進(jìn)行概括,分別從數(shù)據(jù)挖掘技術(shù)概念、技術(shù)應(yīng)用優(yōu)勢(shì)與技術(shù)原理三方面進(jìn)行論述。其次,重點(diǎn)探討基于python基礎(chǔ)上的web數(shù)據(jù)挖掘技術(shù)開(kāi)發(fā)設(shè)計(jì)方法,對(duì)數(shù)據(jù)挖掘過(guò)程中的各類(lèi)爬蟲(chóng)技術(shù)應(yīng)用優(yōu)勢(shì)進(jìn)行對(duì)比,可以作為數(shù)據(jù)挖掘系統(tǒng)構(gòu)建過(guò)程中的理論參照。
關(guān)鍵詞:python語(yǔ)言;數(shù)據(jù)挖掘技術(shù);仿真實(shí)驗(yàn)
中圖分類(lèi)號(hào):TP309? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:This paper firstly summarizes web data mining technology,discussing the concept,application advantages and principles of data mining technology.Secondly,it mainly discusses the development and design methods of web data mining technology based on python,and compares the application advantages of various crawler technologies in the process of data mining,which can be used as a theoretical reference in the construction of data mining system.
Keywords:Python;data mining technology;simulation experiments
1? ?引言(Introduction)
運(yùn)用web數(shù)據(jù)挖掘技術(shù),能夠模擬出用戶(hù)基于網(wǎng)絡(luò)環(huán)境中的瀏覽過(guò)程,并根據(jù)用戶(hù)操作過(guò)程中的使用功能需求,自動(dòng)跳轉(zhuǎn)至指定的信息頁(yè)面。通過(guò)數(shù)據(jù)挖掘,將無(wú)序并且數(shù)量龐大的信息自動(dòng)提取存儲(chǔ),將其整理成為結(jié)構(gòu)化的信息形式[1]。一方面,方便用戶(hù)在信息瀏覽過(guò)程中對(duì)自身需要的數(shù)據(jù)進(jìn)行存儲(chǔ),另一方面也能夠根據(jù)數(shù)據(jù)挖掘?qū)Ω黝?lèi)功能進(jìn)行表達(dá),滿(mǎn)足用戶(hù)信息瀏覽過(guò)程中的不同需求。數(shù)據(jù)挖掘技術(shù)使用范圍十分廣闊,能夠用于不同區(qū)域,并且在功能整合過(guò)程中也能夠根據(jù)最終的綜合控制能力,判斷接下來(lái)的數(shù)據(jù)挖掘方向[2]。數(shù)據(jù)挖掘技術(shù)是存儲(chǔ)功能實(shí)現(xiàn)不可缺少的基礎(chǔ),也具有極強(qiáng)的整合能力,能夠與其他技術(shù)方法相結(jié)合,高效便捷的完成數(shù)據(jù)捕捉和存儲(chǔ)。數(shù)據(jù)挖掘技術(shù)在不同領(lǐng)域均充當(dāng)著重要角色,將web數(shù)據(jù)挖掘技術(shù),與學(xué)習(xí)型匯編語(yǔ)言相結(jié)合,在程序設(shè)計(jì)過(guò)程中更能夠體現(xiàn)出人性化功能,也能處于網(wǎng)絡(luò)環(huán)境下,對(duì)數(shù)據(jù)信息進(jìn)行高效定位,實(shí)現(xiàn)安全便捷的數(shù)據(jù)挖掘以及功能指令傳輸。
2? 數(shù)據(jù)挖掘技術(shù)發(fā)展優(yōu)勢(shì)(Development advantages of data mining technology)
隨著網(wǎng)絡(luò)信息技術(shù)不斷發(fā)展進(jìn)步,數(shù)據(jù)挖掘技術(shù)也具有廣闊的應(yīng)用前景。網(wǎng)絡(luò)環(huán)境中的各類(lèi)數(shù)據(jù)信息資源,并沒(méi)有固定結(jié)構(gòu)存在。瀏覽網(wǎng)絡(luò)信息中對(duì)于其中的有用數(shù)據(jù)提取往往會(huì)消耗過(guò)多時(shí)間。通過(guò)互聯(lián)網(wǎng)技術(shù)普及,數(shù)據(jù)挖掘技術(shù)的應(yīng)用能夠?qū)⒘闵⒌男畔⑦M(jìn)行整合,并根據(jù)用戶(hù)不同使用功能選擇自動(dòng)或手動(dòng)的挖掘存儲(chǔ)[3]。數(shù)據(jù)挖掘技術(shù)在信息整合速度上十分快,具有極強(qiáng)的技術(shù)適應(yīng)能力,應(yīng)用該技術(shù)能夠體現(xiàn)出不同挖掘項(xiàng)目之間的統(tǒng)籌能力,并根據(jù)挖掘過(guò)程中體現(xiàn)出的多角度問(wèn)題[4]。新型技術(shù)應(yīng)用方向調(diào)整,基于python語(yǔ)言基礎(chǔ)上的網(wǎng)絡(luò)系統(tǒng)設(shè)置,能夠明顯降低數(shù)據(jù)傳輸過(guò)程中的誤差,并幫助查找遺漏,對(duì)遺漏數(shù)據(jù)自動(dòng)填補(bǔ)。尤其是面對(duì)統(tǒng)計(jì)任務(wù)量較大的數(shù)據(jù)時(shí),能夠快速完成信息分類(lèi)對(duì)接,并根據(jù)用戶(hù)使用過(guò)程中的各類(lèi)規(guī)則,對(duì)程序進(jìn)行調(diào)整,糾正程序中存在的錯(cuò)誤。數(shù)據(jù)挖掘過(guò)程中,能夠確定數(shù)據(jù)傳輸?shù)淖罴崖窂?,從而在傳輸過(guò)程中節(jié)省時(shí)間。由此可見(jiàn),數(shù)據(jù)挖掘技術(shù)具有明顯的發(fā)展優(yōu)勢(shì),未來(lái)技術(shù)發(fā)展中,也將進(jìn)入到更理想的狀態(tài)中,通過(guò)不同匯編語(yǔ)言之間的相互結(jié)合,達(dá)到理想的設(shè)計(jì)效果。
3? 數(shù)據(jù)挖掘技術(shù)應(yīng)用原理(Application principle of data mining technology)
數(shù)據(jù)挖掘技術(shù)在應(yīng)用過(guò)程中的功能實(shí)現(xiàn),通過(guò)對(duì)用戶(hù)基于網(wǎng)絡(luò)環(huán)境中瀏覽信息的腳本捕捉,自動(dòng)進(jìn)行有效數(shù)據(jù)信息排序,并根據(jù)用戶(hù)所發(fā)出的功能指令對(duì)有用信息進(jìn)行子集合構(gòu)建,并對(duì)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行訪(fǎng)問(wèn)。訪(fǎng)問(wèn)wed頁(yè)面內(nèi)的相關(guān)內(nèi)容后,根據(jù)反復(fù)的信息驗(yàn)證。數(shù)據(jù)挖掘功能原理如圖1所示。
確定最終的有用信息結(jié)合范圍,從而實(shí)現(xiàn)子頁(yè)面內(nèi)的各類(lèi)數(shù)據(jù)結(jié)合,進(jìn)行切實(shí)有效的數(shù)據(jù)信息分類(lèi)與整合。信息分類(lèi)整合同樣是實(shí)現(xiàn)模塊化管理的基礎(chǔ),也是數(shù)據(jù)挖掘功能實(shí)現(xiàn)的原理,在數(shù)據(jù)挖掘過(guò)程中,會(huì)涉及不同爬蟲(chóng)算法的使用,選擇的爬蟲(chóng)算法直接關(guān)系到數(shù)據(jù)信息挖掘,提取速度與最終的數(shù)據(jù)集合構(gòu)成穩(wěn)定性。數(shù)據(jù)挖掘技術(shù)在功能實(shí)現(xiàn)方面,需要對(duì)不同爬蟲(chóng)算法進(jìn)行對(duì)比,從用戶(hù)登錄web頁(yè)面后的起始頁(yè)至最后一頁(yè)進(jìn)行連續(xù)的數(shù)據(jù)提取逐漸向外層延伸,并構(gòu)建多角度信息獲取鏈接,自動(dòng)實(shí)現(xiàn)信息的捕捉[5]。數(shù)據(jù)挖掘與數(shù)據(jù)提取是相對(duì)應(yīng)的功能,挖掘后并確定數(shù)據(jù)的來(lái)源范圍,才能進(jìn)行下一步功能構(gòu)建。提取數(shù)據(jù)后并將其發(fā)送到指定的功能層,在頁(yè)面功能實(shí)現(xiàn)過(guò)程中,篩選有用信息并進(jìn)行結(jié)構(gòu)化整合,經(jīng)過(guò)數(shù)據(jù)搜索與分析最終確定挖掘?qū)ο螅瑢?shí)現(xiàn)一系列數(shù)據(jù)提取功能。
4? 數(shù)據(jù)挖掘技術(shù)中的算法比較(Comparison of algorithms in data mining)
4.1? ?廣度優(yōu)先算法
數(shù)據(jù)挖掘技術(shù)應(yīng)用過(guò)程中,算法的比較研究?jī)?nèi)容比較多,首先是廣度優(yōu)先的算法策略,在計(jì)算過(guò)程中從起始頁(yè)到最終的頁(yè)面,要進(jìn)行由內(nèi)而外的延伸運(yùn)算。并對(duì)多鏈接信息進(jìn)行整合,在數(shù)據(jù)挖掘過(guò)程中自動(dòng)進(jìn)入到下一集層的深度中,確保數(shù)據(jù)挖掘在web網(wǎng)絡(luò)環(huán)境中的廣度。在挖掘分析過(guò)程中,對(duì)不同目錄進(jìn)行深入分析,確保挖掘過(guò)程中的分析內(nèi)容涵蓋整體目錄。其優(yōu)勢(shì)在于廣度優(yōu)先策略,在運(yùn)算過(guò)程中精準(zhǔn)度十分高,其劣勢(shì)在于挖掘過(guò)程中對(duì)目錄分析將會(huì)耗費(fèi)大量時(shí)間。廣度優(yōu)先算法主要是針對(duì)目錄精準(zhǔn)排查,實(shí)現(xiàn)鏈接的提取與扣件。能夠進(jìn)行算法的并行處理,同時(shí)在Web信息的挖掘,提取出多少也會(huì)有所提升。如果挖掘數(shù)據(jù)信息涉及到深層目錄,最終的功能將會(huì)受到影響。
4.2? ?深度優(yōu)先算法
深度優(yōu)先算法應(yīng)用在數(shù)據(jù)挖掘技術(shù)中,注重在同一區(qū)域范圍內(nèi)的深層次數(shù)據(jù)捕捉。根據(jù)用戶(hù)的瀏覽內(nèi)容在當(dāng)前頁(yè)面訪(fǎng)問(wèn)時(shí),會(huì)進(jìn)行深層次數(shù)據(jù)挖掘,直到在當(dāng)前頁(yè)面的最深點(diǎn)數(shù)據(jù)挖掘成功后,視為完成一個(gè)分支任務(wù)。并返回到最初的訪(fǎng)問(wèn)界面,從而進(jìn)入到另一個(gè)爬行分支中進(jìn)行相關(guān)數(shù)據(jù)的挖掘整理,直到對(duì)所有鏈接的深層次分析結(jié)束后,完成整體爬行任務(wù)。算法流程語(yǔ)言如下:
該種分析方法,能夠確保挖掘信息的深度,但如果在挖掘過(guò)程中,需要對(duì)更深層次的數(shù)據(jù)進(jìn)行捕捉,將會(huì)消耗大量的分析資源。深度優(yōu)先算法對(duì)于低層站點(diǎn)的數(shù)據(jù)挖掘和統(tǒng)計(jì),這種效果并不理想,并且在最終的數(shù)據(jù)對(duì)比分析中,容易在某一鏈接范圍內(nèi)產(chǎn)生誤差。因此該種技術(shù)手段應(yīng)用,還需要進(jìn)行技術(shù)方法之間的相互結(jié)合,達(dá)到最佳控制效果。
4.3? ?數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)
數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)也是數(shù)據(jù)挖掘過(guò)程中最常使用的技術(shù)手段,結(jié)構(gòu)性存儲(chǔ)能夠針對(duì)原本雜亂無(wú)序的數(shù)據(jù)信息進(jìn)行歸類(lèi)整合,并達(dá)到最佳的結(jié)構(gòu)化存儲(chǔ)形式。通過(guò)無(wú)結(jié)構(gòu)信息的提取,并將其整合成為另一種鏈接形式,存儲(chǔ)到本地文檔中。能夠確保數(shù)據(jù)信息的存儲(chǔ)形式得到規(guī)范統(tǒng)一,并在執(zhí)行過(guò)程通過(guò)人工整合達(dá)到最理想的場(chǎng)景構(gòu)建模式。在存儲(chǔ)過(guò)程中,結(jié)構(gòu)化處理需要確保準(zhǔn)確度與速度,既要滿(mǎn)足多鏈接數(shù)據(jù)挖掘需求,同時(shí)也能夠根據(jù)存儲(chǔ)結(jié)構(gòu)的調(diào)整,快速實(shí)現(xiàn)各鏈接之間的相互結(jié)合。結(jié)構(gòu)化存儲(chǔ)功能對(duì)于數(shù)據(jù)的綜合處理能力十分快,處于Web環(huán)境下能夠?qū)崿F(xiàn)數(shù)據(jù)信息的自動(dòng)結(jié)構(gòu)調(diào)整,并通過(guò)結(jié)構(gòu)之間的相互轉(zhuǎn)換,減少人工操作帶來(lái)的數(shù)據(jù)誤差,結(jié)構(gòu)圖見(jiàn)圖2。
結(jié)構(gòu)僅僅作為數(shù)據(jù)存儲(chǔ)中的一種形式,在統(tǒng)一結(jié)構(gòu)的同時(shí),還需要考慮不同數(shù)據(jù)信息類(lèi)型。自動(dòng)選取最為高效便捷的存儲(chǔ)方式,保證數(shù)據(jù)信息在存儲(chǔ)過(guò)程中的安全性與使用效率。數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)對(duì)數(shù)據(jù)挖掘技術(shù)精準(zhǔn)度要求極高,不僅在穩(wěn)定性與速度上要達(dá)到使用標(biāo)準(zhǔn)同時(shí)還需要滿(mǎn)足自動(dòng)歸類(lèi)功能,能夠在歸類(lèi)過(guò)程中增強(qiáng)綜合控制能力,實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)化的自動(dòng)存儲(chǔ),在結(jié)構(gòu)化存儲(chǔ)過(guò)程中自動(dòng)生成二維表格,達(dá)到最佳功能整合效果。
5? 基于python的WEB數(shù)據(jù)挖掘設(shè)計(jì)(Design of WEB data mining based on python)
5.1? ?爬蟲(chóng)功能設(shè)計(jì)
基于python語(yǔ)言技術(shù)基礎(chǔ)上的web數(shù)據(jù)挖掘設(shè)計(jì),首先需要對(duì)爬蟲(chóng)功能進(jìn)行選擇,根據(jù)用戶(hù)日常使用過(guò)程中對(duì)于功能的特殊性需求,對(duì)比不同爬蟲(chóng)方法之間的優(yōu)勢(shì)與劣勢(shì)。借助python技術(shù)的分析功能,在計(jì)算過(guò)程中對(duì)數(shù)據(jù)的廣度進(jìn)行擴(kuò)增,并根據(jù)不同數(shù)據(jù)以及關(guān)鍵詞在網(wǎng)絡(luò)信息瀏覽中的出現(xiàn)次數(shù),進(jìn)行自動(dòng)分析定位,確定接下來(lái)的語(yǔ)言擴(kuò)增形式。數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)過(guò)程中,不僅需要對(duì)穩(wěn)定性進(jìn)行對(duì)比,還需要根據(jù)數(shù)據(jù)抓取過(guò)程中的鏈接分析,進(jìn)行最終的匹配鏈條確定。爬蟲(chóng)功能根據(jù)瀏覽頁(yè)面的實(shí)際情況,對(duì)腳本內(nèi)容進(jìn)行構(gòu)建,通過(guò)應(yīng)答服務(wù)體系以及構(gòu)建過(guò)程中的超鏈接獲取,實(shí)現(xiàn)對(duì)數(shù)據(jù)信息的快速篩選。但在最終的數(shù)據(jù)信息獲取和整合過(guò)程中,根據(jù)所分析的內(nèi)容進(jìn)行最終的數(shù)據(jù)整合。并在挖掘過(guò)程中對(duì)所涉及的各類(lèi)功能進(jìn)一步調(diào)整,針對(duì)數(shù)據(jù)挖掘設(shè)計(jì)中的功能在強(qiáng)化過(guò)程中體現(xiàn)出多元化整合能力。數(shù)據(jù)分析時(shí)對(duì)頁(yè)面的源代碼進(jìn)行提取,在源代碼分析基礎(chǔ)上進(jìn)入到更穩(wěn)定的數(shù)據(jù)整合階段,并根據(jù)場(chǎng)合得到的各類(lèi)結(jié)果,采取多元化調(diào)整措施,提升數(shù)據(jù)信息之間的相互配合能力。
5.2? ?數(shù)據(jù)表達(dá)設(shè)計(jì)
數(shù)據(jù)表達(dá)設(shè)計(jì)過(guò)程中,一方面要考慮數(shù)據(jù)挖掘與最終使用的穩(wěn)定情況,另一方面也需要根據(jù)數(shù)據(jù)的具體表達(dá)能力。在設(shè)計(jì)過(guò)程中體現(xiàn)出最佳的表達(dá)方法,對(duì)數(shù)據(jù)的構(gòu)建形式加以完善。數(shù)據(jù)表達(dá)中需要考慮不同頁(yè)面訪(fǎng)問(wèn)的過(guò)程調(diào)整,并根據(jù)元數(shù)據(jù)體系最終的判斷,在表達(dá)形式上體現(xiàn)出控制指令之間的對(duì)接能力。對(duì)于數(shù)據(jù)表達(dá)過(guò)程中不同方法理念之間的選擇以及構(gòu)建,更需要多元化的融合角度體現(xiàn)出數(shù)據(jù)表達(dá)的綜合控制能力,尤其是在數(shù)據(jù)表達(dá)設(shè)計(jì)階段,各個(gè)功能方法之間的相互結(jié)合,充分體現(xiàn)出元數(shù)據(jù)的多元化控制能力,以及最終的數(shù)據(jù)綜合挖掘情況。在不同功能頁(yè)面,采用多種結(jié)構(gòu)的形式對(duì)數(shù)據(jù)進(jìn)行表達(dá),數(shù)據(jù)表達(dá)后才能進(jìn)入到接下來(lái)的有用信息捕捉與自動(dòng)存儲(chǔ)階段。數(shù)據(jù)表達(dá)設(shè)計(jì)階段,同樣需要借助python語(yǔ)言來(lái)進(jìn)行模擬設(shè)計(jì),實(shí)現(xiàn)數(shù)據(jù)表達(dá)過(guò)程中的爬蟲(chóng)功能,以及在數(shù)據(jù)挖掘提取階段不同功能之間的相互控制能力。運(yùn)用多元化數(shù)據(jù)整合模式,進(jìn)行分層結(jié)構(gòu)完善以及結(jié)構(gòu)化功能的實(shí)現(xiàn),完成數(shù)據(jù)挖掘、數(shù)據(jù)提取和結(jié)構(gòu)構(gòu)建多元化功能之間的融合。數(shù)據(jù)表達(dá)設(shè)計(jì)期間的綜合控制能力提升,以及最終的運(yùn)行狀態(tài)調(diào)整,還需要在管理階段體現(xiàn)出數(shù)據(jù)的綜合表達(dá)能力,對(duì)表達(dá)流程和表達(dá)形式進(jìn)一步設(shè)計(jì),實(shí)現(xiàn)數(shù)據(jù)表達(dá)與數(shù)據(jù)提取一體化模式。
5.3? ?仿真功能檢驗(yàn)
仿真功能檢驗(yàn)是指在功能應(yīng)用過(guò)程中,對(duì)于所構(gòu)建設(shè)計(jì)的全部系統(tǒng)以及數(shù)據(jù)信息提取形式進(jìn)行仿真功能驗(yàn)證,觀察是否在仿真功能上能夠達(dá)到預(yù)期效果,以及最終的仿真能力是否與開(kāi)發(fā)設(shè)計(jì)中所確定的功能目標(biāo)保持一致。對(duì)于開(kāi)發(fā)設(shè)計(jì)階段所確定的各類(lèi)功能,需要通過(guò)仿真實(shí)驗(yàn)后確定其可行性,才能在接下來(lái)的系統(tǒng)中制定進(jìn)一步的綜合控制目標(biāo)。仿真實(shí)驗(yàn)需要模擬網(wǎng)絡(luò)環(huán)境中潛藏的風(fēng)險(xiǎn)隱患,對(duì)所構(gòu)建的系統(tǒng)結(jié)構(gòu)進(jìn)一步整合,觀察系統(tǒng)結(jié)構(gòu)的綜合控制能力。模擬病毒對(duì)系統(tǒng)進(jìn)行攻擊,從而判斷系統(tǒng)開(kāi)發(fā)設(shè)計(jì)中需要進(jìn)一步完善的內(nèi)容。仿真功能檢驗(yàn)過(guò)程中,對(duì)于所存在的問(wèn)題,需要將其劃分到同一集合中。腳本仿真實(shí)驗(yàn)程序如下:
6? ?結(jié)論(Conclusion)
在接下來(lái)的開(kāi)發(fā)設(shè)計(jì)階段,重點(diǎn)針對(duì)現(xiàn)存問(wèn)題部分加以完善,并通過(guò)仿真功能檢驗(yàn)對(duì)問(wèn)題進(jìn)行拓展,觀察是否存在系統(tǒng)之間的相互影響。并通過(guò)干擾分析增強(qiáng)最終的仿真功能穩(wěn)定性,根據(jù)所得到的仿真功能檢驗(yàn)結(jié)果,確定系統(tǒng)在網(wǎng)絡(luò)環(huán)境中運(yùn)行使用的薄弱環(huán)節(jié),通過(guò)數(shù)據(jù)挖掘技術(shù),增強(qiáng)最終的功能穩(wěn)定性。
參考文獻(xiàn)(References)
[1] 王雪峰.基于Python的數(shù)據(jù)挖掘——陽(yáng)光集團(tuán)的具體數(shù)據(jù)挖掘項(xiàng)目[J].電腦知識(shí)與技術(shù),2018,14(23):15-20;36.
[2] 邢娜.淺析基于Web數(shù)據(jù)挖掘應(yīng)用于電氣自動(dòng)化技術(shù)對(duì)社會(huì)經(jīng)濟(jì)發(fā)展促進(jìn)作用的研究[J].青春歲月,2017(12):427.
[3] 李巖松.集成Vissim和Python的車(chē)聯(lián)網(wǎng)仿真平臺(tái)研究[J].計(jì)算機(jī)仿真,2018,35(12):159-162;421.
[4] 唐琳.基于Python的自然語(yǔ)言數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)與軟件工程,2018,138(16):176-178.
[5] 黃雪華.基于Python的決策樹(shù)算法在學(xué)生招生錄取數(shù)據(jù)中的應(yīng)用研究[J].電腦知識(shí)與技術(shù),2018,14(29):22-23.