胡精超+王莉
摘要:本文運用決策樹和關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法對體質(zhì)測試數(shù)據(jù)進行研究,用SQLServer BI Dev Studio數(shù)據(jù)挖掘服務(wù)建立體質(zhì)水平與各單項指標的數(shù)據(jù)挖掘模型,發(fā)現(xiàn)影響體質(zhì)水平的重要指標。研究表明,將決策樹和關(guān)聯(lián)規(guī)則綜合運用于體質(zhì)水平數(shù)據(jù)挖掘研究是有著顯著作用。結(jié)果顯示:影響青年人體質(zhì)的是身體爆發(fā)力,影響中年人體質(zhì)水平的是平衡能力,對老年人體質(zhì)水平影響較大的是反應(yīng)時和心肺功能。建議:為促進國民體質(zhì)健康,應(yīng)針對不同人群、不同性別采用不同體育鍛煉方式。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;決策樹;體質(zhì)測試
2016年10月25日,中共中央、國務(wù)院根據(jù)黨的十八屆五中全會戰(zhàn)略部署,印發(fā)了《“健康中國2030"規(guī)劃綱要》。推進健康中國建設(shè),是全面建成小康社會、基本實現(xiàn)社會主義現(xiàn)代化的重要基礎(chǔ),是全面提升中華民族健康素質(zhì)、實現(xiàn)人民健康與經(jīng)濟社會協(xié)調(diào)發(fā)展的國家戰(zhàn)略。未來15年,是推進健康中國建設(shè)的重要戰(zhàn)略時期,社會、經(jīng)濟、科技快速發(fā)展將為健康領(lǐng)域可持續(xù)發(fā)展提供強大保障。
黨和國家歷來高度重視國民的體質(zhì)健康,國民體質(zhì)是一個國家健康發(fā)展的重要保障。從2000年起每5年進行的國民體質(zhì)測試是落實《中華人民共和國體育法》和《全民健身計劃》的重要工作。面對積累的大量的國民體質(zhì)測試數(shù)據(jù),運用傳統(tǒng)的處理方法,很難對體質(zhì)健康狀況進行全面科學的評價和有效地決策。數(shù)據(jù)挖掘是在數(shù)據(jù)庫中知識發(fā)現(xiàn)重要的一部分,而知識發(fā)現(xiàn)是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用的信息的過程,包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)預處理和挖掘后的數(shù)據(jù)分析。由于我國體質(zhì)測試數(shù)據(jù)庫積累了大量的數(shù)據(jù),而數(shù)據(jù)挖掘工具軟件在體育領(lǐng)域的研究不夠深入,推廣還有一定難度,多數(shù)文獻為數(shù)據(jù)挖掘的探索研究和規(guī)模較少數(shù)據(jù)的研究。國內(nèi)許多學者根據(jù)數(shù)據(jù)挖掘的基本原理,利用數(shù)據(jù)挖掘工具對現(xiàn)有的體質(zhì)數(shù)據(jù)進行探索,喬克滿等以上海市國民體質(zhì)監(jiān)測指標為研究對象,應(yīng)用SQL Server 2005數(shù)據(jù)挖掘服務(wù)發(fā)現(xiàn)驗證性規(guī)則、含有新知識的規(guī)則和看似“不合理”的規(guī)則。張崇林等用Clementine12.0數(shù)據(jù)挖掘軟件,發(fā)現(xiàn)高校教職工體質(zhì)總評與各單項指標關(guān)聯(lián)規(guī)則,發(fā)現(xiàn)對青年教職工和中年教職工體質(zhì)影響較大的單項指標略有不同。數(shù)據(jù)挖掘在國民體質(zhì)測試中的運用可見一斑。本文運用決策樹和關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法對體質(zhì)測試數(shù)據(jù)進行研究,用SQL Server BIDev Studio數(shù)據(jù)挖掘服務(wù)建立體質(zhì)水平與各單項指標的數(shù)據(jù)挖掘模型,發(fā)現(xiàn)影響體質(zhì)水平的重要指標。
1研究對象與方法
1.1研究對象
研究對象為焦作市14243名成年人(20~84歲),其中焦作市區(qū)3161人,博愛縣2052人,孟州市3870人,沁陽市1201人,溫縣2039人,武陟縣1919人。體質(zhì)測試由焦作市體育局專業(yè)人員于2015年8~11月完成。數(shù)據(jù)來源于河南省焦作市體育局2015年對焦作市市區(qū)及下屬的沁陽市和5個縣進行的體質(zhì)測試。
1.2研究方法
1.2.1建立數(shù)據(jù)庫用SQL Server 2008數(shù)據(jù)庫軟件建立焦作市體質(zhì)測試數(shù)據(jù)庫,其中每個人由若干體質(zhì)測試項目構(gòu)成,包括姓名、性別、年齡、身高、體重、身高體重指數(shù)、肺活量、臺階指數(shù)、體前屈、單腳站立、反應(yīng)時、握力、縱跳、仰臥起坐,每個測試對象有唯一標識符(TID)。
1.2.2數(shù)學建模實驗通過用SQL Server 2008Business Intelligence Development Studio (BI DevStudio)和Visual Studio 2010軟件,包括數(shù)據(jù)分析服務(wù)SQL Server analysis service(SSAS),數(shù)據(jù)集成服務(wù)SQL Server Integration Services(SSIS)建立關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘模型和決策樹模型。
1.2.3頻繁項集和關(guān)聯(lián)規(guī)則設(shè)D是焦作市體質(zhì)測試數(shù)據(jù)庫I=I1,I2,…IM}是數(shù)據(jù)庫內(nèi)各項的集合,事務(wù)T是非空項集。
同時滿足最小支持度閾值(min_sup)和最小置信度閾值(rain_conf)的規(guī)則稱為強規(guī)則。如果項集,的相對支持度滿足預定義的min_sup,則I是頻繁項集。
1.2.4決策樹歸納決策樹是一種類似于流程圖的樹形結(jié)構(gòu),該方法利用信息增益尋找體質(zhì)數(shù)據(jù)庫中具有最大信息的屬性,建立決策樹的一個節(jié)點,每個內(nèi)部節(jié)點表示一個屬性上的測試,再根據(jù)該屬性的取值建立樹的分枝,每個分枝代表該樹的一個輸出,每個葉節(jié)點存放一個類標號。用決策樹確定一組數(shù)據(jù)是否屬于特定的類型。從決策樹的根節(jié)點到葉節(jié)點的一條路徑就對應(yīng)著一條規(guī)則,整棵樹就對應(yīng)著一組規(guī)則。決策樹與關(guān)聯(lián)規(guī)則具有異曲同工之妙,為結(jié)合關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘提供了條件。
決策樹方法應(yīng)用于國民體質(zhì)測試中的基本思路是通過決策樹方法,構(gòu)建一棵由各測試指標的屬性值構(gòu)成的決策樹,對給定的測試指標進行排序,找出影響國民體質(zhì)的最重要的因素,為提高國民體質(zhì),加強體育健身提供參考。
2關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘
體質(zhì)測試數(shù)據(jù)挖掘流程如圖1所示。
2.1數(shù)據(jù)預處理
國民體質(zhì)測試數(shù)據(jù)庫含有大量數(shù)據(jù),需要數(shù)據(jù)清理清楚數(shù)據(jù)中的噪聲,糾正數(shù)據(jù)不一致。主要預處理內(nèi)容包括數(shù)據(jù)清理和數(shù)值化。經(jīng)過多年研究,我國多次執(zhí)行修改了《國民體質(zhì)測定標準》,根據(jù)這些標準對數(shù)據(jù)進行處理滿足了數(shù)據(jù)挖掘的需要。
首先進行數(shù)據(jù)清理。清除缺失值,識別和剔除離群值,檢查并糾正數(shù)據(jù)中的錯誤。本文采用Da-ta Mining Add-Ins for Office 2007的數(shù)據(jù)挖掘插件,在Excel2007中對進行瀏覽數(shù)據(jù)和清除離群數(shù)據(jù)。
其次是數(shù)值化,為了評價需要,《國民體質(zhì)測定標準》實現(xiàn)了測試數(shù)據(jù)的數(shù)值化,即將體質(zhì)測試總評結(jié)果分為優(yōu)秀、良好、合格、不合格。由于關(guān)聯(lián)規(guī)則算法不接受連續(xù)屬性,因為關(guān)聯(lián)規(guī)則是一個計數(shù)引擎,用于計數(shù)離散屬性狀態(tài)的相關(guān)性,因此進行SQL Server2008進行數(shù)據(jù)挖掘時對挖掘模型中的數(shù)據(jù)連續(xù)屬性進行離散化,例如:各單項體質(zhì)測試成績均離散化為幾個組。
2.2建立數(shù)據(jù)庫
對于原始焦作市2015年14 243個測試數(shù)據(jù)進行除燥、清洗,去除缺失數(shù)據(jù),保留13838個測試數(shù)據(jù),其中男性7063名,女性6775名;青年6790名,中年5301名,老年1747名。在SQL Serv-er2008數(shù)據(jù)庫軟件中創(chuàng)建體質(zhì)數(shù)據(jù)庫,按數(shù)據(jù)挖掘需要,分為青年(20~39歲)男性組、青年女性組、中年(40~59歲)男性組、中年女性組、老年(60歲以上)男性組和老年女性組,每組包括姓名、性別、年齡、身高、體重、身高體重指數(shù)、肺活量、臺階指數(shù)(青年和中年組測試項目)、體前屈、單腳站立、反應(yīng)時、握力、縱跳(青年組測試項目)、仰臥起坐(青年組測試項目),每個測試對象有唯一標識符(TID)。根據(jù)《國民體質(zhì)測定標準》,對原始數(shù)據(jù)進行無量綱處理和一致處理,每個指標包括原始測試數(shù)據(jù)、數(shù)值化數(shù)據(jù),每個指標還包括體質(zhì)測試總分和體質(zhì)等級。
2.3創(chuàng)建數(shù)據(jù)源
在BI Dev Studio中創(chuàng)建數(shù)據(jù)源,進行預處理。從體質(zhì)數(shù)據(jù)庫中獲取數(shù)據(jù)創(chuàng)建數(shù)據(jù)源,實現(xiàn)數(shù)據(jù)庫與BI Dev Studio的連接,并部署到BI Dev Studio。創(chuàng)建數(shù)據(jù)源視圖(Data Source View,DSV),并添加與分析相關(guān)的事例表。
2.4創(chuàng)建模型
2.4.1創(chuàng)建決策樹挖掘模型根據(jù)數(shù)據(jù)挖掘原理和BI Dev Studio數(shù)據(jù)挖掘軟件,以體質(zhì)測試等級為輸出字段,分別選擇85%的數(shù)據(jù)建立各個組的決策樹數(shù)據(jù)挖掘模型,選擇15%的數(shù)據(jù)作為驗證挖掘模型的數(shù)據(jù)。建立體質(zhì)測試等級的決策樹模型,研究各體質(zhì)測試指標對體質(zhì)等級的影響程度。通過決策樹查看器查看生成的決策樹和依賴關(guān)系網(wǎng)格(如圖2、圖3所示)。通過各組決策樹依賴關(guān)系網(wǎng)絡(luò)圖得出前3個重要的分類屬性(如表1所示)。
2.4.2創(chuàng)建關(guān)聯(lián)規(guī)則挖掘模型
根據(jù)數(shù)據(jù)挖掘原理和SQL Server數(shù)據(jù)挖掘服務(wù),以體質(zhì)測試等級為輸出字段,并確定最小支持度min_sup=0%,最小置信度min_conf=65%,建立該字段與其他輸入字段的關(guān)聯(lián)規(guī)則。建立“體質(zhì)測試等級與各單項指標之間的關(guān)聯(lián)”模型,研究各體質(zhì)測試單項指標對體質(zhì)總評的影響。最終通過挖掘模型查看器來查看關(guān)聯(lián)規(guī)則模型和關(guān)聯(lián)規(guī)則依賴關(guān)系網(wǎng)格圖(圖4)。
3數(shù)據(jù)挖掘結(jié)果分析
3.1挖掘結(jié)果
數(shù)據(jù)量越大,數(shù)據(jù)挖掘的知識也越多,能否發(fā)現(xiàn)其中有用的知識,還需要加以篩選。本文挖掘出了大量的關(guān)聯(lián)規(guī)則,本文結(jié)合決策樹依賴關(guān)系圖和關(guān)聯(lián)規(guī)則篩選出如表2所示的部分具有代表性的關(guān)聯(lián)規(guī)則,將有利于本研究目標的決策支持。關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的結(jié)果是以規(guī)則的形式表達,每一條關(guān)聯(lián)規(guī)則都有相應(yīng)的概率(列2)、重要性(列3)、規(guī)則的前件(列4和列5)、規(guī)則結(jié)果(列6)以及規(guī)則適用的對象(列7)。
本文數(shù)據(jù)挖掘的規(guī)則可分驗證性規(guī)則和含有新知識的規(guī)則,對發(fā)現(xiàn)知識的一般規(guī)律具有重要意義,能為決策提供重要支持。
3.2規(guī)則解析
表2列舉的1~4條規(guī)則,反映了各單項指標對焦作青年的總評影響。規(guī)則1表明,有66.2%的體質(zhì)總評為良好的男性,縱跳為優(yōu)秀,并且肺活量優(yōu)秀(重要性為1.019002)。規(guī)則2表明,縱跳優(yōu)秀的青年男性,總評成績良好。規(guī)則3表明有95.7%的總評成績良好的青年女性,縱跳為優(yōu)秀,體前屈也為優(yōu)秀;規(guī)則4說明有42.7%的總評成績良好的青年女性單腳站立成績優(yōu)秀。由規(guī)則1~4可以看出影響青年人身體素質(zhì)最重要的指標是縱跳,其次重要的指標為肺活量、體前屈、單腳站立等。即影響20~39歲青年人身體素質(zhì)的重要指標為以縱跳分數(shù)為代表的身體爆發(fā)力,其他比較重要的指標為心肺功能和身體形態(tài)。
規(guī)則5~8反應(yīng)各項指標對焦作中年人的總評影響。規(guī)則5、6表明影響中年男性的指標為單腳站立、身高體重指數(shù)、肺活量等;規(guī)則7、8體現(xiàn)出來影響中年女性的重要身體素質(zhì)指標為體前屈和肺活量,體前屈或肺活量優(yōu)秀的中年女性總評為良好,可見身體柔韌性和肺活量對中年女性影響較大。影響40~59歲中年人的重要指標為反應(yīng)人體平衡性的單腳站立,其次為心肺功能、身體形態(tài)和身體柔韌性等指標。
規(guī)則9~12反應(yīng)各項指標對焦作老年人的影響。規(guī)則9表明,體前屈優(yōu)秀的老年男性,如果反應(yīng)時優(yōu)秀,則總評成績?yōu)閮?yōu)秀。規(guī)則11可以看出,影響老年女性的重要身體素質(zhì)指標為體前屈和身高體重指數(shù)。由此可以看出,影響老年男、女身體素質(zhì)的重要指標為體前屈、反應(yīng)時和身高體重指數(shù)。影響60歲以上老年人的重要體質(zhì)因素為反應(yīng)時和體前屈,其他還包括身體形態(tài)和心肺功能等因素。規(guī)則10、12顯示肺活量優(yōu)秀的老年人,體質(zhì)水平為合格,老年男性的概率為65%,老年女性的概率為75%,說明老年人的肺活量不是影響體質(zhì)健康最重要的指標。
其中:規(guī)則1、2、3、5、6、7、8、9、11為驗證性規(guī)則,即體質(zhì)研究專家的觀點、論斷等得到數(shù)據(jù)支持性驗證的規(guī)則,這類規(guī)則占了絕大部分。規(guī)則4、10、12為含有新知識的規(guī)則,即事先未知的、隱含的、潛在有用的信息和知識,這類規(guī)則較少。規(guī)則4顯示單腳站立優(yōu)秀的青年女性總評成績?yōu)榱己?,概率?2.7%,即單腳站立是反映人體健康程度的重要指標。閉眼單腳站立是平衡能力的一種簡單測試方法,用以反映平衡能力的強弱。時間越短,平衡力越差,身體素質(zhì)越差。閉眼單腳站立可以監(jiān)測人體的衰老程度。由國家體育總局和教育部公布的2014年國民體質(zhì)監(jiān)測的結(jié)果中,20~39歲成年女性反應(yīng)時、體重、肺活量、坐位體前屈等指標有所增長,但是閉眼單腳站立等指標有所降低,降低幅度為8.8%。規(guī)則10和規(guī)則12顯示肺活量優(yōu)秀的老年人,體質(zhì)水平為合格,說明老年人的心肺功能不是影響其體質(zhì)的重要指標。肺活量是一次呼吸的最大通氣量,在一定意義上可反映呼吸機能的潛在能力,健康狀況愈好的人肺活量愈大。2014年國民體質(zhì)監(jiān)測的結(jié)果中,60~69歲男性肺活量有所下降,女性肺活量有所上升。
綜合決策樹模型和關(guān)聯(lián)規(guī)則挖掘模型(表1,表2)得出結(jié)論:影響各年齡的女性的身體素質(zhì)最重要的指標為體前屈和肺活量,影響男性的重要指標為肺活量和身高體重指數(shù)。提高女性身體健康最重要的是加強身體柔韌性和肺活量的鍛煉,提高男性身體素質(zhì)主要是依靠鍛煉保持身體形態(tài)和加強肺活量的鍛煉。
4結(jié)論與建議
4.1結(jié)論
(1)數(shù)據(jù)挖掘適用于國民體質(zhì)研究。通過體質(zhì)測試數(shù)據(jù)的數(shù)據(jù)挖掘,發(fā)現(xiàn)一些驗證性和含有新知識的規(guī)律,證明數(shù)據(jù)挖掘工具適用于體質(zhì)數(shù)據(jù)分析,為體質(zhì)健康領(lǐng)域服務(wù)。
(2)數(shù)據(jù)挖掘具有局限性。數(shù)據(jù)挖掘?qū)嶒灠l(fā)現(xiàn)眾多規(guī)則,還需要結(jié)合理論和實踐進行解釋。數(shù)據(jù)挖掘是發(fā)現(xiàn)知識的重要工具,但是挖掘技術(shù)無法實現(xiàn)對挖掘結(jié)果的解釋,需要專業(yè)人員結(jié)合理論和實踐研究進行解釋,同時需要在體育專業(yè)人員和數(shù)據(jù)挖掘人員共同努力下才能完成,其在體質(zhì)研究領(lǐng)域的適用性還需提高。
(3)數(shù)據(jù)挖掘軟件的局限性。SQL Server BIDev Studio是應(yīng)用最廣泛的數(shù)據(jù)挖掘軟件,通過BIDev Studio軟件以及Office相關(guān)插件,用戶可以根據(jù)需要對數(shù)據(jù)進行知識發(fā)現(xiàn)。通過綜合運用各種數(shù)據(jù)挖掘模型發(fā)現(xiàn)關(guān)聯(lián)度強的具有實際價值的知識。但是由于SQL Server數(shù)據(jù)挖掘軟件操作復雜,步驟繁多,一般人員完全可以應(yīng)用Excel軟件結(jié)合Data Mining Add-Ins for Office插件進行算法要求不高的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)。
4.2建議
根據(jù)挖掘結(jié)果對不同人群采用不同體質(zhì)鍛煉方式。通過數(shù)據(jù)挖掘結(jié)果發(fā)現(xiàn)對青年人體質(zhì)影響較大的是身體爆發(fā)力,對中年人體質(zhì)水平影響較大的是平衡能力,對老年人體質(zhì)水平影響較大的是反應(yīng)時和體前屈??梢葬槍Σ煌挲g人群和不同性別采用不同的鍛煉方式進行,例如中年女性體質(zhì)促進可以從柔韌性和平衡能力等指標人手,包括健身操、健步走、廣場舞等;青年女性鍛煉方式可以從跑步、跳繩、健身操、健步走等提高身體爆發(fā)力等方面進行,提高男性身體素質(zhì)主要是依靠鍛煉保持身體形態(tài)和加強肺活量的鍛煉,包括散步、慢跑等項目。