鄧慈云,余國清
(湖南信息職業(yè)技術(shù)學(xué)院,長沙 410200)
時(shí)下,大數(shù)據(jù)已逐漸成為技術(shù)熱詞,對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和可視化的工具也陸續(xù)問世。Python 語言由于其簡潔性、易讀性、可擴(kuò)展性,以及具有豐富的標(biāo)準(zhǔn)庫,備受學(xué)術(shù)界眾多科研機(jī)構(gòu)的關(guān)注與青睞。Pandas 是Python 的一個(gè)數(shù)據(jù)分析包,提供了大量快速便捷地處理數(shù)據(jù)的函數(shù)和方法。Pyecharts 是一款用于生成Echarts 圖表的類庫,可以通過圖形參數(shù)配置輕松繪制精美的圖表。而在社會(huì)經(jīng)濟(jì)和信息技術(shù)飛速發(fā)展的同時(shí),2021 年7 月20 日,中共中央、國務(wù)院印發(fā)《關(guān)于優(yōu)化生育政策促進(jìn)人口長期均衡發(fā)展的決定》,宣布實(shí)施三孩政策并配套實(shí)施積極生育支持措施。國內(nèi)人口在持續(xù)增長的同時(shí),卻也表現(xiàn)出人口老齡化速度變快、出生率斷崖式下降和男女性別比失衡等問題,一直引起社會(huì)各方的高度重視。
目前研究人口問題的相關(guān)文獻(xiàn)很多,但是對(duì)于人口普查數(shù)據(jù)進(jìn)行可視化展示和分析探討的較少。鑒于此,本文以第七次人口普查數(shù)據(jù)為研究對(duì)象,選用Python 語言、Pandas 庫和Pyecharts 可視化工具對(duì)總?cè)丝跀?shù)及增速、男女人口數(shù)及性別比例和城鎮(zhèn)鄉(xiāng)村人口分布等情況進(jìn)行了直觀分析展示,以期為未來有關(guān)研究工作提供參考基礎(chǔ)。
本文主要選取國家第七次人口普查結(jié)果數(shù)據(jù)中的總?cè)丝凇⑷丝谛詣e結(jié)構(gòu)、人口年齡結(jié)構(gòu)和人口出生率等作為主要研究對(duì)象。采用的數(shù)據(jù)來源于國家統(tǒng)計(jì)局的開源數(shù)據(jù)。在國家統(tǒng)計(jì)局官網(wǎng)(https://data.stats.gov.cn/index.htm)年度數(shù)據(jù)中人口類別獲取上述普查數(shù)據(jù)結(jié)果,并以csv 格式下載保存數(shù)據(jù)到本地。
采用Python 技術(shù)可視化分析的過程為:首先,利用Pandas 庫讀取csv 文件;然后,篩選和處理數(shù)據(jù);最后,使用Pyecharts 庫對(duì)數(shù)據(jù)進(jìn)行可視化。整個(gè)項(xiàng)目流程如圖1 所示。
圖1 項(xiàng)目流程圖Fig. 1 Flow chart of the project
本文使用總?cè)丝跀?shù)、人口出生率、死亡率和自然增長率及人口年齡結(jié)構(gòu)等數(shù)據(jù)信息,包含的數(shù)據(jù)字段有:年末總?cè)丝?、男性和女性人口、城?zhèn)和鄉(xiāng)村、人口出生率和0~14 歲人口等。數(shù)據(jù)完整性和數(shù)據(jù)質(zhì)量均良好,只需刪除每個(gè)文件中表頭內(nèi)容和多余的補(bǔ)充說明文字即可。利用Pandas 庫讀取csv 數(shù)據(jù)文件,因篇幅有限,僅介紹其中一個(gè)數(shù)據(jù)文件的讀取、篩選和處理。首先,利用方法read_csv()讀取csv文件。相關(guān)代碼如下:
從讀到的文件數(shù)據(jù)中,通過篩選及相關(guān)處理后才能獲得可以用于繪圖的數(shù)據(jù)。如篩選出年末總?cè)丝跀?shù)后,將其轉(zhuǎn)換成列表,并去掉字段說明。因考慮到繪制的圖表便于用戶閱讀,故采取年份按從低到高排列。為配合這一設(shè)計(jì),調(diào)用方法reverse()將年末總?cè)丝跀?shù)列表中的元素反向排序,并將列表元素類型轉(zhuǎn)換成float。相關(guān)代碼如下:
本文繪制了男性、女性人口對(duì)比和城鎮(zhèn)、鄉(xiāng)村人口對(duì)比等6 張圖。為了呈現(xiàn)總?cè)丝跀?shù)的變化和增長率的差異,繪制了雙坐標(biāo)軸圖,將柱狀圖和折線圖組合在一起。研發(fā)代碼具體如下:
從性別結(jié)構(gòu)看,男性人口高于女性人口,性別比都近似維持在105 左右(以女性為100),但這個(gè)數(shù)據(jù)已經(jīng)逐漸在往好的方向轉(zhuǎn)變。其中,2012 年男性人口69 660 萬人,女性人口66 262 萬人,性別比為105.13;2021 年男性人口72 311 萬人,女性人口68 949萬人,性別比為104.88,如圖2 所示。
圖2 男性、女性人口對(duì)比Fig. 2 Proportion of male and female
從城鄉(xiāng)結(jié)構(gòu)看,中國城鎮(zhèn)人口數(shù)量長期占據(jù)中國人口總數(shù)50%以上的比例,尤其自2017 年起占比達(dá)到60%以上,且逐年攀升。2021 年城鎮(zhèn)人口達(dá)到91 425 萬人,比上年末增加1 205 萬人,城鎮(zhèn)人口占總?cè)丝诒戎貫?4.72%,比上年末提高0.83 個(gè)百分點(diǎn);鄉(xiāng)村人口數(shù)量49 835 萬人,減少157 萬人,比上年末下降了0.83 個(gè)百分點(diǎn),如圖3、圖4 所示。
圖3 城鎮(zhèn)、鄉(xiāng)村人口結(jié)構(gòu)Fig. 3 Composition of urban and rural populations
圖4 城鎮(zhèn)、鄉(xiāng)村人口占比Fig. 4 Proportion of urban and rural populations
從年齡構(gòu)成看,2020 年中國0~14 周歲的人口25 277 萬人,占總?cè)丝诘?7.9%;隨著老齡化進(jìn)程的加劇,15~64 周歲勞動(dòng)年齡人口數(shù)量和比重呈雙降態(tài)勢(shì)。勞動(dòng)年齡人口數(shù)量從2012 年的100 718 萬人下降到96 871 萬人,占比從2012 年的74.1%持續(xù)下降到68.6%。勞動(dòng)年齡人口規(guī)模及比重下降的趨勢(shì)十分明顯。65 周歲及以上人口從2012 年的12 777萬人增加至19 064 萬人,占比從2012 年的9.4%上升到13.5%。老年人口比重增幅均呈現(xiàn)不斷上升的趨勢(shì),如圖5、圖6 所示。
圖5 人口年齡結(jié)構(gòu)Fig. 5 Composition of populations age
圖6 人口年齡占比Fig. 6 Proportion of populations age
2012 年中國人口出生率為14.57‰,是近10 年來出生率最高的一年,然后逐年下降,至2021 年人口出生率跌至7.52‰。2014 年和2016 年人口出生率相比上一年有小幅的增加,其中,2014 年和2016年人口出生率分別為13.83‰和13.57‰。2012~2020 年期間,人口死亡率整體呈緩慢下降態(tài)勢(shì)。2012 年人口死亡率7.13‰,2020 年人口死亡率7.07‰,較2012 年下降0.06‰,但2021 年人口死亡率有明顯上升,達(dá)到7.18‰,與這一年的人口出生率僅相差0.34‰,如圖7 所示。
圖7 人口出生率和死亡率Fig. 7 Birth rate and mortality
本文基于第七次全國人口普查數(shù)據(jù),利用Python中的Pandas 對(duì)男性、女性人口等數(shù)據(jù)進(jìn)行讀取、篩選和處理后,使用Pyecharts 對(duì)男性、女性人口對(duì)比和城鎮(zhèn)、鄉(xiāng)村人口對(duì)比、人口出生率和死亡率等方面總體情況進(jìn)行分析。通過可視化,有助于直觀地了解國內(nèi)人口實(shí)情,后續(xù)還將對(duì)其做進(jìn)一步的完善。