孔祥夫 董波 徐可 陶永亮
北京大學(xué)學(xué)報(自然科學(xué)版) 第59卷 第3期 2023年5月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 3 (May 2023)
10.13209/j.0479-8023.2023.030
浙江省軟科學(xué)研究計劃重點項目(2021C25021)資助
2022–05–17;
2022–06–23
基于BERT的民生問題文本分類模型——以浙江省政務(wù)熱線數(shù)據(jù)為例
孔祥夫1,2,?董波1徐可2,3陶永亮1
1.之江實驗室, 人工智能社會治理研究中心, 杭州 311121; 2.北京大學(xué)深圳研究生院, 城市規(guī)劃與設(shè)計學(xué)院, 深圳 518055; 3.浙江省發(fā)展規(guī)劃研究院, 城鎮(zhèn)發(fā)展研究所, 杭州 310030; ?E-mail: 1601111702@pku.edu.cn
基于 2017—2021 年浙江省 12345 政務(wù)熱線數(shù)據(jù), 從居民視角構(gòu)建細粒度的民生問題三級分類體系, 并利用 BERT 預(yù)訓(xùn)練模型來構(gòu)建文本分類模型, 將居民訴求文本轉(zhuǎn)化為民生問題標簽。研究結(jié)果表明, 在政務(wù)熱線數(shù)據(jù)中加入 30%的人工生成訴求樣本, 可以使模型的分類準確率提升約 10 個百分點, 準確率最高可達84.59%。對浙江省各類民生問題占比的分析結(jié)果表明, 環(huán)境保護、違規(guī)經(jīng)營和市政服務(wù)等訴求的比例呈現(xiàn)下降趨勢, 而公共服務(wù)、交通問題、購房問題和新興消費模式的訴求比例呈上升趨勢。研究結(jié)果有助于加強政府對于民情民意的了解, 提升數(shù)據(jù)驅(qū)動的社會治理能力。
民生問題文本分類; BERT; 政務(wù)熱線數(shù)據(jù); 數(shù)據(jù)治理
隨著工業(yè)化和城鎮(zhèn)化的快速推進, 我國的社會結(jié)構(gòu)發(fā)生深刻的變化, 個體化的浪潮和多元的社會階層, 產(chǎn)生紛繁復(fù)雜的利益訴求, 導(dǎo)致社會治理面臨信息不透明、場景復(fù)雜和溝通不暢等挑戰(zhàn)[1]。社會的模糊性與國家治理能力成反比, 兩者之間呈此消彼長的關(guān)系[2]。
有效的治理首先要獲得及時、全面和準確的民生信息, 才能形成清晰的治理圖景[3]。隨著決策者與居民之間層級架構(gòu)的不斷增加, 信息在自下而上的傳遞過程中越來越抽象和簡單化[4], 這種信息不對稱可能導(dǎo)致政府的資源配置與民眾的治理需求產(chǎn)生錯配。目前學(xué)界對民生問題的關(guān)注程度遠不及對政府治理行為的討論, 尤其對民眾如何感知和理解民生問題缺乏清晰的認識[5]。
從我國社會的實際來看, 經(jīng)濟社會發(fā)展的不均衡使得不同區(qū)域的民生問題和治理需求存在巨大的差別[6]。對于民生問題的認知方法, 學(xué)界通常有三類實證研究方法。1)通過實地走訪和案例剖析, 對某類民生問題進行深度分析[7], 這種方法覆蓋范圍較窄, 主要針對土地糾紛、物業(yè)矛盾和醫(yī)患關(guān)系等涉及個人利益沖突的民生問題。2)基于統(tǒng)計年鑒或公報, 分析某類民生問題的時空變化規(guī)律[8], 這種方法適用于環(huán)境保護和公共服務(wù)等擁有豐富公開觀測數(shù)據(jù)的領(lǐng)域。3)通過大規(guī)模問卷調(diào)查, 對某一類或多類民生問題進行分析[9], 這種方法覆蓋面廣, 但成本較高, 難以持續(xù)??傮w來看, 實地走訪、統(tǒng)計數(shù)據(jù)和問卷調(diào)查都屬于碎片化地收集民生信息, 難以對民生問題進行持續(xù)性和系統(tǒng)性的跟蹤。
通信技術(shù)的迅速發(fā)展推動社會治理向數(shù)字化和智能化轉(zhuǎn)型, 城鄉(xiāng)居民開始通過互聯(lián)網(wǎng)、電話和社交媒體等途徑主動參與社會治理, 自下而上地演化出“熱線問政”的政企民互動方式。一些研究者從政府回應(yīng)[10–11]、基層治理[12–13]和范式創(chuàng)新[14–15]等視角分析政務(wù)熱線對治理能力和治理體系的系統(tǒng)性影響, 以期通過對政府治理的制度性重塑來提升社會治理效能。
在公眾利用政務(wù)熱線與政府溝通的過程中, 沉淀了海量反映民生問題和政府治理措施的非結(jié)構(gòu)化文本, 為系統(tǒng)地分析民生矛盾和全面感知社會風(fēng)險提供了良好的契機。一些研究者開始利用自然語言處理技術(shù), 深度解構(gòu)政務(wù)熱線數(shù)據(jù)中的非結(jié)構(gòu)化文本, 并在空間治理、鄰里關(guān)系和公共服務(wù)等領(lǐng)域展開一系列的探索。從民生問題的文本分類技術(shù)來看, 現(xiàn)有研究可分為 3 類。第一類研究使用關(guān)鍵詞作為過濾器, 對民生問題進行劃分[16–18]。這種方法需要枚舉某類問題的所有關(guān)鍵詞, 也不支持模糊搜索, 難以在復(fù)雜的語境下觸及居民的核心訴求。第二類研究使用隱狄利克雷分配模型等主題模型, 自動地劃分民生問題[19–20], 主題模型屬于無監(jiān)督學(xué)習(xí), 通過對語料的詞頻進行統(tǒng)計, 挖掘潛在主題, 并按主題的概率對文本進行聚類。該方法無需對民生數(shù)據(jù)進行標注, 僅通過分析詞頻, 就可以完成分類任務(wù), 缺點在于自動生成的主題可能與預(yù)期差距較大, 各主題間的差異可能并不明顯。第三類研究基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建文本分類模型[21–22], 屬于有監(jiān)督學(xué)習(xí)方法。給定一組預(yù)先定義好的標簽集和語料集, 模型的任務(wù)是根據(jù)已知的分類結(jié)果, 學(xué)習(xí)語料集到標簽集的映射規(guī)則。文本分類模型雖然需要花費較多的精力制作標注集, 但可以根據(jù)研究需要, 自定義分類體系。總體來看, 現(xiàn)有研究的分類體系不夠精細, 缺乏系統(tǒng)性的民生問題分類譜系, 分類結(jié)果的顆粒度較粗[17], 難以對精準治理提供有效的支撐。
為了精準地感知各類民生問題, 提升社會治理的清晰性, 必須構(gòu)建細粒度、符合居民認知的民生問題分類方法, 從而為分析各類民生問題的時空規(guī)律、成因、影響和治理措施等要素提供依據(jù)。為此, 本文以浙江省為研究對象, 基于 BERT 預(yù)訓(xùn)練模型, 將 12345 政務(wù)熱線數(shù)據(jù)中的居民訴求文本轉(zhuǎn)為民生問題標簽, 并討論各類民生問題近年來的變化趨勢。本文研究結(jié)果將有助于加強政府對民情民意的了解, 提升數(shù)據(jù)驅(qū)動的社會治理能力。
本研究使用的政務(wù)熱線數(shù)據(jù)全部采集自浙江省“民呼我為”統(tǒng)一平臺, 該平臺融合了 12345 熱線電話、移動信訪等多個渠道的申訴、咨詢、建議和舉報信息??紤]到數(shù)據(jù)的完整性和時效性, 本研究選擇上報時間在 2017 年 1 月 1 日至 2021 年 12 月 31 日之間的申訴、求決和建議類共計 173 萬個樣本。每條樣本的重要字段包括“上報時間”、“問題屬地”、“訴求內(nèi)容”和“歸屬部門”, “上報時間”是居民提交訴求的時間?!皢栴}屬地”指訴求描述的問題所在的區(qū)縣?!霸V求內(nèi)容”記錄了居民訴求的非結(jié)構(gòu)化文本, 平均每條訴求文本包含 126 個中文字符。如果居民通過 12345 熱線電話發(fā)起訴求, 接線員會詳細記錄訴求內(nèi)容并整理成文本, 保存至“訴求內(nèi)容”字段中; 如果居民通過網(wǎng)頁或手機 APP 提交訴求, 則“訴求內(nèi)容”直接保存訴求原文?!皻w屬部門”是負責(zé)處理訴求事件的政府部門。
為了將訴求文本轉(zhuǎn)化為各類民生問題, 必須構(gòu)建高精度的文本分類模型。由于少數(shù)居民在某次訴求中可能一次性地反映多個問題, 因此居民訴求的文本分類算法在理論上屬于多標簽分類算法, 即一條訴求可能被貼上多組標簽。相比于單標簽分類, 多標簽分類更復(fù)雜, 如最基本的二元關(guān)聯(lián)法(binary relevance)將多標簽分類問題分解為個獨立的二分類算法(為標簽總數(shù)), 導(dǎo)致多標簽算法的預(yù)測空間為 2, 遠高于單標簽算法的種結(jié)果。隨著值加大, 算法的學(xué)習(xí)難度和預(yù)測誤差顯著上升??紤]到浙江省 12345 熱線數(shù)據(jù)中絕大多數(shù)居民(約占96%)在一次投訴時僅反映一類民生問題以及多標簽分類算法的復(fù)雜性, 本研究構(gòu)建單標簽文本分類算法。在單標簽文本分類算法中, 分類體系、訓(xùn)練集和算法均會對分類結(jié)果的準確性產(chǎn)生影響。
1.2.1構(gòu)建民生問題分類體系
本研究構(gòu)建民生問題的三級分類體系, 其中一級分類包含 4 個大類, 二級分類包含 39 個中類, 三級分類包含 195 個小類(圖 1)。分類體系的構(gòu)建過程如下。首先逐條分析 5 萬條居民訴求文本, 結(jié)合住房和城鄉(xiāng)建設(shè)部發(fā)布的市政事件分類行業(yè)標準[23], 構(gòu)建第三級分類體系; 然后根據(jù)類別相似度, 將第三級分類合并為第二級分類, 并且參考中央對政府職能的描述, 將二級分類歸并為公共服務(wù)、城鄉(xiāng)管理、環(huán)境保護和市場監(jiān)管 4 個大類[24]; 接下來, 利用構(gòu)建好的分類體系訓(xùn)練文本分類模型, 觀察分類結(jié)果, 優(yōu)化分類體系; 最后重復(fù)上述流程, 直至分類結(jié)果的準確率不再提升。其中, 第三級分類體系具有如下兩個特征。
特征 1: 通過細化分類體系, 使各類民生問題間形成清晰的邊界。雖然民生問題種類繁多, 但各類問題的特征較為明確, 可以通過枚舉的方式, 羅列每一類民生問題的范疇, 使各類問題之間形成清晰的邊界, 消除在定義上模棱兩可的類別。不斷拆分模糊的民生問題, 是保持各類問題之間互斥性的關(guān)鍵。
特征 2: 將訴求文本中同時且頻繁出現(xiàn)的多個瑣碎問題進行合并。針對特征繁多、內(nèi)涵復(fù)雜的民生問題(如物業(yè)、商品房交付和公共衛(wèi)生等), 居民常常詳細羅列問題的各類細節(jié), 此時看似居民反映了多個問題, 但本質(zhì)上仍然是圍繞同一類問題展開說明。
1.2.2生成合成訓(xùn)練集
本研究使用的訓(xùn)練集為合成訓(xùn)練集, 既包括真實的居民訴求文本, 也包括人工生成的“偽訴求文本”。合成訓(xùn)練集的構(gòu)建方法如下。
首先, 從 173 萬條居民訴求中隨機采集 5 萬個樣本, 構(gòu)成“居民實際訴求標注集”。標注員從分類體系的第三級分類中挑選一個或多個標簽對樣本進行標注。每個樣本至少經(jīng)過兩位標注員的交叉驗證, 一致性超過 95%。在標注后的樣本中, 95.8%的樣本含有一個標簽, 4.0%的樣本含有兩個標簽, 僅有 0.2%的樣本標簽數(shù)量超過兩個, 標簽基數(shù)(平均每個樣本的標簽數(shù))為 1.04, 遠小于標簽種類數(shù), 說明大多數(shù)居民在一次訴求中僅反映一類問題。從標簽的數(shù)量特征看, 文本分類模型對絕大部分樣本要實現(xiàn)的是單標簽分類, 而非多標簽分類。因此, 本研究在標注集中剔除全部多標簽樣本, 僅保留單標簽樣本。
然后, 構(gòu)建“人工生成訴求標注集”。在人工生成訴求標注集中, 訴求內(nèi)容記錄的并非居民的真實訴求, 而是反映各類民生問題基本特征的關(guān)鍵詞或關(guān)鍵句。表 1 中對比了民生問題“發(fā)車頻次低”在居民實際訴求與人工生成訴求之間的差異。在實際訴求中, 居民可能會詳細描述發(fā)車頻次、等待時間和造成的困擾等細節(jié), 而人工生成的訴求則直接列出“公交車”、“等了好久沒有車”等典型的關(guān)鍵詞或短語。
人工生成訴求具有兩個功能。一是使各類標簽的樣本量相對均衡。實際上, 浙江省各類民生問題的分布并不均衡, 噪音、房屋違建和垃圾清理等問題占比更高, 光污染和偷捕動物等問題占比較低。如果僅用原始訴求文本作為訓(xùn)練集, 則可能導(dǎo)致樣本數(shù)量較少的標簽訓(xùn)練次數(shù)不夠, 使標簽的特征難以被有效地學(xué)習(xí)。在訓(xùn)練集內(nèi)融入一定比例的人工生成訴求, 有助于解決原始訓(xùn)練集樣本量失衡的問題。二是幫助文本分類模型快速學(xué)習(xí)各類民生問題的特征。大部分標簽可以通過訴求文本中的少量關(guān)鍵詞或關(guān)鍵句進行判斷, 比如當文本中出現(xiàn)“公交車班次較少”等描述時, 基本上可以判斷該訴求的標簽是“發(fā)車頻次低”。相比于居民實際訴求, 人工生成訴求僅保留最具辨識性的語句, 這種方法對基于自注意力機制的文本分類模型十分有效?;谧宰⒁饬C制的學(xué)習(xí)過程可以理解為從文本中挖掘每個標簽對應(yīng)的關(guān)鍵字, 而人工生成標注集的優(yōu)勢在于可以人為地“告訴”模型各類民生問題的特征, 從而降低模型學(xué)到錯誤特征的可能性。人工生成訴求有一定的局限性, 只能覆蓋各類民生問題的基本特征, 大量特征還需從居民實際訴求文本中學(xué)習(xí)。居民實際訴求標注集和人工生成訴求標注集構(gòu)造完成后, 就可以生成合成訓(xùn)練集和驗證集。合成訓(xùn)練集由居民實際訴求和人工生成訴求按照一定比例合成。為檢驗?zāi)P蛯嶋H訴求的預(yù)測能力, 驗證集中不包含任何人工訴求, 完全由實際訴求構(gòu)成。
圖1 基于政務(wù)熱線數(shù)據(jù)的民生問題三級分類體系
表1 以“發(fā)車頻次低”為例對比居民實際訴求與人工生成訴求的差異
1.2.3基于 BERT 預(yù)訓(xùn)練模型的居民訴求文本分類算法
算法任務(wù)可以概括為從 195 種標簽中選擇一個標簽, 對居民訴求文本進行標注。為實現(xiàn)上百個標簽的準確分類, 本文基于 BERT (bidirectional enco-der representation from transformers)預(yù)訓(xùn)練模型構(gòu)建文本分類算法。BERT 是一個泛化能力很強的預(yù)訓(xùn)練模型, 由谷歌于 2018 年發(fā)布。其中 BERTBASE和BERTLARGE在 11 項自然語言處理任務(wù)中取得最佳成績, 并將 GLUE 基準分別提升 4.5%和 7.0%, 兩個模型均在 SQuAD1.1 和 SQuAD2.0 任務(wù)中超越人類, 為自然語言處理(NLP)帶來里程碑式的改變。如圖2 所示, BERT 模型的架構(gòu)包含一個 Embedding 層以及若干雙向 Transformer 編碼器, BERT 模型的詳細解釋可參閱文獻[25]。
圖2 BERT模型架構(gòu)[25]
BERT 預(yù)訓(xùn)練模型屬于遷移學(xué)習(xí), 即利用與具體任務(wù)無關(guān)的文本, 隱式地學(xué)習(xí)通用語言知識, 然后再通過特定的訓(xùn)練集微調(diào)參數(shù), 從而完成特定的NLP 任務(wù)。圖 3 給出算法的總體流程, 分為預(yù)訓(xùn)練(pre-training)、微調(diào)(fine-tuning)和預(yù)測(predicting)3個階段。預(yù)訓(xùn)練的目標是學(xué)習(xí)某一門語言的通用語法和詞匯特征, 預(yù)訓(xùn)練階段的模型參數(shù)通常來自外界資源(如 Google AI Language)。可將預(yù)訓(xùn)練視為模型參數(shù)初始化的過程, 但相比于完全隨機的初始化, 經(jīng)過預(yù)訓(xùn)練后的參數(shù)蘊含豐富的語言規(guī)律, 極大地降低了后續(xù)開發(fā)者的訓(xùn)練時間, 并顯著提升模型能力。針對下游的特定任務(wù), 微調(diào)階段根據(jù)訓(xùn)練集對預(yù)訓(xùn)練階段產(chǎn)生的參數(shù)進行小規(guī)模調(diào)整, 使更新后的參數(shù)滿足特定的研究需求。在預(yù)測階段, 模型的參數(shù)不再改變, 僅對目標文本進行標注。
預(yù)訓(xùn)練階段通常采用大規(guī)模的與特定 NLP 任務(wù)無關(guān)的文本語料訓(xùn)練參數(shù), 目標是學(xué)習(xí)語言的規(guī)則和性質(zhì), 可理解為讓機器從頭學(xué)習(xí)一門語言。BERT 模型的預(yù)訓(xùn)練階段包含兩個任務(wù): Masked LM (MLM)和 Next Sentence Prediction (NSP), MLM 任務(wù)可以描述為給定一句話, 隨機擦除這句話中的一個或幾個詞, 模型需要根據(jù)剩余詞匯, 預(yù)測被抹去的幾個詞分別是什么。NSP 任務(wù)可以描述為給定一篇文章中的兩句話, 判斷第二句話在文本中是否緊跟在第一句話之后。由任務(wù)描述可以看出, 預(yù)訓(xùn)練階段使用的訓(xùn)練集完全可以通過原始語料自動生成, 無需人工標注。由于預(yù)訓(xùn)練模型的參數(shù)不受特定任務(wù)影響, 研究者可直接使用訓(xùn)練好的參數(shù)。本研究使用的預(yù)訓(xùn)練模型來自谷歌發(fā)布的 BERT-Base-Chinese①https://github.com/google-research/bert, 該模型使用中文維基百科為語料庫, 包括 2500 萬條句子。模型通過 12 層 Transformer 編碼器進行組裝, 隱藏層的維度為 768, 共計 1.1 億參數(shù)。BERT-Base-Chinese 以字為粒度進行切分, 無需分詞。
圖3 文本分類模型的3個階段
在微調(diào)階段, 需要利用標注好的合成標注集對BERT-Base-Chinese 的參數(shù)進行微調(diào), 使得在文本分類任務(wù)中取得更好的效果。在微調(diào)階段, 本研究采用單標簽樣本對參數(shù)進行訓(xùn)練。微調(diào)模型與預(yù)訓(xùn)練模型的架構(gòu)在 Embedding 層和 Encoder 層完全一致, 僅在輸出層有所不同。首先, 第一個 Linear 層取出句子的第一個 token (即[CLS]對應(yīng)的向量), 經(jīng)過 Than 層進行激活, Dropout 層用于提升模型的泛化能力; 第二個 Linear 層為全連接層, 實現(xiàn)分類功能, 輸出各類標簽的相對得分, 最后通過 Softmax激活函數(shù)將得分轉(zhuǎn)換成概率。本研究使用交叉熵函數(shù)衡量損失:
本文使用的 BERT 預(yù)訓(xùn)練模型來自 Hugging Face 的 Transformers 包②https://huggingface.co/docs/transformers/model_doc/bert。在訓(xùn)練階段, 將訓(xùn)練周期設(shè)置為 3, 訓(xùn)練批次設(shè)置為 4, 并基于 Adam 優(yōu)化算法, 更新神經(jīng)網(wǎng)絡(luò)權(quán)重。合成訓(xùn)練集和驗證集的構(gòu)造方法如圖 4 所示, 首先從 173 萬條居民訴求樣本中隨機抽取 5 萬條樣本進行標注, 剩余的 168 萬條樣本作為預(yù)測集; 然后在“居民實際訴求標注集”中剔除全部多標簽訴求, 僅保留單標簽訴求; 接著將“居民實際訴求標注集”按照 2:8 的比例劃分成驗證集和“居民實際訴求訓(xùn)練集”; 最后在“居民實際訴求訓(xùn)練集”和“人工生成訴求標注集”中按照某一比例進行有放回采樣, 構(gòu)造合成訓(xùn)練集, 在合成訓(xùn)練集中, 每類民生問題包含 300 個樣本, 共計 58500 個樣本。
圖4 各類標注集之間的關(guān)系
在合成訓(xùn)練集中, 實際訴求的比例(記為)會影響分類準確率。若較大, 模型可以捕捉更多場景, 但也容易導(dǎo)致模型對典型問題的識別能力較弱; 若較小, 模型更容易抓住各類問題的主要特征, 但泛化能力將減弱。圖 5 給出準確率隨的變化情況。當實際訴求的比例為 70%時, 模型的分類準確率最高(84.59%), 當訓(xùn)練集內(nèi)不加入任何人工生成訴求時(此時為 1), 模型的分類準確度為 73.92%。相比之下, 在原始訴求中加入約 30%的人工生成訴求, 可以有效地提升 BERT 預(yù)訓(xùn)練模型對 12345 政務(wù)熱線數(shù)據(jù)的分類準確度, 提升幅度大約為 10 個百分點。
圖5 根據(jù)準確率選擇最優(yōu) α
為了進一步驗證算法的有效性, 本研究將基于BERT 預(yù)訓(xùn)練模型的文本分類算法與 TextCNN, Text-RNN 和 TextRCNN 模型進行比較。TextCNN, Text-RNN 和 TextRCNN 均使用 Li 等[26]發(fā)布的 word-2vec 作為詞嵌入。該模型包括 35 萬個詞匯, 每個中文詞匯由維度為 300 的向量表示, 其中 TextCNN模型的基本架構(gòu)可參閱文獻[27]。本研究用于測試的 TextCNN 模型僅對原文的卷積層進行部分調(diào)整: Kim[27]的原始模型使用過濾窗口為 3, 4 和 5的卷積核, 每個過濾窗口設(shè)置 100 個卷積核; 本研究中, 卷積核的過濾窗口分別設(shè)置為 2, 3 和 4, 每個過濾窗口設(shè)置 100 個卷積核。TextRNN 模型的基本架構(gòu)可參閱文獻[28], 本研究測試的 TextRNN 模型根據(jù) Liu 等[28]的 Model-III 進行改造: 隱藏層使用兩個 BiLSTM, 取前向和反向 LSTM 在最后一個時間步長上的隱藏狀態(tài), 然后對兩個狀態(tài)進行拼接, 最后經(jīng)過一個 Softmax 層輸出多分類結(jié)果, 其中隱藏層的尺寸為 128。TextRCNN 模型的基本架構(gòu)可參閱文獻[29], 相比于 TextRNN, TextRCNN 額外引入最大池化層, 池化層作用于每一個時間步長的輸出, 從而對一個句子中全部詞匯的特征進行考察。本研究測試的 TextRCNN 同樣對原模型進行調(diào)整: 原始模型使用雙向 RNN 捕捉詞匯的上下文信息, 本研究使用效果更好的 BiLSTM 作為替代, 隱藏層的尺寸設(shè)置為 128。TextCNN, TextRNN 和 TextRCNN模型的相關(guān)代碼已在 Github 上開源③https://github.com/649453932/Chinese-Text-Classification-Pytorch/tree/master/models。由于本研究面向的是多分類問題(即標簽種類大于 2), 為評估全局性能, 使用宏精準度(macro average precision)、宏召回率(macro average recall)和宏值(macro average F-Score)作為評估指標:
其中,P和R分別表示第類民生問題的精準度和召回率, macro_P, macro_R 和 macro_F 分別表示宏精準度、宏召回率和宏值。由式(2)和(3)可知, 宏精準度和宏召回率分別為不同類別P和R的算術(shù)平均值。采用相同的訓(xùn)練集(其中居民實際投訴占 70%, 人工生成投訴占 30%)和驗證集, 4 類模型在訓(xùn)練集和驗證集上的性能指標如表 2 所示。基于 BERT 的文本分類模型在訓(xùn)練集上的宏精準度為 90.57%, 在驗證集上降至 84.59%, 其泛化能力相比于其他 3 類模型沒有明顯的優(yōu)勢。相對于 Text-CNN 等模型, 基于 BERT 的文本分類模型無論在訓(xùn)練集還是驗證集上的宏精準度和宏召回率均高于其他模型。與 TextCNN 模型相比, BERT 模型無需擔(dān)憂過濾窗口設(shè)置造成的特征識別能力不足。在 Text-RNN 模型中, 句子中越靠后的詞重要性越高, 屬于有偏模型, 而 BERT 模型可以解決關(guān)鍵詞在句子中所處位置對分類結(jié)果的影響, 并且模型的層數(shù)更深, 參數(shù)更多, 因而可以學(xué)到更多的特征。同時, 與LSTM 相比, 自注意力機制對長距離依賴和詞義消歧的處理能力更強。
根據(jù) BERT 模型的分類結(jié)果, 列出 2017—2021年每年的訴求熱點, 如圖 6 所示, 可以發(fā)現(xiàn), 房屋違建的投訴最為頻繁。浙江市場經(jīng)濟活躍, 民營經(jīng)濟發(fā)達, 在長期發(fā)展過程中, 各地產(chǎn)生大量違法建筑, 嚴重地浪費了寶貴的土地資源, 成為制約產(chǎn)業(yè)轉(zhuǎn)型升級和美麗浙江建設(shè)的“絆腳石”。在此背景下, 浙江省開始嚴格整治違建。在整治過程中, 群眾的投訴舉報信息起到關(guān)鍵作用。利用這些信息, 治理部門能夠做到“發(fā)現(xiàn)一起、查處一起、拆除一起”, 極大地調(diào)動了群眾監(jiān)督違建的積極性。其次是假貨次貨類訴求, 主要針對網(wǎng)絡(luò)購物。近五年來, 浙江省線上購物的訴求比例已經(jīng)超過線下, 尤其是 2020 年, 線上訴求與線下訴求的比例接近 7:3。隨著浙江省對網(wǎng)絡(luò)市場的監(jiān)管逐漸嚴格, 假貨次貨問題在 2021 年獲得好轉(zhuǎn)。此外, 生活垃圾、施工噪音、道路破損、占道經(jīng)營和排污排水等問題均是群眾頻繁反映的訴求。
2018—2021 年, 浙江省每年同比增幅較高的前10 位訴求見表 3。2018 年, 服務(wù)質(zhì)量問題顯著增長, 集中在美容美發(fā)和健身健美等預(yù)付式消費領(lǐng)域。2018 年是浙江省實施《中華人民共和國消費者權(quán)益保護法》辦法的第二年, 辦法的實施促進了消費者的維權(quán)意識, 這些行業(yè)亂象在隨后幾年逐漸得到整治。2019 年, 辦事服務(wù)和物業(yè)問題較為突出。針對群眾反映突出的辦事難、流程多等問題, 浙江省通過“最多跑一次”改革, 將高頻辦事項目轉(zhuǎn)移到線上?!白疃嗯芤淮巍备母镉烧憬÷氏劝l(fā)起并實施, 全國并無先例, 可借鑒的經(jīng)驗不多, 在改革之初難免產(chǎn)生流程不科學(xué)、系統(tǒng)不穩(wěn)定等問題, 隨著系統(tǒng)的不斷優(yōu)化以及居民對線上辦事的逐漸適應(yīng), 在線辦事的訴求比例逐年下降。2020 年, 新冠疫情的爆發(fā)導(dǎo)致疫情防控類訴求急速上漲。居家隔離對居民生活和企業(yè)生產(chǎn)造成不便, 針對工資拖欠、在線課堂和防疫補助等問題產(chǎn)生一系列訴求。2021年, 居民的生產(chǎn)和生活逐漸恢復(fù)正常, 交通需求相對于 2020 年顯著增加, 與出行相關(guān)的公交、道路和出租車類投訴增幅較高。
2018—2021 年, 浙江省每年同比降幅較大的前10 類訴求呈現(xiàn) 3 種趨勢, 如表 4 所示。第一, 環(huán)境保護領(lǐng)域的訴求降幅明顯, 包括空氣污染、水污染和噪音污染在內(nèi)的各類投訴均明顯下降, 說明“美麗浙江建設(shè)”和“決戰(zhàn)決勝污染防治攻堅戰(zhàn)”等一系列治理措施取得顯著成效; 第二, 違規(guī)經(jīng)營類訴求降幅明顯, 浙江省近年來大力整治無證經(jīng)營、倚門設(shè)攤、占道洗車和流動攤販等現(xiàn)象, 違規(guī)經(jīng)營問題獲得顯著改善; 第三, 市政服務(wù)類訴求降幅顯著, 為破解城鄉(xiāng)二元機制帶來的“市政服務(wù)不平衡”的難題, 浙江省不斷加強城鄉(xiāng)一體化建設(shè), 農(nóng)村停水、停電和路燈等市政問題得到極大的改善。
表2 四類模型在訓(xùn)練集和驗證集的性能對比結(jié)果(%)
圖6 2017—2021年浙江省排名前十的訴求
表3 2018—2021年間增幅排名前10的投訴
表4 2018—2021年間降幅排名前十的訴求
本文從居民視角構(gòu)建包含 4 個大類、39 個中類以及 195 個小類的民生問題三級分類體系, 并基于 BERT 預(yù)訓(xùn)練模型, 將政務(wù)熱線數(shù)據(jù)中的居民訴求文本轉(zhuǎn)化為 195 種民生問題的標簽。研究結(jié)果表明, 將人工生成訴求與居民實際訴求相結(jié)合, 可以提升分類的準確性, 當訓(xùn)練集中實際訴求樣本的占比為 70%時準確率最高, 分類準確度可達 84.59%。利用分類結(jié)果, 本文梳理了浙江省各類民生問題2017—2021 年間的變化趨勢, 發(fā)現(xiàn)環(huán)境保護、違規(guī)經(jīng)營以及市政服務(wù)等城鄉(xiāng)基礎(chǔ)問題得到極大的改善, 但居民生活方式的轉(zhuǎn)變、全球極端事件的爆發(fā)以及高質(zhì)量公共資源的供需矛盾也導(dǎo)致諸如預(yù)付式消費陷阱、線上辦事、疫情防控和公共資源矛盾等新的民生問題。
從理論價值來看, 本研究有助于清晰化居民視角下的民生問題。在政府注意力稀缺性的限制下, 將紛繁復(fù)雜的治理信息轉(zhuǎn)變?yōu)榍逦拿裆鷨栴}治理體系是實現(xiàn)有效治理的關(guān)鍵。本研究綜合考慮訴求分布的典型性和共現(xiàn)性等原則, 以政務(wù)熱線數(shù)據(jù)為支撐, 構(gòu)建居民視角下的民生問題分類體系, 對推動“治理信息”向“信息治理”轉(zhuǎn)型具有重要意義。從應(yīng)用價值來看, 本研究基于 BERT 預(yù)訓(xùn)練模型構(gòu)建居民訴求文本分類算法, 既有助于形成以“居民需求”為核心而非以“部門業(yè)務(wù)”為核心的訴求流轉(zhuǎn)機制, 又可以基于該算法對訴求的“主體”、“原因”、“影響”和“治理措施”等其他關(guān)鍵要素進行識別, 為數(shù)據(jù)驅(qū)動的社會治理開拓研究方向。
[1] 高奇琦. 智能革命與國家治理現(xiàn)代化初探. 中國社會科學(xué), 2020(7): 81–102
[2] 韓志明. 模糊的社會——國家治理的信息基礎(chǔ). 學(xué)海, 2016(4): 21–27
[3] 韓志明, 李春生. 城市治理的清晰性及其技術(shù)邏輯——以智慧治理為中心的分析. 探索, 2019(6): 44–53
[4] 錢坤. 從“治理信息”到“信息治理”: 國家治理的信息邏輯. 情報理論與實踐, 2020, 43(7): 48–53
[5] 韓志明. 在模糊與清晰之間——國家治理的信息邏輯. 中國行政管理, 2017(3): 25–30
[6] 郭亮. 發(fā)達地區(qū)農(nóng)村社會治理體系的特征、問題及其運行風(fēng)險——以長三角農(nóng)村地區(qū)為例. 湖湘論壇, 2021, 34(5): 37–46
[7] 郭亮. 地權(quán)糾紛與鄉(xiāng)村治理的“困境”——來自湖北S鎮(zhèn)的調(diào)查. 北京行政學(xué)院學(xué)報, 2010(4): 10–15
[8] 廖志恒, 孫家仁, 范紹佳, 等. 2006~2012年珠三角地區(qū)空氣污染變化特征及影響因素. 中國環(huán)境科學(xué), 2015, 35(2): 329–336
[9] 朱力, 袁迎春. 當前我國居民對社會矛盾的感知與解決方式——基于全國九市的問卷調(diào)查報告. 國家行政學(xué)院學(xué)報, 2018(2): 115–121
[10] 趙金旭, 王寧, 孟天廣. 鏈接市民與城市: 超大城市治理中的熱線問政與政府回應(yīng)——基于北京市12345政務(wù)熱線大數(shù)據(jù)分析. 電子政務(wù), 2021(2): 2–14
[11] 孫宗鋒, 姜楠. 政府部門回應(yīng)策略及其邏輯研究 ——以 J 市政務(wù)熱線滿意度考核為例. 中國行政管理, 2021(5): 40–46
[12] 王亞華, 毛恩慧. 城市基層治理創(chuàng)新的制度分析與理論啟示——以北京市“接訴即辦”為例. 電子政務(wù), 2021(11): 2–11
[13] 陳鋒, 宋佳琳. 技術(shù)引入基層與社區(qū)治理邏輯的重塑——基于 A 市 12345 政府服務(wù)熱線的案例分析. 學(xué)習(xí)與實踐, 2021(4): 84–94
[14] 趙金旭, 趙德興. 熱線問政驅(qū)動社會治理范式創(chuàng)新的內(nèi)在機理. 北京社會科學(xué), 2022(2): 43–54
[15] 孟天廣, 黃種濱, 張小勁. 政務(wù)熱線驅(qū)動的超大城市社會治理創(chuàng)新——以北京市“接訴即辦”改革為例. 公共管理學(xué)報, 2021, 18(2): 1–12
[16] Athens J, Mehta S, Wheelock S, et al. Using 311 data to develop an algorithm to identify urban blight for public health improvement. PLOS ONE, 2020, 15(7): e0235227
[17] 彭曉, 梁艷, 許立言, 等. 基于“12345”市民服務(wù)熱線的城市公共管理問題挖掘與治理優(yōu)化途徑. 北京大學(xué)學(xué)報(自然科學(xué)版), 2020, 56(4): 721–731
[18] 趙娟, 王燁, 張小勁. 公眾訴求與回應(yīng)性監(jiān)管: 基于政務(wù)熱線大數(shù)據(jù)的社會性監(jiān)管創(chuàng)新——對三類社會性監(jiān)管領(lǐng)域的比較分析. 電子政務(wù), 2021(2): 15–26
[19] Pu X, Long K, Chen K, et al. A semantic-based short-text fast clustering method on hotline records in Chengdu // 2019 IEEE Intl Conf on Dependable, Auto-nomic and Secure Computing, Intl Conf on Pervasive Intelligence and Computing, Intl Conf on Cloud and Big Data Computing, Intl Conf on Cyber Science and Technology Congress (DASC/PiCom/CBDCom/Cy-berSciTech). Fukuoka, 2019: 516–521
[20] Wang Y, Taylor J E. Urban crisis detection technique: a spatial and data driven approach based on Latent Dirichlet Allocation (LDA) topic modeling // Procee-dings of the 2018 Construction Research Congress. New Orleans, 2018: 250–259
[21] Peng X, Li Y, Si Y, et al. A social sensing approach for everyday urban problem-handling with the 12345-complaint hotline data. Computers, Environment and Urban Systems, 2022, 94: 101790
[22] Luo J, Qiu Z, Xie G, et al. Research on civic hotline complaint text classification model based on word-2vec // 2018 International Conference on CyberEnab-led Distributed Computing and Knowledge Discovery (CyberC). Zhengzhou, 2018: 180–1803
[23] CJ/T 214—2007, 城市市政綜合監(jiān)管信息系統(tǒng)管理部件和事件分類、編碼及數(shù)據(jù)要求[S]. 北京: 中華人民共和國住房和城鄉(xiāng)建設(shè)部, 2007
[24] 中共中央關(guān)于全面深化改革若干重大問題的決定(2013 年 11 月 12 日中國共產(chǎn)黨第十八屆中央委員會第三次全體會議通過). 求是, 2013(22): 3–18
[25] Devlin J, Chang M-W, Lee K, et al. BERT: pre-trai-ning of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Techno-logies, Volume 1 (Long and Short Papers). Minnea-polis, 2019: 4171–4186
[26] Li S, Zhao Z, Hu R, et al. Analogical reasoning on chinese morphological and semantic relations // Pro-ceedings of the 56th Annual Meeting of the Associa-tion for Computational Linguistics (Volume 2: Short Papers). Melbourne, 2018: 138–143
[27] Kim Y. Convolutional neural networks for sentence classification // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Proces-sing (EMNLP). Doha, 2014: 1746–1751
[28] Liu P, Qiu X, Huang X. Recurrent neural network for text classification with multi-task learning // Procee-dings of the Twenty-Fifth International Joint Con-ference on Artificial Intelligence (IJCAI). New York, 2016: 2873–2879
[29] Lai S, Xu L, Liu K, et al. Recurrent convolutional neural networks for text classification. Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, 2015, 29(1): 2267–2273
Text Classification Model for Livelihood Issues Based on BERT:A Study Based on Hotline Compliant Data of Zhejiang Province
KONG Xiangfu1,2,?, DONG Bo1, XU Ke2,3, TAO Yongliang1
1. Research Center for AI Social Governance, Zhejiang Lab, Hangzhou 311121; 2. School of Urban Planning and Design, Peking University Shenzhen Graduate School, Shenzhen 518055; 3. Institute of Urban and Rural Development, Zhejiang Development and Planning Institute, Hangzhou 310030; ? E-mail: 1601111702@pku.edu.cn
Using the 12345 hotline compliant data from 2017 to 2021 in Zhejiang Province, a fine-grained three-level classification system for livelihood issues was constructed from the perspective of social cognition. A BERT pre-training model was developed to convert complaint texts into labels for livelihood issues. The validation result showed that adding 30% artificial complaint texts in the training set could increase roughly the accuracy rate by 10 percent, and the accuracy rate could be as high as 84.59%. Moreover, livelihood issue proportions of environmental protection, irregular business and municipal services had shown downward trends, while proportions of public services, traffic managements, house purchase issues, and emerging consumption patterns had shown upward trends. This study showed great values of combining the deep learning technology with 12345 hotline compliant data in improving data-driven social governance capabilities.
livelihood issue text classification; BERT; hotline complaint data; data-driven governance