孔 敬
(中國社會科學院 民族學與人類學研究所,北京 100035)
當前社會科學研究最常用的數(shù)據(jù)采集方法是傳統(tǒng)問卷、二手數(shù)據(jù)、訪談和觀察,其次是互聯(lián)網(wǎng)問卷[1].訪談和問卷調(diào)查是研究者獲取第一手研究資料的最基本途徑,是社會科學研究的基本方法之一.計算機輔助訪談?wù){(diào)查(Computer-Assisted Interviewing,CAI)是由訪問員或受訪者借助電腦或其他電子終端設(shè)備,直接將問答信息做電子化記錄并存儲的調(diào)查方式[2].CAI相對于紙筆調(diào)查,在很大程度上改變了原有的數(shù)據(jù)收集過程,提高了訪談質(zhì)量控制的時效性和有效性[3].CAI在國內(nèi)外已廣泛應(yīng)用于社會調(diào)查研究[4-6].
親屬關(guān)系網(wǎng)絡(luò)理論是社會網(wǎng)絡(luò)理論的一個特定分支,有著其自身的公理定義和定理描述[7].基于親屬關(guān)系網(wǎng)絡(luò)的問卷調(diào)查系統(tǒng)與一般問卷調(diào)查系統(tǒng)[8,9]的不同之處,一是問題針對受訪者親屬關(guān)系網(wǎng)絡(luò)和朋友圈中成員間的交互行為,問題適用的對象不僅僅是單一的受訪者,而是多個成員交互對,是多元的問題對象;二是親屬關(guān)系網(wǎng)絡(luò)的構(gòu)建.問題和問題對象的多元復雜化、親屬關(guān)系網(wǎng)絡(luò)可視化是本系統(tǒng)的主要特征和難點.系統(tǒng)將著力解決這些難點問題,支持研究人員進行基于親屬關(guān)系網(wǎng)絡(luò)的問卷設(shè)計、問卷本地化和訪談數(shù)據(jù)可視化采集,以及統(tǒng)計分析軟件可讀的數(shù)據(jù)表輸出.
社會科學國際化視野將其研究范圍拓展到全球跨文化區(qū)域,不同文化領(lǐng)域有著不同的親屬關(guān)系結(jié)構(gòu)與社會交互模式,研究人員需要根據(jù)其研究的不同文化區(qū)域和研究主題,設(shè)計不同的問卷問題.本系統(tǒng)將面向研究人員提供基于親屬關(guān)系網(wǎng)絡(luò)的問卷設(shè)計工具并本地化問卷使其適應(yīng)全球不同文化區(qū)域的研究.多層次、靈活多樣的問題編制設(shè)計是問卷調(diào)查系統(tǒng)的基本功能,同時國際化、多語言也是其重要特征.
基于訪談員面對面訪問研究個體的過程,提供可視化交互訪談界面,實現(xiàn)便捷、高效、可靠的研究數(shù)據(jù)采集,是本系統(tǒng)的主要目標.
問卷調(diào)查采集的數(shù)據(jù)需要以數(shù)理統(tǒng)計的模型分析來建構(gòu)量化的因果解釋,從而實現(xiàn)理論的模型化和定量化,開展社會調(diào)查的定量分析研究.因此,將問卷調(diào)查數(shù)據(jù)輸出為當前常用統(tǒng)計分析軟件(如SAS、SPSS等)可讀取的數(shù)據(jù)表格式,也是本系統(tǒng)的重要功能需求之一.
基于親屬關(guān)系網(wǎng)絡(luò)的問卷調(diào)查系統(tǒng)的功能結(jié)構(gòu)如圖1所示,主要包括問卷生成管理、計算機輔助訪談、數(shù)據(jù)分析表輸出和國際化等4大功能.
圖1 系統(tǒng)功能模塊結(jié)構(gòu)圖
研究人員可在系統(tǒng)提供的問卷模板基礎(chǔ)上通過新建、修改、刪除問卷的章節(jié)、問題、問題答案選項等來創(chuàng)建自己的問卷,從而實現(xiàn)問卷的靈活定制.系統(tǒng)提供問題條件設(shè)置功能,問卷設(shè)計者可以編制自己的條件規(guī)則,如設(shè)定問題所針對的人群為女性、老人、僅受訪者或上下三代人等等.系統(tǒng)提供問卷發(fā)布與版本管理功能.系統(tǒng)問卷可輸出為Microsoft word 文檔格式文件以方便閱讀.問卷模板的題型包括親屬和社交網(wǎng)絡(luò)成員繪制問題、成員基本屬性問題、交互行為或交互關(guān)系類問題、成員詳情問題和家庭配偶關(guān)系詳情問題等多種類型.
(1)訪談項目的管理功能.包括新建、修改訪談項目等.項目包含了描述訪談項目的各種信息,如調(diào)研采用的問卷、調(diào)研地區(qū)、國家語言等.
(2)計算機引導的面對面訪談功能.首先完成可視化的親屬及親屬關(guān)系網(wǎng)絡(luò)圖繪制和社交圈朋友及朋友關(guān)系圖繪制,然后對每一個成員的基本屬性問題進行問答.其次是受訪人和成員間的交互行為問題,第一步先選擇交互人員,然后對每一對交互人員的交互活動情況進行問答.最后,對成員詳細背景和家庭配偶關(guān)系的詳細背景問題進行問答.
(3)訪談日志管理功能.深入訪談的問卷調(diào)查通常耗時較長,對一個受訪者的訪談可能會間歇中斷,也可能延續(xù)到幾天.系統(tǒng)提供了訪談進度和日志管理功能,對訪談進度和詳細時間進行記錄與展示.
問卷調(diào)查系統(tǒng)所采集的數(shù)據(jù),需要借助數(shù)學統(tǒng)計模型工具軟件進行量化分析和研究.本系統(tǒng)計算機輔助訪談所生成的原始問答數(shù)據(jù)以XML數(shù)據(jù)庫形式記錄,需要進行數(shù)據(jù)預處理生成統(tǒng)計分析建模軟件工具(如SPSS、R 等)可讀的數(shù)據(jù)表,以及屬性變量和值變量說明表.數(shù)據(jù)分析表生成包括數(shù)據(jù)表變量與值的抽取、數(shù)據(jù)編碼化和csv或txt 格式的數(shù)據(jù)表生成.生成的數(shù)據(jù)表包括兩大類型,一類是親屬關(guān)系網(wǎng)絡(luò)數(shù)據(jù)表,用于親屬關(guān)系與家庭結(jié)構(gòu)分析;另一類是問題變量值數(shù)據(jù)表,分為人員和家庭結(jié)合兩個數(shù)據(jù)表,分別包含了人員相關(guān)問題答案和家庭結(jié)合問題相關(guān)答案.
國際化模塊功能包括問卷本地化和系統(tǒng)本地化.問卷本地化可以導入已有問卷或選擇系統(tǒng)內(nèi)置問卷模板生成本地化語言的問卷、支持英語和本地語言雙語編輯問卷,將問卷本地化為調(diào)研的國家或地區(qū)的語言版本,以適應(yīng)在多個國家地區(qū)開展訪談?wù){(diào)查.系統(tǒng)本地化可將系統(tǒng)界面語言設(shè)為調(diào)研地的國家地區(qū)語言,方便與當?shù)厥茉L者交流.
XML作為一種數(shù)據(jù)表示和交換的開放標準,它不僅能用于表示各種數(shù)據(jù)交換的載體,而且能用于表示和存儲數(shù)據(jù)庫數(shù)據(jù),即XML數(shù)據(jù)庫.XML數(shù)據(jù)庫具有以下優(yōu)勢[10]:(1)XML 靈活、可擴展的語法結(jié)構(gòu)可方便地表示各種結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),其高度結(jié)構(gòu)化對復雜的屬性關(guān)系,特別是重復屬性的描述方便易行;(2)能夠提供對標簽和路徑進行操作.傳統(tǒng)的關(guān)系型數(shù)據(jù)庫語言允許對數(shù)據(jù)元素的值進行操作,不能對元素名稱操作;(3)當數(shù)據(jù)本身具有層次特征時,XML數(shù)據(jù)格式能夠清晰表達數(shù)據(jù)的層次特征.XML數(shù)據(jù)庫更適合管理復雜數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)集,問卷系統(tǒng)常采用XML 來設(shè)計存儲問卷[11,12].
基于親屬關(guān)系網(wǎng)絡(luò)的問卷包括親屬、朋友和親屬關(guān)系圖的繪制、面向個體成員、面向交互活動等多種類型的問題.不同類型問題有不同的操作方式和特殊屬性.親屬、朋友和親屬關(guān)系圖的繪制問題包括個體成員的屬性問題和親屬關(guān)系問題;面向個體成員的問題有單選、多選和填空題等多種類型;面向交互的問題有兩個層次的問題:第一層次問題是參與該交互活動的人員選擇;第二層次問題是每一對交互人員在該交互活動中應(yīng)答的相關(guān)問題,也有單選、多選和填空題等多種類型.基于XML 表達上述復雜關(guān)系的問卷數(shù)據(jù)模式(XML Schema)的結(jié)構(gòu)圖如圖2、圖3所示.
圖2 問卷數(shù)據(jù)模式:主要XML元素結(jié)構(gòu)圖
圖3 Subsection元素的子元素結(jié)構(gòu)圖
圖2列出了基于XML表示的問卷數(shù)據(jù)模式的主要元素,首先是根元素Questionnaire,其下4個子元素:(1)languageCountry元素,描述了問卷的本地化信息.其中問卷語言和國家地區(qū),采用ISO語言代碼(ISO-639)與國家代碼(ISO-3166)表示,以方便Java 國際化功能設(shè)計;(2)draw元素,描述親屬、朋友和親屬關(guān)系網(wǎng)絡(luò)的繪制流程和問題設(shè)置;(3)section元素,存儲按章節(jié)組織的所有問卷問題;(4)revise元素,存儲問卷的修訂歷史記錄.其中section元素是問卷的主體元素,包含1到多個subsection子元素.
元素subsection 如圖3所示包含多級子元素,以描述多層次、多元化的問卷問題.每個subsection元素包含0到多個question(一級問題)和0到多個subsection(子章節(jié)),即每個章節(jié)可能只有一級問題或只有子章節(jié),子章節(jié)可設(shè)下級子章節(jié).元素question 包含了0到多個option子元素(問題答案選項)和0到多個的followupQuestion子元素(二級后續(xù)問題).
Question和followupQuestion元素都包含一個type屬性.question的type屬性包含了繪圖、人員屬性一一映射、單層、雙層單人交互、三層雙人交互、人員詳細屬性等8種類型問題.followupQuestion的type屬性包含了單選、復選、下拉列表、文本框、畫圖題等7種類型問題.這兩級問題類型可組合設(shè)計豐富的問題類型,用以編制復雜的調(diào)查問卷.
調(diào)查訪談數(shù)據(jù)也采用XML文件存儲,面向每一個受訪者,存儲訪談問答信息和訪談進程日志的XML的數(shù)據(jù)模式如圖4、圖5和圖6所示.
圖4所示訪談數(shù)據(jù)根元素Interview 有5個子元素:(1)fieldSite元素,描述訪談的項目背景和田野點信息;(2)interviewInfo元素,存儲訪談管理信息,如訪談員、受訪者、訪談日志等;(3)people元素,是一個占位元素,包含1到多個person子元素(person元素是存儲訪談數(shù)據(jù)的最主要元素,包含了受訪者提供的所有親屬和朋友的信息及相關(guān)問題答案,每一個person元素存儲一個人員,其子元素結(jié)構(gòu)見圖5);(4)unions元素,也是一個占位元素,包含1到多個union子元素(union元素包含受訪者提供的所有配偶對的信息和相關(guān)問題答案,每一個union元素存儲一對配偶家庭結(jié)合,其子元素結(jié)構(gòu)見圖6);(5)questions元素,包含了1到多個question子元素(每一個question元素對應(yīng)一個問題,存儲該問題的完成情況).
Person、union和person的子元素question 都包含一個field子元素,該元素是存儲所有變量及其值的通用元素,有qid、label和value 共3個屬性,qid 存儲問題的ID,label 存儲問題的命名標簽,value 存儲問題的答案值.qid和label屬性的值可用于導出的數(shù)據(jù)分析表的字段名.
圖4 訪談數(shù)據(jù)模式:主要XML元素結(jié)構(gòu)圖
圖5 Person元素的子元素結(jié)構(gòu)圖
圖6 Union元素的子元素結(jié)構(gòu)圖
在計算機和信息科學中,數(shù)據(jù)可視化是用圖形、圖像、動畫序列等來表示數(shù)據(jù)、結(jié)構(gòu)和大型復雜數(shù)據(jù)集的動態(tài)行為.傳統(tǒng)上,數(shù)據(jù)可視化主要分為兩個領(lǐng)域:科學可視化和信息可視化.科學可視化的一個突出特征是對具有自然空間屬性的數(shù)據(jù)集的描述.但許多數(shù)據(jù)類型,其數(shù)據(jù)元素沒有規(guī)定的空間位置,其中關(guān)系數(shù)據(jù)集就是一個簡單的例子,例如樹、圖和網(wǎng)絡(luò).信息可視化是將這類數(shù)據(jù)集賦予空間信息,然后在畫面上繪制.在信息可視化構(gòu)建過程中,空間信息被分配給數(shù)據(jù)元素,而不是由數(shù)據(jù)元素本身提供[13].本系統(tǒng)的可視化屬于信息可視化,其難點是親屬關(guān)系網(wǎng)絡(luò)圖的構(gòu)建.
定義1.親屬關(guān)系網(wǎng)絡(luò)是由人員節(jié)點和人員節(jié)點之間的基本親屬關(guān)系構(gòu)成的拓撲結(jié)構(gòu)[14].Batagelj V.等將親屬關(guān)系網(wǎng)絡(luò)圖分為Ore-graph、p-graph和bipartite p-graph三種類型.bipartite p-graph 包括兩種類型節(jié)點,一類是人員節(jié)點(圓圈代表女性,三角代表男性),另一類是配偶結(jié)合節(jié)點(矩形表示).孩子由單邊弧指向其父母[15].本文親屬關(guān)系網(wǎng)絡(luò)圖類似于bipartite p-graph,但為了更清晰地展示人員家庭關(guān)系,本文圖形符號及排列更改為:配偶結(jié)合節(jié)點(union)用等號表示.父母與子女人員節(jié)點(person)都用無向連線與父母結(jié)合節(jié)點(union)相連.父母節(jié)點在結(jié)合節(jié)點上方,子女節(jié)點在結(jié)合節(jié)點下方.由此形成一個基本家庭單元,如圖7所示.親屬關(guān)系網(wǎng)絡(luò)圖由多個家庭結(jié)合單元聯(lián)結(jié)而成,同一代的人員排列在同一行.
圖7 一個家庭結(jié)合單元(union)的可視化圖
定義2.路徑(Path)和親屬距離(Distance).路徑是指一個節(jié)點到受訪者節(jié)點(Ego)的連的集合.親屬距離是指一個節(jié)點到Ego節(jié)點的路徑上的結(jié)合節(jié)點(union)的個數(shù).也就是說本系統(tǒng)的親屬關(guān)系網(wǎng)絡(luò)圖是以受訪者(Ego)為基準的.
定義3.代值是節(jié)點與Ego節(jié)點之間的相對代值,而不是其在某一家族中的輩分代值.設(shè)Ego節(jié)點的代值為0,則其父母的代值為1,其子女的代值為-1,其兄弟姐妹的代值為0.其父母的union的代值為0,Ego與其配偶的union的代值為-1.
當親屬關(guān)系網(wǎng)絡(luò)的成員數(shù)量較大,親屬間聯(lián)姻等情況出現(xiàn)時,親屬關(guān)系網(wǎng)絡(luò)圖呈現(xiàn)了更多的動態(tài)變化和復雜性.圖中每一個新成員的加入都有可能使得原有家庭結(jié)合(union)和成員(person)的圖標位置發(fā)生改變,親屬間聯(lián)姻將形成婚姻環(huán)路.Hamberger描述了在婚姻環(huán)路情況下親屬關(guān)系網(wǎng)絡(luò)的多種形態(tài)[16].環(huán)路的形成使得部分人員的代際劃分不確定,一個人可能屬于不同的代,如何確定其在圖中的代值成為親屬關(guān)系網(wǎng)絡(luò)圖構(gòu)建的難點.本文設(shè)計了一個以受訪者(Ego)的父母union(代值為0)為起點,迭代遍歷整個親屬關(guān)系網(wǎng)絡(luò)確定每個union和person的代值的算法.首先根據(jù)每個union和person在親屬網(wǎng)絡(luò)圖中到達Ego的圖路徑,計算其代值.親屬關(guān)系網(wǎng)絡(luò)圖中的婚姻環(huán)路使得部分union和person有多條路徑與Ego相連,產(chǎn)生多個代值,需要采用消歧算法去除錯誤和不適合的代值,從而確定其正確代值.
算法1.迭代遍歷消歧代值確定算法的主要步驟1)計算已確定代值union 中子女的代值,其子女代值等于該union的代值,若該子女person 有配偶且沒有處理其union,則進入步驟2),否則進入步驟3);2)已知person 代值,計算該person與其所有配偶的union的代值,采用union 代值消歧算法(詳細步驟從略)確定其代值,若該union 代值確定,則將該union 代入步驟1),循環(huán)步驟1)至4),最后循環(huán)當前步驟直至其所有的配偶union處理完畢;3)計算union 中父母的代值,采用person 代值消歧算法(詳細步驟從略)確定union 中父母person的代值,如果該父母person的代值確定,且其父母union 代值未確定則進入步驟4),若該父母person 還有其他配偶且沒有處理其union,則進入步驟2),當父母的代值全部處理完畢,則結(jié)束流程;4)已知子女代值,計算該子女的父母union的代值,父母union的代值等于子女的代值,將確定代值后的父母union 代入步驟1),循環(huán)步驟1)至步驟4).
上述算法流程如圖8所示,由此確定union和person的代值以及其與受訪者的親屬距離和網(wǎng)絡(luò)圖路徑后,再根據(jù)以下原則設(shè)計親屬關(guān)系圖的自動排列算法(具體算法步驟從略).
(1)以受訪者父母的union為中心,其他親屬union按照與受訪者的親屬距離的升序向左右兩個方向擴展排列.
(2)每個家庭單元union的成員盡可能靠近排列,每個union的子女排列在一起不能插入其他人員.
(3)同一代的person 排列在同一行.
(4)union和person的排列要盡可能減少person 連線之間的交叉,并使連線最短.
圖8 迭代遍歷消歧代值確定算法流程(局部)
采用上述迭代遍歷消歧代值確定算法和自動排列算法生成的親屬關(guān)系網(wǎng)絡(luò)圖如圖9.圖中包含了150多個親屬,在實際訪談樣本中,有多達400多人的大家族.自動排列方法解決了大家族親屬關(guān)系網(wǎng)絡(luò)圖的繪制問題.
圖9 自動排列算法生成的150多人的親屬關(guān)系網(wǎng)絡(luò)圖(縮略圖)
在前述構(gòu)建的親屬關(guān)系網(wǎng)絡(luò)圖之上進行訪談答案的可視化標注,并對訪談進程可視化展示.這兩個方面的可視化實現(xiàn)主要采用顏色標記法.
(1)答案可視化,不同的答案選項以不同的顏色標記在親屬關(guān)系網(wǎng)絡(luò)圖上.
(2)問題答題狀態(tài)可視化,在問題導航欄,每一道題的標題以綠色、藍色和紅色3種不同顏色顯示,分別表示未答、部分已答、全部答完這3種狀態(tài).
(3)訪談進度的可視化,采用不同顏色和比例標注問卷完成進度條.
本系統(tǒng)主要功能界面展示如下:可視化訪談界面如圖10、問卷設(shè)計編輯界面如圖11、問卷本地化界面如圖12、數(shù)據(jù)分析表輸出結(jié)果示例如圖13.
圖10 基于親屬關(guān)系網(wǎng)絡(luò)的答案可視化標注界面(局部)
圖11 問卷設(shè)計編輯界面
圖12 問卷本地化雙語編輯界面
圖13 訪談數(shù)據(jù)分析輸出表之一(局部數(shù)據(jù))
本文在基于親屬關(guān)系網(wǎng)絡(luò)的問卷調(diào)查系統(tǒng)中,采用XML 設(shè)計了靈活、多元化的問卷數(shù)據(jù)結(jié)構(gòu)以滿足社會訪談?wù){(diào)查研究中復雜問卷的設(shè)計,并提出了一個迭代遍歷消歧確定代值的算法,解決了親屬關(guān)系網(wǎng)絡(luò)圖可視化顯示中一個家庭或人員代際位置不確定的問題,以及大家族親屬關(guān)系圖自動排列問題.本系統(tǒng)可應(yīng)用于不同文化區(qū)域的家庭人口結(jié)構(gòu)分析的研究,以及面向親友的各種交互行為和活動的深入調(diào)查研究,比如語言使用、民族交往、社會互助、家庭婚戀等研究課題的深入訪談研究.采訪數(shù)據(jù)可輸出為SPSS 等常用統(tǒng)計軟件可讀的數(shù)據(jù)格式,方便進一步數(shù)據(jù)分析.系統(tǒng)已被國內(nèi)外學者在中國、哈薩克斯坦、吉爾吉斯斯坦和意大利等地應(yīng)用,為科研人員在不同文化區(qū)域開展面向親屬關(guān)系網(wǎng)絡(luò)的社會訪談?wù){(diào)查研究提供了有效便捷的工具.