問(wèn)卷調(diào)查作為最常用的社會(huì)研究方法之一,廣泛的應(yīng)用到各個(gè)類(lèi)型的用戶調(diào)研項(xiàng)目中。經(jīng)歷了問(wèn)卷設(shè)計(jì)這第一道關(guān)卡后,面對(duì)回收后的大量數(shù)據(jù),你是否也有以下的困惑
- 回收后的數(shù)據(jù)是真實(shí)的嗎?
- 用什么工具處理問(wèn)卷數(shù)據(jù)最高效?
- 如何分析和解讀問(wèn)卷數(shù)據(jù)?
你將從本文有如下收獲
- 問(wèn)卷數(shù)據(jù)處理需要的工具
- 問(wèn)卷數(shù)據(jù)清洗常用思路
- 問(wèn)卷數(shù)據(jù)分析常用維度
- 問(wèn)卷數(shù)據(jù)解讀常用維度
本文整體結(jié)構(gòu)
其實(shí)進(jìn)行基礎(chǔ)的描述性統(tǒng)計(jì)與交叉分析時(shí),Excel 和 Spss 這兩款工具都有相對(duì)應(yīng)的功能可以實(shí)現(xiàn),大家可以根據(jù)平時(shí)的使用習(xí)慣自行選擇。
在實(shí)際工作中,這兩個(gè)工具常結(jié)合起來(lái)使用。Spss 的優(yōu)勢(shì)在于,兩個(gè)視圖查看數(shù)據(jù)比較方便、可以撰寫(xiě)語(yǔ)法來(lái)實(shí)現(xiàn)數(shù)據(jù)批量處理;Excel 的優(yōu)勢(shì)在于,圖表的可視化更豐富、更改圖表外觀非常便捷。因此,通常先使用 Spss 來(lái)進(jìn)行數(shù)據(jù)清洗和分析,再導(dǎo)出到 Excel 中對(duì)圖表的格式進(jìn)行編輯。
線上問(wèn)卷投放成本低、回收時(shí)效高,但由于難以監(jiān)控用戶填答的過(guò)程,致使問(wèn)卷中常隱藏著一些不真實(shí)的數(shù)據(jù),因此,回收問(wèn)卷后的第一步,就是給數(shù)據(jù)做清洗以保證數(shù)據(jù)盡可能的真實(shí)有效。數(shù)據(jù)清洗包含三個(gè)方面,其一,規(guī)范數(shù)據(jù)視圖(主要針對(duì) Spss);其二,清理無(wú)效樣本。其三,對(duì)特殊題型進(jìn)行處理。
1. 數(shù)據(jù)視圖規(guī)范化
數(shù)據(jù)視圖規(guī)范化是一個(gè)經(jīng)常被忽視的環(huán)節(jié),雖然它不對(duì)數(shù)據(jù)結(jié)果產(chǎn)生直接的影響,但是前期對(duì)數(shù)據(jù)視圖做好規(guī)范化處理有利于減少后續(xù)數(shù)據(jù)分析、語(yǔ)法撰寫(xiě)出現(xiàn)失誤的概率,也就是說(shuō),它是一個(gè)微小、但卻可以提升工作效率的步驟。那么,如何對(duì) Spss 的數(shù)據(jù)視圖進(jìn)行規(guī)范化呢?
由于 Spss 中的變量視圖與數(shù)據(jù)視圖相關(guān)聯(lián),因此只需對(duì)變量視圖的 11 列逐一進(jìn)行調(diào)整、規(guī)范化即可。具體參考步驟如下
- 名稱:將名稱列與原始問(wèn)卷中的編碼進(jìn)行一一對(duì)照,檢查是否有誤
- 類(lèi)型:將類(lèi)型列與原始問(wèn)卷中的題型進(jìn)行一一對(duì)照,選擇題需為數(shù)字、填空題需為字符串
- 寬度:將同類(lèi)題型變量取值所占有的寬度調(diào)成一致以方便后續(xù)查看
- 小數(shù):根據(jù)題型進(jìn)行調(diào)整,選擇題的小數(shù)需為零,填空題的小數(shù)依據(jù)題目具體分析
- 標(biāo)簽:將標(biāo)簽調(diào)整成直觀易懂的描述;將名稱列合并到標(biāo)簽列中以便后續(xù)查看
- 值:將值列與原始問(wèn)卷中的選項(xiàng)進(jìn)行比較,檢查是否有誤
- 缺失:邏輯跳轉(zhuǎn)題的“未選擇”會(huì)被計(jì)為零值,不利于后續(xù)的交叉分析;可對(duì)照原始問(wèn)卷中的邏輯跳轉(zhuǎn)設(shè)置,將該跳轉(zhuǎn)題零值剔除(對(duì)于缺失值的處理,因問(wèn)卷系統(tǒng)不同而有差異,此處以京東 limesurvey 為例)
- 列:將同類(lèi)題型的數(shù)據(jù)視圖中的列寬調(diào)成一致以方便后續(xù)查看
- 對(duì)齊:將數(shù)字類(lèi)型右對(duì)齊、字符串類(lèi)型左對(duì)齊
- 測(cè)量:將定類(lèi)變量設(shè)置成名義;將定序變量設(shè)置成有序;將定距定比變量設(shè)置成標(biāo)度
- 角色:一般系統(tǒng)默認(rèn)為為輸入,代表自變量
△ 變量視圖規(guī)范化可參考此示意圖
2. 清理無(wú)效樣本
清理無(wú)效樣本遵循兩個(gè)原則,從整體到部分、從一維到二維。
首先,對(duì)問(wèn)卷樣本整體進(jìn)行處理。
- 根據(jù)填答完整性處理
首先需要剔除未完整填答必答題的樣本,即未完整填答問(wèn)卷的樣本。其次,為尊重用戶隱私,我們會(huì)將一些敏感問(wèn)題設(shè)置為非必答題,這時(shí)可以根據(jù)項(xiàng)目需求來(lái)決定是否需要剔除非必答題未完整填答的樣本
- 根據(jù)提交時(shí)間處理
提交問(wèn)卷的時(shí)間同樣重要,有時(shí)正式投放問(wèn)卷前,調(diào)研員會(huì)對(duì)問(wèn)卷進(jìn)行測(cè)試填答,有時(shí)樣本填答問(wèn)卷的日期超出了計(jì)劃日期,因此需要剔除問(wèn)卷提交時(shí)間早于和晚于問(wèn)卷投放時(shí)間的樣本
- 根據(jù)填答時(shí)間處理
填答問(wèn)卷時(shí)長(zhǎng)過(guò)短或過(guò)多的樣本均被視為無(wú)效樣本,因此我們需要剔除少于最低填答時(shí)間(一般情況下,填答每道問(wèn)題需要 5 秒,因此最低填答時(shí)間即為 5 秒*題目數(shù)量)和填答時(shí)間過(guò)長(zhǎng)(一般情況下,問(wèn)卷填答時(shí)間不超過(guò) 30 分鐘)的樣本
其次,對(duì)問(wèn)卷各部分進(jìn)行處理。
通常情況下,問(wèn)卷設(shè)計(jì)會(huì)分為三部分。
甄別部分:此部分會(huì)設(shè)置一些題目來(lái)甄別參與問(wèn)卷調(diào)查的用戶是否為我們的目標(biāo)樣本
主體部分:此部分會(huì)根據(jù)項(xiàng)目的研究?jī)?nèi)容測(cè)量用戶行為、用戶態(tài)度
屬性部分:此部分會(huì)獲取用戶的人口屬性(人口屬性(性別、年齡、婚姻、城市)、社會(huì)屬性(學(xué)歷、職位、個(gè)人月收入、家庭月收入)以便做用戶畫(huà)像
- 甄別部分處理
剔除不符合甄別條件的樣本。根據(jù)項(xiàng)目需求,問(wèn)卷中可能會(huì)設(shè)置一些甄別調(diào)研目標(biāo)用戶的題目,如擬對(duì)使用過(guò)某產(chǎn)品的用戶進(jìn)行問(wèn)卷調(diào)查,那么在問(wèn)卷設(shè)計(jì)時(shí)則會(huì)用一道甄別題來(lái)詢問(wèn)“您是否使用過(guò)該產(chǎn)品”,若該用戶選擇“否”,則需要剔除這類(lèi)不符合甄別條件的樣本
- 主體部分處理
剔除連續(xù)性回答樣本。連續(xù)性回答有兩種情況,其一,選擇同一選項(xiàng)過(guò)多:如該問(wèn)卷有 30 道題,但某樣本選擇 A 選項(xiàng)有 25 道題,則將該樣本視為連續(xù)性回答樣本,需剔除;其二,填答呈現(xiàn)某種規(guī)律性:如某樣本在填答中呈現(xiàn)“A-B-A-B”或”A-B-C-D”等某種規(guī)律,則被視為規(guī)律性填答的樣本,需剔除
剔除不符合固定填答邏輯的樣本。在問(wèn)卷設(shè)計(jì)中,有一類(lèi)題組前后兩道題(幾道題)有關(guān)聯(lián)的邏輯,如選擇前一道題 A 的人不能選擇后一道題的 B,此時(shí)則需要剔除互斥題矛盾的樣本
剔除未通過(guò)陷阱題的樣本。為了確認(rèn)用戶是有在認(rèn)真填答問(wèn)卷,有時(shí)會(huì)在問(wèn)卷主體部分穿插一道“常識(shí)題“,如”中國(guó)的首都是哪里“,若用戶選擇非北京的城市,則會(huì)把該樣本剔除
- 屬性部分處理
各個(gè)屬性題組的內(nèi)部數(shù)據(jù)清理,剔除人口屬性、社會(huì)屬性、站內(nèi)屬性三個(gè)屬性題組內(nèi)部數(shù)據(jù)存在矛盾的樣本。如人口屬性內(nèi)部(性別、年齡、婚姻、城市),年齡與婚姻可能存在矛盾,20 歲以下的女子、22 歲以下的男子婚姻狀態(tài)不能為已婚;社會(huì)屬性內(nèi)部(學(xué)歷、職業(yè)、個(gè)人月收入、家庭月收入),個(gè)人月收入不能大于家庭月收入
各個(gè)屬性題組間的數(shù)據(jù)清理,將人口屬性、社會(huì)屬性、站內(nèi)屬性進(jìn)行兩兩比較,剔除題組間數(shù)據(jù)存在矛盾的樣本。如人口屬性的年齡與學(xué)歷之間可能存在矛盾,小于 18 歲的群體一般情況下不會(huì)擁有本碩博學(xué)歷
- 各個(gè)部分間處理
將問(wèn)卷甄別部分、主體部分、屬性部分進(jìn)行逐一比較,剔除各部分間數(shù)據(jù)存在矛盾的樣本。比較原則,將題目數(shù)量較少的部分與題目數(shù)量較多的部分進(jìn)行比較。每一部分逐一比較雖然需要花費(fèi)一定的時(shí)間,但為了確保樣本是真實(shí)有效的,這個(gè)步驟是必不可少的
3. 對(duì)特殊題型進(jìn)行處理
問(wèn)卷中時(shí)有一些文本題,如選擇題中的“其他,請(qǐng)注明”選項(xiàng)或填空題。
在處理文本題時(shí),有兩種情況,其一,回碼,即當(dāng)文本題的填答內(nèi)容可量化或與原始選項(xiàng)可合并時(shí),需將文本題的填答內(nèi)容轉(zhuǎn)置成可計(jì)算的數(shù)值,并刪除文本題的填答內(nèi)容。如某選擇題為“請(qǐng)問(wèn)您使用過(guò)下列哪些網(wǎng)購(gòu)平臺(tái)”,即便選項(xiàng)中有“京東”,但用戶沒(méi)有注意到該選項(xiàng),而是在“其他,請(qǐng)注明”選項(xiàng)中填寫(xiě)了“京東”,此時(shí)就需要對(duì)該樣本的填答情況進(jìn)行回碼,將之納入到京東選項(xiàng)下,并刪除文本填答內(nèi)容。
其二,重新編碼,若文本題的填答內(nèi)容不可回碼,需要進(jìn)行重新編碼,并記錄到編碼簿中。仍然以“請(qǐng)問(wèn)您使用過(guò)下列哪些網(wǎng)購(gòu)平臺(tái)”這道題為例,若用戶在“其他,請(qǐng)注明”中填寫(xiě)了未在既有選項(xiàng)中出現(xiàn)的答案,則需要對(duì)該答案進(jìn)行重新編碼,并做記錄。
1. 常用問(wèn)卷數(shù)據(jù)分析與解讀維度
問(wèn)卷數(shù)據(jù)分析時(shí),最常使用的分析方法為頻數(shù)分析、描述分析、交叉分析。
頻數(shù)分析
- 總體頻數(shù)
拿到問(wèn)卷數(shù)據(jù)后,首先可以將每道題各選項(xiàng)的頻數(shù)按降序排列,從而對(duì)數(shù)據(jù)分布趨勢(shì)有一個(gè)整體了解
數(shù)據(jù)解讀:了解用戶總體的行為、態(tài)度偏好
- 分組頻數(shù)
除觀察各選項(xiàng)的總體分布趨勢(shì)外,也可將具有相似特征的選項(xiàng)進(jìn)行合并分組分析,從而獲得更宏觀維度上的數(shù)據(jù)解讀。以商品關(guān)注要素題目為例,瀏覽商品時(shí)關(guān)注的這 11 個(gè)要素可按降序排列,我們可以發(fā)現(xiàn),用戶最關(guān)注品牌,其次為參數(shù)信息,對(duì)店鋪的關(guān)注最弱。但有時(shí),我們不需要這么細(xì)致的分析維度,此時(shí)可以把這 11 個(gè)要素分組為商品層面和平臺(tái)層面,來(lái)觀察用戶更關(guān)注哪個(gè)層面,將各選項(xiàng)百分比加總后可以得出結(jié)論,瀏覽商品時(shí),較平臺(tái)層面,用戶對(duì)商品層面更為關(guān)注。同時(shí),還可以對(duì)每個(gè)維度內(nèi)的選項(xiàng)進(jìn)行降序排列,從中可以得知,商品層面中,用戶對(duì)品牌的關(guān)注最強(qiáng),對(duì)新品的關(guān)注最弱。
數(shù)據(jù)解讀:了解不同維度上的用戶行為、態(tài)度偏好
△ 頻數(shù)分析可參考此示意圖
描述性分析
常用于計(jì)算數(shù)值型的單變量統(tǒng)計(jì)量,主要包括以下三種類(lèi)型的統(tǒng)計(jì)量。
- 描述集中趨勢(shì)的統(tǒng)計(jì)量
常用的統(tǒng)計(jì)量有均值、中位數(shù)、眾數(shù)、百分位數(shù)
- 描述離散程度的統(tǒng)計(jì)量
常用的統(tǒng)計(jì)量有樣本方差、樣本標(biāo)準(zhǔn)差、均值標(biāo)準(zhǔn)差、極差、離散系數(shù)
- 描述分布形態(tài)的統(tǒng)計(jì)量
常用的統(tǒng)計(jì)量有偏度和峰度
數(shù)據(jù)解讀:了解用戶行為、態(tài)度(數(shù)值型變量)的基本特征和整體分布形態(tài),同時(shí)可為后續(xù)做更復(fù)雜的分析與建模做鋪墊
交叉分析
適用于對(duì)兩個(gè)及兩個(gè)以上變量之間的關(guān)系進(jìn)行分析,從而得出更為立體的調(diào)研結(jié)論。
- 用戶屬性、用戶行為、用戶態(tài)度做交叉
如可以將用戶屬性進(jìn)行拆分來(lái)觀測(cè)不同用戶屬性的數(shù)據(jù)分布與總體的差異,關(guān)注顯著高于和低于總體的數(shù)據(jù)。以商品關(guān)注要素題目為例,總體樣本中 71.6%的用戶在瀏覽商品時(shí)關(guān)注品牌,其中 81.4%男性關(guān)注品牌、61.8%的女性關(guān)注品牌,數(shù)據(jù)間有顯著差異,則需要關(guān)注品牌在用戶性別上的差異,并做出標(biāo)記。當(dāng)用戶屬性為定序變量時(shí),可看行變量是否隨著用戶屬性的升序或降序呈現(xiàn)出某種趨勢(shì),如隨著年齡的遞增,用戶越關(guān)注商品品牌。需要注意的是,當(dāng)行變量在用戶屬性上的數(shù)據(jù)差異較大時(shí),應(yīng)對(duì)照用戶屬性的樣本量進(jìn)行檢驗(yàn),若樣本量少于 30,數(shù)據(jù)差異的誤差可能較大
數(shù)據(jù)解讀:了解用戶屬性、行為、態(tài)度間的關(guān)系
△ 交叉分析解讀可參考此示意圖
除上述提到的基本統(tǒng)計(jì)外,還可以應(yīng)用聚類(lèi)分析、相關(guān)分析、回歸分析等對(duì)問(wèn)卷進(jìn)行深入分析。
2. 數(shù)據(jù)格式規(guī)范化
數(shù)據(jù)格式規(guī)范化有助于快速的查找數(shù)據(jù),也能讓合作項(xiàng)目的小伙伴清晰的了解到問(wèn)卷數(shù)據(jù)的產(chǎn)出,提升工作效率。使用何種格式來(lái)規(guī)范數(shù)據(jù)沒(méi)有固定的模板,這里可以提供一些參考。
標(biāo)記樣本量
這一步驟是必須且重要的,問(wèn)卷中的每道問(wèn)題總填答人數(shù)、每個(gè)選項(xiàng)的填答人數(shù)都需要逐一進(jìn)行標(biāo)注
形成列聯(lián)表
一般情況下,將問(wèn)卷題目與選項(xiàng)置入到行變量中,將樣本屬性(如細(xì)分人群)的變量置入到列變量中,以方便查看
根據(jù)題組拆分sheet
將反映不同研究?jī)?nèi)容的題組數(shù)據(jù)置于 Excel 不同的 sheet 中,以便后續(xù)能夠快速查找
△ 數(shù)據(jù)格式規(guī)范化可參考此示意圖
以上就是回收問(wèn)卷后,從清洗到分析的一些經(jīng)驗(yàn),有需要的小伙伴們趕緊用起來(lái)吧!
承擔(dān)因您的行為而導(dǎo)致的法律責(zé)任,
本站有權(quán)保留或刪除有爭(zhēng)議評(píng)論。
參與本評(píng)論即表明您已經(jīng)閱讀并接受
上述條款。