Data Cleaning up by SPSS
神掌打通任督二脈‧易筋經以簡馭繁
符號意義:統雄快訣 延伸閱讀 進階議題 警示訊息
資料分析的程序應包括:1.對象(樣本代表性)分析。2.測量工具(量表信度/效度)分析。3.理論建構檢定與分析:又包括:(1)整體分析(單變項分析)(2)交叉分析(雙變項分析)(3)進階理論模型建構(多變項分析)。SPSS的檔案、介面、與資料操作。SPSS的副檔名包括:sav:資料檔,sps:程式檔,spo:輸出檔。資料檔的介面有:變項檢視介面,資料檢視介面。下載SPSS範例,進行實作。 |
SPSS 範例檔案下載
以下介紹使用SPSS達成所有分析步驟的過程。
下載SPSS高等統計範例資料(右鍵下載)Analy-SPSS-Teaching.exe
下載SPSS多變項分析範例資料(右鍵下載)Analy-SPSS-Teaching-Multi.rar
下載SPSS統計與多變項習題資料(右鍵下載)Analy-SPSS-Multi_Ex.7z
下載SPSS範例資料(教材專區)Analy-SPSS-Teaching.exe
下載範例資料(教材專區):Analy-SPSS-Teaching-Multi.exe
SPSS 資料清理包括2部分:〈變項檢視〉與 〈資料檢視〉。
〈變項檢視〉清理
〈變項檢視〉所有欄位,都必須檢查相關設定。尤其以下欄位,特別容易出現錯誤。
〉類型
影響類別資料、或連續資料;若選「數字的」,可兩用。
〉小數
如果使用 Dummy Value ,不用小數。
〉標記
避免誤漏,以利報表閱讀。
〉值
避免誤漏,以利分析。
〉遺漏
設定自訂值,否則只有系統預設 Missing。
〉測量
影響類別資料、或連續資料;若選「尺度」,可兩用。
〈資料檢視〉清理
〈資料檢視〉之清理,如統雄老師以下之專文。
資料分析的基礎是研究方法的資料收集
本系列所附之SPSS統計與多變項習題資料(Analy-SPSS-Multi_Ex.7z)與 SPSS統計與多變項習題資料Analy-SPSS-Multi_Ex.7z)學習實作教材,也作為「資料分析的基礎是研究方法的資料收集」的印證。
教材的來源,是教育部遴選4校的合作研究,包括3所國立大學:臺×、交×、雲×,與世新大學。3所國立大學皆由特聘教授領軍,而世新由統雄老師擔任主持人。
在研究方法規畫過程中,3校習於長期習慣,與統雄老師的諸多改革建議並不相同。這是合作研究,故統雄老師都尊重國立3校的選擇。
在使用國立3校主導研究方法的資料集,有深度能力的分析者,應可發現以下的問題:
●可收集連續資料的變項,卻收集為類別資料,降低可分析深度,且不可逆。
●連續資料轉為類別資料,應以「陡階檢驗」為之,主觀分類易造成未來列聯表出現細格為0狀況。
●同一變項,所收集資料類型卻同時包括連續資料的變項、與類別資料。
●變項的Dummy Value 虛擬值,未具數線觀念。
●missing value 迷失值/遺漏值設定不周全、不完整。
●對「行為測量」有誤解,以為使用「態度量表」問受訪者,就是行為測量。其實還是態度測量,而非可物理化測量的真正行為測量。
這些都限制資料分析的深度,資料也不易持續可作長期比較分析之用。
另外,如將自變項放在前面,也是相對較不理想的設計。
故研究資料如係外來資料,必須先經過「資料清理」程序。
資料清理實作
資料清理實作教材,來源為2所頂尖大學、多位講座教授主導之研究,唯當前研究生態,光環組織之研究,在實質上、研究方法的程度上,相當比例均未達應有標準,資料集內的問題甚多,舉例如下。
類別資料與連續資料混淆
習題資料的 gb4_n 項:平日網路使用時間(分組)
其「值」的選項設定為:
前1~6,為1~6小時,是為連續資料。
而接續的選項為;
7:7-8小時
8:9-10小時
9:11-15小時
10:超過15小時
亦即 7~10 變成具備「等序」性質的類別資料。
固然 1~10 的資料,還是可「視為」「準」連續資料,以連續資料統計工具分析,但失去了資料的精致深度,與可能可觀察的廣度。
主觀/不當分組
以上的例子,也存在因主觀、或不當分組的因素。
為何7、8 選項的級距是2小時?第9項又變成5小時?均是主觀認定的結果。
在實務上,如果有特殊原因,一定要分組,也應該使用「陡階檢定」等方法分組。
未設定迷失(遺漏)值/區間設定法
以上的例子,還有一個選項:
99:未答
卻未在「變數檢視」「遺漏」欄中,設定99為迷失(遺漏)值,由於99遠大於「最大真實值」的10,故會造成分析嚴重的錯誤。
最佳的設定法,是將迷失(遺漏)值設為區間:
11 - 99
同時可以避免發生人為輸入不存在選項的錯誤。
故在統計分析前,均應先作資料清理。也建議學習者,在資料集內,再找出問題。
研究生態:社會相信?還是理性抉擇?
研究是一種有門檻的行為。
當我們懂一件事情的時候,我們會有理性抉擇、會依據證據判斷好壞。
我們不懂一件事情的時候,我們經常以社會相信、也就是形象光環決定。
研究方法與資料分析的品質差異,希望習作者也能在實作中深深體會。