SPSS由IBM公司出品,它提供了包括描述性統(tǒng)計、推斷性統(tǒng)計、因子分析、聚類分析、回歸分析等多種統(tǒng)計分析功能,并包括文本分析、機器學習算法、數據分析模型等。SPSS的界面友好,易于操作,能夠快速從數據中提取有用的洞察和分析,廣泛應用于教育、心理、醫(yī)學、市場、人口、保險等多個研究領域,也用于產品質量控制、人事檔案管理和日常統(tǒng)計報表等。 探索性分析中比較常用的功能是,通過數據過濾的功能,如分析數據中的極值、平均值、方差等,識別數據中的異常值;或使用檢驗的方法,判斷后續(xù)使用的統(tǒng)計分析方法是否合適等,比如數據的正態(tài)分布假設是否成立。
一、示例數據
本文中,我們將會分析一組包含性別、客單價的數據。
通過探索性分析,查看數據中是否存在一些異常值,以及檢驗不同性別的客單價數據是否符合正態(tài)分布。
為什么要檢驗數據是否正態(tài)分布?這是因為在一些相關性分析(或其他分析)中,是以數據正態(tài)分布為前提進行統(tǒng)計分析的,如果數據不滿足正態(tài)分布的假設,分析得出的結果就會不準確。

圖1:示例數據
二、應用探索性分析
如圖2所示,我們先打開IBM SPSS Statistics的探索分析選項(分析-描述統(tǒng)計-探索),然后再逐步演示操作。

圖2:探索性分析
1、選擇變量
如圖3所示,探索分析設置面板中的選項含義如下:
1. 因變量列表,即隨自變量變化的數值,本例中選取客單價作為因變量
2. 因子列表,用于定義個案組,可選擇一個或多個因子變量,本例中選取性別
3. 個案標注依據,用于標記個案,本例中選取賬號
通過以上的設置,我們將會獲取到不同性別客單價的探索性分析結果。

圖3:頻率分析中的圖表功能
2、應用統(tǒng)計分析
完成變量的選擇后,單擊右側的統(tǒng)計,開啟如圖4所示的統(tǒng)計面板,其中的數值應用如下:
1. 描述,提供了平均值、中位數、方差、最大值、偏度等統(tǒng)計數值,可設置平均值的置信區(qū)間
2. M-估計量,為每個個案的數值應用權重,有助于減少極端值、異常值對平均值和中位數的影響
3. 離群值,即極值的分析,包含最大值、最小值
4. 百分位數,可將排序后的數據進行指定百分位值分組
本例中,我們選取了描述、M-估計值與離群值的數值。

圖4:探索性統(tǒng)計分析選項
3、解讀統(tǒng)計分析結果
從分析結果來看,如圖5所示,當前數據包含了50個男性客單價個案,以及49個女性客單價個案。

圖5:頻數統(tǒng)計
如圖6所示,從描述數據可以看到,男性的客單價平均值為100.8,而女性客單價平均值僅為47.6
而男性客單價平均值的95%置信區(qū)間上限中,平均值達到188,說明存在一些極端值,進一步查看最大值數據,發(fā)現最大值達到2000。

圖6:描述性數值
這個最大值2000是單個個案,還是多個個案呢?另外,除了最大值外,是否存在其他極端值。為了解答以上問題,我們可以進一步查看極值分析。
如圖7所示,可以看到,男性客單價中,賬號77與賬號85的客單價都屬于極端值。

圖7:極值分析
為了避免這些極值的影響,我們可以查看M估計量。如圖8所示,經過M估計量的加權后,男性客單價平均值就變得比較正常了。

圖8:M估計值
綜上所示,通過IBM SPSS Statistics探索性分析的描述性統(tǒng)計數值,可獲取到數據的平均值、極值等統(tǒng)計數值,有助于檢查數據中的異常值情況。
世界上許多有影響的報刊雜志就SPSS給予了高度的評價。 |